響鈴:當AI翻譯能識別「語境」,我們的「地球村」夢想就不遠了

2020-12-11 驅動中國

文|曾響鈴

來源|科技向令說(xiangling0815)

《聖經.舊約》裡記載著這樣一段故事:

當時人類聯合起來興建希望能通往天堂的高塔,為了阻止人類的計劃,上帝讓人類說不同語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

巴別塔典故,為世上出現不同語言和種族提供了解釋。儘管網際網路的出現,讓「地球村」的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。

好在,各大搜尋引擎都推出了AI翻譯。

AI翻譯這條賽道上,巨頭們都繞不過的「坎」

AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。

2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。

國內,百度當時已經研究出了可應用的SMT技術(統計機器翻譯),但得知NMT的橫空出世之後,便迅速調轉方向轉而研發NMT技術,於是就有了BNMT應用於百度翻譯。儘管初時的百度翻譯速度很慢,但是,百度當時反應也佐證NMT的價值性。

搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索自佔據國內搜尋引擎行業二哥的位置後,同樣專注在AI領域與其他巨頭角力,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索「雙劍合璧」。

但是我們會發現,不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間裡,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們布局AI翻譯繞不過的「坎」。

正是在這樣的背景下,360翻譯的深度學習調度平臺卯足了勁,在深層技術和語料挖掘上下苦功夫。除了發揮360搜索在新聞資訊方面的既有優勢外,360的英文搜索還與微軟旗下的搜尋引擎Bing開展技術合作,從而使得其AI翻譯背後坐擁海量中英網絡語料,讓其在理解語境方面更顯地道。另外,360翻譯採用的也是獨家研發的360NMT技術。

但這依然還只是個開始。

搜索平臺不約而同發力NMT,為的是哪般?

不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?惹得誰也不願意掉隊。

據統計表明,全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言,因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。為什麼要發力NMT,這得從AI翻譯人類語言的方式說起,包含三種:第一,基於規則的機器翻譯方法;第二,基於實例的機器翻譯方法;第三,基於統計的翻譯方法。SMT與NMT都屬於第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。

但是,SMT與NMT存在著顯著的差距。SMT採用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在於翻譯過程中有著更好的語感,能降低SMT翻譯的關於「形態、句法、詞序」等方面出錯的概率。因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。

AI翻譯引進NMT技術,就能精準識別「語境」嗎?

搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?很多時候的中英交流多以口語化形式出現,對「語境」的理解遠比「語法和詞彙」難得多。下文我們將就幾組語句進行討論(以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比)。

第一組:獻上我的膝蓋。看看,最近這句網絡常用語各翻譯平臺的水平

谷歌:Offer my knee。

360:express my admiration。

百度:Offer my knees。

搜狗:Give me my knee。

測試結果是搜狗、百度、谷歌均傾向於單詞表面意思的翻譯,並未能結合具體的文化背景,而360對於該網絡用語的解釋就地道的多。

第二組:詩詞,選自杜甫的《登高》。因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。

《登高》原文摘選:

風急天高猿嘯哀,渚清沙白鳥飛回。

英語譯文:

有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結合「語境」處理詩中的意向要素,搜狗翻譯表達出了「悲愴」的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。

第三組:新聞,選自紅網。語言簡練正式,但涉及的元素較多,對語法的要求性比較高。

原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位於雨花區,分別為五礦萬境藍山和創元時代。

譯文:

同一段新聞,出現了四種不同的譯法。同一語句中各家強調的點不一樣,譬如首句的「長沙市住房和城鄉建設委員會」,360的翻譯結果更顯得專業並符合慣常表述,「長沙市」只是作為補充詞出現,而搜狗、百度和谷歌的翻譯中,「長沙市」則是作為硬性的地名出現。尤為值得注意的是,根據語境,「五礦萬境藍山」和「創元時代」都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在「礦」、「藍山」、「創元」、「時代」等字眼上糾結。

從這三組中,我們能發現360偏好於基於「語境」的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣複雜的情感語句就無法準確傳達,但是在「流行語」優勢明顯;而谷歌和百度基本上是基於詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。

因此,AI翻譯的問題主要反映在三大方面:第一,機器翻譯難以應對語言規則不統一的口語;第二,AI翻譯難以結合文化語境進行理解,解析不出深層次的情感;第三,針對較長的段落,以及較為複雜的語境,往往會出現語法問題多,語句出錯率高的毛病。

AI翻譯要「地道」,技術倒不是關鍵

翻譯界老將何恩培曾講:「機器翻譯一直被公認為人工智慧領域最難的課題之一。而且語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化」。但是,中國有句老話:勤能補拙。對於AI翻譯而言,最難的不是技術,而是「語境」理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺餵養語料的資源狀況。AI翻譯能否「地道」,取決於以下幾點。

1、訓練資料庫的內容整體優質程度

這影響到翻譯準確程度,取決於信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內容生態建設,搜狗有了騰訊微信入口搜索,360搶佔了安全領域的數據來源。但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個網際網路的資源,各平臺訓練資料庫各有側重,AI翻譯特色也不盡相同,例如360翻譯側重於地道的口語與流行語,百度翻譯則顯得大而全。

2、開放平等的中外數據交流,或可加強AI的深度學習

國內對標競品之間的合作相對較難,但中外數據交流卻是最好的互補。因此,百度上線過英文搜索產品,而360與微軟Bing有過技術合作。此外,有了國界互譯也變得更有意義。因此,中外數據合作,或許對於文化背景的數據積澱有很好的補充,也是擴充深度學習的語料最直接的方式。

3、需要準備大量的網絡語及口語語料

除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜尋引擎從被動搜索向主動的、基於用戶興趣的內容推薦引擎轉型,這對於構建口語語料訓練模型倒是一個不錯的嘗試。

雖然說,AI翻譯能夠精準識別「語境」是需要很長一段路要走,但是技術已經在進步,360翻譯能夠開始揣摩語句背後的情感與心思,對於日常交流來說是一個很好的開端。或許,我們將因此離「地球村」的夢想更進一步!

【完】

相關焦點

  • 當AI翻譯能識別「語境」,我們的「地球村」夢想就不遠了
    儘管網際網路的出現,讓「地球村」的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。  好在,各大搜尋引擎都推出了AI翻譯。  AI翻譯這條賽道上,巨頭們都繞不過的「坎」  AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。
  • AI翻譯引進NMT技術,就能精準識別「語境」嗎?
    儘管網際網路的出現,讓「地球村」的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。好在,各大搜尋引擎都推出了AI翻譯。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。3AI翻譯引進NMT技術,就能精準識別「語境」嗎?搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?
  • 專欄| AI翻譯引進NMT技術,就能精準識別「語境」嗎?
    儘管網際網路的出現,讓「地球村」的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。好在,各大搜尋引擎都推出了AI翻譯。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。3. AI翻譯引進NMT技術,就能精準識別「語境」嗎?搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。
  • 搜狗首創語境引擎:AI同傳最強進化,PPT翻譯正確率猛升40%
    在與搜狗AI交互技術部總經理陳偉和項目負責人趙超溝通後我們得知,在2016年「網際網路大會」上,搜狗同傳1.0首次亮相時語音識別準確率已經達到97%,機器翻譯準確率達到90%。而3年後的今天,搜狗同傳3.0再次進化,PPT識別準確率提升21.7%,翻譯正確率提升40.3%,靠的就是秘密武器——「語境引擎」。
  • 業內人說:谷歌翻譯放大招,我們怎麼辦?
    半年前,我發布了文章《谷歌翻譯憋大招,究竟為哪般》,而就在昨天,谷歌翻譯的大招,終於憋出來了。神經機器翻譯系統(GNMT)承擔起了翻譯的重任,翻譯錯誤率降低了55%到85%——媽媽再也不用擔心孩子的英語學習了,因為他們今後可能不需要學英語了——結合語音識別技術效果更佳。這可能是比搜狗智能輸入法發布意義大得多的歷史性事件。
  • 字幕翻譯語境的重要性
    基於這樣的背景,字幕翻譯也越來越普遍,在字幕翻譯中,語境有著怎樣的作用呢?字幕專業翻譯公司的小編和大家一起聊聊這件事情。因此,在翻譯字幕時,語境是最不能忽視的一條。如果不指明具體的語境,句子的語義就不準確。語言的含義與語境是不可分割的整體,如果生硬的把語義和語境分隔開的話,就會使翻譯出的字幕失去了本身所有的生動性。字幕語言的藝術性語言本身就具有非常強的藝術性,影視作品的字幕語言更是如此。
  • 為什麼AI翻譯一夜之間火起來了?
    AI翻譯產品似乎成了今年的風口,它帶來的最大好處是,哪怕我們去到一個語言完全不通的地區,也能搞定日常交流。一個問題也隨之而來:AI翻譯這麼便捷又低成本,它會幹掉人工翻譯嗎?這是PingWest品玩年度活動 HAY! 18的辯題。
  • AI翻譯這麼便捷又低成本,它會幹掉人工翻譯??
    AI翻譯產品似乎成了今年的風口,它帶來的最大好處是,哪怕我們去到一個語言完全不通的地區,也能搞定日常交流。一個問題也隨之而來:AI翻譯這麼便捷又低成本,它會幹掉人工翻譯嗎?普通人做出選擇的出發點大多是成本和便捷程度,在技術工作者眼中,AI翻譯還有更長遠的意義。搜狗CEO王小川在接受《十三邀》採訪時曾表示,如果打破語言的桎梏,人類定能形成更多共識,世界將大不一樣。但AI翻譯產品更實際的意義在於,讓人工智慧從過去的黑科技轉向實實在在的產品輸出。離用戶最近的人工智慧一年前,人工智慧就被認為是新風口了,但它和以往的風口行業不太一樣。
  • 喜歡的話請響鈴漫畫在哪裡看?喜歡的話請響鈴結局是什麼?
    【導讀】:喜歡的話請響鈴電視劇是根據漫畫改編的,不過電視劇並沒有把故事講完。不少網友想知道喜歡的話請響鈴漫畫哪裡可以看?喜歡的話請響鈴一共多少集?喜歡的話請響鈴漫畫哪裡可以看喜歡的話請響鈴漫畫可以在網上看,一些漫畫網站都有,還有這個漫畫和電視劇同名也叫喜歡的話請響鈴漫畫,不過也有不少人翻譯成戀愛鈴,漫畫作者是千桂英。
  • 為什麼AI的翻譯水平還遠不能和人類相比?
    為什麼AI的翻譯水平還遠不能和人類相比? 然而經過這一系列事件過後,大家又重新開始思考一個問題:AI 的翻譯水平真的已經可以和人類媲美了嗎?而本文的作者從 NMT 技術出發,分析了這項技術仍存在的問題,給出了自己明確的態度及答案:AI的翻譯水平還遠不能和人類相比。
  • 喜歡的話請響鈴什麼時候播?喜歡的話請響鈴漫畫在哪看
    【導讀】:喜歡的話請響鈴電視劇是根據漫畫改編的,不過電視劇並沒有把故事講完。不少網友想知道喜歡的話請響鈴漫畫哪裡可以看?喜歡的話請響鈴一共多少集?喜歡的話請響鈴漫畫哪裡可以看喜歡的話請響鈴漫畫可以在網上看,一些漫畫網站都有,還有這個漫畫和電視劇同名也叫喜歡的話請響鈴漫畫,不過也有不少人翻譯成戀愛鈴,漫畫作者是千桂英。漫畫描述一個在高科技的手機APP,只要身邊有喜歡的人靠近就會響起,是一部各式各樣愛情的治癒故事。
  • 谷歌展示谷歌助手新功能:實時翻譯和語境理解
    目前尚不清楚,谷歌將於何時推出谷歌助手的這些更新。業內人士猜測,這可能會是在Pixel 2手機發布期間。 (原標題:谷歌展示谷歌助手多項新功能:實時翻譯和語境理解)
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    ai的核心問題是如何「產生」,不管是imagenet還是svd,都是一種「訓練」過程,這種練習的價值基於特徵提取完成後對目標的預測。那麼這些特徵能不能「產生」呢?根據經驗,是的。舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 翻譯中的認知功能語境模式
    【摘  要】翻譯是一個主客體互動體驗的過程,翻譯的語境理論應充分考察相關主客觀語境因素及其互動。結合功能語境理論和認知翻譯模式,我們提出翻譯中的語境因素應包含社會文化、交際情景和語篇上下文等客觀語境要素和社會認知與個人認知等主觀語境要素。
  • 微軟新一代人工智慧打破機器翻譯壁壘!漢英翻譯與人類不相上下
    但是,這可能已經行不通了,因為微軟的人工智慧翻譯剛剛解決了一個最不可能完成的挑戰:將漢語翻譯成英語,並且使其翻譯的準確度與能掌握雙語的人類的不相上下。眾所周知,漢語是一門十分困難的語言,一個非漢語母語的人要花好幾年的時間來學好閱讀報紙所需要的3000個漢字。
  • CBA翻譯邊賽遠完成球員首秀 堅持夢想不怕失敗
    邊賽遠出場15分41秒,貢獻了兩分、一個籃板和兩次搶斷,完成了從翻譯到CBA球員的身份轉換。  作為土生土長的北京孩子,邊賽遠對自己能在京城球迷心中的「籃球聖殿」完成CBA首秀感到慶幸。他說,會永遠記住這一次比賽。  赴美學球回國圓夢  身披同曦隊戰袍的邊賽遠是地道的北京人,從6歲開始就展現出對籃球的痴迷。
  • 2018考博英語翻譯練習:地球村
    西方世界個人自由主義泛濫導致了極端個人主義、性關係混亂以及過度暴力行為,對此我們不能視而不見。// 相反,東方社會的自我約束力,集體責任感以及溫厚儒雅的傳統倒可以消除西方社會的許多惡疾。// 在這個資訊時代,世界已縮小成一個地球村。這個地球村裡,不再有什麼涇渭分明的東方世界和西方世界,我們是生活在同一個社區裡的鄰裡。// 因此,我們彼此之間無須衝突。
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    /hyper.ai/datasets/14137在產品化方面,Mantra 計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人用戶的服務。下面是我們從 Mantra 官方推特上選取的日漫《周邊男子》的部分翻譯成果,這部多格、輕耽美風格的漫畫,以生活常用的數碼設備擬人化為背景,充滿歡樂與基情:滑動查看《周邊男子》日文原版及自動化機器翻譯的中英文版本識別、翻譯、嵌字,一步也不能少具體的實現步驟,Mantra 研究團隊在論文
  • 爽文+AI翻譯,全球老外正在同步修仙
    有個「閱遍天下爽文,心中自有套路」的老外在網上主動總結了中國爽文的慣用套路:1.主角總是和天才女孩訂婚,然後被悔婚;2.普通的主角總是能在樹林裡遇到一個不穿衣服(還身懷絕技)的女孩;3.主角掉下懸崖,大難不死,發現一門絕技 ;4.主角總是故意被削弱好慢慢成長 ;5.主角從現代穿越過來的,所以有很多別人沒有的知識,很強
  • 從電影翻譯談起:把握語境
    翻譯,這不是翻譯家的是事嗎?至少是行家的職責呀!你可能會這樣說。其實,翻譯事業,人人有責。而且,我們大多數中國人學外語的方法和途徑就是翻譯,使用外語的方法也是翻譯。因此,我們要更多地從翻譯入手學外語,學外語的過程中也要更多地做翻譯,不論是處於初級水平,還是處於中級或高級水平。