專欄| AI翻譯引進NMT技術,就能精準識別「語境」嗎?

2020-12-04 DoNews

《聖經.舊約》裡記載著這樣一段故事:

當時人類聯合起來興建希望能通往天堂的高塔,為了阻止人類的計劃,上帝讓人類說不同語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

巴別塔典故,為世上出現不同語言和種族提供了解釋。儘管網際網路的出現,讓「地球村」的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。

好在,各大搜尋引擎都推出了AI翻譯。

1. AI翻譯這條賽道上,巨頭們都繞不過的「坎」

AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。

2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。

國內,百度當時已經研究出了可應用的SMT技術(統計機器翻譯),但得知NMT的橫空出世之後,便迅速調轉方向轉而研發NMT技術,於是就有了BNMT應用於百度翻譯。儘管初時的百度翻譯速度很慢,但是,百度當時反應也佐證NMT的價值性。

搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索自佔據國內搜尋引擎行業二哥的位置後,同樣專注在AI領域與其他巨頭角力,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索「雙劍合璧」。

但是我們會發現,不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間裡,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們布局AI翻譯繞不過的「坎」。

正是在這樣的背景下,360翻譯的深度學習調度平臺卯足了勁,在深層技術和語料挖掘上下苦功夫。除了發揮360搜索在新聞資訊方面的既有優勢外,360的英文搜索還與微軟旗下的搜尋引擎Bing開展技術合作,從而使得其AI翻譯背後坐擁海量中英網絡語料,讓其在理解語境方面更顯地道。另外,360翻譯採用的也是獨家研發的360NMT技術。

但這依然還只是個開始。

2. 搜索平臺不約而同發力NMT,為的是哪般?

不論是國外的谷歌,還是國內的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領域在中英互譯上,這是一個很有趣的現象。AI翻譯真的是塊肥肉嗎?惹得誰也不願意掉隊。

據統計表明,全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言,因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。為什麼要發力NMT,這得從AI翻譯人類語言的方式說起,包含三種:第一,基於規則的機器翻譯方法;第二,基於實例的機器翻譯方法;第三,基於統計的翻譯方法。SMT與NMT都屬於第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。

但是,SMT與NMT存在著顯著的差距。SMT採用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在於翻譯過程中有著更好的語感,能降低SMT翻譯的關於「形態、句法、詞序」等方面出錯的概率。因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。

3. AI翻譯引進NMT技術,就能精準識別「語境」嗎?

搜狗同傳翻譯在某次國際性會議上,聲稱其神經網絡機器翻譯技術已達臨界點,並在進行大規模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結果不盡如人意。即便在正式的場合能夠應對自如的搜狗,在非正式場合會是怎樣一種情況呢?很多時候的中英交流多以口語化形式出現,對「語境」的理解遠比「語法和詞彙」難得多。下文我們將就幾組語句進行討論(以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比)。

第一組:獻上我的膝蓋。看看,最近這句網絡常用語各翻譯平臺的水平

谷歌:Offer my knee。

360:express my admiration。

百度:Offer my knees。

搜狗:Give me my knee。

測試結果是搜狗、百度、谷歌均傾向於單詞表面意思的翻譯,並未能結合具體的文化背景,而360對於該網絡用語的解釋就地道的多。

第二組:詩詞,選自杜甫的《登高》。因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。

《登高》原文摘選:

風急天高猿嘯哀,渚清沙白鳥飛回。

英語譯文:

有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結合「語境」處理詩中的意向要素,搜狗翻譯表達出了「悲愴」的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。

第三組:新聞,選自紅網。語言簡練正式,但涉及的元素較多,對語法的要求性比較高。

原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位於雨花區,分別為五礦萬境藍山和創元時代。

譯文:

同一段新聞,出現了四種不同的譯法。同一語句中各家強調的點不一樣,譬如首句的「長沙市住房和城鄉建設委員會」,360的翻譯結果更顯得專業並符合慣常表述,「長沙市」只是作為補充詞出現,而搜狗、百度和谷歌的翻譯中,「長沙市」則是作為硬性的地名出現。尤為值得注意的是,根據語境,「五礦萬境藍山」和「創元時代」都是樓盤名字,應當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在「礦」、「藍山」、「創元」、「時代」等字眼上糾結。

從這三組中,我們能發現360偏好於基於「語境」的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣複雜的情感語句就無法準確傳達,但是在「流行語」優勢明顯;而谷歌和百度基本上是基於詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。

因此,AI翻譯的問題主要反映在三大方面:第一,機器翻譯難以應對語言規則不統一的口語;第二,AI翻譯難以結合文化語境進行理解,解析不出深層次的情感;第三,針對較長的段落,以及較為複雜的語境,往往會出現語法問題多,語句出錯率高的毛病。

4. AI翻譯要「地道」,技術倒不是關鍵

翻譯界老將何恩培曾講:「機器翻譯一直被公認為人工智慧領域最難的課題之一。而且語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化」。但是,中國有句老話:勤能補拙。對於AI翻譯而言,最難的不是技術,而是「語境」理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺餵養語料的資源狀況。AI翻譯能否「地道」,取決於以下幾點。

⑴、訓練資料庫的內容整體優質程度

這影響到翻譯準確程度,取決於信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內容生態建設,搜狗有了騰訊微信入口搜索,360搶佔了安全領域的數據來源。但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個網際網路的資源,各平臺訓練資料庫各有側重,AI翻譯特色也不盡相同,例如360翻譯側重於地道的口語與流行語,百度翻譯則顯得大而全。

⑵、開放平等的中外數據交流,或可加強AI的深度學習

國內對標競品之間的合作相對較難,但中外數據交流卻是最好的互補。因此,百度上線過英文搜索產品,而360與微軟Bing有過技術合作。此外,有了國界互譯也變得更有意義。因此,中外數據合作,或許對於文化背景的數據積澱有很好的補充,也是擴充深度學習的語料最直接的方式。

⑶、需要準備大量的網絡語及口語語料

除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜尋引擎從被動搜索向主動的、基於用戶興趣的內容推薦引擎轉型,這對於構建口語語料訓練模型倒是一個不錯的嘗試。

雖然說,AI翻譯能夠精準識別「語境」是需要很長一段路要走,但是技術已經在進步,360翻譯能夠開始揣摩語句背後的情感與心思,對於日常交流來說是一個很好的開端。或許,我們將因此離「地球村」的夢想更進一步!

相關焦點

  • 搶佔AI翻譯賽道,搜索平臺為何不約而同發力NMT?
    AI翻譯真的是塊肥肉嗎?為什麼要發力NMT?搜索公司在AI翻譯這個事上扎堆並不令人意外。2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。
  • 圖像識別 百度翻譯App隨手拍照就能翻譯
    如其所說,百度翻譯App最新推出3.0版本加入了百度獨有的圖像識別技術,這使得用戶只要打開百度翻譯App實物翻譯功能,對著物體拍張照,就能迅速識別並翻譯成英文。有意思的是,從不同角度,勾劃不同部分,還能得出各種結果。網友感嘆:屌絲生活變土豪,百度翻譯歡樂多!」
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    理論上講,對於那些要想出國旅遊的人來說,這未嘗不是一件好事,因為有了它們就不需要擔心因為語言不通而造成的囧途尷尬了,從心理學的角度上來講,智能翻譯的出現帶來的是身處異國他鄉也能感受到的安全感。但是,翻譯機真的能解決很多人英語不夠用的困境嗎?面對商業應用,針對需要大量專業術語的國際會議,這些智能的機器翻譯是否還會奏效?
  • 從電影翻譯談起:把握語境
    翻譯,這不是翻譯家的是事嗎?至少是行家的職責呀!你可能會這樣說。其實,翻譯事業,人人有責。而且,我們大多數中國人學外語的方法和途徑就是翻譯,使用外語的方法也是翻譯。因此,我們要更多地從翻譯入手學外語,學外語的過程中也要更多地做翻譯,不論是處於初級水平,還是處於中級或高級水平。
  • NMT機器翻譯技術,或將開啟第二次全球化浪潮
    近日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基於領先的人工智慧、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個網際網路NMT系統,引領機器翻譯進入神經網絡翻譯時代。
  • 科學網—AI時代,高校翻譯專業會消亡嗎
    這兩種觀點恰恰代表了我國高校對機器翻譯的兩種不同觀點。其中,機器不可能替代人工翻譯的觀點佔主流,尤其在翻譯界。比如,北京外國語大學高級翻譯學院教授李長栓在不久前發表的《機器可以取代人工翻譯嗎?》一文中明確表示,「要想通過機器翻譯,實現自然語言的處理,恐怕還有很長的路要走;也許永遠沒有實現的一天」。 但是能不能替代不是嘴上論戰,而是要拿出論據或證據。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    選自谷歌機器之心編譯參與:機器之心編輯部近日,谷歌官方在 Github 開放了一份神經機器翻譯教程,該教程從基本概念實現開始,首先搭建了一個簡單的NMT模型,隨後更進一步引進注意力機制和多層 LSTM 加強系統的性能,最後谷歌根據 GNMT 提供了更進一步改進的技巧和細節,這些技巧能令該NMT系統達到極其高的精度。
  • 歸功於NMT技術 Google Translate離線翻譯更精準了
    歸功於人工智慧的引入,現在谷歌翻譯在離線狀態下也能獲得更好的翻譯結果了。 在今天發表的博文中宣布,谷歌翻譯在今天的更新中為離線翻譯帶來了神經機器翻譯(NMT)技術,目前該技術已經部署到行動裝置上了。通常情況下用戶需要聯網才能使用谷歌翻譯,而現在用戶能夠獲得一定程度上的離線翻譯。當手機處於飛行模式或者離線狀態下,通過NMT技術能夠帶來更好的翻譯效果。谷歌表示即使用戶在沒有網絡的情況下也能獲得高質量的翻譯效果。這對於經常在國外出差的用戶來說無疑是個好消息,因為並非所有國家和地區都有穩定和高速的上網環境。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 人工智慧PK翻譯專家 搜狗英文搜索、翻譯APP亮相
    經過兩次產品升級後,目前搜狗英文搜索已成為全球首個跨語言搜尋引擎,實現使用戶直接輸入中文內容,就能搜索到相應英文資訊。同時,系統同步呈現英文原文、中文譯文、中英雙語三個結果頁面,方便用戶根據自身英文水平選擇查閱,打破語言的無形界限。
  • 有道詞典推出全新AI技術 一鍵自動批改英語作文
    據悉,該功能是繼有道神經網絡翻譯後,有道詞典推出的又一重要的人工智慧技術應用。在最新版本的有道詞典App中,網易為該功能開闢了獨立的頁面,在App首頁點擊「作文批改」選項便能進入該功能界面。初次進入需要選擇對應的學齡段,可以精準匹配相應學段的英語作文考試要求進行批改。
  • 「雲上曲率」以AI翻譯幫助遊戲開拓海外市場|遊戲創新專訪
    除專注於口語化聊天的「實時翻譯系統」外,雲上曲率的另一款核心產品「內容審核系統」是基於自研的深度學習和內容審核模型,在千億級語料的支撐下,自動識別文本、圖片、音頻中出現的涉政、色情、暴恐、辱罵、廣告等敏感內容,比如審核用戶聊天內容,自定義上傳的頭像、籤名、工會介紹等,幫助遊戲廠商降低業務違規風險,淨化網絡環境,提升用戶體驗。
  • 專訪訊飛王士進:從底層AI技術解析 ,智能音箱是個偽命題嗎?
    如何繼續提高語音識別的準確率?智能音箱是個偽命題嗎?會成為智能家居的中心嗎?如何評價亞馬遜的Echo Show?機器轉錄為何依然難用?技術與BAT相比如何?......帶著這些疑問,雷鋒網採訪了科大訊飛研究院副院長王士進。
  • 騰訊優圖實驗室AI手語識別研究白皮書
    近日,騰訊優圖實驗室在攻堅AI手語識別上取得了突破性進展,推出「優圖AI手語翻譯機」,旨在通過AI技術緩解聽障人群的溝通障礙問題,同時發布《騰訊優圖實驗室AI手語識別研究白皮書》,對當下聽障人群痛點、技術研究現狀進行分析,並對優圖AI手語翻譯機的技術研發展開深入解讀,助力AI手語識別技術的進一步發展。以下是白皮書的全部內容。
  • 可以在線拍照、翻譯成文字嗎?(ocr文字識別技術)
    課件的內容是拍下來了,接下來要解決的,便是如何將這些內容整理出來了,那麼拍下來的照片可以翻譯成文字嗎?具體怎麼翻譯?接下來,大家不妨看看小北是如何操作的吧!一、關於照片翻譯成文字的功能手機雖然可以拍照,但是卻沒有將照片中文字翻譯出來的功能,不過小北上網搜索之後發現,現如今有不少的文字識別軟體都可以實現這個操作,比如說小北接下來會使用到的這款迅捷OCR文字識別軟體。
  • 虹膜識別是目前最為精準的生物特徵識別技術
    虹膜識別是目前最為精準的生物特徵識別技術身份識別,「刷眼」更可靠(關注)中國科學院自動化研究所自主研發的虹膜識別技術已在煤礦中投入使用。此前,虹膜識別技術已成功應用於礦山、金融、移動通信等多個領域,在身份識別方面發揮著非常重要的作用。通過「刷眼」確認身份正被越來越多的人接受和認可。相比指紋識別和人臉識別,虹膜識別更為精準,誤識率可低至百萬分之一眼睛常常被形容為心靈的窗戶,其實它也是身份的標識。
  • 百度聽清亮相2018百度世界大會 化身為李彥宏的「AI專屬翻譯」
    百度創始人、董事長兼執行長李彥宏演講時,百度聽清在現場兩側的大屏幕上為現場觀眾帶來實時、精準的中英文雙語「字幕」直播。這也是百度聽清第二次承擔起百度世界大會中英文「直播」工作,從現場可以看到,即使語速較快或混雜著英文、專業名詞,它也能準確識別並翻譯出來,伴隨演講者的演講節奏實時上屏,智能且精準,絲毫不遜色於專業同傳人員。
  • 搜狗翻譯APP亮相 可同步呈現中英雙語頁面
    分享會上,在對搜狗英文搜索進行全面介紹之外,搜狗搜索發布創新產品搜狗翻譯APP,展示了其人工智慧技術在翻譯領域的最新研究成果。經過兩次產品升級後,目前搜狗英文搜索已成為全球首個跨語言搜尋引擎,實現使用戶直接輸入中文內容,就能搜索到相應英文資訊。同時,系統同步呈現英文原文、中文譯文、中英雙語三個結果頁面,方便用戶根據自身英文水平選擇查閱,打破語言的無形界限。
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    如圖所示:左一為日文原版,自動化輸出英文版(右二)和中文版(右一)Mantra 團隊成功地實現了將漫畫的中的對話、氣氛詞、標籤等文字自動識別,並做到了區分角色、聯繫上下文,最後將翻譯文字準確替換、嵌入氣泡區域。有了這個翻譯神器,估計翻譯組、追漫的小夥伴們都該偷著樂了。