谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

2021-01-10 太平洋電腦網

據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。

谷歌翻譯服務平均每天翻譯1500億個單詞。

自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平臺Common Voice,自2017年6月推出以來也只審查了40種語音。

谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數據挖掘器

這些技術中的第一個是轉換模型架構——一種混合架構,包括一個Transformer編碼器和一個用Lingvo實現的遞歸神經網絡(RNN)解碼器,後者是一個用於序列建模的TensorFlow框架。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的,在這一點上它比RNN更有效,但谷歌表示,它的研究表明,翻譯質量的提高主要來自Transformer的一個部件:編碼器。這可能是因為雖然RNN和Transformer都是為處理有序的數據序列而設計的,但後者並不要求按順序處理數據序列。換句話說,如果涉及的數據是自然語言,Transformer不必先處理好句子的開頭才處理句子的結尾。

然而,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。原來使用的RNN神經機器翻譯模型已有4年歷史。

2006 年上線不久以來,谷歌翻譯模型各種語言的 BLEU 得分提升趨勢

除了打造新穎的混合模型架構之外,谷歌還升級了一個有幾十年歷史的爬蟲程序。該程序用來從文章、書籍、文檔和網絡搜索結果等內容中的數百萬條示例翻譯中編制訓練語料。該新數據挖掘器基於支持14個語言對的嵌入模式,而非基於詞典模式,也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

噪聲數據和遷移學習

翻譯性能提升的另一來源是一種建模方法,它能更好地處理訓練數據中的噪聲。據觀察,噪聲數據(含有大量無法正確理解或解釋的信息的數據)會損害語料數據豐富的語言的翻譯質量。所以,谷歌翻譯團隊部署系統來給使用噪聲數據訓練的模型的示例打分,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。  

谷歌地圖自帶的翻譯功能

谷歌翻譯現在還採用M4建模方法,即用一個單一的巨型模型——M4——來在多種語言和英語之間進行翻譯。(M4最初是在去年的一篇論文中提出的,該論文證明,在基於來自100多種語言的250億對句子進行訓練後,M4提高了30多種低資源語言的翻譯質量。)M4建模讓谷歌翻譯中的遷移學習成為可能,因此,通過基於法語、德語、西班牙語等高資源語言 (它們有數十億條並行示例語料)的訓練獲得的見解,可以應用於低資源語言的翻譯,如約魯巴語、信德語和夏威夷語(它們只有數萬條示例)。

展望未來

谷歌稱,自2010年以來,按照BLEU標準(滿分100分,谷歌翻譯水平每年至少提高1分,但自動化機器翻譯的問題並沒有得到解決。谷歌承認,即使是它的增強模型,也會出現各種錯誤,如合併一種語言的不同方言,產生明顯的字面翻譯,以及在特定主題內容和非正式語言或口語上表現糟糕等等。

這家科技巨頭正想方設法來解決這一挑戰,包括藉助它的谷歌翻譯社區。該遊戲化項目招募志願者來翻譯單詞和短語或者檢查翻譯是否正確,藉助他們來提高低資源語言的翻譯質量。就在今年2月,結合新興的機器學習技術,該項目為谷歌翻譯增加了對總共7500萬人使用的五種語言的支持,包括基尼亞盧安達語、奧裡雅語、韃靼語、土庫曼語和維吾爾語。

谷歌並不是唯一一家追求真正通用的翻譯工具的公司。2018年8月,Facebook公布了一種人工智慧模型,該模型結合使用逐字翻譯、語言模型和回譯來超越語言配對系統。最近,麻省理工學院計算機科學和人工智慧實驗室的研究人員也提出了一種無監督學習模型——一種從沒有明確標記或分類的測試數據中學習的模型——它可以在沒有直接的雙語翻譯數據的情況下在兩種語言的文本之間進行翻譯。

谷歌在一份聲明中表示,它「非常感謝」學術界和產業界在機器翻譯領域的研究成果,其中一些研究為谷歌自身的項目帶來了啟發。 「通過結合利用和拓展近期的各種技術進步,我們完成了谷歌翻譯最近的改進。」 該公司說,「經過此次升級,我們很自豪能夠提供相對連貫的自動翻譯,哪怕是所支持的108種語言中語料資源最少的一種語言。」(樂邦)

【來源:網易科技報導】

相關焦點

  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。
  • 谷歌翻譯怎麼使用 谷歌翻譯在中國可以用嗎
    谷歌翻譯怎麼用?   1、以安卓版為例:下載谷歌翻譯app並安裝即可。  2、安裝完成後,打開Google Translate實時翻譯;先選擇【 語言 】如下圖所示。  首屏中可以看到有文字實時翻譯、拍照翻譯、語音實時翻譯、手寫塗鴉翻譯等等、  比如文字翻譯;只需在白色空白處,輸入想要翻譯的漢字、字句,而藍色部分就是實時翻譯得到的英文結果。同時你也可以點擊【 小喇叭 】試聽發音語言。
  • 示例—如何藉助翻譯軟體,寫英語論文?
    可以看出,如果按中文的思路的話,確實是翻譯過來了:供是supply、需是demand、緩解是alleviate、make up 確實也有彌補的意思。咋一看,覺得翻譯得還行啊。有些同學就會直接把這樣的句子放到論文裡去了。
  • 機器翻譯三大核心技術原理 | AI知識科普
    在認識到不眠不休窮盡人類一生的力量,也只能掌握幾十種語言時,很多科學家開始思考,如何用機器來幫助人們去解決溝通問題,於是機器翻譯應運而生。機器翻譯其實是利用計算機把一種自然語言翻譯成另一種自然語言的過程,基本流程大概分為三塊:預處理、核心翻譯、後處理。
  • 部署了AI的谷歌翻譯要逆天?到底如何你給評評理
    誠然,不管是收購還是人機大戰,大家有沒有發現,這些都離我們太遙遠,技術的本質在於應用,最近Google算做了件造福大眾的好事兒,在收購人工智慧公司API.AI不久之後,宣布將把AI技術引入「谷歌翻譯」,Google表示:「與之前採用的算法相比,Google神經機器翻譯系統(GNMT)能降低80%的翻譯錯誤率,並且十分接近人類譯員的翻譯水平。
  • 翻譯輔助軟體Transmate如何調用有道翻譯API接口實現快速翻譯
    Transmate簡介:Transmate單機版是在單機上使用的翻譯輔助軟體(CAT),目前供用戶免費下載和使用。它集原文預覽、偽翻譯、預翻譯、排版、翻譯記憶、拼寫檢查、低錯檢查、在線翻譯等功能於一體,避免重複翻譯、減少翻譯工作量、提高翻譯效率、確保譯文的統一性。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能,該功能支持通過手機攝像頭拍攝並掃描文本來進行翻譯,在沒有蜂窩數據或Wi-Fi聯網的條件下依舊可以使用。
  • 馬雲爸爸「翻譯情未了」? 回顧阿里翻譯平臺的進擊之路!
    正當阿里為此感到苦悶時,谷歌的神經網絡翻譯技術出現了,可以說是為阿里的翻譯平臺插上了一對翅膀。早在2015年6月份,阿里就已收購國內最大的眾包翻譯平臺——365翻譯。當時把阿里翻譯平臺定位為阿里巴巴的語言服務平臺,將瞄準人機結合模式,在語言服務領域進行更多創新。365翻譯的加入確實為阿里的跨境電商領域分擔了一些翻譯業務上的壓力。並且在機器翻譯領域,和電商相關的幾個主要語種中,其翻譯的準確率基本和谷歌翻譯持平。然而,阿里語言服務平臺的野心並不止於此。他們想藉助強大的人工翻譯團隊和電商大數據研發下一代基於神經網絡技術的翻譯平臺。
  • 谷歌正式推出神經翻譯 翻譯水平遠超過去十年
    用谷歌翻譯常出錯,譬如......完全不懂怎麼會這樣,雖然我大天朝的文字遊戲的確複雜。 谷歌的工程師面臨很大的麻煩,畢竟它需要覆蓋100中語言,相互間排列組合能達到上萬種。Google也一直在研究更準確的翻譯方式,最近Google正式啟用「神經網絡機器翻譯系統」。
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    新智元推薦 來源:心智與實在編輯:小奇【新智元導讀】科普神人侯世達懷疑谷歌翻譯是否成為替代人類譯者的顛覆者,以英語、法語、德語和中文進行測試,最後得出結論:「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    在國內知名的彈幕視頻網站bilibili上,很多up主上傳了令人啼笑皆非的機器翻譯視頻。 網友們把一些影視劇、動漫或者其他著名場面中的臺詞用谷歌翻譯重新加工。如果只是翻譯一遍的話,可能效果還不理想——它們錯得還不夠精彩。於是,網友們把谷歌翻譯的結果再翻譯成第三種語言,然後再翻譯成第四種語言,最後再用谷歌翻譯回中文。
  • 如何提高英語翻譯技巧
    同時,企業與國外籤訂的英語合同與日俱增,因此英語翻譯質量和技巧成為非常重要的一個環節。與此同時,英語翻譯行業也湧入了大量的勞動力,如何提高英語翻譯技巧成為翻譯行業特別關心的問題,也是廣大英語學習者關心的問題。翻譯工作的不可替代性翻譯工作者的日常任務是語言之間意義和形式的相互轉化,往往兩種語言有著莫大的差別。
  • 谷歌推出神經網絡翻譯 中譯英水平匹敵真人?
    在谷歌發表的題為《規模生產中的神經網絡機器翻譯》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布將機器學習技術納入網頁和手機APP翻譯中,從前漢譯英的尷尬局面將大為扭轉。 翻譯系統面世後,根據用戶們的測試,發現漢譯英的準確率高得驚人。
  • 專欄| AI翻譯引進NMT技術,就能精準識別「語境」嗎?
    2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面布局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。Google Translate 產品負責人 Barak Turovsky 在谷歌舊金山的一次新聞發布會上說:「這一次的進步超過了過去十年積累的總和。」谷歌已經將自己的未來定義成了一家人工智慧和機器學習公司——使用這些技術的計算機無需特定的編程就能自己學習執行任務。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    多虧了機器翻譯這個技術奇蹟,我把這本用西裡爾字母寫成的書的數字版上傳到了一個免費在線翻譯網站,得到了一個英文版本:一個令人驚訝的、不完美的、充斥著語法錯誤的版本,但完全可以看得懂。這就像跟能說兩種語言的9歲孩子一起閱讀。
  • 「苟富貴勿相忘」翻譯後,谷歌:沒錢的人總會被遺忘
    相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是「燕雀安知鴻鵠之志哉」,或者「天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇」。 如今,隨著AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。
  • 機器翻譯的最新進展與瓶頸所在
    而網際網路的普遍應用則使在線翻譯成了當今機譯的重頭戲。  在這一領域,競爭正變得空前激烈。如今功能較強、方便易用的在線翻譯工具有谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其中後起之秀的谷歌翻譯最具特色,同時最具代表性。
  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    通過機器學習繪製特定語言的聯結 不難想像,近年來機器翻譯的最新進展對此有所幫助。 短短幾年內,注釋資料庫和讓機器從中學習的技術讓語言學習發生了革命性變化,這使得機器翻譯變得越來越普遍。儘管翻譯質量有待提高,但這也提供了思考語言的一個全新角度。