谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的

2020-12-12 網易科技

網易科技訊6月6日消息,據國外媒體報導,谷歌表示,它已在提高沒有大量書面文本語料的語言的翻譯質量上取得了進展。在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。

谷歌翻譯服務平均每天翻譯1500億個單詞。

自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平臺Common Voice,自2017年6月推出以來也只審查了40種語音。

谷歌稱,它在翻譯領域所取得的突破並不是由單一技術驅動的,而是針對低資源語言、高資源語言、總體質量、延遲和整體推理速度的多項技術共同作用產生的。在2019年5月到2020年5月之間,根據人工評估和BLEU(基於翻譯系統翻譯和人工參考翻譯之間相似性的衡量標準),谷歌翻譯在所有語言中平均提高了5分以上,在50種語料資源最少的語言中平均提高了7分以上。

混合模型和數據挖掘器

這些技術中的第一個是轉換模型架構——一種混合架構,包括一個Transformer編碼器和一個用Lingvo實現的遞歸神經網絡(RNN)解碼器,後者是一個用於序列建模的TensorFlow框架。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的,在這一點上它比RNN更有效,但谷歌表示,它的研究表明,翻譯質量的提高主要來自Transformer的一個部件:編碼器。這可能是因為雖然RNN和Transformer都是為處理有序的數據序列而設計的,但後者並不要求按順序處理數據序列。換句話說,如果涉及的數據是自然語言,Transformer不必先處理好句子的開頭才處理句子的結尾。

然而,RNN解碼器在推理時間上仍然比Transformer中的解碼器要「快得多」。谷歌翻譯團隊認識到這一點,於是在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲、質量及穩定性均比此前所使用的RNN神經機器翻譯模型更勝一籌的混合模型。原來使用的RNN神經機器翻譯模型已有4年歷史。

2006年上線不久以來,谷歌翻譯模型各種語言的BLEU得分提升趨勢

除了打造新穎的混合模型架構之外,谷歌還升級了一個有幾十年歷史的爬蟲程序。該程序用來從文章、書籍、文檔和網絡搜索結果等內容中的數百萬條示例翻譯中編制訓練語料。該新數據挖掘器基於支持14個語言對的嵌入模式,而非基於詞典模式,也就是說它是使用實數向量來表示單詞和短語,更多地聚焦於精確性(檢索數據中的相關數據部分),而非檢索(實際檢索的相關數據總量)。產出效果方面,谷歌說這使得該數據挖掘器提取到的句子數量平均增加了29%。

噪聲數據和遷移學習

翻譯性能提升的另一來源是一種建模方法,它能更好地處理訓練數據中的噪聲。據觀察,噪聲數據(含有大量無法正確理解或解釋的信息的數據)會損害語料數據豐富的語言的翻譯質量。所以,谷歌翻譯團隊部署系統來給使用噪聲數據訓練的模型的示例打分,進而篩選出「純淨」的數據。實際上,這些模型一開始基於所有的數據進行訓練,然後逐漸基於更小、更純淨的數據子集進行訓練,這種方法在人工智慧研究領域被稱為課程學習。

對於資源較少的語言,谷歌在谷歌翻譯中採用了一個回譯機制,來強化並行訓練數據,即語言中的每個句子都與其譯文相配對。(機器翻譯傳統上依賴於源語言和目標語言成對句子的語料庫的統計。)在該機制中,訓練數據與合成的並行數據自動對齊,目標文本為自然語言,而源文本則由神經翻譯模型生成。結果是,谷歌翻譯充分利用更豐富的單語文本數據來訓練模型,谷歌稱這對提高翻譯流暢性特別有幫助。

谷歌地圖自帶的翻譯功能

谷歌翻譯現在還採用M4建模方法,即用一個單一的巨型模型——M4——來在多種語言和英語之間進行翻譯。(M4最初是在去年的一篇論文中提出的,該論文證明,在基於來自100多種語言的250億對句子進行訓練後,M4提高了30多種低資源語言的翻譯質量。)M4建模讓谷歌翻譯中的遷移學習成為可能,因此,通過基於法語、德語、西班牙語等高資源語言 (它們有數十億條並行示例語料)的訓練獲得的見解,可以應用於低資源語言的翻譯,如約魯巴語、信德語和夏威夷語(它們只有數萬條示例)。

展望未來

谷歌稱,自2010年以來,按照BLEU標準(滿分100分,谷歌翻譯水平每年至少提高1分,但自動化機器翻譯的問題並沒有得到解決。谷歌承認,即使是它的增強模型,也會出現各種錯誤,如合併一種語言的不同方言,產生明顯的字面翻譯,以及在特定主題內容和非正式語言或口語上表現糟糕等等。

這家科技巨頭正想方設法來解決這一挑戰,包括藉助它的谷歌翻譯社區。該遊戲化項目招募志願者來翻譯單詞和短語或者檢查翻譯是否正確,藉助他們來提高低資源語言的翻譯質量。就在今年2月,結合新興的機器學習技術,該項目為谷歌翻譯增加了對總共7500萬人使用的五種語言的支持,包括基尼亞盧安達語、奧裡雅語、韃靼語、土庫曼語和維吾爾語。

谷歌並不是唯一一家追求真正通用的翻譯工具的公司。2018年8月,Facebook公布了一種人工智慧模型,該模型結合使用逐字翻譯、語言模型和回譯來超越語言配對系統。最近,麻省理工學院計算機科學和人工智慧實驗室的研究人員也提出了一種無監督學習模型——一種從沒有明確標記或分類的測試數據中學習的模型——它可以在沒有直接的雙語翻譯數據的情況下在兩種語言的文本之間進行翻譯。

谷歌在一份聲明中表示,它「非常感謝」學術界和產業界在機器翻譯領域的研究成果,其中一些研究為谷歌自身的項目帶來了啟發。 「通過結合利用和拓展近期的各種技術進步,我們完成了谷歌翻譯最近的改進。」 該公司說,「經過此次升級,我們很自豪能夠提供相對連貫的自動翻譯,哪怕是所支持的108種語言中語料資源最少的一種語言。」(樂邦)

本文來源:網易科技報導 責任編輯:張祖韜_NT5054

相關焦點

  • 谷歌揭秘自家翻譯系統:如何利用AI技術提高翻譯質量 | 網際網路數據...
    但並不是所有語言都具備豐富可用訓練的文字資料,這樣一來,如何在數據不多的情況下,訓練出更好的翻譯器,成為機器翻譯領域裡需要解決的問題之一。近日,谷歌在自己的博客上介紹了公司最新的翻譯創新技術,這些技術提升了谷歌翻譯的用戶體驗。目前谷歌翻譯可支持108種語言,平均每天翻譯1500億個單詞。谷歌翻譯最早亮相於2006年,在過去的13年間,翻譯水平有了重大飛躍。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此
  • 谷歌同志是位好「翻譯」!
    在谷歌即將發表的一篇博文中,詳細介紹了一些新的創新,這些創新可以讓包括約魯巴語(Yoruba)和馬來亞拉姆語(Malayalam)這樣十分冷門的語言翻譯變得更加準確到位,改善使用這些語言的用戶的體驗。谷歌表示,其翻譯突破並非由單一技術驅動,而是針對少文本資源語言、富文本資源語言、總體質量、延遲和整體推理速度的技術組合。
  • AI翻譯能否取代人工翻譯?谷歌翻譯作為領頭羊,已經給出了答案
    AI翻譯一直是人工智慧領域關注較多和技術討論較多的方向,而在全球範圍內,谷歌的智能翻譯一直佔據的重要的地位,這有賴於谷歌對於翻譯的另類理解和技術提升,今天我們就來看看谷歌為了翻譯都做了什麼。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    這些年來,Google Translate(谷歌翻譯服務)一直被人詬病存在性別偏見現象,例如Google Translate會默認將某些「中性」職業和特定的性別聯繫起來,「醫生」一定是男性,而「護士」則往往是女性。 從2018年開始,Google就嘗試解決土耳其語和英語互相翻譯時的性別偏見問題,為與性別有關的詞條提供兩種版本的翻譯(和漢語不同,土耳其語是「中性」語言。
  • AI翻譯如何與傳統翻譯並存共贏:這一次「翻譯」的概念將被重新定義
    AI翻譯一直是近年來熱門話題,從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊,到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。可以說,迄今為止,AI在翻譯行業的應用都是一場巨大的人工智慧實驗。
  • 人工智慧翻譯大比拼 有道翻譯戰勝谷歌奪得冠軍
    在其中的人工智慧翻譯大賽中,谷歌翻譯、有道翻譯官、搜狗翻譯三款翻譯軟體同臺競技,實測翻譯效果。最終,有道翻譯官憑藉著突出的對話翻譯和拍照翻譯功能,以及幾乎無短板的優勢,在比賽中拔得頭籌。 挑戰經典,看人工智慧翻譯如何「真情告白」第一局裡先「上場」的是谷歌翻譯,隨機翻譯一段對話。但可能是第一上場的緣故,谷歌翻譯表現並不理想。
  • 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型
    新智元報導 來源:techxplore編輯:元子【新智元導讀】無需翻譯的無監督複述的新方法:允許從輸入句子生成多樣化、但語義上接近的句子。模型基於矢量量化自動編碼器(VQ-VAE),可以在單純語言環境中解釋句子。
  • AI加碼 谷歌翻譯又添離線功能 支持59種語言
    智東西 編 | 曹心緣導語:谷歌稱新版離線翻譯將適用於任何手機,目前支持59種語言。近日,谷歌宣布推出基於神經機器翻譯(NMT)技術的離線翻譯。對於那些經常訪問網際網路的人來說,在線谷歌翻譯相當有用,它的翻譯效果遠勝於離線情況下的舊式機器直譯。而現在,谷歌新的離線翻譯技術將扭轉離線翻譯的不利局面。據Mashable報導,Google翻譯產品經理 Julie Cattiau曾去考察谷歌翻譯用量較大的印度和印度尼西亞等地(谷歌聲稱其翻譯服務的90%是在美國境外完成的)。她發現,當人們想進行翻譯時,他們常常沒有網際網路訪問權限。
  • 人人譯視界:針對影視劇字幕組推出「視頻翻譯黑科技」,提高80%翻譯...
    【獵雲網北京】5月30日報導(文/呂夢)從谷歌推出神經網絡機器翻譯(NMT)、搜狗AI進擊、到博鰲同傳機器人,人工智慧在翻譯領域一直在持續不斷的嘗試。與其說我們想看看人工智慧究竟能做到哪一步,不如說是我們想知道人工智慧能對翻譯行業帶來哪些推動性的進步、是否能夠真正提升翻譯效率。
  • 谷歌翻譯接地氣程度測試
    這個直接翻譯伺服器出錯當然這是過去的機翻。近些年來機器翻譯一直在進步。目前不只是詞彙和短語,連長句和整篇文章的翻譯水平都在不斷提高。假以時日,機器的翻譯水平沒準能超過用劣質字幕蹂躪電影觀眾的那幾位老師。
  • 谷歌翻譯核心技術 Seq2Seq
    但是 Google Translate 上線之後,業界基本上已經沒有異議了,說這事基本可行了。這就是說,它學術上為什麼說有大突破,這個意義就在於說它證明了跨自然語言的可微分的可編輯的語言的表示的一種新方法。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    谷歌翻譯推新功能 拍照即可識別 2019年07月11日 19:50作者:張萌編輯:李芹文章出處:泡泡網原創   7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能
  • 爽文+AI翻譯,全球老外正在同步修仙
    2016年底,谷歌翻譯的一次革命性升級,讓AI翻譯初具與人工翻譯搶飯碗的能力。 而短短一年之後,一家名叫funstory.ai的中國人工智慧公司就在某個垂直領域吊打了谷歌翻譯,這個垂直領域就是爽文翻譯。
  • 《集異璧》作者侯世達瘋狂吐槽谷歌翻譯:AI替代人類譯者為時尚早
    新智元推薦 來源:心智與實在編輯:小奇【新智元導讀】科普神人侯世達懷疑谷歌翻譯是否成為替代人類譯者的顛覆者,以英語、法語、德語和中文進行測試,最後得出結論:「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    全文共13204字,預計學習時長34分鐘谷歌翻譯大家想必都不陌生,但你有沒有想過,它究竟是如何將幾乎所有的已知語言翻譯成我們所選擇的語言?本文將解開這個謎團,並且向各位展示如何用長短期記憶網絡(LSTM)構建語言翻譯程序。
  • 谷歌翻譯又被專業翻譯diss了:那它到底有沒有用?
    但出國旅遊就有個問題:如何在當地交流?這可不是光學會幾句英語就能解決的問題,如果你要去不以英語為母語的國家,可能就麻煩了,不是每個當地人都會講英語。這時候,手機上的翻譯軟體就有用處。  目前出國旅遊比較流行的是谷歌翻譯。對於中國大陸用戶來說,近期比較重要的更新是在去年的3月29日,谷歌更新後的翻譯App可以在中國大陸地區無障礙使用,經過一波宣傳,用的人越來越多。
  • 學術文獻翻譯工具推薦,如何快速翻譯大量文獻?
    大家通常是如何閱讀外文文獻的呢?少數英文水平好的朋友可以直接閱讀,但相信大部分人還是需要先翻譯成中文的。那麼,如何快速翻譯文獻呢?用什麼翻譯軟體比較好呢?首先要明確的是,學術性的文獻資料,都是非常嚴謹的,如果翻譯的時候出現偏差,就可能會導致作者的思想理論被曲解,從而影響對整篇文獻的理解。因此無論是自己翻譯外文文獻,還是藉助翻譯工具來翻譯,都要重視翻譯的準確度。想要在保證質量的前提下快速翻譯外文文獻,就需要一個專業靠譜的翻譯工具。
  • 谷歌翻譯對《我的世界》有多大破壞力?看翻譯的內容就知道了
    這些軟體都是我們耳熟能詳的,比如說谷歌翻譯。我的世界被谷歌翻譯,其實傷害的很大。但是又由於谷歌翻譯的影響力,讓我的世界讓更多人知道。因為谷歌翻譯翻譯我的世界,這款遊戲出現非常多的么蛾子。就從這張圖片我們就可以簡單地說一下,這是我的世界中的一個食物,卻被翻譯成了加拿大季節。
  • 年中最頂尖AI論壇4天19場!百度翻譯同傳堪稱「超級翻譯官」
    機器同傳成研究熱點,百度翻譯提出多項創新近年來,得益於人工智慧技術的綜合進步,結合語音技術和機器翻譯技術的機器同聲傳譯成為國際前沿研究的熱點。機器同傳面臨一系列國際公認的難題,如語音識別錯誤傳遞、翻譯質量與時間延遲難以平衡等。