谷歌同志是位好「翻譯」!

2020-12-04 騰訊網

你每天會打開多少次翻譯類的軟體?就像個人電腦和智慧型手機的出現顛覆了人們的工作方式一樣,當在線翻譯工具出現後,那些厚厚的大部頭詞典也被大眾永遠的扔到了故紙堆中。

如果說在國內,有道、百度還可以在機器翻譯市場比競爭對手多一個身位的話,那麼縱觀全球,谷歌翻譯(Google Translate)絕對是毫無爭議的龍頭霸主。截至2020年6月,谷歌翻譯共支持109種不同的語言,每天5億多用戶總共貢獻1,500億個字詞的天量翻譯。

谷歌翻譯的進化

2006年4月28日,谷歌翻譯的統計機器翻譯(Statistical Machine Translation,SMT)服務推出,利用聯合國和歐洲議會的文件和筆錄收集語言數據。它不是直接翻譯語言,而是先將文本翻譯成英文,然後轉譯到目標語言。

但因為準確度的問題,谷歌翻譯曾多次受到批評和嘲笑,據測算,不同語言之間的準確度差異也很大。所以,在2016年11月,谷歌宣布,谷歌翻譯將改用神經機器翻譯引擎——谷歌神經機器翻譯(Google Neural Machine Translation,GNMT),它可以「一次翻譯整句,而不是逐句翻譯」,使之更像人類說話時的正確語法。

既然GNMT是通過應用基於實例的的機器翻譯方法來改進翻譯質量,那麼系統就需要會從數百萬個乃至更多的示例中學習,從這些來源中推斷出最相關的翻譯,然後將結果重新排列並組成基於符合人類語言的語法翻譯。

這也就意味著,當GNMT進行學習時,需要目標語言有大量文本數據。而事實也的確如此,2016年,谷歌翻譯的其中八種語言開始嘗試使用此系統,包括英語,法語,德語,西班牙語,葡萄牙語,中文,日語,韓語和土耳其語。這些都是使用人口眾多的大眾語言。

但直到最近,即使是支撐谷歌翻譯的最先進算法的表現也落後於人類,谷歌的Masakhane 項目就說明了這個問題的嚴重性。該項目旨在將非洲大陸數千種語言自動翻譯成可翻譯的語言,但該項目還沒有跨越數據收集和轉錄的階段。而開發開源 Firefox 瀏覽器的非營利組織 Mozilla發布了全球最大的人類語音數據集Common Voice,其自2017年6月推出以來也只審核了40種語音。

那麼問題就來了,對於那些沒有大量書面文本數據的語言,如何做到翻譯的「信達雅」呢?

在谷歌即將發表的一篇博文中,詳細介紹了一些新的創新,這些創新可以讓包括約魯巴語(Yoruba)和馬來亞拉姆語(Malayalam)這樣十分冷門的語言翻譯變得更加準確到位,改善使用這些語言的用戶的體驗。

谷歌表示,其翻譯突破並非由單一技術驅動,而是針對少文本資源語言、富文本資源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月期間,根據人類評價和BLEU(一種基於系統翻譯和人類參考翻譯之間的相似度的衡量標準)來衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種文本資源最少的語言中平均提高了7分或更多。

混合模型和數據挖掘

第一種技術是一個翻譯模型架構,這是一個由Transformer編碼器和遞歸神經網絡(RNN)解碼器組成的混合架構,在Lingvo(一種用於序列建模的TensorFlow框架)中實現。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器來生成所需語言的文本。谷歌旗下的研究人員在2017年首次提出的基於Transformer的模型,在這方面顯然比RNN更有效,但谷歌表示,它的研究表明,大部分的質量提升只來自於Transformer的一個組成部分——編碼器。

這或許是因為,雖然RNN和Transformer都是為了處理有序的數據序列而設計的,但Transformer並不要求按順序處理。換句話說,如果所涉及的數據是自然語言,Transformer就不需要按照先處理句的開頭再處理結尾的順序進行。

儘管如此,RNN解碼器在推理時仍然比Transformer內部的解碼器「快得多」。認識到這一點,谷歌翻譯團隊在將RNN解碼器與Transformer編碼器耦合之前,對RNN解碼器進行了優化,以創建低延遲的混合模型,這種混合模型的翻譯質量更高,而且比它們所取代的四年前基於 RNN 的神經機器翻譯模型更穩定。

除了新穎的混合模型架構外,谷歌還升級了幾十年前的爬蟲。這種基於字典的老爬蟲是用來從文章、書籍、文檔和網絡搜索結果中的數百萬例翻譯中編譯訓練體例庫。

但新的抓取器則是基於嵌入的14種大型語言對,它使用實數矢量來表示單詞和短語,這意味著更注重精度(檢索數據中相關數據的比例),而不是召回率(實際檢索到的相關數據總量的比例)。谷歌表示,在生產中,這讓抓取器提取的句子數量平均增加了29%。

噪聲數據與遷移學習

翻譯性能提升的另一個因素在於一種能更好地處理訓練數據中的噪聲的建模方法。由於觀察到噪聲數據(噪聲數據指有大量信息無法被正確理解或解釋的數據)會傷害到數據豐富的語言翻譯,谷歌翻譯團隊部署了一個系統,該系統使用基於噪聲數據訓練且被「清潔」數據優化的模型為示例分配分數。

因為機器翻譯傳統上依賴於源語言和目標語言中成對句子的語料庫統計。所以,在少文本資源語言方面,谷歌在谷歌翻譯中實現了一種回譯方案,即把A語言翻譯成B語言,然後在脫離A語言影響的基礎上,再把B語言翻譯成A語言,這樣它增強了並行訓練數據的能力。

在這個方案中,訓練數據與合成並行數據自動對齊,這樣,目標文本是自然語言,而源文本由神經翻譯模型生成。其結果是,谷歌翻譯利用更豐富的單語文本數據來訓練模型,谷歌認為這對於提高流暢度特別有幫助。

Translate現在還利用了M4模型,即一個可以在多種語言和英語之間進行翻譯的單一巨型模型。(M4模型是在去年的一篇論文中首次提出的,該論文證明,在對100多種語言的250多億句子對進行訓練後,M4模型提高了30多種少文本資源語言的翻譯質量)。

M4 模型使谷歌翻譯中的轉移學習成為可能,因此,通過對法語、德語和西班牙語等富文本資源語言的訓練所收集的見解可以應用到少文本資源語言的翻譯中。

展望未來

根據谷歌的說法,自2010年以來,谷歌翻譯每年至少提高了1個BLEU點,但自動機器翻譯絕不是做到了盡善盡美。谷歌承認,即使它的增強型模型也會出現錯誤,包括混淆不同語言的方言、產生過於直白的翻譯以及在特定類型的主題和非正式語言或口語上表現不佳。

如今,這家科技巨頭正試圖通過各種方式來解決這個問題,包括通過其谷歌翻譯社區(Google Translate Community)——一個遊戲化的項目,招募志願者通過翻譯單詞和短語或檢查翻譯是否正確,來幫助機器提高翻譯少文本資源語言的質量。就在今年2月份,該計劃與新興的機器學習技術相結合,在翻譯中增加了五種語言——盧安達語、奧裡亞語、韃靼語、土庫曼語和維吾爾語,這些語言共有7,500萬人使用。

而在追求通用翻譯的路上,谷歌也並不孤單。2018 年 8 月,Facebook 披露了一個 AI 模型,該模型採用了逐字翻譯、語言模型和回譯相結合的方式,超越了語言配對系統。最近,麻省理工學院計算機科學與人工智慧實驗室(CSAL)的研究人員展示了一個無監督模型,該模型可以在不需要兩種語言之間直接翻譯數據的條件下,就隊兩種語言的文本進行相互翻譯。

在一份聲明中,谷歌深情地表示,它對學術界和工業界的機器翻譯研究表示感謝,其中一些研究為其自身的工作提供了參考。「我們通過綜合和擴展最近的各種進展,實現了谷歌翻譯最新的改進,」該公司表示。「有了這次更新,我們很自豪地說,即使是對109種支持的語言中文本資源最少的語言,谷歌翻譯也能提供相對連貫的自動翻譯。」

參考資料:

[1]https://venturebeat.com/2020/06/03/how-googleis-using-emerging-ai-techniques-to-improve-language-translation-quality/

[2]https://www.wikiwand.com/en/Google_Translate#/Supported_languages

[3]https://docs.google.com/spreadsheets/d/1fJQLMj8O5z3Q7eKDxi1tNNrFipiEL0UDyaEF0fleZ54/edit?pli=1#gid=0

[4]https://www.wikiwand.com/en/Statistical_machine_translation

[5]https://www.wikiwand.com/en/Google_Neural_Machine_Translation

相關焦點

  • 谷歌翻譯又被專業翻譯diss了:那它到底有沒有用?
    這時候,手機上的翻譯軟體就有用處。  目前出國旅遊比較流行的是谷歌翻譯。對於中國大陸用戶來說,近期比較重要的更新是在去年的3月29日,谷歌更新後的翻譯App可以在中國大陸地區無障礙使用,經過一波宣傳,用的人越來越多。在知乎上「出國旅遊有什麼好的可攜式翻譯機或App可用?」這一問題中,得贊最多的回答首推谷歌翻譯App。
  • 谷歌翻譯好用?維基百科聯手谷歌幫助編輯翻譯文章
    但非營利組織的努力進展緩慢,部分原因在於它使用的翻譯工具。長期以來,網站上的編輯表達了使用谷歌翻譯的願望,因為它可以使翻譯更快。維基百科的母公司維基媒體基金會(Wikimedia Foundation)今天宣布與谷歌合作實現這一目標。  Wikimedia稱,它將把谷歌翻譯(可以說是地球上最好的翻譯服務)整合到其已有四年歷史的內容翻譯工具中。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 新版谷歌翻譯App示好中國用戶
    在最新的Google翻譯App 5.8版本中專門針對中國用戶進行了優化。目前iOS版的Google翻譯已經能夠從中國的App Store正常下載使用,用戶能夠使用該App的所有功能,Android用戶則可以直接通過其伺服器下載。谷歌通過在中國的合資公司維護這些應用。    據了解,此次更新包括語音翻譯、點按翻譯、實景翻譯、離線翻譯,而且還增加了英語與韓語間即時相機翻譯功能。
  • 谷歌翻譯準不準好不好用 看看這些句子的翻譯就知道了
    ­  Reddit r/funny討論組中的網友發現了一個翻譯異常 。當用戶要求谷歌翻譯將「我是一個地平論者(Iamaflat-Earther)」從英文翻譯成法文時,它會以「Jesuisunfou」的結果出現。而當再把這句話翻譯成英文時,用戶會得到「我是個瘋子(I"macrazyperson)的結果」。谷歌翻譯對單個詞的翻譯沒有任何問題。它變成「flat」翻成法語「plat」,「Earth」翻成「terre」。
  • 谷歌更新iOS版谷歌翻譯 支持手寫翻譯
    舉報 新版「谷歌翻譯
  • 全球首個翻譯引擎進化歸來!谷歌翻譯被碾壓,方言、文言文均可翻譯
    DeepL由於極好的準確性,也同樣引爆了Reddit,有網友指出,DeepL不是像谷歌翻譯那樣從字詞上進行翻譯,從Textractor的設置上可以看到,DeepL還支持用以前的翻譯作為上下文對翻譯結果進行改善。
  • 谷歌翻譯新增5種語言!原來谷歌翻譯經常發生問題鬧笑話?!
    歷經四年之久,谷歌翻譯系統終於再次增添新的語言!其實谷歌翻譯在2016年以前,支持的語言數量多達103種,但是之後就停止了更新動作,直到如今才正式宣布其翻譯系統已經新增至108種語言,新支持的語言如基尼亞盧安達語(盧安達)、奧裡薩語(印度)、韃靼語、土庫曼語和維吾爾語。
  • 獨家獻映:工程師面對面之谷歌翻譯探秘
    作為《軟體大講堂》開播三年的獻禮,本次節目特別獲得谷歌中國公司大力支持,一網打盡谷歌十餘項最熱應用:谷歌搜索、谷歌翻譯、谷歌地圖、谷歌拼音輸入法、谷歌音樂、谷歌瀏覽器、谷歌購物搜索、谷歌手機地圖、iGoogle、谷歌雲計算……15位天才谷歌工程師、項目經理雲集IT168視頻中心,為大家獻上精彩的技術演示,與大家分享技術背後的妙事趣聞。谷歌,不僅僅是搜索!IT168帶您走進真正的谷歌世界!
  • 谷歌翻譯重回國內 有道翻譯表示不服氣
    【手機中國 軟體】今年3月底,谷歌翻譯App突然進行了更新,在升級之後中國用戶可以無障礙的使用其中的翻譯功能。谷歌翻譯當屬最佳翻譯工具之列,去年其推出了谷歌神經機器翻譯系統,可幫助翻譯結果更加準確、自然,其功能簡單但易用,是日常翻譯中必不可少的助手,在回歸後為更多國內用戶提供服務。
  • 谷歌翻譯開始支持中文發音
    谷歌翻譯(Google Translate)儘管很早就支持了中文語言,而且也有了翻譯結果發音功能,但是一直沒有中文的發音支持,不得不說是一個遺憾。而如今谷歌的這個缺陷也終於得到了彌補。
  • 谷歌翻譯對《我的世界》有多大破壞力?看翻譯的內容就知道了
    這些軟體都是我們耳熟能詳的,比如說谷歌翻譯。我的世界被谷歌翻譯,其實傷害的很大。但是又由於谷歌翻譯的影響力,讓我的世界讓更多人知道。因為谷歌翻譯翻譯我的世界,這款遊戲出現非常多的么蛾子。就從這張圖片我們就可以簡單地說一下,這是我的世界中的一個食物,卻被翻譯成了加拿大季節。
  • 硬核測評,谷歌翻譯被碾壓:全球首個翻譯引擎進化歸來,「細節狂魔...
    至於更多可能是如何被開發出來的,文摘菌做了一次小小的測評,然後再一起來圍觀DeepL的發家史,小板凳已經放好,歡迎就坐~ 方言、文言文、學術論文,機器翻譯神仙打架! 不管是民間測評還是DeepL官方的盲測結果,都暗示著DeepL可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。
  • 硬核測評,谷歌翻譯被碾壓!全球首個翻譯引擎進化歸來,「細節狂魔...
    至於更多可能是如何被開發出來的,文摘菌做了一次小小的測評,然後再一起來圍觀DeepL的發家史,小板凳已經放好,歡迎就坐~方言、文言文、學術論文,機器翻譯神仙打架!不管是民間測評還是DeepL官方的盲測結果,都暗示著DeepL可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。
  • 谷歌翻譯5.0 APK下載:酷炫全局懸浮翻譯-谷歌,翻譯,APP,APK,軟體...
    本月是谷歌翻譯誕生10年的生日,按照官方數據,它如今支持103種語言,擁有5億多用戶,每天翻譯超過1000億個單詞。今天,谷歌官方上線了Google Translate v5.0 APP,新增了全局「點按翻譯」或者說「懸浮翻譯功能」。
  • 谷歌翻譯之外的選擇 體積僅1M的良心翻譯APP
    電子辭典也算是被手機完美取代的電子產品之一了,很多朋友都習慣在手機上安裝一個翻譯APP。要問手機上最好的翻譯APP是什麼?相信很多人的答案都會是谷歌翻譯。不過除了谷歌翻譯,其實我們也可以使用其他翻譯方案互為補充,多個參考總是好的。那麼手機上有什麼能夠比較完美和谷歌翻譯互補的方案?
  • 谷歌翻譯又出大招了
    自從2015年以來,語言助手「谷歌翻譯」就一直致力於開發相機翻譯(Word Lens),幫助用戶進行不同語言之間的實時翻譯。它支持多種語言——英語、西班牙語、俄語、義大利語、法語、葡萄牙語、德語等等,如今它已發展到30種語言,包括日語。不像傳統的谷歌翻譯,相機翻譯並不需要用戶提供照片或者打字。
  • 谷歌翻譯之外的選擇!體積僅1M的良心翻譯APP
    【PConline 應用】電子辭典也算是被手機完美取代的電子產品之一了,很多朋友都習慣在手機上安裝一個翻譯APP。要問手機上最好的翻譯APP是什麼?相信很多人的答案都會是谷歌翻譯。不過除了谷歌翻譯,其實我們也可以使用其他翻譯方案互為補充,多個參考總是好的。
  • 谷歌翻譯全新改版,文檔翻譯功能矚目
    自從谷歌瀏覽器正式改版MD之後,近日終於又迎來了王牌產品谷歌翻譯的改版。作為谷歌「最成功」的產品之一,谷歌翻譯這一次的更新帶來了外觀和功能上的改進。谷歌產品經理James Kuczmarski表示:「自推出12年以來,谷歌翻譯已取得飛速的發展。
  • 你想要的實時翻譯!Android版谷歌翻譯將增實時轉錄翻譯功能
    谷歌近日在其名為"實時翻譯"的演講中表示,去年9月出現於Android程序中的"實時翻譯"功能,現將其命名為"實時轉錄翻譯",其最重要的功能在於"接近實時",對於跨越溝通障礙有非常好的幫助。該功能是指用戶將聽到的語言進行音頻錄製,然後實時呈現出想要的語言,在現場演示中,輸入英語就被迅速翻譯成了西班牙語。這種體驗非常類似於Pixel 4上推出的谷歌記錄器應用程式,後來又被用於更老的谷歌設備。