支持108種語言:Google翻譯為啥這麼好用?

2020-11-22 驅動之家

Google表示,在提高語言翻譯的質量方面,已經取得了進展。在一篇博客文章中,該公司詳細介紹了新的創新技術,這些創新技術增強了Google翻譯(Google Translate)支持的108種語言(特別是數據貧乏的約魯巴語和馬拉雅拉姆語)的用戶體驗,該服務平均每天翻譯1500億個單詞。

自Google翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。

但是直到最近,翻譯的最新算法表現也落後於人類。Google之外的努力也說明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。

共同的聲音(Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟體創建免費的資料庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。

Google表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。

在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,Google翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。

此外,Google表示,「翻譯」對機器翻譯聯想的功能變得更加強大,一種現象是,當給泰盧固語字符輸入「Shenzhen Shenzhen Shaw International Airport (SSH)」)時,AI模型會產生奇怪的翻譯「Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh」。

混合模型和數據挖掘器

這些技術中的第一個是翻譯模型體系結構——一種混合體系結構,包含在Lingvo(用於序列建模的TensorFlow框架)中實現的Transformer編碼器和遞歸神經網絡(RNN)解碼器。

在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然後解碼器將其用於生成所需語言的文本。

Google相關研究人員於2017年首次提出的基於Transformer模型在此方面比RNN更為有效,但Google表示其工作表明大部分質量提升僅來自於Transformer的一個組成部分:編碼器。

那可能是因為雖然RNN和Transformer都被設計為處理有序的數據序列,但是Transformers並不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前處理句子的開頭。

儘管如此,在推理時,RNN解碼器仍比「Transformer」中的解碼器「快得多」。意識到這一點,Google Translate團隊在將RNN解碼器與Transformer編碼器結合之前對RNN解碼器進行了優化,以創建低延遲、質量更高,比四年前基於RNN的神經機器翻譯模型更穩定的混合模型進行替代。


自2006年成立以來,Google翻譯模型的BLEU得分

除了新穎的混合模型體系結構之外,Google還從數以百萬計的示例翻譯中(用於文章、書籍、文檔和Web搜索結果)編譯了用於編譯訓練集的數十年歷史的爬蟲。

新的翻譯器基於嵌入的14種主流語言,而不是基於字典的-意味著它使用實數矢量表示單詞和短語-更加注重精度(相關數據在檢索到的數據中所佔的比例)想到(實際檢索到的相關數據總量的一部分)。

Google表示,在使用過程中,這使翻譯器提取的句子數量平均增加了29%。

有噪音的數據和轉移學習

另一個翻譯性能提升來自更好地處理訓練數據中噪聲的建模方法。觀察到有噪聲的數據(含有大量無法正確理解或解釋的大量信息的數據)會損害語言的翻譯,因此Google翻譯團隊部署了一個系統,該系統使用經過訓練的模型為示例分配分數對嘈雜的數據進行調優,並對「乾淨的」數據進行調優。

實際上,這些模型開始對所有數據進行訓練,然後逐步對較小和較乾淨的子集進行訓練,這是AI研究社區中稱為課程學習的方法。

在資源匱乏的語言方面,Google 在翻譯中實施了反向翻譯方案,以增強並行訓練數據,該語言中的每個句子都與其翻譯配對。(機器翻譯傳統上依賴於源語言和目標語言中成對句子的語料統計)在這種方案中,訓練數據會自動與合成並行數據對齊,從而目標文本是自然語言,但會生成源通過神經翻譯模型。

結果是Google翻譯利用了更豐富的單語文本數據來訓練模型,Google表示這對於提高流利性特別有用。


帶有翻譯功能的Google Maps

Google翻譯現在還利用了M4建模,其中一個大型模型M4在多種語言和英語之間進行翻譯。(M4是於去年在一篇論文中首次提出,證明它在訓練了100多種語言中的250億對句子對之後,提高了30多種低資源語言的翻譯質量。)

M4建模使Google翻譯中的遷移學習成為可能,收集了包括法語、德語和西班牙語(有數十億個並行示例)的高資源語言進行訓練提升了表現,從而可以應用於翻譯諸如約魯巴語、信德語和夏威夷語(僅有數萬個示例)的低資源語言。

展望未來

根據Google的說法,自2010年以來,翻譯每年至少提高了1個BLEU點,但是自動機器翻譯絕不能解決問題。Google承認,即使是其增強的模型也容易出錯,包括將一種語言的不同方言混淆,產生過多的直譯,以及在特定題材和非正式或口頭語言上的表現不佳。

微軟試圖通過各種方式解決這一問題,包括通過其Google翻譯社區計劃(Google Translate Community)來招募志願者,通過翻譯單詞和短語或檢查翻譯是否正確來幫助提高低資源語言的翻譯質量。

僅在2月份,該程序與新興的機器學習技術相結合,就增加了翻譯,共有7500萬人使用了五種語言:Kinyarwanda、Odia(奧裡亞語)、Tatar、Turkmen和Uyghur(維吾爾語)。

追求真正通用翻譯的並不只有Google。在2018年8月,Facebook公開了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯的組合,在語言配對方面表現更好。最

近,麻省理工學院計算機科學與人工智慧實驗室的研究人員提出了一種無監督的模型,即可以從未明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

Google在一份聲明中以外交方式表示,它對「學術界和工業界」的機器翻譯研究表示感謝,其中一些通報了自己的工作。該公司表示:「我們通過綜合和擴展各種最新進展來實現(Google翻譯最近的改進)。

通過此更新,我們為提供相對一致的自動翻譯而感到自豪,即使是在支持的108種語言中資源最少的情況下也是如此。」

相關焦點

  • 2款免費的翻譯工具,無需註冊安裝3分鐘搞定
    而對於咱們剛做獨立站的賣家,或者是對這塊完全還處於摸索階段的,就別整天都想著要做全球了,整這麼多語言,你能管的過來嗎?小語種也是要花錢的,要請人,要買翻譯軟體,對於剛起步,這個費用還是可以節省下來的。獨立站賣家不同階段,應該重點做不同的事情,先一步一步來,才是最真實的。
  • 你和英文文獻的距離僅僅是一個好用 的翻譯工具
    接下來就是老師的一波瘋狂暗示(你看看別人,為啥人家都能看完,你呢?),這時的你是否很受傷?曾經我們看英文文獻的方式無非以下幾種:1初級模式1安裝有道、必應等軟體,複製進軟體並進行翻譯2網頁搜索google翻譯、百度翻譯等,進行複製翻譯2中級模式3
  • 小米有品翻譯機:內置24個翻譯引擎,支持100多種語言互譯
    在翻譯界面上滑屏幕,就可以進入語言種類的選擇,一般來說,傳統的翻譯機,或者是那些翻譯軟體,往往只能用中文作為基礎語言,然後實現其他語種的翻譯。 在語種的設置裡,可以看到其目前可以支持104種語言的互譯功能,這是我目前見過的支持語種最多的一款翻譯機,其不僅僅可以適合中國人使用,即使你是其他國家的用戶,依然可以正常的使用Langogo
  • 如何評價Google神經機器翻譯(GNMT)系統?
    有從事翻譯職業的網友甚至這樣形容:作為翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。真有這麼可怕嗎?讓我們先來回顧下Google Translate的發展歷程。幾年前,Google開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網絡機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
  • Google Chrome v74.0.3729.108 正式版發布
    /chrome/AMvTpHhVXHb3_74.0.3729.108/74.0.3729.108_chrome_installer.exehttps://dl.google.com/release2/chrome/AMvTpHhVXHb3_74.0.3729.108/74.0.3729.108_chrome_installer.exehttp://www.google.com
  • 跨語言溝通零障礙,如流支持近30種語言智能翻譯
    隨著全球貿易體系的加深,各國間跨語言溝通需求持續增長,而今年疫情的全球蔓延,更激發了在線交流的需求猛增。因語言不通帶來的溝通問題既影響著各國企業間的商務合作與貿易往來,也阻礙了跨境企業的全球業務拓展。如何打破這種溝通壁壘?
  • 支持近30種語言智能翻譯,百度如流讓跨語言溝通零障礙
    隨著全球貿易體系的加深,各國間跨語言溝通需求持續增長,而今年疫情的全球蔓延,更激發了在線交流的需求猛增。因語言不通帶來的溝通問題既影響著各國企業間的商務合作與貿易往來,也阻礙了跨境企業的全球業務拓展。如何打破這種溝通壁壘?
  • 小米米家翻譯機今日發布,支持8種語言在線拍照翻譯
    打開APP 小米米家翻譯機今日發布,支持8種語言在線拍照翻譯 新浪科技 發表於 2019-11-22 16:34:21 11月22日消息,小米米家翻譯機今日發布,配備4.1英寸大屏,6麥陣列,支持AI自動翻譯,將於11月26日10點首賣,價格為1299元。
  • 為了寫這篇推文,我用Google翻譯了24種語言
    很多面向全球的手機產品發布會都沒有這麼大的關注度吧!為啥回收寶的這個活動有這麼大的能量,能讓這麼多的媒體集體高潮?小編晚上洗澡的時候仔細想了一下,原因有這2個:1.隨著國產手機的崛起,以華為為代表的手機品牌,早已成為國際品牌,在全球都有非常強的競爭力。而iPhone自發售以來,就是全球最成功的硬體產品之一,擁有無可匹敵的影響力。
  • Google拍照即時翻譯功能大升級:可自動識別語言
    60種語言,還能自動識別語言並進行翻譯,同時加入神經機器翻譯技術以帶來更好的翻譯質量。首先,拍照即時翻譯新增超過60種語言,新加入的語言包括阿拉伯文、印度文、馬來文、泰文、越南文等,目前支持88種語言。過去用戶只能在英文和其他語言之間進行互譯,但現在可以將原文翻譯為Google翻譯支持的超過100多種語言。
  • 微軟神經網絡翻譯已支持21種語言 質量提升40%
    微軟神經網絡翻譯已支持21種語言 質量提升40% 時間:2017-11-17 20:41:53
  • 支持33種語言即時互譯、方言翻譯、拍照翻譯 訊飛推出境外自由行...
    中青在線北京4月20日電(中國青年報·中青在線記者 齊徵)今天下午,「世界聊得來」科大訊飛翻譯戰略暨新品上市發布會在北京舉行。    發布會上,訊飛執行總裁胡鬱從機器翻譯進展和產業聯盟合作層面公布了訊飛翻譯機「人類命運共同體、世界語言大互通」的願景,並正式發布訊飛翻譯機2.0。
  • 谷歌神經網絡機器翻譯已支持英語與其他8種語言的互譯
    經過10年的發展, 谷歌翻譯已成為一個連接世界的重要工具,谷歌翻譯支持的語言已達到了103種。
  • Google 翻譯「即時相機翻譯」功能更新升級
    PingWest品玩8月7日訊,根據微信公眾號谷歌黑板報消息,近日,Google 翻譯對「即時相機翻譯」功能在語種數量、自動檢測語言、翻譯準確率、界面友好度等方面都進行了進一步的更新升級。「即時相機翻譯」功能新增了60餘種支持語言,包括阿拉伯語、印地語、馬來語、泰語和越南語。
  • 百度翻譯Q1日活漲40% 已支持200種語言互譯全球最多
    在業內大盤增長整體放緩的前提下,百度翻譯逆勢增長,憑藉良好的用戶口碑,進一步挖掘出翻譯服務市場潛力。此外,百度翻譯還在一個季度內,將翻譯的語種擴充了近7倍,目前百度翻譯支持200種語言互譯,是全球支持語種數量最多的翻譯系統。涵蓋近4萬個翻譯方向,每天來自世界各地的翻譯請求字符量超過千億,相當於2000部大英百科全書,平均每秒鐘就要翻譯超過一百萬字符。
  • 越來越好用 《微軟翻譯》支持圖片翻譯功能
    經過僅半年時間的更新進化,《微軟翻譯》也變得愈加完善與智能。 2015 年 8 月微軟終於將它的翻譯應用帶進了 iOS 和 Android 平臺,雖然功能上並沒有十分牛逼的特性,但是使用體驗對得起自家的名聲。
  • Google翻譯App更新:拍照就可翻譯!
    今天,Google翻譯App更新了!8年來,用戶可通過translate.google.cn訪問網頁版的Google翻譯,現在用戶還可下載Android和iOS版本應用。
  • 蘋果Safari瀏覽器翻譯功能上線更多國家 支持中文、英語等11種語言
    今年 6 月,蘋果在 WWDC 上首次公布 iOS 14 和 macOS Big Sur 時,便為自帶的 Safari 瀏覽器加入了翻譯功能,支持中文、英語等 11 種語言。   蘋果此前並未在所有國家和地區上線 Safari 翻譯功能。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。Facebook 的研究人員在網上收集了 100 種語言的 75 億對句子,然後對翻譯 AI 進行訓練。當然,並非所有語言的句子對數量都相同。Facebook 智能翻譯項目負責人安吉拉範 (Angela Fan) 說:「全球有很多地區使用兩種語言,而且其中並不包括英語。我真正感興趣的是,我們不需要再用英語作為『中間人』。」
  • Google翻譯迎來重要更新,國內用戶體驗不再被閹割
    這次更新包括了:實景翻譯、語音翻譯、離線翻譯,和點按翻譯(僅限 Android 平臺)。即時相機翻譯離線包,沒信號也能用了相機的即時翻譯一直都是 Google 的獨門利器,這次的更新中增添了相機即時翻譯的離線包下載功能。