最強翻譯?Facebook AI可以直接翻譯100種語言

2020-12-18 DeepTech深科技

近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。

圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)

在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。

Facebook 的研究人員在網上收集了 100 種語言的 75 億對句子,然後對翻譯 AI 進行訓練。當然,並非所有語言的句子對數量都相同。Facebook 智能翻譯項目負責人安吉拉範 (Angela Fan) 說:「全球有很多地區使用兩種語言,而且其中並不包括英語。我真正感興趣的是,我們不需要再用英語作為『中間人』。」

該翻譯 AI 的訓練方法關注的是那些通常需要相互切換的語言,然後根據地理和文化相似性將語言分為 14 個不同的集合。這確保了對更常用的交流進行高質量的翻譯,並更準確地訓練模型。

對於一些語言對來說,新翻譯系統比現有的翻譯質量有了顯著提高。例如,將西班牙語翻譯成葡萄牙語的難度特別大,因為西班牙語是世界上使用人數第二多的官方語言,這意味著研究人員可以獲得大量的訓練數據。英語和白俄羅斯語之間的翻譯質量也比現有系統有所提高,因為白俄羅斯語和俄語有相似之處,AI 通過翻譯俄語進行了訓練。

目前該系統還沒有在社交網站上使用,但 Facebook 計劃很快將其投入使用。Facebook 希望藉助它來處理人們每天使用 160 多種語言撰寫的帖子時產生的 200 億份翻譯任務。未來,Facebook 還將解決其他語言上的翻譯難題,Fan 說,「特別是那些我們沒有很多數據的語言,比如東南亞和非洲的語言。」

愛爾蘭都柏林聖三一大學 ADAPT 中心的 Sheila Castilho 說,這項工作 「打破了以英語為中心的翻譯模式,並試圖建立更多樣化的多語言翻譯模式,讓人耳目一新。」 但 Castilho 表示,人類只評估考察了一小部分翻譯實例,這是否是對人工智慧表現的準確判斷尚未可知。

她還擔心,這項評估是由雙語志願者完成的,而不是專業的翻譯人員。她說:「非專業人士缺乏翻譯知識,因此可能不會注意到一個翻譯比另一個翻譯更好的細微差別。」

她在 ADAPT 中心的同事 Andy Way 認為,Facebook 並沒有和最先進的翻譯系統進行公平的比較。他說:「他們聲稱新系統比『以英語為中心』的翻譯模式有了很大的進步,這種說法有點空洞,因為大多數時候,人們已經不這麼做了」。然而 Facebook 不同意這種說法,稱通過英語翻譯仍然是普遍現象。

相關焦點

  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • Facebook新AI模型可以直接對譯100種語言
    不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文本內容都翻譯成當地語言。 不過你可能不知道的是,多數翻譯系統都是將英語作為中介語言來進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文先翻成英語再由英文翻成法語。
  • Facebook新AI可以將語言實時相互翻譯
    無論您是從美國,巴西,婆羅洲還是法國登錄,Facebook都可以使用自動機器翻譯將其平臺上發布的幾乎所有書面內容翻譯成本地語言。實際上,僅Facebook的「新聞提要」每天就提供約200億筆翻譯。但是,這些系統通常使用英語作為中介步驟-也就是說,從中文到法語的翻譯實際上是從中文到英語到法語的翻譯。這樣做是因為往返於英語的翻譯數據集非常龐大且廣泛可用,但是將英語置於中間會降低整體翻譯的準確性,同時使整個過程變得比所需的更為複雜。這就是為什麼Facebook AI開發了一種新的MT模型,該模型可以在不使用英語的情況下直接在兩種語言(中文到法語以及法語到中文)之間進行雙向翻譯。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。
  • 28種語言互譯、語音翻譯、掃描翻譯 百度輸入法用AI玩轉翻譯
    得益於百度在機器翻譯領域的強大技術實力,百度輸入法實現了英語、韓語、日語、西班牙語等28種高頻使用語言的精準互譯,是目前支持互譯語種最多的輸入法。用戶點擊鍵盤左上角的「熊頭圖標」,在彈出菜單中選擇「快捷翻譯」,輸入框中便增加了一項翻譯框。
  • AI加碼 谷歌翻譯又添離線功能 支持59種語言
    智東西 編 | 曹心緣導語:谷歌稱新版離線翻譯將適用於任何手機,目前支持59種語言。近日,谷歌宣布推出基於神經機器翻譯(NMT)技術的離線翻譯。如果你沒有無限的移動數據,或者你的語言在國際上難以通行,現在可以從Google的Android和iOS應用下載並使用谷歌離線翻譯應用。此前,你很可能在手機上安裝了隨時可以翻譯外語的離線字典應用。然而,由於不同語種的差異性,無論你是試圖翻譯外國菜單或者店面,你都會發現這些逐字逐句的翻譯並不能幫助你完全理解一門外語。當你試圖翻譯有不同語法和詞根的語言時,即使是AI翻譯也難保沒有錯誤。
  • Google翻譯的相機現在支持60種語言
    今年夏天出國旅行,並且不會在目的地說當地語言嗎?Google翻譯移動應用可能是救生員。Google本周更新了該應用程式的即時相機翻譯功能,該功能使您只需將相機鏡頭對準外來文字,即可翻譯餐廳的菜單,招牌,甚至手寫的便條。該更新增加了對其他60種語言的支持,包括阿拉伯語,印地語,馬來語,泰語和越南語。
  • Google的iOSGboard可以將文本翻譯成103種語言
    這個月,Gboard的更新是關於您只需花費很少的精力就可以將文本翻譯成多種不同語言的功能。Gboard for iOS的1.42.0版本於3月14日發布,最顯著的新功能是鍵盤可以利用Google Translate進行操作。您使用鍵盤輸入的任何內容都可以自動翻譯為「翻譯」為它支持的任何語言。
  • 谷歌翻譯困境破局:AI不是人,為什麼也會有性別偏見?
    例如,當一種職業在60%-70%的情況下都是由男性承擔的,那麼翻譯系統就會學習到這一特徵,而在產出翻譯時,把這種職業100%地歸屬於男性,這一點就是Google Translate需要解決的問題。 使用了「神經機器翻譯」技術的Google Translate可以產出更加自然、順暢的譯文,也具備了產出不同風格文本的潛力(如正式場合使用的語言風格或者生活中使用的俗語俚語風格)。
  • Facebook自然語言處理新突破:新模型能力趕超人類&超難NLP新基準
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • 有道翻譯王2.0 Pro體驗:懂43種語言,離線翻譯更快
    比如精通43種語言在線翻譯,中英翻譯質量超過專業八級水準,中、英、日、韓4中語言無WiFi無網絡也能翻譯,服務全球7億人.......似乎在回答消費者每一個疑問。仔細想來,一個翻譯硬體吸引用戶的不僅僅是外觀,更重要的是實力,這顯然是網易有道團隊想傳遞給友商和消費者的信息之一。
  • 搜狗翻譯筆詮釋品質?語言類喜愛的翻譯筆
    在生活中,一些學習語言的人或是語言愛好者,都會擁有幾支自己喜歡的翻譯筆。翻譯筆不僅在日常學習中有著較大的用途,而且也適合拿著翻譯筆與外國人進行交流,可以穩步地提升學習語言水平。語言類專業的人喜愛的翻譯筆有很多,有的人喜歡翻譯搭配錄音功能同時存在的翻譯筆,也有的人喜歡通過掃描就可以翻譯的掃描翻譯筆,無論是選擇哪一款,注重品質是關鍵。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。Mozilla致力於建立一個開源的語音轉錄數據收集平臺Common Voice,自2017年6月推出以來也只審查了40種語音。
  • 搜狗旅行翻譯寶新增6種語言翻譯
    隨著4月的到來,清明節、勞動節、端午節等一連串的法定假日即將紛紛報到,在全世界迎來出境遊旺季的同時,翻譯市場的需求也愈加火熱。3月新上市的搜狗旅行翻譯寶,也在4月3日發布了重磅更新,語音翻譯新增越南語、希臘語、捷克語、羅馬尼亞語、斯洛維尼亞語、匈牙利語等六種語言,目前已支持24種語言互譯。此外,拍照翻譯現已新增日文在線,目前支持中日英互譯。
  • 200種語言互譯,百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 一場跨越18種語言的翻譯實驗
    《多重翻譯:61名作家以18種語言翻譯的12個故事》(Multiples: 12 Stories in 18 Languages by 61 Authors),波多貝羅圖書公司2013年8月,448頁。
  • 百度翻譯引擎突破了200種語言的翻譯,全球交流不再是問題
    近日,百度大腦開放日舉辦了以「機器翻譯溝通全世界」為主題的專場活動,該活動主要為了向大家展示百度翻譯已經突破了200種語言的互翻,也向大家說明了機器翻譯的重要性。眾所周知,語言是跨國交流的一大障礙。雖然說現在的英語是全世界通用的語言,但是畢竟還是有很大一部分並不會說外語。除了口語交流之外,一些文件的翻譯也非常困難,即使每個公司都會有專業的翻譯人員,但是人工翻譯不僅浪費時間而且效率還低,但是當擁有了智能翻譯之後呢?如果機翻可以發展到一定水平的時候,完全可以取代人為翻譯工作,而且比人工的效率更高。