Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...

2020-12-24 界面新聞

編 |智東西 子佩

智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。

為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯數據集,再通過Fairscale等擴展技術建立具有150億個參數的通用翻譯模型,使M2M-100可以從大量語言資料庫中學習,並反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

一、多種技術融合,反向尋找海量數據

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數據來訓練。由於小語種本身缺少可直接使用的大量數據,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數據量會隨語言對數量呈二次增長。

為此,Facebook在XLM-R,一種可以從單語數據中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的數據。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式原始碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的「十億規模」 bitext數據集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外,Facebook還使用反向翻譯(back-translation)來補充數據較少的語料數據:如果目標是訓練一個中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數據譯成中文。在 M2M-100的開發過程中,反向翻譯得到的數據會被添加到挖掘的並行數據中。

在得到的數據中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數據的語言,以便更輕鬆地量化模型的性能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的數據集。

「多年來,人工智慧研究人員一直在努力構建一個單一的、跨語言的通用模型。」Facebook的數據科學家Angela Fan在博客中寫道,「支持所有語言、方言的統一模型將幫助我們更好地為更多的人服務,並為數十億人創造新的翻譯體驗。」

二、「橋接策略」構建語群,節約算力最大化

但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了「橋接策略」,即根據分類、地理和文化相似性將語言分為14個族。

因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求,Facebook研究人員還確定了少數「過渡語言」,即每個語族中一到三種主要語言會作為橋梁轉化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數據,從而獲得上述數據集中的75億個句子。

三、154億參數,只為模型容量最優化

在解決了如何獲取數據和如何有效利用數據後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數用以處理更多語言數據。

M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網絡中的層數以及每層的寬度。基於Zero優化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定參數集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴展到10億參數還不能滿足處理大量數據的需要,最後當將模型規模密集擴展到12億個參數時,才能得到所有語言方向上1.2BLEU的平均提升。

最後當模型參數達154億時,M2M-100可以針對最多的數據訓練額外的模型容量。 「通過將模型容量的密集縮放與特定語言參數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。」Fan說到。

結語:母語者質量評估,消除「偏見」在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。

在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。

除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習算法能防止偏見的產生,且這個問題在數據量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加「公平公正」,但這個過程仍需要時間。

來源:VentureBeat、Facebook

相關焦點

  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    針對這些問題,最近,Facebook 開發了新的機器翻譯模型,可以不藉助英語直接實現兩種語言的雙向互譯,而且新模型在 BLEU 評估算法下的得分比傳統的藉助英語的模型還高了 10 分。  Facebook 的新模型被稱作 M2M-100,Facebook 宣稱它是第一個多語言機器翻譯模型,可以直接在 100 種語言中的任何一對之間來回翻譯。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。典型的 MT 系統需要為每種語言和每種任務構建單獨的 AI 模型,但這種方法無法在 Facebook 上進行有效推廣,因為人們在數十億個帖子中發布超過 160 種語言的內容。先進的多語言處理系統能夠同時處理多種語言,但由於依賴英語數據來彌合源語言和目標語言之間的差距,在準確性上會有所折中。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據,以更好保留語義。計算BLEU指標,表明其高於以英語中轉的系統約10個百分點。M2M-100總共使用2200種語言進行訓練,這比之前最好的以英語為中心的多語言模型要多10倍。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 200種語言互譯,百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 28種語言互譯、語音翻譯、掃描翻譯 百度輸入法用AI玩轉翻譯
    得益於百度在機器翻譯領域的強大技術實力,百度輸入法實現了英語、韓語、日語、西班牙語等28種高頻使用語言的精準互譯,是目前支持互譯語種最多的輸入法。用戶點擊鍵盤左上角的「熊頭圖標」,在彈出菜單中選擇「快捷翻譯」,輸入框中便增加了一項翻譯框。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 有了訊飛翻譯機3.0 再也不用擔心語言不通
    除了簡單的詞彙記憶和肢體語言,你還需要一臺功能強大的語言翻譯機,不妨試試語言翻譯機中的「戰鬥機」——訊飛翻譯機3.0。 作為博鰲亞洲論壇官方指定翻譯機,基於科大訊飛擁有自主智慧財產權的世界領先智能語音技術,註定了訊飛翻譯機3.0「天生不凡」,訊飛翻譯機3.0實現多語言在線互譯、方言識別翻譯、離線翻譯、拍照翻譯及行業翻譯等多種翻譯功能,滿足了不同的場景需求。
  • 考神的詞典,87種語言互譯,實測網易有道翻譯王3
    作為一名毫無語言天賦的老畢業生,壓箱底的英語四級證含金量可想而知,以至於在出國遊或輔導孩子時,經常被一些簡單的英語問題弄得灰頭土臉。如何應對自身能力之外的事情呢?省力的方法當然是藉助外部工具了,正如手上這臺網易有道翻譯王3,運用得當完全可以及時解決知識難點與交流上的困惑。
  • 訊飛輸入法支持9種語言與中文互譯 溝通無國界交流更順暢
    比如訊飛輸入法Android和iOS新版結合人工智慧尤其是機器翻譯技術的更新,實現了9種語言與中文的即時翻譯,不僅擴展了翻譯語種,還保證了翻譯的精準度,讓你的表達充滿國際範。擁有多語種翻譯究竟有何厲害之處?對外語小白而言,與外國人溝通是一件犯難的事,一般都會經歷以下歷程。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 翻譯精準度高,科大訊飛翻譯機語言覆蓋全球多個國家
    雖然英語被公認為國際通用語言,但很多國人就連最基本的問候也說不出口,何況與歪果仁正常交流呢?而說到學習英語,有些人輕而易舉的便能通... 雖然英語被公認為國際通用語言,但很多國人就連最基本的問候也說不出口,何況與歪果仁正常交流呢?
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 一款十分出色的【翻譯工具】幾十種語言互譯
    界面美觀大方,功能強勁,支持幾十種不同語言的互譯,支持對多段文字進行快速的翻譯,使用起來簡單便捷。CopyTranslator還有豐富的選項可以設置,有效提高人們閱讀及翻譯外文文獻的效率。1、支持多個國家的語言識別,需要翻譯的文字類型都可以在軟體找到;2、只需複製文本到剪貼板,下一秒即可查看翻譯結果,享受所見即所得的快感;3、解決多餘的斷句和換行帶來的亂碼問題,翻譯結果更符合閱讀習慣;4、限接近劃譯的系統級開源實現
  • 百度翻譯Q1日活漲40% 已支持200種語言互譯全球最多
    在業內大盤增長整體放緩的前提下,百度翻譯逆勢增長,憑藉良好的用戶口碑,進一步挖掘出翻譯服務市場潛力。此外,百度翻譯還在一個季度內,將翻譯的語種擴充了近7倍,目前百度翻譯支持200種語言互譯,是全球支持語種數量最多的翻譯系統。涵蓋近4萬個翻譯方向,每天來自世界各地的翻譯請求字符量超過千億,相當於2000部大英百科全書,平均每秒鐘就要翻譯超過一百萬字符。
  • 訊飛翻譯機3.0評測:支持多語言互譯 堪稱出國必備神器
    然而不可否認的是,語言不通卻成為出國人群面臨的最大阻礙。有調查統計,現在世界上查明的語言超過5000種。可想而知,對於跨國商務人士或是經常出國旅遊的朋友來說,在溝通上將面臨巨大的挑戰,特別是沒有相關語言基礎的人群,在國外可就舉步維艱了。於是,很多廠商開始研發翻譯機產品,它的出現可以說有效的解決了交流困難的窘境,並且逐漸成為出國人群眼中的熱門產品。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    如果假設把源語言和目標語言都視作一個獨立的時間序列數據,那麼機器翻譯就是一個序列生成任務,如何實現一個序列生成任務呢?源語言與目標語言的句子雖然語言、語序不一樣,但具有相同的語義,Encoder在將源語言句子濃縮成一個嵌入空間的向量C後,Decoder能利用隱含在該向量中的語義信息來重新生成具有相同語義的目標語言句子。總而言之,Seq2Seq神經翻譯模型可模擬人類做翻譯的兩個主要過程:編碼器Encoder解譯來源文字的文意;解碼器Decoder重新編譯該文意至目標語言。
  • 跨語言溝通零障礙,如流支持近30種語言智能翻譯
    百度新一代智能工作平臺如流基於業界領先的機器翻譯實力,提供了化解之道——智能翻譯功能。「輕輕的我走了,正如我輕輕的來」「Gently I left, As I come gently」「我輕輕的招手」「そっと手を振る」「……」詩歌堪稱翻譯界最具難度和挑戰的「技術天花板」,而在視頻中我們看到,如流的智能翻譯功能可支持包括英語、日語、韓語、法語、俄語、德語等在內的近30種語言的自動翻譯,並且在翻譯詩歌《再別康橋