技術編輯:芒果果丨發自 思否編輯部
公眾號:SegmentFault
Facebook 今天開放了 M2M-100 的原始碼,聲稱該算法是第一個能夠在不依賴英語數據的情況下對 100 種語言進行翻譯的算法。
M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。
支持 100 種語言翻譯,為全新語言創建數據Facebook 利用反向翻譯對低資源語言的數據進行了補充,這種方法包括用一種語言培訓模型,並利用它翻譯單語數據,以便用另一種語言創建合成的反向翻譯數據。例如,如果目標是培訓一個中文到法文的翻譯模型,Facebook 的研究人員將培訓一個法文到中文的模型,並將所有單語法文數據翻譯成中文。在 M2M-100 的開發過程中,Facebook 將合成數據添加到語言挖掘中,並為以前未見的語言對創建數據。
M2M-100 基於 XLM-R,Facebook 的多語言模型,可以從一種語言的數據中學習,並用 100 種語言執行任務。
今年 7 月,Facebook 發布了一個支持 51 種不同語言的語音識別模型。最近,該公司詳細介紹了 CRISS 系統,該系統從許多不同語言中挖掘未標記的數據,從而跨語言挖掘句子,並訓練出優秀的模型。
巴黎 Facebook 人工智慧研究中心的數據科學家 Angela Fan 在一篇博文中寫道:「多年來,人工智慧研究人員一直致力於建立一個單一、通用的模型,能夠在不同的任務中理解所有語言。一個支持所有語言、方言和模式的單一模式將有助於我們更好地為更多的人服務,保持最新的翻譯,並為數十億人平等地創造新的體驗。」
對於 M2M-100,Facebook 的研究人員採用了新穎的語言識別技術,從一系列來源中挖掘表面上質量更高的數據。一是語言不可知的句子表示(LASER),二是開放源碼的工具包,它執行自然語言處理模型的零發射傳輸。另外兩個是 CCMatrix,一個用於培訓翻譯模型的「十億規模」雙語數據集,以及 ccaleign,一個跨語言 web 文檔對的大型集合。
多語言機器翻譯的目標是建立一個可以在世界上 7000 多種語言之間進行一對一翻譯的模型,在相似的語言之間共享信息,這有益於資源匱乏的語言對,並可以將其翻譯為該模型從未見過的語言。
想得到能力更強的翻譯模型就需要更大的數據集訓練,但這些數據集創建起來非常費力,所以一些研究人員會將重點放在英語數據集和建模技術上。例如,支持 100 種語言將需要 1000 億個句子對,但是數據和建模方面的這種偏向並不能反映人們如何使用翻譯,並且會導致非英語翻譯的性能下降。
相比之下,Facebook 的 M2M-100 在包含 100 種不同語言的超過 75 億個句子的數據集上進行了訓練。為了構建它,Facebook 研究人員確定了三個標準來指導他們的語言選擇,包括來自不同家族的語言,這些語言具有地域多樣性,並被廣泛使用。
然後他們把範圍縮小到那些有評估數據的項目,以便更容易量化模型的性能。最後,在剩下的種語言中,他們排除了那些無法獲得單語數據的語言。
語言分類得到大量數據集Facebook 的研究人員避免了那些在統計學上很少需要翻譯的對子,比如冰島語、尼泊爾語、僧伽羅語和爪哇語。研究人員還引入了一種新的「橋梁挖掘策略」,根據分類、地理位置和文化相似性將語言分為14個類別。
生活在同一個語言群體中的國家的人們會更經常地交流,並從高質量的翻譯中受益。例如,一個印度家庭可能包括一系列在印度使用的語言,如孟加拉語、印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語。
為了將不同家族的語言聯繫起來,Facebook 的研究人員確定了一小部分「橋梁語言」 ,即每個家族中的一到三種主要語言。例如,印度語、孟加拉語和泰米爾語在數據集中成為了印度-雅利安語支的橋接語言。
然後,他們從這些橋接語言的所有可能組合中挖掘訓練數據,得到了前面提到的 75 億句數據。
Facebook表示,M2M-100 已經在其新聞源上平均每天處理200億次翻譯,並希望新系統能夠提供更好的結果。
開源人工智慧軟體的創建是為了幫助龐大的社交網絡以不同的語言更好地向全球用戶提供內容服務。Facebook 的新翻譯模型不需要依賴英語作為中間的翻譯步驟,可以更好地保留語義。