Facebook 開源翻譯模型,可處理 100 種不同語言,無需英語作為中間步驟

2021-02-18 SegmentFault

技術編輯:芒果果丨發自 思否編輯部
公眾號:SegmentFault

Facebook 今天開放了 M2M-100 的原始碼,聲稱該算法是第一個能夠在不依賴英語數據的情況下對 100 種語言進行翻譯的算法。

M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。

支持 100 種語言翻譯,為全新語言創建數據


Facebook 利用反向翻譯對低資源語言的數據進行了補充,這種方法包括用一種語言培訓模型,並利用它翻譯單語數據,以便用另一種語言創建合成的反向翻譯數據。例如,如果目標是培訓一個中文到法文的翻譯模型,Facebook 的研究人員將培訓一個法文到中文的模型,並將所有單語法文數據翻譯成中文。在 M2M-100 的開發過程中,Facebook 將合成數據添加到語言挖掘中,並為以前未見的語言對創建數據。

M2M-100 基於 XLM-R,Facebook 的多語言模型,可以從一種語言的數據中學習,並用 100 種語言執行任務。

今年 7 月,Facebook 發布了一個支持 51 種不同語言的語音識別模型。最近,該公司詳細介紹了 CRISS 系統,該系統從許多不同語言中挖掘未標記的數據,從而跨語言挖掘句子,並訓練出優秀的模型。

巴黎 Facebook 人工智慧研究中心的數據科學家 Angela Fan 在一篇博文中寫道:「多年來,人工智慧研究人員一直致力於建立一個單一、通用的模型,能夠在不同的任務中理解所有語言。一個支持所有語言、方言和模式的單一模式將有助於我們更好地為更多的人服務,保持最新的翻譯,並為數十億人平等地創造新的體驗。」

對於 M2M-100,Facebook 的研究人員採用了新穎的語言識別技術,從一系列來源中挖掘表面上質量更高的數據。一是語言不可知的句子表示(LASER),二是開放源碼的工具包,它執行自然語言處理模型的零發射傳輸。另外兩個是 CCMatrix,一個用於培訓翻譯模型的「十億規模」雙語數據集,以及 ccaleign,一個跨語言 web 文檔對的大型集合。



多語言翻譯可處理模型從未見過的語言


多語言機器翻譯的目標是建立一個可以在世界上 7000 多種語言之間進行一對一翻譯的模型,在相似的語言之間共享信息,這有益於資源匱乏的語言對,並可以將其翻譯為該模型從未見過的語言。

想得到能力更強的翻譯模型就需要更大的數據集訓練,但這些數據集創建起來非常費力,所以一些研究人員會將重點放在英語數據集和建模技術上。例如,支持 100 種語言將需要 1000 億個句子對,但是數據和建模方面的這種偏向並不能反映人們如何使用翻譯,並且會導致非英語翻譯的性能下降。

相比之下,Facebook 的 M2M-100 在包含 100 種不同語言的超過 75 億個句子的數據集上進行了訓練。為了構建它,Facebook 研究人員確定了三個標準來指導他們的語言選擇,包括來自不同家族的語言,這些語言具有地域多樣性,並被廣泛使用。

然後他們把範圍縮小到那些有評估數據的項目,以便更容易量化模型的性能。最後,在剩下的種語言中,他們排除了那些無法獲得單語數據的語言。

語言分類得到大量數據集


Facebook 的研究人員避免了那些在統計學上很少需要翻譯的對子,比如冰島語、尼泊爾語、僧伽羅語和爪哇語。研究人員還引入了一種新的「橋梁挖掘策略」,根據分類、地理位置和文化相似性將語言分為14個類別。

生活在同一個語言群體中的國家的人們會更經常地交流,並從高質量的翻譯中受益。例如,一個印度家庭可能包括一系列在印度使用的語言,如孟加拉語、印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語。

為了將不同家族的語言聯繫起來,Facebook 的研究人員確定了一小部分「橋梁語言」 ,即每個家族中的一到三種主要語言。例如,印度語、孟加拉語和泰米爾語在數據集中成為了印度-雅利安語支的橋接語言。

然後,他們從這些橋接語言的所有可能組合中挖掘訓練數據,得到了前面提到的 75 億句數據。

Facebook表示,M2M-100 已經在其新聞源上平均每天處理200億次翻譯,並希望新系統能夠提供更好的結果。

開源人工智慧軟體的創建是為了幫助龐大的社交網絡以不同的語言更好地向全球用戶提供內容服務。Facebook 的新翻譯模型不需要依賴英語作為中間的翻譯步驟,可以更好地保留語義。

相關焦點

  • Facebook 開源翻譯模型,可處理 100 種語言,無需英語作中間步驟
    Facebook 今天開放了 M2M-100 的原始碼,聲稱該算法是第一個能夠在不依賴英語數據的情況下對 100 種語言進行翻譯的算法。M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。
  • Facebook開源新AI語言模型,「可對100種語言實現一對一翻譯」
    根據《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數據的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。
  • Facebook推出首個無需依賴英語即可翻譯100種語言的AI模型
    Facebook AI 將推出 M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在 100 種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。M2M-100 總共訓練了 2200 個語言方向,比以前最好的以英語為中心的多語言模型多了 10 倍。部署 M2M-100 可以為數十億人提高翻譯質量,特別是那些使用低資源語言的人。
  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    不過你可能不知道的是,多數翻譯系統都是將英語作為中間語言進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文到英語再到法語的。這麼做的原因是因為英語翻譯的數據集(包括譯入和譯出)非常多而且容易獲得。但是,用英語作為中介語總體上降低了翻譯的準確性,同時讓整個流程更加複雜臃腫。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據,以更好保留語義。計算BLEU指標,表明其高於以英語中轉的系統約10個百分點。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據,以更好保留語義。計算BLEU指標,表明其高於以英語中轉的系統約10個百分點。M2M-100總共使用2200種語言進行訓練,這比之前最好的以英語為中心的多語言模型要多10倍。
  • Facebook開源M2M-100模型:輕鬆翻譯上百種語言
    Facebook於10月19日開放了M2M-100模型的原始碼 (Github),並聲稱這是首個不以英語為中介就能實現100多對語言互譯的算法。M2M-100機器學習模型經過了2000多對語言翻譯的訓練,在機翻常用評估標準下,其翻譯質量明顯優於其他以英語為中介的模型。
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文
  • Facebook人工智慧開源多語言機器翻譯模型
    Facebook AI是開源的M2M-100,一種多語言機器翻譯模型(MMT),可以翻譯100種語言中的任何一對而不依賴於英語。Facebook搭建全球溝通網絡MMT被認為更準確,因為它不需要使用英語作為媒介。
  • ...100種語言互譯模型原始碼公開!機器翻譯再也不用英語當媒介了?
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • Facebook 開源增強版 LASER 庫:可實現 93 種語言的零樣本遷移
    而近日,Facebook 開源了擴展和改進後的 LASER 工具包,該工具包可應用於使用 28 種不同的字符串編寫的 90 多種語言。 LASER 開源「大禮包」中一同開源的還有多語言編碼器、PyTorch 代碼,以及面向 100 多種語言的多語言測試集。Facebook 將這項成果在其官網上進行了報導,雷鋒網(公眾號:雷鋒網) AI 科技評論編譯如下。
  • Facebook將能夠翻譯多達100種語言
    Facebook開發了第一個多語言機器翻譯模型,無需使用英語作為中介即可翻譯多達100種語言。該系統稱為M2M-100,使用人工智慧。根據Facebook研究助理Angela Fan的說法,這是朝著理解不同任務中所有語言的通用模型邁出的重要一步。該公司尚未發布有關何時實施該模型的信息。到目前為止,技術只是一個研究項目。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • VOA英語:Facebook開發出100種語言的機器翻譯系統
    美國之音是一家提供45種語言服務的動態的國際多媒體廣播電臺。Facebook開發了第一個可以在100種語言的任意兩種之間進行翻譯,而無需先翻譯成英語的機器學習模型。Facebook says the new multilingual machine translation model was created to help its more than two billion users worldwide.
  • Facebook新AI模型可以直接對譯100種語言
    不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文本內容都翻譯成當地語言。 不過你可能不知道的是,多數翻譯系統都是將英語作為中介語言來進行的翻譯工作。也就是說,在把中文翻譯成法語時其實是中文先翻成英語再由英文翻成法語。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 先查資料,再答題,Facebook開源檢索增強型語言模型,最...
    這篇名為《檢索增強生成處理知識密集型NLP任務》的論文表明,RAG預訓練模型在微調下遊任務時,同樣可以達到最佳結果。不同的是,與其他如預訓練模型相比,它可以對內部知識進行隨時補充和調整,無需浪費時間或因計算能力重新訓練整個模型。