Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...

2021-01-08 智東西

智東西(公眾號:zhidxcom)編 | 子佩

智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。

為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯數據集,再通過Fairscale等擴展技術建立具有150億個參數的通用翻譯模型,使M2M-100可以從大量語言資料庫中學習,並反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

一、多種技術融合,反向尋找海量數據

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數據來訓練。由於小語種本身缺少可直接使用的大量數據,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數據量會隨語言對數量呈二次增長。

為此,Facebook在XLM-R,一種可以從單語數據中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的數據。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式原始碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的「十億規模」 bitext數據集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外,Facebook還使用反向翻譯(back-translation)來補充數據較少的語料數據:如果目標是訓練一個中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數據譯成中文。在 M2M-100的開發過程中,反向翻譯得到的數據會被添加到挖掘的並行數據中。

在得到的數據中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數據的語言,以便更輕鬆地量化模型的性能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的數據集。

「多年來,人工智慧研究人員一直在努力構建一個單一的、跨語言的通用模型。」Facebook的數據科學家Angela Fan在博客中寫道,「支持所有語言、方言的統一模型將幫助我們更好地為更多的人服務,並為數十億人創造新的翻譯體驗。」

二、「橋接策略」構建語群,節約算力最大化

但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了「橋接策略」,即根據分類、地理和文化相似性將語言分為14個族。

因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求,Facebook研究人員還確定了少數「過渡語言」,即每個語族中一到三種主要語言會作為橋梁轉化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數據,從而獲得上述數據集中的75億個句子。

三、154億參數,只為模型容量最優化

在解決了如何獲取數據和如何有效利用數據後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數用以處理更多語言數據。

M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網絡中的層數以及每層的寬度。基於Zero優化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定參數集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴展到10億參數還不能滿足處理大量數據的需要,最後當將模型規模密集擴展到12億個參數時,才能得到所有語言方向上1.2BLEU的平均提升。

最後當模型參數達154億時,M2M-100可以針對最多的數據訓練額外的模型容量。 「通過將模型容量的密集縮放與特定語言參數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。」Fan說到。

結語:母語者質量評估,消除「偏見」在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。

在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。

除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習算法能防止偏見的產生,且這個問題在數據量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加「公平公正」,但這個過程仍需要時間。

來源:VentureBeat、Facebook

相關焦點

  • 無需依賴英語中介,Facebook 發布可翻譯 100 種語言的 AI 模型
    針對這些問題,最近,Facebook 開發了新的機器翻譯模型,可以不藉助英語直接實現兩種語言的雙向互譯,而且新模型在 BLEU 評估算法下的得分比傳統的藉助英語的模型還高了 10 分。  Facebook 的新模型被稱作 M2M-100,Facebook 宣稱它是第一個多語言機器翻譯模型,可以直接在 100 種語言中的任何一對之間來回翻譯。
  • 谷歌神經網絡機器翻譯已支持英語與其他8種語言的互譯
    經過10年的發展, 谷歌翻譯已成為一個連接世界的重要工具,谷歌翻譯支持的語言已達到了103種。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    選自code.facebook作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin機器之心編譯參與:吳攀、微胖、蔣思源去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 有了訊飛翻譯機3.0 再也不用擔心語言不通
    除了簡單的詞彙記憶和肢體語言,你還需要一臺功能強大的語言翻譯機,不妨試試語言翻譯機中的「戰鬥機」——訊飛翻譯機3.0。作為博鰲亞洲論壇官方指定翻譯機,基於科大訊飛擁有自主智慧財產權的世界領先智能語音技術,註定了訊飛翻譯機3.0「天生不凡」,訊飛翻譯機3.0實現多語言在線互譯、方言識別翻譯、離線翻譯、拍照翻譯及行業翻譯等多種翻譯功能,滿足了不同的場景需求。
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文。Facebook 指出,這種需要以英文為中介的翻譯會導致原意流失或翻譯錯誤,並不適合臉書平臺上160多種語言貼文翻譯的需求。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    2016年的一部《翻譯官》火了,這是國內首部聚焦翻譯領域的電視劇,讓人們對於翻譯行業尤其是同聲傳譯,有了新的認識。但是同時,隨處可見的翻譯機廣告充斥著整個社會:「有了它,媽媽再也不用擔心我出國不會說英語了」,「用超過100種語言探索世界」,如此等等。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    如此巨量的訓練數據僅僅在少數語言對可以獲得,也僅限於少數特定領域,例如新聞領域或官方記錄。事實上,儘管全球共有大約七千種口語,但是絕大多數語言都不具備訓練可用機器翻譯系統所需的大量資源。此外,即使具有大量平行數據的語言,也並沒有口語對話或者社交媒體文本等非正式風格的數據,這通常和正式的書面風格大有不同。
  • 阿里升級機器翻譯,48種語言方向,雙11全球買賣無障礙
    隨著雙11的到來,未來三周內,預計有超過3億用戶訪問面向全球在線交易平臺速賣通,對機器翻譯的需求倍增。阿里巴巴賣家端的調研顯示,約96%的中外中小賣家對小語種無能為力,全球範圍內也缺乏相應語種的翻譯人才。為此,阿里巴巴達摩院在雙11之前升級了機器翻譯技術,幫助速賣通平臺上的中國及全球中小賣家,將產品詳情與評論自動翻譯成當地語言,還實現了實時AI語言翻譯的客戶服務與業務諮詢。
  • 機器翻譯的最新進展與瓶頸所在
    谷歌翻譯目前可提供63種主要語言之間的實時翻譯;它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子、文本和網頁翻譯。另外它還可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其它信息,用戶甚至還能在Gmail內進行實時的多語言對話。
  • Facebook放了個大招,基於CNN的語言翻譯模型快9倍,同傳壓力山大了...
    人類目前使用大約6900種不同的語言,使用漢語、英語、北印度語、西班牙語和俄語這5種語言的人佔了全球人口的一半以上。可事實上,95%的人只使用100多種語言進行交流。 在由機器翻譯大會(WMT)提供的公開標準數據包上的測試表現來看,Facebook全新的翻譯系統的性能要遠超RNNs2。尤其是在CNN模式下的WMT 2014 英語-法語測試中,要比之前的最佳紀錄提高了1.5個BLEU值。
  • 支持108種語言:Google翻譯為啥這麼好用?
    共同的聲音(Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟體創建免費的資料庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。Google表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。
  • 百度發布即時翻譯「神器」 突破自然語言處理重大難關
    中新網10月24日電 人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    谷歌在其博客中寫道:今天我們宣布將神經機器翻譯集成到了總共八種語言的相互翻譯中,它們是:英語、法語、德語、西班牙語、葡萄牙語、漢語、日語、韓語和土耳其語。這些語言的母語總人口佔到了世界總人口的三分之一,覆蓋了谷歌翻譯 35% 以上的請求。通過這一次更新,谷歌翻譯一次性提升的性能超過了過去十年進步的總和。但這只是一個開始。
  • ...規模集成Transformer模型,阿里達摩院如何打造WMT 2018機器翻譯...
    在剛剛結束的 WMT2018 國際機器翻譯大賽上,阿里巴巴達摩院機器智能實驗室機器翻譯團隊打敗多個國外巨頭與研究機構,並在英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯這 5 個項目的自動評測指標 BLEU 分值都位居第一。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    機器之心對該教程進行簡要的描述,跟詳細和精確的內容請查看項目原網站。GitHub 連結:https://github.com/tensorflow/nmt機器翻譯,即跨語言間的自動翻譯,是機器學習社區最活躍的研究領域。在機器翻譯的眾多方法中,序列到序列(sequence-to-sequence,seq2seq)模型 [1, 2] 近期獲得巨大成功。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    同聲傳譯是一項很重要的工作,在國際會議、外交談判、演講等場合,只要交流之間出現了兩種語言,就需要同聲翻譯的幫助,他們會在現場聽取演講,並實時翻譯成另一種語言。而 AI 機器同傳就是把人類翻譯工作的過程用 AI 技術來代替。機器同傳運用語音識別技術自動識別演講者的講話內容,把語音轉化為文字,然後調用機器翻譯引擎,將文字翻譯為目標語言,顯示在大屏幕或者通過語音合成再播放出來。
  • 小米有品翻譯機:內置24個翻譯引擎,支持100多種語言互譯
    在語種的設置裡,可以看到其目前可以支持104種語言的互譯功能,這是我目前見過的支持語種最多的一款翻譯機,其不僅僅可以適合中國人使用,即使你是其他國家的用戶,依然可以正常的使用Langogo