無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型

2020-12-18 雷鋒網

譯者:AI研習社(季一帆)

雙語原文連結:Is The Data Science Profession At Risk of Automation?



  • Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。

  • 由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據,以更好保留語義。計算BLEU指標,表明其高於以英語中轉的系統約10個百分點。

  • M2M-100總共使用2200種語言進行訓練,這比之前最好的以英語為中心的多語言模型要多10倍。通過M2M-100模型,將有助於十億人的翻譯工作,對於低資源語言的翻譯提升更加顯著。

  • Facebook AI經多年在機器翻譯方面的耕耘,如今終於實現該裡程碑式的結果。接下來,我們將介紹具體的研究工作,包括為100種語言建立的翻譯訓練數據、模型的細節和訓練。同時,我們還將開源該模型,並發布模型的訓練和評估設置,以方便其他研究人員的復現,以此為基礎進一步推動多語言模型的發展。

機器翻譯(MT)能夠打破語言障礙,將不同語種的人團結起來,為不同人群提供有關COVID的權威信息以幫助他們避免感染。得益於我們在低資源機器翻譯及翻譯質量評估的最新研究與進展,現在,我們每天能夠在Facebook News Feed上提供近200億次翻譯。

典型的MT系統需要對不同語言和任務單獨構建翻譯模型,然而,這樣的方式卻並不適合Facebook,因為在Facebook上,有超過160種語言發布的數十億條內容。現在的多語言系統雖然可以一次處理多種語言,但卻是通過英語數據作為源語言和目標語言之間的中轉,從而降低了準確性。因此,我們需要一個真正的多語言機器翻譯(MMT)模型,該模型可以在任何語言之間直接進行翻譯,這將為我們的社區提供更好的服務。

我們已經在Facebook對MT進行了多年的研究,現在終於可以自豪的宣布:我們首次構建了一個的大型MMT模型,該模型可以在100種不同語言之間直接進行翻譯,而無需依賴英語作為中轉語言。同時,我們的多語言模型的表現完全不弱於傳統的雙語模型,甚至要比以英語為中轉的多語言模型提高了10個BLEU點。

通過新穎的挖掘策略,我們首次構建了一個真正的「多對多」翻譯數據集,該數據集有75億個句子,涵蓋100種不同語言。最終,我們構建了一個具有150億個參數的通用模型,該模型可以捕獲相關語言的信息,並能夠學習更加多樣化的語言和形態特徵。開源地址見此。

不同語言的億萬訓練語句挖掘

建立多對多MMT模型的最大障礙之一是訓練數據,即不同語言之間直接的高質量翻譯數據,而不是以英語作為中間語言。然而現實情況是,比起法語和中文的直接翻譯數據,中文和英文以及英語和法語的翻譯數據更易獲取。此外,訓練所需的數據量與支持語言的數量成正比,例如,如果每種語言需要需要10M句子對,那麼10種語言就是1B句子對,100種語言需要100B句子對。

構建包含100種語言的75億句子對的多對多MMT數據集是艱巨的任務,由於我們多年來積累了不同的數據挖掘資源,包括ccAligned,ccMatrix和LASER,因此構建該數據集是可行的。為此,我們創建了新的LASER 2.0,改進了fastText語言識別,從而提高挖掘質量,相關的訓練與評估腳本也會開源。當然,所有這些數據都是開源合法的。

Facebook AI提出的多對多的多語言模型是多年研究的結晶,MT模型、數據資源和優化技術等方面均是開創性的。本文會重點介紹一些主要成就。除此之外,我們通過挖掘ccNET創建了龐大的訓練數據集,該數據集是基於fastText的(fastText是處理單詞表示的重要方法);基於CCMatrix的LASER庫可將句子嵌入多語言嵌入空間中;CCAligned則能夠根據URL匹配來對齊文檔。進一步,我們開發了改進版本LASER 2.0。

即使使用LASER 2.0等先進技術,挖掘100種不同語言/4450種可能語言對中的任意一類訓練數據也需要大量的計算。由於數據規模巨大,為方便管理,我們首先關注翻譯請求最多的語言。因此,我們綜合數據規模和數據質量對挖掘目標進行優先排序,捨棄了對極冷門語言的數據挖掘,如冰島語-尼泊爾語或僧伽羅語-爪哇語。

接下來,我們引入一種新的過渡挖掘策略,該策略根據地理和文化相似性將語言分為14個語言組。之所以這樣做,是因為相同國家或地區中的人們會有更多的交流,這樣的翻譯數據質量更高。例如,將印度地區的語言分為一組,包括孟加拉語,北印度語,馬拉地語,尼泊爾語,泰米爾語和烏爾都語。類似的,我們系統挖掘了不同組的全部語言對。

為了在不同組的語言之間建立聯繫,我們從每組中選擇少量過渡語言,一般是一到三種主要語言。在上端的示例中,我們選擇印地語,孟加拉語和泰米爾語作為印度雅-利安語言的過渡語言。然後,我們並行挖掘了過渡語言2200種組合的所有數據,最終得到包含75億條數據的訓練集。由於翻譯數據是可以在兩種語言之間相互進行訓練的(如en-> fr和fr-> en),因此我們的挖掘策略採用高效的稀疏挖掘方式,通過一個模型就能實現100x100(共9,900個)種組合的數據挖掘工作。

在並行挖掘過程中,會得到一些低質量、低資源的翻譯數據,基於此,我們採用反向翻譯方法對這類數據進行擴充,該方法幫助我們在2018年和2019年的WMT國際機器翻譯比賽中獲得第一名。具體而言,如果我們的目標是訓練漢語到法語的翻譯模型,那麼我們首先會訓練法語到漢語的模型,然後將法語反譯成漢語。我們發現,在數據規模較大時(如上億語句)該方法非常有效。本研究中,我們使用反向翻譯的合成數據對挖掘數據集進行擴充,同時,我們還使用反向翻譯為那些未標註的語言對創建訓練數據。

總體而言,相比僅依賴挖掘數據訓練的模型,結合過渡策略和反向翻譯的訓練數據學習到的模型在100個反向翻譯任務中BLEU平均提升約1.7。有了豐富、高質量的訓練數據集,多對多翻譯模型成為可能。

此外。我們還發現,對於沒有訓練數據的一個語言對,零樣本(zero-shot)想過顯著。例如,如果模型的訓練數據只有法語-英語和德語-瑞典語,通過zero-shot我們可以在法語和瑞典語之間實現翻譯。我們的M2M-100模型也表明,對於沒有訓練數據的語言對,融合zero-shot的多語言模型表現優於以英語作為過渡的多語言模型。

MMT模型-150億參數,翻譯快又準

多語言翻譯中的一個挑戰是,單一模型必須要能夠從不同語言獲取信息。為此,通常的方法是增大模型,添加面向特定語言類型的參數。同時,過量訓練數據訓練的模型包含一些無關參數,捨棄這類參數不僅會壓縮模型,還避免了這些參數對翻譯任務的幹擾。最終,我們當將模型大小縮放到含120億參數,發現在不同語言的翻譯任務中BLEU平均提升約1.2,但隨著參數的繼續減少,模型性能開始下降。這樣,通用多語言翻譯模型含120參數,加上面向特定語言的32億稀疏參數,最終的模型有150億參數。


我們將該模型與雙語基準模型和以英語作為過渡的多語言模型進行比較,如上圖所示。第一行表示由24個編碼器層和24個解碼器層組成的包含12億參數的基線模型,第二行是以英語為過渡的的多語言翻譯模型。接下來,分別是包含12億參數和120億參數的M2M-100模型,可以看到,更多參數的模型BLEU提升1.2。

通過增加Transformer的層數以及每層的寬度,我們訓練得到更大的模型,該模型依然訓練高效、收斂快遞。值得注意的是,該多對多翻譯系統首次應用了Fairscale——一個是專用於pipeline和張量並行運算的新的PyTorch庫。我們建立了通用架構,以通過Fairscale並行訓練大型模型,避免了單GPU的限制。同時,我們應用ZeRO優化器,層內模型並行和pipeline模型並行來加快模型訓練。

然而,120億參數的多語言翻譯模型是不夠的,我們要訓練更準確高效的模型。現在有許多研究工作使用多模型集成方法,即訓練多個模型,並將其用於相同源語句進行翻譯。為降低多個模型訓練的複雜性和計算量,我們引入多源自組技術,該技術將源句子翻譯成多種語言以提高翻譯質量。參照LayerDrop和Depth-Adaptive,我們訓練得到一個具有公共主幹和不同語言特定參數集的模型。該方法能夠按語言對或語言族將模型進行分塊,非常適用多對多模型。最終,將壓縮的多語言模型參數(12B)與特定語言參數(約3B)相結合,我們的模型不僅能像大型模型那樣具有廣泛擴展性,同時還能面向不同語言進行針對處理。

全力打破不同語言間的壁壘

多年來,人工智慧研究人員一直在努力構建一個能夠理解所有語言的通用模型。這樣一個支持所有語言或方言的通用模型將為所有人提供更好的服務,令人滿意的翻譯將打破數十億人的語言壁壘,讓他們更加平等的了解這個世界。這項工作使我們更加接近了這一目標。

在長久的研究中,我們在預訓練語言模型,微調和自我監督學習等方面發展迅速,研究成果振奮人心。這一系列的研究將進一步提高我們的系統使用未標記的數據來理解低資源語言文本的能力。例如,XLM-R是一個強大的多語言模型,它可以僅從一種語言數據中進行學習,然後擴展到100種語言。針對多語言BART任務,mBART是首次預訓練全模型之一。最近,我們提出新的自我監督方法CRISS,通過許多不同語言的未標記數據來挖掘不同語言的並行句子,迭代訓練更好的多語言模型。

我們將持續關注前沿進展,學習最新技術,探索MT系統的部署方式以及更加專業的計算架構,以繼續改進翻譯模型。

GitHub

https://github.com/pytorch/fairseq/tree/master/examples/m2m_100 


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • Facebook新AI模型可以直接對譯100種語言
    針對這些問題,最近,Facebook開發了新的機器翻譯模型,可以不藉助英語直接做到兩種語言的雙向互譯,而且新模型在BLEU評估算法下的得分比傳統的藉助英語的模型還高了10分。Learn morehttps://t.co/9nszUF5nTj#t9n#machinetranslationpic.twitter.com/57kqbParp1 Facebook的新模型被稱作M2M-100,Facebook宣稱它是第一個多語言機器翻譯模型,可以直接在100種語言中的任何一對之間來回翻譯。
  • 谷歌發布含 7 種語言的全新數據集:有效提升 BERT 等多語言模型...
    雷鋒網 AI 開發者按:近日,谷歌發布了包含 7 種語言釋義對的全新數據集,即:PAWS 與 PAWS-X。BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升;其它先進的模型也能夠利用該數據集將精度提高到 85-90%。谷歌希望這些數據集將有助於推動多語言模型的進一步發展,並發布了相關文章介紹了該數據集,雷鋒網 AI 開發者將其整理編譯如下。
  • Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 陪伴、智能、可依賴……百度「翻譯雞」以AI之力打破跨語言溝通障礙
    百度翻譯雞細節展示  今年是百度翻譯九周年,為了讓百度翻譯的調性更年輕更具有親和力,設計團隊為「百度翻譯」塑造翻譯雞這一全新品牌形象,不斷迭代打磨,貫徹品牌的關鍵詞——陪伴,智能,可依賴。200+語種互譯助力全球疫情  在2020新冠疫情期間,產品推出多項防疫服務,在及時準確地向全球範圍內共享疫情信息中發揮著作用。
  • BERT是否完美,語言模型又是否真正地「理解了語言」呢?
    直覺上模型至少某種程度上「理解了語言」才能如此有效 -- 如 Sebastian Ruder 在一篇文章 [1]中所稱,要解決語言建模 (Language Modeling) 這個任務,語言模型 (Language Model) 需要同時學到句法 (Syntax) 和語義 (Semantics)。以 BERT 為代表的語言模型是否真的「理解了語言」?
  • 7天8卡訓練32種語言,字節跳動推出多語言預訓練新範式mRASP
    趙元任極富語言天才,當時已經會說保定話、常州話、福州話、南京話等多地方言和英語。他在陪同羅素從上海到長沙的船上跟同船的經濟學家楊瑞六學長沙話,船到長沙靠岸,趙元任已經能把羅素的演講和俚語翻譯成長沙話了。神經網絡翻譯能否成為「機器翻譯界的趙元任」呢?即創造一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。
  • 200種語言互譯,百度翻譯打破世界溝通壁壘
    IDC 數據顯示,到2021年底,超過70%具有海外業務的中國企業將不同程度的採用機器翻譯,應用場景也將更為豐富。自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 28種語言互譯、語音翻譯、掃描翻譯 百度輸入法用AI玩轉翻譯
    而百度輸入法憑藉強大的AI技術加持,對此提供了自己的「化解之道」,幫用戶在日常交流時解決語言難題。得益於百度在機器翻譯領域的強大技術實力,百度輸入法實現了英語、韓語、日語、西班牙語等28種高頻使用語言的精準互譯,是目前支持互譯語種最多的輸入法。用戶點擊鍵盤左上角的「熊頭圖標」,在彈出菜單中選擇「快捷翻譯」,輸入框中便增加了一項翻譯框。
  • 「雲上曲率」以AI翻譯幫助遊戲...
    除專注於口語化聊天的「實時翻譯系統」外,雲上曲率的另一款核心產品「內容審核系統」是基於自研的深度學習和內容審核模型,在千億級語料的支撐下,自動識別文本、圖片、音頻中出現的涉政、色情、暴恐、辱罵、廣告等敏感內容,比如審核用戶聊天內容,自定義上傳的頭像、籤名、工會介紹等,幫助遊戲廠商降低業務違規風險,淨化網絡環境,提升用戶體驗。
  • 「雲上曲率」以AI翻譯幫助遊戲開拓海外市場|遊戲創新專訪
    除專注於口語化聊天的「實時翻譯系統」外,雲上曲率的另一款核心產品「內容審核系統」是基於自研的深度學習和內容審核模型,在千億級語料的支撐下,自動識別文本、圖片、音頻中出現的涉政、色情、暴恐、辱罵、廣告等敏感內容,比如審核用戶聊天內容,自定義上傳的頭像、籤名、工會介紹等,幫助遊戲廠商降低業務違規風險,淨化網絡環境,提升用戶體驗。
  • Facebook自然語言處理新突破:新模型能力趕超人類&超難NLP新基準
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 「麵包英語」,成人英語培訓的另一種思考
    高分低能或許是國內無奈的應試教育下特有的產物,尤其在語言學習方面,由於語言學習對於交流互動的特殊需求性,也由於大多數國人骨子裡的內向性格,讓這種尷尬成為了普遍存在。成人英語培訓一直是個尷尬的存在,由於成人英語學習中對口語運用的需求特殊性,就像很多健身房的會員身份一樣,成人英語培訓成了一種白費錢還伴隨愧疚感的負擔。
  • 回歸語言交流本質,嘟比英語讓學英語不再難
    嘟比英語成立於2018年12月,核心團隊成員由來自BAT的網際網路知名人士聯合知名教育機構教育專家組成,旗下教育產品「嘟比英語DoobyEnglish」,依託人工智慧AI真人老師技術和科學的課程內容體系,專注於為4-9歲孩子打造高效高性價比的通識英語AI互動在線英語課堂。
  • 「數據架構」實體關係模型介紹
    因此,每個物理ER模型必須包含足夠的細節來生成資料庫,而且每個物理ER模型都依賴於技術,因為每個資料庫管理系統有所不同。物理模型通常在資料庫管理系統的結構元數據中實例化,如關係資料庫對象(如資料庫表)、資料庫索引(如惟一鍵索引)和資料庫約束(如外鍵約束或共性約束)。ER模型通常還用於設計對關係資料庫對象的修改和維護資料庫的結構元數據。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 「100% 可回收」的手機殼,CASETiFY推出CONSCiOUS 系列
    「100% 可回收」的手機殼,CASETiFY推出CONSCiOUS 系列為慶祝 2020 年地球日,知名手機配件品牌 CASETiFY 推出了 CONSCiOUS 系列 iPhone 手機殼。CONSCiOUS 系列以生物聚合物、澱粉和竹子結合而成,主打「100% 可回收」。並推出活動「每售出一個 CONSCiOUS 系列手機殼,將會種植一棵樹」。CONSCiOUS 系列手機殼零售價為 $40 美元,感興趣的小夥伴可以前往官網查看。
  • ...4000億字資料庫 ,「譯訊科技」以精準語料資料庫切入AI文檔翻譯...
    相較於傳統依賴人工翻譯的方式,AI技術賦能的機器翻譯,具有速度快、海量翻譯、便捷性等諸多優勢,在發展中迅速迎來了風口,谷歌、科大訊飛、搜狗、騰訊等巨頭紛紛入局,搶佔市場份額。 圖源:譯訊科技 四川譯訊信息科技有限公司(以下簡稱「譯訊科技」),作為一家跨語言大數據和人工智慧技術的科技公司,擁有海量的資料庫、高覆蓋率的32+2(藏語和維語)語言翻譯,再利用國際前沿的自然語言處理和語義理解技術