Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...

2020-12-18 智東西

智東西(公眾號:zhidxcom)編 | 子佩

智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。

為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯數據集,再通過Fairscale等擴展技術建立具有150億個參數的通用翻譯模型,使M2M-100可以從大量語言資料庫中學習,並反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

一、多種技術融合,反向尋找海量數據

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數據來訓練。由於小語種本身缺少可直接使用的大量數據,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數據量會隨語言對數量呈二次增長。

為此,Facebook在XLM-R,一種可以從單語數據中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的數據。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式原始碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的「十億規模」 bitext數據集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外,Facebook還使用反向翻譯(back-translation)來補充數據較少的語料數據:如果目標是訓練一個中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數據譯成中文。在 M2M-100的開發過程中,反向翻譯得到的數據會被添加到挖掘的並行數據中。

在得到的數據中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數據的語言,以便更輕鬆地量化模型的性能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的數據集。

「多年來,人工智慧研究人員一直在努力構建一個單一的、跨語言的通用模型。」Facebook的數據科學家Angela Fan在博客中寫道,「支持所有語言、方言的統一模型將幫助我們更好地為更多的人服務,並為數十億人創造新的翻譯體驗。」

二、「橋接策略」構建語群,節約算力最大化

但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了「橋接策略」,即根據分類、地理和文化相似性將語言分為14個族。

因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求,Facebook研究人員還確定了少數「過渡語言」,即每個語族中一到三種主要語言會作為橋梁轉化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數據,從而獲得上述數據集中的75億個句子。

三、154億參數,只為模型容量最優化

在解決了如何獲取數據和如何有效利用數據後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數用以處理更多語言數據。

M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網絡中的層數以及每層的寬度。基於Zero優化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定參數集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴展到10億參數還不能滿足處理大量數據的需要,最後當將模型規模密集擴展到12億個參數時,才能得到所有語言方向上1.2BLEU的平均提升。

最後當模型參數達154億時,M2M-100可以針對最多的數據訓練額外的模型容量。 「通過將模型容量的密集縮放與特定語言參數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。」Fan說到。

結語:母語者質量評估,消除「偏見」在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。

在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。

除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習算法能防止偏見的產生,且這個問題在數據量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加「公平公正」,但這個過程仍需要時間。

來源:VentureBeat、Facebook

相關焦點

  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    機器之心報導機器之心編輯部Facebook AI 近日開源了多語言機器翻譯模型 M2M-100,該模型不依賴以英語為中心的數據,可以實現 100 種語言之間的相互翻譯。機器翻譯(MT)打破了人類之間的語言障礙。
  • Facebook新AI模型可以直接對譯100種語言
    機器翻譯器正成為現代人生活中必不可少的工具。 不管你在世界的哪個地方,美國、巴西、法國或者亞洲的婆羅洲島,藉助機器翻譯,谷歌和Facebook這類軟體都可以把平臺上的幾乎任何文本內容都翻譯成當地語言。
  • 無需依賴英語數據,100種語言互譯,臉書推出「 M2M-100」模型
    Facebook AI首次提出多語言機器翻譯(MMT)模型——M2M -100,該模型可以在不依賴英語數據的情況下在任何100種語言間進行翻譯。該項目已開源。由於英語訓練數據非常廣泛,之前的中法翻譯模型會分別訓練中文與英語以及英語與法語的翻譯模型,通過英語作為中間環節實現翻譯。本文模型直接應用中文與法語的訓練數據,以更好保留語義。計算BLEU指標,表明其高於以英語中轉的系統約10個百分點。M2M-100總共使用2200種語言進行訓練,這比之前最好的以英語為中心的多語言模型要多10倍。
  • Facebook新AI可以將語言實時相互翻譯
    但是,這些系統通常使用英語作為中介步驟-也就是說,從中文到法語的翻譯實際上是從中文到英語到法語的翻譯。這樣做是因為往返於英語的翻譯數據集非常龐大且廣泛可用,但是將英語置於中間會降低整體翻譯的準確性,同時使整個過程變得比所需的更為複雜。這就是為什麼Facebook AI開發了一種新的MT模型,該模型可以在不使用英語的情況下直接在兩種語言(中文到法語以及法語到中文)之間進行雙向翻譯。
  • 最強翻譯?Facebook AI可以直接翻譯100種語言
    近日,Facebook 宣稱已經開發出一種人工智慧翻譯系統,能夠在 100 種語言之間進行精確翻譯,而不需要像許多現有 AI 翻譯那樣先翻譯成英語在翻譯成目標語言。圖 | 新翻譯系統使 Facebook 每天能做 200 億份翻譯任務(來源:incamerastock / Alamy)在學術機構用來自動評估機器翻譯質量的 100 分制中,該人工智慧的表現比同類翻譯系統高出 10 分。該模型的翻譯也由人類進行了翻譯評估,其準確率約為 90%。
  • 200種語言互譯,百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 28種語言互譯、語音翻譯、掃描翻譯 百度輸入法用AI玩轉翻譯
    得益於百度在機器翻譯領域的強大技術實力,百度輸入法實現了英語、韓語、日語、西班牙語等28種高頻使用語言的精準互譯,是目前支持互譯語種最多的輸入法。用戶點擊鍵盤左上角的「熊頭圖標」,在彈出菜單中選擇「快捷翻譯」,輸入框中便增加了一項翻譯框。
  • 有了訊飛翻譯機3.0 再也不用擔心語言不通
    除了簡單的詞彙記憶和肢體語言,你還需要一臺功能強大的語言翻譯機,不妨試試語言翻譯機中的「戰鬥機」——訊飛翻譯機3.0。作為博鰲亞洲論壇官方指定翻譯機,基於科大訊飛擁有自主智慧財產權的世界領先智能語音技術,註定了訊飛翻譯機3.0「天生不凡」,訊飛翻譯機3.0實現多語言在線互譯、方言識別翻譯、離線翻譯、拍照翻譯及行業翻譯等多種翻譯功能,滿足了不同的場景需求。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • Python, C++和Java代碼互翻,Facebook開發首個自監督神經編譯器
    但是,由於代碼翻譯領域中缺少並行數據,因此它們在該方面的應用受到了限制。程式設計師仍然依賴於基於規則的代碼轉換工具,這需要專家複查和調試輸出,或者手動翻譯代碼。TransCoder通過利用無監督機器翻譯到程式語言翻譯取得的成功來克服這些挑戰。本文構建了一個帶有注意力機制的序列到序列(seq2seq)模型,該模型由具有轉換結構的編碼器和解碼器組成。
  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    谷歌表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。
  • Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍(已開源)
    去年穀歌在機器翻譯上取得了連續不斷的突破,參閱《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》和《重磅 | 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和 zero-shot 翻譯》。谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。
  • Facebook自然語言處理新突破:新模型能力趕超人類&超難NLP新基準
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • 此AI能互譯C+、Java和Python,以後只學一種編程嗎
    如果要問這個世界有多少種程式語言,想必我們很多人都會發懵,要麼嘀咕思考一會,要麼找資料查詢。沒幾個人——或者說沒一個人能清楚地羅列出現在到底有多少種程式語言。的確,計算機程式語言不僅分好幾種類,而且數量繁多。一人客覺得,除了機器語言、彙編語言比較單一外,高級語言多得簡直能讓人看得眼睛發花,學得頭皮發麻。
  • 用AI實現C++、Java、Python代碼互譯,運行成功率最高達80.9%
    既然AI能翻譯自然語言,那也應該能翻譯程式語言。Facebook也是這麼想的,所以他們最近提出了TransCoder,一個翻譯程式語言的AI,現在可以在C++、Java、Python語言之間互譯。經翻譯後的程序,成功運行的通過率最高可以達到80.9%。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    其實機器翻譯也走過一條漫漫長路,從早期基於規則與實例的方法,到基於統計的機器翻譯,再到目前基於深度神經網絡的翻譯系統,我們探索了非常多的可能性與思路。有的在剛提出來就受到很多關注,有的則受限於計算資源,直到今天才展現出其強大的能力。1954 年,人類第一次嘗試俄語到英語的自動翻譯,這種基於規則的翻譯第一次證明機器翻譯是可行的。1954 年的機器翻譯報導。
  • 網易有道翻譯王來了!支持中日韓四種語言離線翻譯,售價1688元
    9月6日下午,網易有道在北京正式發布第二代翻譯智能硬體產品——有道翻譯王 2.0 Pro,售價1688元。據了解,有道翻譯王這個名字是丁磊親自給取的,從翻譯蛋到翻譯王,相比上一代產品,有道翻譯王引入了自研的離線翻譯技術,支持中英日韓4種語言離線語音互譯, 43種在線翻譯,同時加入了拍照翻譯功能,支持7種語言離線拍照翻譯、21種在線拍譯。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?其實這是百度在機器同傳中研發的最新技術,有預測和可控延遲能力,能實現兩種語言之間的高質量、低延遲翻譯。