Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...

2021-01-09 智東西

智東西(公眾號:zhidxcom)編 | 子佩

智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。

為了實現多語言不依賴英語互譯,研究人員使用不同的挖掘策略構建了首個真正的多對多翻譯數據集,再通過Fairscale等擴展技術建立具有150億個參數的通用翻譯模型,使M2M-100可以從大量語言資料庫中學習,並反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

一、多種技術融合,反向尋找海量數據

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數據來訓練。由於小語種本身缺少可直接使用的大量數據,再加上如果要實現多語言間任意方向高質量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數據量會隨語言對數量呈二次增長。

為此,Facebook在XLM-R,一種可以從單語數據中學習並以100種語言執行任務的模型上,增添了新穎的語言識別技術,用以從更多來源中挖掘更高質量的數據。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式原始碼工具包Language-Agnostic Sentence Representations、用於訓練翻譯模型的「十億規模」 bitext數據集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外,Facebook還使用反向翻譯(back-translation)來補充數據較少的語料數據:如果目標是訓練一個中文到法文的翻譯模型,Facebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數據譯成中文。在 M2M-100的開發過程中,反向翻譯得到的數據會被添加到挖掘的並行數據中。

在得到的數據中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數據的語言,以便更輕鬆地量化模型的性能;可以獨立存在的語言。基於此,Facebook的M2M-100得到了100種不同語言超過75億個句子的數據集。

「多年來,人工智慧研究人員一直在努力構建一個單一的、跨語言的通用模型。」Facebook的數據科學家Angela Fan在博客中寫道,「支持所有語言、方言的統一模型將幫助我們更好地為更多的人服務,並為數十億人創造新的翻譯體驗。」

二、「橋接策略」構建語群,節約算力最大化

但並不是100種語言對中任意一種都需要實現互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了「橋接策略」,即根據分類、地理和文化相似性將語言分為14個族。

因為生活在相同語族的國家和地區的人們會更加頻繁地交流,並從高質量的翻譯中受益。例如,一個在印度地區生活的家庭可能日常會使用印度地區常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求,Facebook研究人員還確定了少數「過渡語言」,即每個語族中一到三種主要語言會作為橋梁轉化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數據,從而獲得上述數據集中的75億個句子。

三、154億參數,只為模型容量最優化

在解決了如何獲取數據和如何有效利用數據後,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數用以處理更多語言數據。

M2M-100藉助了Fairscale(一種用於大型模型訓練的PyTorch庫),來增加Transformer網絡中的層數以及每層的寬度。基於Zero優化器、層內模型並行性和管道模型並行性,研究人員建立通用的基礎架構來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應模型,以用常規主幹和一些語言特定參數集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍,並能夠實現Facebook聲稱的高精度語言服務。但僅將模型擴展到10億參數還不能滿足處理大量數據的需要,最後當將模型規模密集擴展到12億個參數時,才能得到所有語言方向上1.2BLEU的平均提升。

最後當模型參數達154億時,M2M-100可以針對最多的數據訓練額外的模型容量。 「通過將模型容量的密集縮放與特定語言參數(總計30億)相結合,我們已經提供了一個相對完善的不依賴英語的互譯模型。」Fan說到。

結語:母語者質量評估,消除「偏見」在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。

在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向於使用不符合語境的俚語逐詞翻譯,也會出現如缺少逗號等語法問題,可能會導致歧義。

除翻譯語義的問題之外,Facebook研究人員也承認,在翻譯模型中,確實出現了有關性別偏見、種族偏見的歧視性字眼,但現如今沒有任何一種機器學習算法能防止偏見的產生,且這個問題在數據量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估,致力於使這個模型更加「公平公正」,但這個過程仍需要時間。

來源:VentureBeat、Facebook

相關焦點

  • 機器翻譯:谷歌翻譯是如何對幾乎所有語言進行翻譯的?
    圖源:谷歌什麼是機器翻譯?機器翻譯是計算語言學的一個分支,主要研究如何將一種語言的源文本自動轉換為另一種語言的文本。在機器翻譯領域,輸入已經由某種語言的一系列符號組成,而計算機必須將其轉換為另一種語言的一系列符號。神經網絡機器翻譯是針對機器翻譯領域所提出的主張。它使用人工神經網絡來預測某個單詞序列的概率,通常在單個集成模型中對整個句子進行建模。憑藉神經網絡的強大功能,神經網絡機器翻譯已經成為翻譯領域最強大的算法。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    2016年的一部《翻譯官》火了,這是國內首部聚焦翻譯領域的電視劇,讓人們對於翻譯行業尤其是同聲傳譯,有了新的認識。但是同時,隨處可見的翻譯機廣告充斥著整個社會:「有了它,媽媽再也不用擔心我出國不會說英語了」,「用超過100種語言探索世界」,如此等等。
  • 百度發布即時翻譯「神器」 突破自然語言處理重大難關
    中新網10月24日電 人工智慧領域,兩種語言的「即時互譯」是一項難以攻克的技術問題,其主要原因在於源語言和目標語言之間存在較大的詞序和語序差異。近日,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。
  • 百度機器翻譯現在都能預測你未來幾秒要說的話了!
    先給大家看一張動圖:上面的中文是人類說的話,下面的英文是百度 AI 給出的實時翻譯。可以看到,沒等說到「莫斯科」的時候,AI 自動翻譯的英語就已經出現了「meet」,也就是漢語句末的「會晤」。難道現在 AI 已經掌握了讀心術?其實這是百度在機器同傳中研發的最新技術,有預測和可控延遲能力,能實現兩種語言之間的高質量、低延遲翻譯。
  • 「機器翻譯」技術到底有哪些現實應用?
    機器翻譯(machine translation),又稱為自動翻譯,是利用計算機把一種自然語言轉變為另一種自然語言的過程。  隨著全球互聯互通日益頻繁,幾乎人人都渴望著實時翻譯這一「逆天」技術能早日變成現實。
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公布了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
  • 谷歌翻譯的中國基因
    不久前,Google翻譯發布了iPhone和Android版本,讓用戶能夠隨時使用翻譯服務,更加輕鬆便捷地跨越語言障礙。該手機應用可以識別15種語言的語音輸入,朗讀或全屏顯示23種語言的翻譯結果。對於非拉丁字母語言,例如中文和日文,應用將標註拼音或羅馬字讀音,便於非母語用戶讀出。與Google翻譯的桌面應用相同,移動翻譯也能夠翻譯58種語言書寫的字詞和短語。
  • 支持33種語言即時互譯、方言翻譯、拍照翻譯 訊飛推出境外自由行...
    中青在線北京4月20日電(中國青年報·中青在線記者 齊徵)今天下午,「世界聊得來」科大訊飛翻譯戰略暨新品上市發布會在北京舉行。    發布會上,訊飛執行總裁胡鬱從機器翻譯進展和產業聯盟合作層面公布了訊飛翻譯機「人類命運共同體、世界語言大互通」的願景,並正式發布訊飛翻譯機2.0。
  • 百度翻譯Q1日活漲40% 已支持200種語言互譯全球最多
    此外,百度翻譯還在一個季度內,將翻譯的語種擴充了近7倍,目前百度翻譯支持200種語言互譯,是全球支持語種數量最多的翻譯系統。涵蓋近4萬個翻譯方向,每天來自世界各地的翻譯請求字符量超過千億,相當於2000部大英百科全書,平均每秒鐘就要翻譯超過一百萬字符。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 跨語言溝通零障礙,如流支持近30種語言智能翻譯
    百度新一代智能工作平臺如流基於業界領先的機器翻譯實力,提供了化解之道——智能翻譯功能。「輕輕的我走了,正如我輕輕的來」「Gently I left, As I come gently」「我輕輕的招手」「そっと手を振る」「……」詩歌堪稱翻譯界最具難度和挑戰的「技術天花板」,而在視頻中我們看到,如流的智能翻譯功能可支持包括英語、日語、韓語、法語、俄語、德語等在內的近30種語言的自動翻譯,並且在翻譯詩歌《再別康橋
  • 中國工程院院士吾守爾·斯拉木:語言互譯平臺助力經濟文化交流
    語言作為「一帶一路」經貿投資合作、文明交流互鑑的重要橋梁和紐帶,對於推進我國國際傳播能力建設,提高國家文化軟實力,提升國際話語權發揮著重要作用。「一帶一路」沿線65個國家中有53種官方語言,是全球語言多樣性最為豐富、文化差異性最為突出的地區。
  • 支持近30種語言智能翻譯,百度如流讓跨語言溝通零障礙
    百度新一代智能工作平臺如流基於業界領先的機器翻譯實力,提供了化解之道——智能翻譯功能。"技術天花板",而在視頻中我們看到,如流的智能翻譯功能可支持包括英語、日語、韓語、法語、俄語、德語等在內的近30種語言的自動翻譯,並且在翻譯詩歌《再別康橋》時的表現也十分不錯。
  • 翻譯軟體選品_飛霜商貿
    在這裡可以將中文和義大利語互譯,操作簡單易上手,需要的朋友現在就下載吧!Flitto翻易通蘋果版是一款在線語言翻譯軟體,支持10各國家的語言互譯,除了根據文字翻譯之外還能根據圖片翻譯。Naver papago翻譯蘋果版一款支持多種語言翻譯的手機翻譯軟體,可以隨時進行多種的語言翻譯操作,給更多的用戶提供方便的語言溝通翻譯。
  • 百度機器翻譯團隊獲得WMT2019中英翻譯冠軍
    8月1日,WMT2019國際機器翻譯大賽研討會在義大利佛羅倫斯召開。本屆大賽,百度機器翻譯團隊在中文-英文翻譯任務上獲得冠軍。針對組委會提供的雙語數據,通過fast_align進行數據清洗,fast_align可以衡量兩個句子互為翻譯的概率,從而根據翻譯概率去除低質數據。以翻譯自動評價指標BLEU衡量,清洗後的數據訓練模型提高了1.1個百分點。相比雙語數據,主辦方提供了更多的單語數據。採用Back Translation技術利用英語單語數據提升模型的翻譯質量。
  • 國產良心機器翻譯CAT插件!好用到哭!
    數據顯示,現代人每天的信息接收量是1897年時期的160倍,而如此紛繁複雜的多語信息,其重要性上必有高低之分,倘若通過人工翻譯悉數實現信息提取,恐無法滿足經濟性與時效性的需求。因此,機器翻譯的譯後編輯(MTPE)——一種新型翻譯方式應運而生。
  • 西北大學研發FUNDED系統 極大提升原始碼漏洞檢準率
    中國青年報客戶端訊(中青報·中青網記者 孫海華)記者從西北大學獲悉:近日,由該校信息學院房鼎益、陳曉江教授領銜的物聯網團隊與多家機構聯合研究,在軟體安全領域取得重要研究進展——利用圖深度神經網絡結合開原始碼倉庫,開發出了具有自主智慧財產權的原始碼漏洞檢測系統FUNDED,大幅度提升了原始碼漏洞的檢準率
  • 用《聖經》做訓練數據集,打造語言風格轉換工具
    打開APP 用《聖經》做訓練數據集,打造語言風格轉換工具 李倩 發表於 2018-11-01 09:24:14 達特茅斯學院的研究人員為了提高計算機模型對文本風格的轉換能力
  • 紀念機器翻譯概念的誕生:重新認識瓦倫·韋弗先生
    第二種實現策略假設語言是一種邏輯表達。語言之間的自動轉換就可以形式化為一種邏輯表達到另一種邏輯表達的自動推導。韋弗希望利用這個策略說明機器翻譯是形式上可解決的。後來,基於規則的翻譯方法和統計機器翻譯中基於同步上下文無關文法的譯文推導模型與該策略的基本思想可以說是一致的。
  • Transformer新型神經網絡在機器翻譯中的應用|公開課筆記
    在講課開始之前先簡短的做個自我介紹,我是博士畢業於中國科學院計算技術研究所,方向是機器翻譯的方向,目前在阿里巴巴翻譯平臺擔任翻譯模型組負責人,主要是為阿里巴巴的跨境電商貿易提供豐富的語言支持,讓跨境貿易沒有語言障礙。今天非常高興受到CSDN AI科技大本營的邀請,給大家分享自己在機器翻譯方面的研究和工作。