EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監督機器翻譯

2020-12-11 雷鋒網

雷鋒網 AI 科技評論按:說到機器翻譯,谷歌吃螃蟹並商用的 NMT、微軟研究院媲美人類水平的 AI 翻譯系統我們都做過比較多的報導,大家也都比較熟悉;不過它們都是需要監督的。谷歌自然可以使用海量語料訓練 NMT,微軟研究院的系統即便使用了許多新的技巧來大幅提高樣本效率,也仍然需要足夠的平行雙語語料。然而我們無法為所有語言對都找到大量雙語平行語料,訓練出有監督 MT 系統

Facebook 的 EMNLP 2018 論文《Phrase-Based & Neural Unsupervised Machine Translation》(基於詞語的、無監督神經網絡的機器翻譯)就介紹了他們在無監督機器翻譯方面的最新成果。無監督機器翻譯是目前的熱門研究課題之一,Facebook 的研究人員們通過巧妙的設計得到了高達 11 BLEU 的表現提升;而 EMNLP 官方推特今天宣布這篇論文是 EMNLP 2018 的兩篇最佳論文之一。論文作者們早些時候也撰寫了一篇通俗介紹文章發表在了 Facebook 博客上,介紹了他們的主要思路。雷鋒網(公眾號:雷鋒網) AI 科技評論全文編譯如下。

二維詞嵌入的旋轉對齊

自動語言翻譯對於 Facebook 來說非常重要,它可以讓數十億用戶以他們喜歡的語言進行聯繫和交流。為了做到這一點,當前的機器翻譯(MT)系統需要訪問大量的已翻譯文本(例如,分別用英語和西班牙語表示的相同文本對)。因此,MT 目前僅對於已擁有大量翻譯文本的少數語言集表現出不錯的效果。

在訓練模型時無需訪問任何翻譯文本資源的 MT 模型的建立(稱為無監督翻譯)是必要的下一步。EMNLP 2018 上我們展示了在該任務上完成的最新研究成果(http://arxiv.org/abs/1804.07755)。我們的新方法相較於之前最先進的無監督方法有了顯著的改進,效果與用近 100,000 個參考譯文訓練過的監督方法近乎一致。在這個領域中,1 BLEU (判斷MT準確度的常用指標)的提升都被看作不小的成績,而我們的新方法相比之前的方法有超過 10 BLEU 的改善。

無監督翻譯模型的建立是 MT 領域的一個重要發展方向,特別是世界上 6,500 種語言中,大多數語言對之間都沒有可用翻譯文本資源庫或譯文數據量極小以至於無法使用現有技術。對於匱乏譯文的語言,現在有一種方法可以學習在任意的語言,比如烏爾都語和英語之間進行互譯,只需使用英語中的文本和與烏爾都語中的完全不相關的文本,而不需要任何相應的翻譯文本

這種新方法開啟了更多語言翻譯更快、更準確的大門,而這僅僅是將此類原理應用於機器學習和人工智慧的方法的一個開始。

逐字翻譯

邁向我們偉大的目標的第一步是讓系統學習雙語詞典,將一個詞與其他語言中的合理翻譯聯繫起來。為此,我們使用了我們在之前的論文中介紹到的方法(https://arxiv.org/abs/1710.04087),其中系統首先為每種語言中的每個單詞訓練詞嵌入(單詞的矢量表示)。

訓練詞嵌入通過上下文(例如,給定單詞前面的五個單詞和之後的五個單詞)來預測給定單詞周圍的單詞。儘管詞嵌入的形式簡單,但是詞嵌入可以抓取有趣的語義結構。例如,離「kitty」最近的是「cat」,並且「kitty」這個詞嵌入更接近於「animal」的嵌入,而不是「rocket」這個詞嵌入(因為「rocket」很少出現在「kitty」這個詞所在的語境中)。

此外,不同語言的詞嵌入具有相似的鄰域結構,因為不同國家的人畢竟活在同一個世界中。例如,英語中「cat」和「furry」之間的關係類似於它們在西班牙語中的相應翻譯(「gato」和「peludo」)之間的關係,因為這些單詞的頻率和它們的上下文是相似的

由於這些相似之處,我們提出了一個包含各種新舊技術的組合,例如對抗訓練等,讓系統學習旋轉變換一種語言中的詞嵌入,以匹配另一種語言中的詞嵌入。有了這些信息,無需訪問任何平行的翻譯譯文,我們就能推斷出一個相當準確的雙語詞典,並且基本上實現逐字翻譯。 

可以通過簡單的旋轉(右)對齊兩種語言(左)的二維詞嵌入。旋轉後,通過最近鄰搜索實現單詞翻譯。

翻譯句子

使用無監督方法得到雙語詞典的逐字翻譯並不能完成一個很好的翻譯——單詞可能會丟失,無序或者完全錯誤。但是,它保留了大部分詞義。我們可以在此基礎上進行改進。通過使用已在大量單語數據上訓練好的語言模型進行局部編輯,它可以對不同的單詞排序打分,故此流暢的句子得分要高於不符合語法或構造不良的句子。

因此,如果已擁有大量烏爾都語的單語數據集,我們可以在已有英語語言模型的同時,訓練烏爾都語的語言模型。在有了語言模型和初始的逐字翻譯模型之後,我們就可以構建翻譯系統的早期版本。

這個早期的系統雖然還不夠好,但比逐字翻譯效果更好(感謝語言模型),並且它可以用來將大量句子從源語言(烏爾都語)翻譯成目標語言(英語)。

接下來,我們將這些系統翻譯出的語句(原文為烏爾都語,翻譯為英語)作為標註過的真實數據進行處理,以訓練從英語到烏爾都語的反向 MT 系統。不可否認,由於第一個系統翻譯中存在錯誤,輸入的英語句子會有些問題。ACL2015論文 中 R. Sennrich 等人在半監督學習的 MT 系統中(有大量平行語料的情況下)曾介紹過這種技術,並將其稱為反向翻譯。本次是該技術首次應用於完全無監督的系統;通常,它最初是在有監督數據上訓練的。

現在我們有了一個更偏向流暢句子的烏爾都語語言模型,我們可以將反向翻譯中人工生成的平行句子與烏爾都語語言模型提供的校正相結合,以此來訓練從英語到烏爾都語的翻譯系統。

一旦系統經過訓練,我們就可以用它將英語中的許多句子翻譯成烏爾都語,形成另一種類型的數據集(原始句子為英語,翻譯成烏爾都語),有利於改進以前的烏爾都語到英語的 MT 系統。隨著一個系統得到改進,我們可以使用它以迭代方式在相反方向上為系統生成訓練數據,並根據需要進行多次迭代。

兩全其美的方法

在研究中,我們確定了三個步驟——逐字嵌入初始化,語言建模,以及反向翻譯——作為無監督 MT 的核心原理。根據這些原理,我們可以最終得到各種模型。我們將它們應用於兩種截然不同的通向無監督 MT 目標的方法。

第一種方法是無監督的神經模型,它產生的翻譯比逐字翻譯更流暢,但沒有達到我們想要的質量。然而,它們足以用作反向翻譯句子。通過反向翻譯,該方法與經 100,000 個並行句子訓練的監督模型效果一樣。

接下來,我們將這些原理應用於經典的基於計數的統計方法的另一個模型,稱為基於短語的 MT。有趣的是,這些模型往往在低資源語言對上表現更好,但這是第一次將此方法應用於無監督的 MT。在這種情況下,我們發現翻譯具有正確的單詞但不太流暢。同樣,這種方法優於以前最先進的無監督模型。

最後,我們將兩種模型結合起來得到一個兩全其美的方法:一個既流利又善於翻譯的模型。為此,我們從訓練好的神經模型開始,然後使用基於短語模型的其他反向翻譯句子對其進行訓練。

根據經驗,我們發現最後一種組合方法顯著提高了之前無監督 MT 的準確性——在英語——法語和英語——德語作為測試集的兩種語言對中(即使對於這些語言對,在訓練時也沒有使用任何並行數據——僅在測試時進行評估),此組合方式在 BLEU 得分上提高了超過 10 個點。

我們還在以下語言上測試了我們的方法:遠距離語言對,如英語——俄語;譯文資源匱乏的語言,如英語——羅馬尼亞語;資源極度匱乏且遠距離的語言對,如英語——烏爾都語。在所有情況下,我們的方法相較於其他無監督方法都有很大改進,有時甚至超過使用來自其他域或其他語言的並行語言數據的有監督方法

下面的德語——英語翻譯示例顯示了每種方法的結果:

在機器翻譯之外還有更大的世界

完成超過 10 BLEU 得分的增加是一個令人興奮的開始,但對我們來說更令人興奮的是它為未來改進開啟的可能性。從短期來看,這必然有助於我們翻譯更多語言並提高少資源語言的翻譯質量。但是,從這種新方法和基本原理中可獲得的知識遠遠超出 MT 本身。

我們認為,這項研究的潛力可以應用於任何領域的無監督學習,並有可能使智能體能夠利用未標註的數據,並對於當前需要專家演示(在本例中是翻譯)中的任務,未來只需要很少就能夠執行得到很好的效果。這項工作表明,系統至少有可能在無監督的情況下學習,並建立一個雙向的系統,在這個系統中,每個組件都可以在良性循環中不斷改進。

論文地址:https://arxiv.org/abs/1804.07755

代碼地址:https://github.com/facebookresearch/UnsupervisedMT

博客地址:https://code.fb.com

EMNLP 2018 論文獎情況

根據 EMNLP 官方推特宣布的消息,兩篇最佳論文中的另一篇來自谷歌

Linguistically-Informed Self-Attention for Semantic Role Labeling

還有一篇最佳資源論文

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling(論文內容尚未公開)

EMNLP 2018 將於 10 月 31 日到 11 月 4 日在比利時布魯塞爾召開,更多報導請繼續關注雷鋒網 AI 科技評論。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • EMNLP 2019 參會小結及最佳論文解讀
    而從提交的論文領域來看,機器學習依舊佔有絕對的領先地位,摘要和生成、機器翻譯、信息抽取等領域的投稿量也較大。今年中國也已經成為emnlp投稿量最大的國家,美國成為大會被接收論文最多的國家,大概有260篇。中國位居第二,約有200篇論文被錄用。
  • Facebook全新無監督機器翻譯法,BLUE測試提升超過10分!
    研究人員表示,這種無監督方法不僅適用於機器翻譯,也可以擴展到其他領域,讓智能體在使用無標記數據的情況下,完成只有極少甚至沒有訓練數據的任務。這是機器翻譯以及無監督學習的一項重大突破。而其實現方法本身也十分巧妙,相關論文已被EMNLP 2018接收。自動語言翻譯對於Facebook來說非常重要,因為Facebook用戶高達數十億,可以想見其平臺每天承載和需要轉換的語種數量。
  • AI Challenger 2018 機器翻譯參賽總結
    金山集團 AI Lab 組隊參加了 AI Challenger 2018 全球挑戰賽的英中機器翻譯項目
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    大數據文摘出品當地時間6月12日,ICML 2019於美國長灘市公布了本屆大會最佳論文結果。谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。
  • EMNLP 2018 | 用強化學習做神經機器翻譯:中山大學&MSRA填補多項空白
    中山大學數據科學與計算機學院和微軟研究院的一項研究探索了強化學習在神經機器翻譯領域的應用,相關論文已被 EMNLP 2018 接收,相關代碼和數據集也已開源。., 2018],比如梯度估計方差高 [Weaver and Tao, 2001] 以及目標不穩定 [Mnih et al., 2013],因此要讓強化學習實現有效的實際應用,其實並不容易。因此,之前的研究提出了一些技巧。但是,如何將這些技巧應用於機器翻譯?這一點仍還不夠明朗,研究者也沒有達成共識。
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    其中最佳論文獎由加州大學伯克利分校的David Gaddy、Dan Klein兩人獲得,愛丁堡大學華人博士生 Yanpeng Zhao 獲得了最佳論文榮譽提名獎(共4篇)。另外,本屆大會的最佳 Demo 獎由大家所熟知的 Hugging Face 團隊摘得。
  • EMNLP 2019論文分享|神經網絡機器翻譯多智能體聯合學習模型
    一、研究動機在機器翻譯任務中,我們經常會遇到這樣的情況,如表1 中的例子所示,L2R(從左到右解碼的智能體,本文中智能體 指翻譯模型)所產生的譯文,前半段質量較好,而後半段,錯誤逐漸增多。這是因為模型在翻譯的過程中,每個時刻的輸入是上個時刻的輸出,一旦某個時刻發生錯誤,就會不斷往右傳遞,導致翻譯質量下降。
  • 清華大學NLP組年末巨獻:機器翻譯必讀論文列表
    2018 年即將結束,在 18 年的最後一個工作日,清華大學自然語言處理組(THUNLP)整理了一份機器翻譯論文的閱讀清單奉獻給大家。該論文列表接收內容可謂詳盡。首先,對於時間不夠充裕的人來說,THUNLP 為大家整理了 10 大必讀論文。這十篇論文涉及統計機器學習的數學基礎、機器翻譯度量指標 BLEU、基於短語的統計機器翻譯、Quoc V.
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    選自code.facebook作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin機器之心編譯參與:吳攀、微胖、蔣思源去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。
  • ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習
    大數據文摘出品當地時間6月12日,ICML 2019於美國長灘市公布了本屆大會最佳論文結果。谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。
  • 阿里巴巴AAAI 18論文CoLink:知識圖譜實體連結無監督學習框架
    11 篇論文被 AAAI 2018錄用,分別來自機器智能技術實驗室、業務平臺事業部、阿里媽媽事業部、人工智慧實驗室、雲零售事業部,其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告,另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構 2020-06-29 17:08 來源:澎湃新聞·澎湃號·湃客
  • 機器之心年度盤點:2018年重大研究與開源項目
    其中最突出的就是機器翻譯與預訓練語言模型,其中機器翻譯已經由去年的 Seq2Seq 到今年大量使用 Transformer,而預訓練語言模型更是從 ELMo 到 BERT 有了長足發展。因此在 2018 年中,使用預訓練語言模型可能是 NLP 領域最顯著的趨勢,它可以利用從無監督文本中學習到的「語言知識」,並遷移到各種 NLP 任務中。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    最後在選擇 NIST Chinese-English 數據集時,我們發現早一段時間馮洋等研究者提出的 Oracle Word 能獲得當前 SOTA 結果,該研究也獲得了 ACL 2019 最佳論文。總體而言,這三個 SOTA 模型都有著獨特的優化方向,其中 Transformer Big + BT 探索用更多的單語數據強化模型效果、MASS 探索預訓練語言模型與無監督的翻譯方法、Oracle Word 則探索如何能彌補訓練與推斷間的鴻溝。
  • 從分詞、詞性到機器翻譯、對話系統
    本文將基於竹間智能的一些經驗和探索,從分詞、詞性等基礎模塊,到機器翻譯、知識問答等領域,列舉並分析一些深度學習在 NLP 領域的具體運用,希望對大家研究深度學習和 NLP 有所幫助。事實上,從分詞、詞性、語法解析、信息抽取等基礎模塊,到自然語言生成、機器翻譯、對話管理、知識問答等高層的 NLP 領域,幾乎都可以應用以 CNN、RNN 為代表的深度學習模型,且確實能夠取得不錯的效果。深度學習模型有效降低了語言模型輸入特徵的維度,降低了輸入層的複雜性。另外,深度學習模型具有其他淺層模型不能比擬的靈活性。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括EMNLP 2020 和CoRL 2020 學術會議的各獎項論文。推薦:CoRL 2020 最佳論文。
  • SFFAI分享 | 楊振:低資源神經機器翻譯[附PDF]
    為了緩解神經機器翻譯模型對雙語語料的依賴,使神經機器翻譯能夠高效的利用單語語料,研究者們提出了基於反翻譯,對抗網絡,遷移學習,多語言訓練,無監督訓練等等方法。本文重點介紹我們在將對抗網絡應用於機器翻譯以及無監督機器翻譯上的兩個工作。2.
  • 一周論文 | 機器翻譯、表示學習、推薦系統和聊天機器人的最新研究...
    引言本期的PaperWeekly一共分享四篇最近arXiv上放出的高質量paper,包括:機器翻譯、表示學習、推薦系統和聊天機器人。B語言的翻譯模型,model f是將B語言翻譯成A語言的翻譯模型。簡評本文的思想很創新,利用了機器翻譯中的dual mechinism,僅僅利用少部分雙語語料和大部分單語語料就可以達到之前NMT的效果,甚至還高了2到3個百分點。
  • 擁有解耦表徵無監督學習是不可能的!硬核ICML 2019最佳論文出爐
    值得關注的是,ETH Zurich、谷歌大腦等機構的論文《挑戰無監督學習中解耦表徵的一般假設》提出了一個與此前學界普遍預測相反的看法:對於任意數據,擁有相互獨立表徵(解耦表徵)的無監督學習是不可能的!在大會上,獲獎論文的部分作者也現場進行了演講。
  • 雪梨科技大學CVPR 2018論文:無監督學習下的增強人臉關鍵點檢測器
    2018 錄用論文 Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors 為 AI 科技評論撰寫了獨家解讀稿件。