102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文

2020-12-12 機器之心Pro

機器之心原創

作者:思源

機器翻譯,是一條漫漫長路;SOTA 模型,都包含著作者們的深刻見解。

機器翻譯一直是非常吸引研究者的「大任務」,如果某些方法被證明在該領域非常有效,那麼它很可能可以擴展到其它問題上。例如 Transformer,它出生於機器翻譯家族,卻廣泛應用於各種序列建模任務。

其實機器翻譯也走過一條漫漫長路,從早期基於規則與實例的方法,到基於統計的機器翻譯,再到目前基於深度神經網絡的翻譯系統,我們探索了非常多的可能性與思路。有的在剛提出來就受到很多關注,有的則受限於計算資源,直到今天才展現出其強大的能力。

1954 年,人類第一次嘗試俄語到英語的自動翻譯,這種基於規則的翻譯第一次證明機器翻譯是可行的。

1954 年的機器翻譯報導。

自此之後,機器翻譯主要歷經了四種模式:

基於規則的方法:它首先會將源語言句子解析為語法樹,再經過一系列操作轉化為目標語言的語法樹,最後只需要根據目標語法樹生成目標語句就行了。基於實例的方法:它的基本思想即將源語言句子分割為翻譯實例中見過的短語片段,並根據相似性檢索出與待翻句子片段相似的實例,最後對相似實例的翻譯結果執行替代操作,我們就能得到源語短語片段的翻譯結果。統計機器翻譯:將源語言句子分割為短語片段,利用基於雙語語料庫學習到的短語翻譯知識,將源語言短語轉化為合適的目標短語。最後對目標短語片段進行合理的調序,並生成完整的譯文。神經機器翻譯:利用深度神經網絡將原語言句子編碼為一個低維向量,然後再直接解碼為目標語言句子。

其實早幾年我們可能感覺機器翻譯還需要大量的人工調整,包括表達方式、專業詞彙、句式結構等等。但是隨著 GNMT 等神經機器翻譯模型的崛起,尤其是 Transformer 展現出強大的能力,體驗上,機器翻譯效果已經非常驚人了。很多時候只需要調整少數詞或表達就能得到滿意的結果,甚至在特定領域上能超過人類的專業翻譯水平。

那麼,從 GNMT 到現在已經三年了,Transformer 的誕生也有兩年了。我們可能很想知道,在最近的 NMT 研究中,到底有什麼樣的 SOTA 模型,翻譯效果又有什麼樣的進步?

在這篇文章中,我們將一探機器翻譯 102 個模型、40 個數據集,從中找找 SOTA 模型到底都有什麼。

機器之心 SOTA 項目

以前我們找 SOTA 模型,基本上只能靠背景知識與各種 Benchmark,頂多也是 Follow 一些收集頂尖模型的 GitHub 項目。但隨著任務細分與新數據集的不斷公布,這些只關注主流數據集的 Benchmark 就有些不太夠用了。機器之心構建的 SOTA 模型項目,就旨在解決這個問題,我們可以直接從機器之心官網中找到 SOTA 平臺,並搜索想要的頂尖模型。

為了探索當前最佳的 NMT 模型,我們選了幾個常見的數據集,並看看在 Transformer 之後,還有哪些激動人心的研究成果。我們發現不同的 NMT 模型都有其側重的數據集,但最常用的還是 WMT 英法數據集或英德數據集。除此之外,我們也特意找了中英數據集,看看適合翻譯中文的模型又是什麼樣的。

如下是基於 WMT 2014 English-French 數據集的模型,展開後可以看到對應論文與代碼。後面我們也會介紹 Transformer Big + BT 模型的核心思路,看看它如何繼承了 Transformer 衣缽。

除此之外,當我們選擇 WMT French-English 數據集後,我們發現當前的 SOTA 模型 MASS 是微軟亞洲研究院劉鐵巖等研究者提出來的,它的基本思想承接於 BERT 預訓練模型,是另一個非常吸引人的方向。

最後在選擇 NIST Chinese-English 數據集時,我們發現早一段時間馮洋等研究者提出的 Oracle Word 能獲得當前 SOTA 結果,該研究也獲得了 ACL 2019 最佳論文。

總體而言,這三個 SOTA 模型都有著獨特的優化方向,其中 Transformer Big + BT 探索用更多的單語數據強化模型效果、MASS 探索預訓練語言模型與無監督的翻譯方法、Oracle Word 則探索如何能彌補訓練與推斷間的鴻溝。

Transformer Big + BT:回譯是王道

一般而言,訓練 NMT 模型需要原文與參考譯文這種成對的雙語數據。但是,雙語數據相對於網絡上常見的大量單語數據要有限地多。在這一項研究中,研究者展示了如何通過僅提供我們想要翻譯的語言的文本來提升模型的翻譯性能,他們表明利用大量的此類數據可以大幅提升模型準確度。

論文:Understanding Back-Translation at Scale論文地址:https://arxiv.org/pdf/1808.09381v2.pdf

通過單語數據提升 NMT 模型最高效的方法之一是回譯(back-translation)。如果我們的目標是訓練一個英語到德語的翻譯模型,那麼可以首先訓練一個從德語到英語的翻譯模型,並利用該模型翻譯所有的單語德語數據。然後基於原始的英語到德語數據,再加上新生成的數據,我們就能訓練一個英語到德語的最終模型。

該論文表示,讓模型理解數據的正反翻譯過程是非常重要的,通過採樣故意不總是選擇最好的翻譯同樣也能得到性能提升。如下動圖展示了回譯的主要過程,相當於我們用左邊較少的數據集生成了右邊較大的數據集,並在兩種數據集上訓練而獲得性能提升。

研究者表示,如果我們把 2.26 億個反向翻譯的句子添加到現有的包含 500 萬個句子的訓練數據中,我們就能大幅提升翻譯質量。下圖(左)顯示了這一系統在標準 WMT』14 英-德基準測試集上的準確率,該系統在 16 個 DGX-1 機器上需要訓練 22.5 小時。圖中還顯示了 DeepL 的準確率,這是一個依賴於高質量人工翻譯的專業翻譯服務,此前該服務在該基準測試上表現最佳。

MASS:預訓練必不可少

BERT 或 XLNet 等預訓練語言模型獲得了非常好的效果,它們能學習到一些通用的語言知識,並遷移到下遊 NLP 任務中。受到這種範式的啟發,微軟亞研劉鐵巖等研究者提出了 MAsked Seq2Seq 預訓練模型(MASS),用於基於編碼器-解碼器的語言生成任務,例如機器翻譯。

論文:MASS: Masked Sequence to Sequence Pre-training for Language Generation論文地址:https://arxiv.org/abs/1905.02450v5

MASS 採用了編碼器-解碼器框架,並嘗試在給定部分句子的情況下修復整個句子。如下所示為 MASS 的框架圖,其輸入句子包含了一些連續的 Token,並且中間會帶有一些連續的 Mask,模型的任務是預測出被 Mask 掉的詞是什麼。相比 BERT 只有編碼器,MASS 聯合訓練編碼器與解碼器,能獲得更適合機器翻譯的表徵能力。

MASS 整體框架,其中「_」表示被 Mask 掉的詞。雖然關注自然語言理解的 BERT 只需要編碼器就行,但這種關注語言生成的預訓練模型需要同時保留編碼器與解碼器。

正因為這種聯合訓練編碼器-解碼器的方法,MASS 非常適合擁有較少雙語語料的翻譯任務。此外,它在無監督翻譯中也能得到非常不錯的效果,甚至超過早期基於注意力機制的有監督翻譯模型。

在 MASS 中被 Mask 掉的詞數量是可選的,如果輸入只 Mask 掉一個詞(k=1),那麼它就等價於 BERT,因為解碼器沒有了額外的輸入信息。如果 Mask 掉所有詞,那麼就等價於 GPT 這種標準的自回歸語言模型,因為編碼器完全沒有輸入信息。如果只 Mask 掉部分詞,那麼它就非常適合機器翻譯這種生成任務了。

MASS 的兩種極限選擇,它們分別等價於 BERT 與 GPT。

MASS 這種架構可以強迫編碼器理解輸入句子的意義,並鼓勵解碼器從編碼器中抽取有用的信息。此外,因為解碼器預測的是連續的詞,因此它也能構建更強大的語言建模能力。這種結構非常符合語言生成模型的要求,因此經過預訓練後的模型只需要簡要的微調就能有比較好的效果。

在該論文的實驗結果中,這種預訓練模型在無監督機器翻譯(只有單語數據)和少樣本機器翻譯中效果都非常出眾。此外,即使在通常較為充足的雙語數據中,MASS 的預訓練也能獲得更多的性能提升。

Oracle Word:訓練與預測之間有 Gap

目前 NMT 的訓練範式有兩大局限性。首先在訓練過程中,每預測一個譯文詞,它都會以已知的標註詞作為約束,然而在推斷中,模型只能以已知的預測詞作為約束,這種不匹配就造成了模型在測試集的效果沒那麼好。其次在訓練中,我們要求模型預測的譯文必須與標註的譯文一一對應,很明顯這也會限制翻譯的多樣性。

為了解決這兩個問題,這項研究提出了在訓練過程中用 Oracle Word 強化 Ground Truth Word。也就是說,在翻譯模型的訓練中,它不止會將標註數據作為指導,同時也會將預測結果作為指導。這很大程度上降低了訓練和推斷之間的差異,並大大提升了模型的預測效果。

論文:Bridging the Gap between Training and Inference for Neural Machine Translation論文地址:https://arxiv.org/abs/1906.02448

其中 Oracle Word 可以簡單理解為模型預測出的候選詞,它的選擇方法有兩種,即 word-level oracle 和 sentence-level oracle。

詞語級別的 Oracle Word 選擇方法。

word-level oracle 的選擇方法如圖所示,在時間步為 j 時,獲取前一個時間步模型預測出的分數。為了提高模型的魯棒性,論文在預測分數基礎上加上了 Gumbel noise,最終取分數最高的詞語作為此時的 Oracle Word。sentence-level oracle 的選擇方法則是在訓練時的解碼階段中,使用束搜索的方法,選擇前 k 個備選句子,然後計算每個句子的 BLEU 分數,最終選擇分數最高的句子。這種方式選擇出來的句子就可以作為模型的預測結果,並指導模型繼續學習。

現在有了候選詞,那麼我們就要考慮如何將它們加入標註詞,並共同訓練模型。這篇研究的思路非常精煉,即在訓練過程中,隨機選擇兩者中的一個作為模型所需的信息。具體而言,如果模型要預測譯文的第 j 個詞,那麼模型會以 p 的概率選擇 Oracle Word、以 1-p 的概率選擇 Ground Truth Word 作為所需的第 j-1 個譯文詞。

現在,在訓練中,只需要令概率 p 遞增,那麼相當於從傳統的訓練過程逐步遷移到推斷過程,這兩者之間的鴻溝也就不存在了。

如下所示為該項研究在 NIST Chinese-English 數據集上的效果,其中 MT03 表示 NIST 2003 作為測試集的效果。我們可以看到,不論是將 Oracle Word 加到 RNN 架構還是加到 Transformer 架構,它都能得到性能上的提升(BLEU 值)。

最後,以上 3 個 SOTA 模型只是從不同的角度提升機器翻譯效果,SOTA 項目中還能找到更多優秀的模型,它們都有各自的特點與關注的角度。總的而言,理解機器翻譯最前沿的思想,這些 SOTA 模型都是要了解的,我們需要從各個角度看看神經機器翻譯的潛力到底怎麼樣。

機器之心「SOTA模型」:22大領域、127個任務,機器學習 SOTA 研究一網打盡。

www.jiqizhixin.com/sota

相關焦點

  • 資源| 谷歌全attention機器翻譯模型Transformer的TensorFlow實現...
    機器之心編譯參與:黃小天、Smith谷歌前不久在 arXiv 上發表論文《Attention Is All You Need》,提出一種完全基於 attention 的翻譯架構 Transformer,實現了機器翻譯的新突破;近日,Github 上的一個項目給出了 Transformer 模型的 TensorFlow 實現,在官方代碼公布之前共享了自己的代碼。
  • 全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括格靈深瞳等機構開源的全球最大人臉數據集,以及類 Transformer 模型跨界在視覺任務上取得了新 SOTA。
  • EMNLP 2019論文分享|神經網絡機器翻譯多智能體聯合學習模型
    一、研究動機在機器翻譯任務中,我們經常會遇到這樣的情況,如表1 中的例子所示,L2R(從左到右解碼的智能體,本文中智能體 指翻譯模型)所產生的譯文,前半段質量較好,而後半段,錯誤逐漸增多。這是因為模型在翻譯的過程中,每個時刻的輸入是上個時刻的輸出,一旦某個時刻發生錯誤,就會不斷往右傳遞,導致翻譯質量下降。
  • 腦機接口利器,從腦波到文本,只需要一個機器翻譯模型
    這篇論文的工作思路異常簡單。他們將腦波到文本的轉換視為機器翻譯的過程,腦波為輸入序列,文本為輸出序列。通過讓受試者朗讀文本,收集相應腦區的電波,構成訓練數據集,然後去訓練一個端到端的機器翻譯模型。更具體地說,在這兩種情況下,目的都是將任意長度的序列轉換為任意長度的另一序列。這裡需要重點強調一下「任意」,因為輸入和輸出序列的長度是變化的,並且彼此之間並不必須有確定性的一一對應關係。在Joseph 等人的這項工作中,他們嘗試一次解碼一個句子,這和現在基於深度學習的端到端機器翻譯算法類似。
  • AI同傳效果媲美人類,百度翻譯出品全球首個上下文感知機器同傳模型
    百度機器翻譯團隊創新性地提出了全球首個感知上下文的機器同傳模型,並基於此發布了最新的語音到語音的機器同傳系統:DuTongChuan(度同傳)。  論文中還介紹,該系統已成功應用於百度2019開發者大會,將演講內容實時地翻譯給現場觀眾收聽。現場反饋,延時大多不到3秒。    與傳統的字幕投屏同傳相比,算得上是真正的沉浸式體驗,如同人工同傳一般。  百度方面介紹,度同傳系統,能夠實現語音到語音的機器同傳,其中核心技術所在,是全球首個上下文感知機器同傳模型。
  • ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集
    我們來看這篇獲得三個 Strong Accept 的論文講了什麼。.pdf這篇論文介紹了一個新型大規模多語視頻描述數據集 VATEX,該數據集包含超過 41250 個視頻和 82.5 萬中英文視頻描述,其中包括超過 20.6 萬描述是中英平行翻譯對。
  • 【金猿技術展】鏡像生成式神經機器翻譯模型——MGNMT
    背景和動機:目前機器翻譯模型需要在大量的雙語平行數據上訓練,從而得到不錯的性能。然而,在很多低資源的場景中,雙語平行數據是非常稀缺的,例如低資源的語向(如印地語-泰語)或低資源的領域場景(如社交網絡或小說)。
  • 深度 提升深度學習模型的表現,你需要這20個技巧(附論文)
    比如,對於照片圖像數據,你可以通過隨機移位和旋轉已有的圖像來獲得新圖像。這能夠提升模型對於數據中這種變換的歸納能力——如果它們也預計會出現新數據中。這也和增加噪聲有關,我們過去叫做添加抖動(adding jitter)。這可被用作是抑制過擬合訓練數據集的正則化方法。
  • EMNLP2018最佳論文:Facebook 提升 11BLEU 的無監督機器翻譯
    Facebook 的 EMNLP 2018 論文《Phrase-Based & Neural Unsupervised Machine Translation》(基於詞語的、無監督神經網絡的機器翻譯)就介紹了他們在無監督機器翻譯方面的最新成果。無
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。
  • Facebook人工智慧開源多語言機器翻譯模型
    Facebook AI是開源的M2M-100,一種多語言機器翻譯模型(MMT),可以翻譯100種語言中的任何一對而不依賴於英語。典型的模式是以英語為中心的,將中文翻譯成法語或中文翻譯成西班牙語時需要首先將原文翻譯成英語,再翻譯成其他語言。Facebook認為,語言之間的直接翻譯更能捕捉到深層意義,而且比以英語為中心的系統在藍帶標準上高出10個百分點。M2M-100接受了2,200種語言的培訓。
  • 免費查找AI最優論文神器:一鍵出結果,分分鐘提取論文表格、最新數據
    該公司在過去一年中就致力於研究從機器論文學習中自動提取結果。現在就有了一個新的人機互動系統,用於生產中的結果提取。我們的模型可以為每一篇arXiv ML論文生成人類可以接受或拒絕的建議。通過顯著提高性能,使這一系統在實際應用上比之前的最先進的系統更加可行。
  • 資源|縱觀當前NLP中的任務、數據、模型與論文
    目錄(任務和對應數據集)1.CCG 超級標記2.分塊3.選區解析4.指代消歧5.依存解析6.對話7.域適應8.語言建模9.機器翻譯WMT 2014 EN-DEWMT 2014機器翻譯是將句子從源語言轉換為不同的目標語言的任務。
  • ...篇論文中的3萬個基準測試結果,他們發現追求SOTA其實沒什麼意義
    機器之心報導編輯:蛋醬、張倩在追求 SOTA 之前,研究者們或許更應該認真審視「基準」本身。在基準數據集上比較模型性能是人工智慧領域衡量和推動研究進展的重要方式之一。
  • ACL 2018 | 最佳短論文SQuAD 2.0:史丹福大學發布的機器閱讀理解問答數據集
    SQuAD》榮獲這次大會的最佳短論文,Percy Liang等研究者介紹了機器閱讀理解問答數據集 SQuAD 的新版本 SQuAD 2.0,其引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • ...100種語言互譯模型原始碼公開!機器翻譯再也不用英語當媒介了?
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • ACL 2019 論文:谷歌提出增強神經網絡機器翻譯魯棒性的新方法
    儘管近年來利用 Transformer 模型進行神經機器翻譯(NMT)取得了巨大成功,但是 NMT 模型對輸入的微小幹擾仍然很敏感,從而導致各種不同的錯誤。谷歌研究院的一篇 ACL 2019 論文提出了一種方法,使用生成的對抗性樣本來提高機器翻譯模型的魯棒性,防止輸入中存在的細小擾動度對其造成影響。結果表明,該方法提高了 NMT 模型在標準基準上的性能。
  • ICLR 2020 | 多模態下使用圖片信息顯著增強機器翻譯效果
    Translation with Universal Visual Representation論文作者:Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao論文連結:
  • 史上最強通用NLP模型誕生:狂攬7大數據集最佳紀錄
    在官博介紹了他們訓練的一個大規模無監督NLP模型,可以生成連貫的文本段落,刷新了7大數據集基準,並且能在未經預訓練的情況下,完成閱讀理解、問答、機器翻譯等多項不同的語言建模任務。OpenAI今天在官博上介紹了他們的新NLP模型,刷新了7大數據集的SOTA(當前最佳結果),並且能夠在不進行任何與領域知識相關數據訓練的情況下,直接跨任務執行最基礎的閱讀理解、機器翻譯、問答和文本總結等不同NLP任務。