102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文

2021-01-19 機器之心Pro

機器之心原創

作者:思源

機器翻譯,是一條漫漫長路;SOTA 模型,都包含著作者們的深刻見解。

機器翻譯一直是非常吸引研究者的「大任務」,如果某些方法被證明在該領域非常有效,那麼它很可能可以擴展到其它問題上。例如 Transformer,它出生於機器翻譯家族,卻廣泛應用於各種序列建模任務。

其實機器翻譯也走過一條漫漫長路,從早期基於規則與實例的方法,到基於統計的機器翻譯,再到目前基於深度神經網絡的翻譯系統,我們探索了非常多的可能性與思路。有的在剛提出來就受到很多關注,有的則受限於計算資源,直到今天才展現出其強大的能力。

1954 年,人類第一次嘗試俄語到英語的自動翻譯,這種基於規則的翻譯第一次證明機器翻譯是可行的。

1954 年的機器翻譯報導。

自此之後,機器翻譯主要歷經了四種模式:

基於規則的方法:它首先會將源語言句子解析為語法樹,再經過一系列操作轉化為目標語言的語法樹,最後只需要根據目標語法樹生成目標語句就行了。基於實例的方法:它的基本思想即將源語言句子分割為翻譯實例中見過的短語片段,並根據相似性檢索出與待翻句子片段相似的實例,最後對相似實例的翻譯結果執行替代操作,我們就能得到源語短語片段的翻譯結果。統計機器翻譯:將源語言句子分割為短語片段,利用基於雙語語料庫學習到的短語翻譯知識,將源語言短語轉化為合適的目標短語。最後對目標短語片段進行合理的調序,並生成完整的譯文。神經機器翻譯:利用深度神經網絡將原語言句子編碼為一個低維向量,然後再直接解碼為目標語言句子。

其實早幾年我們可能感覺機器翻譯還需要大量的人工調整,包括表達方式、專業詞彙、句式結構等等。但是隨著 GNMT 等神經機器翻譯模型的崛起,尤其是 Transformer 展現出強大的能力,體驗上,機器翻譯效果已經非常驚人了。很多時候只需要調整少數詞或表達就能得到滿意的結果,甚至在特定領域上能超過人類的專業翻譯水平。

那麼,從 GNMT 到現在已經三年了,Transformer 的誕生也有兩年了。我們可能很想知道,在最近的 NMT 研究中,到底有什麼樣的 SOTA 模型,翻譯效果又有什麼樣的進步?

在這篇文章中,我們將一探機器翻譯 102 個模型、40 個數據集,從中找找 SOTA 模型到底都有什麼。

機器之心 SOTA 項目

以前我們找 SOTA 模型,基本上只能靠背景知識與各種 Benchmark,頂多也是 Follow 一些收集頂尖模型的 GitHub 項目。但隨著任務細分與新數據集的不斷公布,這些只關注主流數據集的 Benchmark 就有些不太夠用了。機器之心構建的 SOTA 模型項目,就旨在解決這個問題,我們可以直接從機器之心官網中找到 SOTA 平臺,並搜索想要的頂尖模型。

為了探索當前最佳的 NMT 模型,我們選了幾個常見的數據集,並看看在 Transformer 之後,還有哪些激動人心的研究成果。我們發現不同的 NMT 模型都有其側重的數據集,但最常用的還是 WMT 英法數據集或英德數據集。除此之外,我們也特意找了中英數據集,看看適合翻譯中文的模型又是什麼樣的。

如下是基於 WMT 2014 English-French 數據集的模型,展開後可以看到對應論文與代碼。後面我們也會介紹 Transformer Big + BT 模型的核心思路,看看它如何繼承了 Transformer 衣缽。

除此之外,當我們選擇 WMT French-English 數據集後,我們發現當前的 SOTA 模型 MASS 是微軟亞洲研究院劉鐵巖等研究者提出來的,它的基本思想承接於 BERT 預訓練模型,是另一個非常吸引人的方向。

最後在選擇 NIST Chinese-English 數據集時,我們發現早一段時間馮洋等研究者提出的 Oracle Word 能獲得當前 SOTA 結果,該研究也獲得了 ACL 2019 最佳論文。

總體而言,這三個 SOTA 模型都有著獨特的優化方向,其中 Transformer Big + BT 探索用更多的單語數據強化模型效果、MASS 探索預訓練語言模型與無監督的翻譯方法、Oracle Word 則探索如何能彌補訓練與推斷間的鴻溝。

Transformer Big + BT:回譯是王道

一般而言,訓練 NMT 模型需要原文與參考譯文這種成對的雙語數據。但是,雙語數據相對於網絡上常見的大量單語數據要有限地多。在這一項研究中,研究者展示了如何通過僅提供我們想要翻譯的語言的文本來提升模型的翻譯性能,他們表明利用大量的此類數據可以大幅提升模型準確度。

論文:Understanding Back-Translation at Scale論文地址:https://arxiv.org/pdf/1808.09381v2.pdf

通過單語數據提升 NMT 模型最高效的方法之一是回譯(back-translation)。如果我們的目標是訓練一個英語到德語的翻譯模型,那麼可以首先訓練一個從德語到英語的翻譯模型,並利用該模型翻譯所有的單語德語數據。然後基於原始的英語到德語數據,再加上新生成的數據,我們就能訓練一個英語到德語的最終模型。

該論文表示,讓模型理解數據的正反翻譯過程是非常重要的,通過採樣故意不總是選擇最好的翻譯同樣也能得到性能提升。如下動圖展示了回譯的主要過程,相當於我們用左邊較少的數據集生成了右邊較大的數據集,並在兩種數據集上訓練而獲得性能提升。

研究者表示,如果我們把 2.26 億個反向翻譯的句子添加到現有的包含 500 萬個句子的訓練數據中,我們就能大幅提升翻譯質量。下圖(左)顯示了這一系統在標準 WMT』14 英-德基準測試集上的準確率,該系統在 16 個 DGX-1 機器上需要訓練 22.5 小時。圖中還顯示了 DeepL 的準確率,這是一個依賴於高質量人工翻譯的專業翻譯服務,此前該服務在該基準測試上表現最佳。

MASS:預訓練必不可少

BERT 或 XLNet 等預訓練語言模型獲得了非常好的效果,它們能學習到一些通用的語言知識,並遷移到下遊 NLP 任務中。受到這種範式的啟發,微軟亞研劉鐵巖等研究者提出了 MAsked Seq2Seq 預訓練模型(MASS),用於基於編碼器-解碼器的語言生成任務,例如機器翻譯。

論文:MASS: Masked Sequence to Sequence Pre-training for Language Generation論文地址:https://arxiv.org/abs/1905.02450v5

MASS 採用了編碼器-解碼器框架,並嘗試在給定部分句子的情況下修復整個句子。如下所示為 MASS 的框架圖,其輸入句子包含了一些連續的 Token,並且中間會帶有一些連續的 Mask,模型的任務是預測出被 Mask 掉的詞是什麼。相比 BERT 只有編碼器,MASS 聯合訓練編碼器與解碼器,能獲得更適合機器翻譯的表徵能力。

MASS 整體框架,其中「_」表示被 Mask 掉的詞。雖然關注自然語言理解的 BERT 只需要編碼器就行,但這種關注語言生成的預訓練模型需要同時保留編碼器與解碼器。

正因為這種聯合訓練編碼器-解碼器的方法,MASS 非常適合擁有較少雙語語料的翻譯任務。此外,它在無監督翻譯中也能得到非常不錯的效果,甚至超過早期基於注意力機制的有監督翻譯模型。

在 MASS 中被 Mask 掉的詞數量是可選的,如果輸入只 Mask 掉一個詞(k=1),那麼它就等價於 BERT,因為解碼器沒有了額外的輸入信息。如果 Mask 掉所有詞,那麼就等價於 GPT 這種標準的自回歸語言模型,因為編碼器完全沒有輸入信息。如果只 Mask 掉部分詞,那麼它就非常適合機器翻譯這種生成任務了。

MASS 的兩種極限選擇,它們分別等價於 BERT 與 GPT。

MASS 這種架構可以強迫編碼器理解輸入句子的意義,並鼓勵解碼器從編碼器中抽取有用的信息。此外,因為解碼器預測的是連續的詞,因此它也能構建更強大的語言建模能力。這種結構非常符合語言生成模型的要求,因此經過預訓練後的模型只需要簡要的微調就能有比較好的效果。

在該論文的實驗結果中,這種預訓練模型在無監督機器翻譯(只有單語數據)和少樣本機器翻譯中效果都非常出眾。此外,即使在通常較為充足的雙語數據中,MASS 的預訓練也能獲得更多的性能提升。

Oracle Word:訓練與預測之間有 Gap

目前 NMT 的訓練範式有兩大局限性。首先在訓練過程中,每預測一個譯文詞,它都會以已知的標註詞作為約束,然而在推斷中,模型只能以已知的預測詞作為約束,這種不匹配就造成了模型在測試集的效果沒那麼好。其次在訓練中,我們要求模型預測的譯文必須與標註的譯文一一對應,很明顯這也會限制翻譯的多樣性。

為了解決這兩個問題,這項研究提出了在訓練過程中用 Oracle Word 強化 Ground Truth Word。也就是說,在翻譯模型的訓練中,它不止會將標註數據作為指導,同時也會將預測結果作為指導。這很大程度上降低了訓練和推斷之間的差異,並大大提升了模型的預測效果。

論文:Bridging the Gap between Training and Inference for Neural Machine Translation論文地址:https://arxiv.org/abs/1906.02448

其中 Oracle Word 可以簡單理解為模型預測出的候選詞,它的選擇方法有兩種,即 word-level oracle 和 sentence-level oracle。

詞語級別的 Oracle Word 選擇方法。

word-level oracle 的選擇方法如圖所示,在時間步為 j 時,獲取前一個時間步模型預測出的分數。為了提高模型的魯棒性,論文在預測分數基礎上加上了 Gumbel noise,最終取分數最高的詞語作為此時的 Oracle Word。sentence-level oracle 的選擇方法則是在訓練時的解碼階段中,使用束搜索的方法,選擇前 k 個備選句子,然後計算每個句子的 BLEU 分數,最終選擇分數最高的句子。這種方式選擇出來的句子就可以作為模型的預測結果,並指導模型繼續學習。

現在有了候選詞,那麼我們就要考慮如何將它們加入標註詞,並共同訓練模型。這篇研究的思路非常精煉,即在訓練過程中,隨機選擇兩者中的一個作為模型所需的信息。具體而言,如果模型要預測譯文的第 j 個詞,那麼模型會以 p 的概率選擇 Oracle Word、以 1-p 的概率選擇 Ground Truth Word 作為所需的第 j-1 個譯文詞。

現在,在訓練中,只需要令概率 p 遞增,那麼相當於從傳統的訓練過程逐步遷移到推斷過程,這兩者之間的鴻溝也就不存在了。

如下所示為該項研究在 NIST Chinese-English 數據集上的效果,其中 MT03 表示 NIST 2003 作為測試集的效果。我們可以看到,不論是將 Oracle Word 加到 RNN 架構還是加到 Transformer 架構,它都能得到性能上的提升(BLEU 值)。

最後,以上 3 個 SOTA 模型只是從不同的角度提升機器翻譯效果,SOTA 項目中還能找到更多優秀的模型,它們都有各自的特點與關注的角度。總的而言,理解機器翻譯最前沿的思想,這些 SOTA 模型都是要了解的,我們需要從各個角度看看神經機器翻譯的潛力到底怎麼樣。

機器之心「SOTA模型」:22大領域、127個任務,機器學習 SOTA 研究一網打盡。

www.jiqizhixin.com/sota

相關焦點

  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    近年來,幾乎所有的研究機構在發表關於機器翻譯新方法的論文時,都會以 WMT 數據集作為實驗數據,並以 BLEU 評分來衡量方法的有效性,給出一個量化的、可比的翻譯質量評估,因此,WMT 數據集已經成為機器翻譯領域公認的主流數據集。
  • Facebook 100種語言互譯模型原始碼公開,機器翻譯再也不用英語當...
    編 |智東西 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 多項NLP任務新SOTA,Facebook提出預訓練模型BART
    在提供同等的訓練資源時,BART 可在 GLUE 和 SQuAD 數據集上實現與 RoBERTa 相當的性能,並在抽象對話、問答和文本摘要等任務中獲得新的當前最優結果,在 XSum 數據集上的性能比之前研究提升了 6 ROUGE。在機器翻譯任務中,BART 在僅使用目標語言預訓練的情況下,獲得了比回譯系統高出 1.1 個 BLEU 值的結果。
  • 漫畫翻譯、嵌字 AI,東京大學論文被 AAAI』21 收錄
    發論文、公開數據集、商業化一條龍在科研方面,目前該篇論文已經被 AAAI 2021 接收,研究團隊還開源了一個包含五部不同風格(幻想、愛情、戰鬥、懸疑、生活)的漫畫,所組成的翻譯評估數據集。OpenMantra 漫畫翻譯評估數據集論文地址:https://arxiv.org/abs/2012.14271數據格式:帶注釋的 JSON 文件和原始圖像數據內容:1593 個句子、848 個場景、214 頁漫畫數據大小:36.8 MB更新時間:2020 年 12 月 7 日下載地址:https:/
  • 今日Paper|聯合多任務模型;3D人體重建;可視化理解機器翻譯;深入...
    目錄聯合多任務模型:多NLP任務的神經網絡的創建Peelnet:基於單視角彩色圖片的帶紋理的3D人體重建可視化理解機器翻譯深入研究整流器:在ImageNet分類上超越人的水平對深前向神經網絡訓練難點的理解聯合多任務模型:多NLP任務的神經網絡的創建論文名稱:A Joint Many-Task
  • 免費查找AI最優論文神器:一鍵出結果,分分鐘提取表格、最新數據
    需要注意的是,這個界面目前僅適用於帶有LaTex源的arXiv論文。接著,就是自動化結果提取。該公司在過去一年中就致力於研究從機器論文學習中自動提取結果。現在就有了一個新的人機互動系統,用於生產中的結果提取。
  • 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型
    這需要從文本中自動抽象語義內容。由於缺乏可用的復映對標記數據集,目前更多的是使用依賴於機器翻譯(MT)技術的方法,已經被證明非常受歡迎。理論上來看,翻譯技術可能是自動複述的有效解決方案,因為翻譯技術是從語言實現中抽象出語義內容。例如,將相同的句子分配給不同的翻譯者,最終翻譯出來的內容通常是有差別的,這樣就得到一個豐富的解釋集,在複述任務中可能會非常有用。
  • 百分點認知智能實驗室出品:機器翻譯是如何煉成的(下)
    讀完本文,您將了解:· 神經機器翻譯模型如何進化並發展成令NLP研究者萬眾矚目的Transformer模型;· 基於Transformer模型,我們如何打造工業級的神經機器翻譯系統。這兩件事標誌著以神經網絡作為基礎的機器翻譯,開始全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。2016年穀歌部署神經機器翻譯系統(GNMT)之後,當時網上有一句廣為流傳的話:「作為一個翻譯,看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。」
  • 2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
    自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。
  • 火山翻譯力奪國際機器翻譯大賽五項冠軍
    自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。  組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。
  • 機器翻譯能達60個語種3000個方向,近日又奪全球五冠,這家牛企是誰?
    比賽的主要宗旨是評估機器翻譯最新發展水平,傳播通用測試數據集和公共訓練數據,改進機器翻譯評估評測方法。此次大賽共發布中文-英語、捷克語-英語、法語-德語、德語-英語、因紐特語-英語、泰米爾語-英語、日語-英語、普什圖語-英語、波蘭語-英語、俄語-英語、高棉語-英語等11個語言對、22個語言方向的機器翻譯評測任務。
  • 低資源神經機器翻譯MetaNMT:來自MAML與NLP的溫柔救贖
    因此,來自香港大學、紐約大學的研究人員Jiatao Gu、Yong Wang等人所提出的新神經機器翻譯方法MetaNMT,論文一經發表,就憑藉在低資源神經機器翻譯(NMT)上的優異性能表現驚豔了學界,成為2018年最具影響力的NLP創新之一。論文不僅被NLP領域領先的會議EMNLP收錄,還拿下了Facebook的低資源神經機器翻譯獎。
  • 多家翻譯軟體大型翻車現場?機器翻譯到底有哪些不確定性
    這篇論文的第一作者是來自FAIR的Myle Ott,他在論文的引言部分就提到:當前大多數機器翻譯的模型都是基於神經網絡(NMT),而神經網絡機器翻譯明顯沒有給予生詞(rare words)足夠的重視,最明顯的表現是曝光誤差(exposure bias),簡單來講是因為文本生成在訓練和推斷時的不一致造成的。
  • 基於PaddlePaddle的機器翻譯教程 | 深度學習基礎任務系列
    本文轉載自PaddlePaddle量子位 編輯 | 公眾號 QbitAI機器翻譯(machine translation, MT)是用計算機來實現不同語言之間翻譯的技術。需要翻譯的語言通常稱為源語言(source language),翻譯成的結果語言稱為目標語言(target language)。
  • 谷歌發布含 7 種語言的全新數據集:有效提升 BERT 等多語言模型...
    這兩個數據集都包含了格式良好、具有高度重疊詞彙的句子對。其中大約有一半的句子對是釋義對,另一些則不是,數據集也包含了最先進模型的訓練數據。通過新數據的訓練,該模型對釋義識別任務的精度從 50% 提高到了 85-90%。
  • 《Nature》子刊:不僅是語言,機器翻譯還能把腦波「翻譯」成文字
    在《Nature Neuroscience》的一篇論文中,來自加州大學舊金山分校的研究者實踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經信號轉換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。
  • 百度何中軍:機器翻譯——從設想到大規模應用
    百度何中軍帶來報告《機器翻譯 —— 從設想到大規模應用》。何中軍,博士,百度人工智慧技術委員會主席,從事機器翻譯研究與開發十餘年,申請專利40餘項,研發了全球首個網際網路神經網絡翻譯系統、首個WiFi翻譯機、首個語義單元驅動的語音到語音同傳系統。
  • 機器翻譯古文也翻車?讀了20次「苟富貴勿相忘」後,谷歌:沒錢的人...
    相信不少人還記得中學的時候全文背誦《陳涉世家》的痛苦,當然還有考試的時候讓你翻譯某一句名言,像是「燕雀安知鴻鵠之志哉」,或者「天下苦秦久矣。吾聞二世少子也,不當立,當立者乃公子扶蘇」。  如今,隨著AI技術的成熟,機器也逐漸在學習如何以人類的方式行動和思考。  既然如此,我們為何不考考它,看看在AI眼中,《陳涉世家》到底是個什麼故事。
  • 你的定製版「谷歌」機器翻譯體系
    但是已經了解模型體系結構,試圖擴展設計,和真實世界的用戶打交道時,就不再需要通用工具了。MarianNMT是專門的工具,旨在簡單快捷搭建產品級的翻譯系統。這裡沒必要費力氣做重複的工作,只是舉個例子說明機器學習從研究實驗室進入日常使用,使得軟體領域發展得越來越成熟。