首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU

2020-12-17 機器之心Pro

選自arxiv作者：Denny Britz等機器之心編譯參與：微胖、蔣思源、吳攀

這樣的實驗只有谷歌級別的公司才能處理的了。這篇文章對大型 NMT 模型訓練過程中的各個超參數對結果的影響進行了經驗分析，並得出了一些有意義的結論。比如，嵌入用 2048 維結果最好，但是也沒有好到哪裡去，基本上，128 維的結果就不錯了；LSTM 比 GRU 效果好；2-4 層的雙向編碼器效果最好。作為論文的一部分，作者們發布了一個開源 NMT 框架，能讓研究員輕鬆試驗新技術並得出最先進的試驗結果，機器之心也有報導，請見（資源 | 谷歌官方開源 tf-seq2seq：一種通用編碼器-解碼器框架）

論文地址：https://arxiv.org/abs/1703.03906開源地址：https://github.com/google/seq2seq/

摘要

神經機器翻譯（NMT）在過去的幾年中有了很大的進步，並且由 NMT 構成的產品系統現已經部署到客戶端中。不過當前架構主要的缺點就是高昂的訓練成本，收斂所花費的 GPU 時間通常是幾天到幾周。這使得窮盡超參數（hyperparameter）搜索（這在其他神經網絡架構中也很常見）的成本高昂的讓人望而卻步。在這篇論文中，我們首次大規模分析了 NMT 架構的超參數，並報告了幾百次實驗測試的經驗結果和方差數（variance numbers），相當於標準 WMT 英譯德任務上運行 250,000 多個 GPU 小時。我們也通過實驗找到了一些關於構建和擴展 NMT 架構的新洞見，也提出了一些實用建議。作為這次研究貢獻的一部分，我們發布了一個開源 NMT 框架，能讓研究員輕鬆試驗新技術並得出最先進的試驗結果。

圖 1：帶有注意模塊（attention module）的編碼器—解碼器架構。章節號代表該部分相應的參考實驗。

圖 2：帶有以及不帶有殘差連接（residual connections）的深度解碼器訓練圖表，且該圖表示了在評估集上的對數困惑度（log perplexity）。

4.7 最後系統的對比

最後，我們將所有實驗中性能最佳的模型（附加了 512 維注意（attention）的基礎模型），從 newstest2013 驗證集中挑選出的，與文獻中的歷史結果進行了比較（表 8）。儘管這不是這份研究的關注點，但是，通過將我們的洞見融入一個單獨的模型（表 7 描述的），我們能夠進一步改善效果。

雖然我們沒有提供架構創新，但是我們的研究確實表明：通過詳細的超參數調節和良好初始化，我們可以在標準 WMT 基準上實現最佳的性能表現。僅有（Wu et al., 2016）的模型比我們的模型表現更優，但是，他們的模型顯然要複雜得多，也缺乏公開實現。

表 7：我們最終綜合模型的超參數設置，由全部單獨優化值組成

表 8：各種模型比較，包含：RNNSearch (Jean et al., 2015), RNNSearch-LV (Jean et al., 2015), BPE (Sennrich et al., 2016b), BPE-Char (Chung et al., 2016), Deep-Att (Zhou et al., 2016), Luong (Luong et al., 2015a), Deep-Conv (Gehring et al., 2016), GNMT (Wu et al., 2016) 和 OpenNMT (Klein et al., 2017). 帶有 * 的沒有公開的實現。

結論

我們對神經機器翻譯架構差異進行了第一個大規模分析，梳理了實現最先進實驗結果的關鍵因素。我們證實了一些令人驚奇的見解，包括集束搜索調節（beam search tuning）和絕大多數架構變化同樣重要，使用了當前優化技術的深度模型並不總是優於淺模型。以下就是我們總結的實際發現：

使用 2048 維的大型嵌入（embeddings）實現了最優的結果，不過優勢很小。即使只具有 128 維的嵌入似乎也有足夠的能力來獲取絕大多數必要的語義信息。LSTM Cell 始終優於 GRU Cell。2-4 層的雙向編碼器性能最好。更深的編碼器顯然在訓練中不太穩定，不過如果優化好，更深的編碼器會有潛力。深度 4 層解碼器比淺一些的解碼器表現要略勝一籌。訓練 8 層的解碼器，殘差連接是必要的，而且密集的殘差連接能帶來額外的穩健性。參數化的額外的注意模塊產生了總體最優結果。一個調適良好、具有長度罰項（length penalty）的集束搜索（beam search）十分重要。5 到 10 集束寬度（Beam widths）和 1.0 的長度罰項似乎效果不錯。

我們強調幾個重要的研究問題（包括高效利用嵌入參數 (4.1)），注意機制（attention mechanisms）作為加權跳過連接（weighted skip connections）（4.5）而不是記憶單元的角色作用，深度循環網絡（4.3）需要更好的優化方法，以及超參數變化（hyperparameter variations）還需要更具穩健性的集束搜索（beam search/4.6）。

此外，我們還公開發布了一個開源 NMT 框架和我們所有實驗的配置文件，該 NMT 開源框架專門用於研究架構創新和生成可重複實驗。

相關焦點

用大規模神經機器翻譯架構分析給出...

當時，這項服務背後的核心算法還是基於短語的機器翻譯。而十年後的今天，更先進的神經網絡機器翻譯（ Neural Machine Translation）技術已經使得翻譯系統的速度和準確度有了大幅提升。Google發現，在多個樣本的翻譯中，神經網絡機器翻譯系統將誤差降低了 55%-85%甚至以上。
神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?

翻譯/ 崔躍輝、葉倚青校對/ 葉倚青用於循環神經網絡的編碼-解碼架構，在標準機器翻譯基準上取得了最新的成果，並被用於工業翻譯服務的核心。該模型很簡單，但是考慮到訓練所需的大量數據，以及調整模型中無數的設計方案，想要獲得最佳的性能是非常困難的。
F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯

Facebook 機器翻譯的兩代架構目前，Facebook 絕大部分的翻譯系統，仍是基於 phrase-based machine translation 架構，即「基於短語的機器翻譯」。在過去的十到十五年中，該架構被行業廣泛採用。
【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真

我們在論文中還寫下了更多的結果和分析，希望這些的發現不僅能夠幫助從事機器學習或機器翻譯的研究人員，還能對於語言學家和對使用單一系統處理多語言感興趣的人有用。最後，上述多語言谷歌神經機器翻譯系統（Multilingual Google Neural Machine Translation）從今天開始將陸續為所有谷歌翻譯用戶提供服務。
RNN系列教程之四 | 利用LSTM或GRU緩解梯度消失問題

LSTM於1997年由Sepp Hochreiter 和Jürgen Schmidhuber首次提出，是當前應用最廣的NLP深度學習模型之一。GRU於2014年首次被提出，是LSTM的簡單變體，兩者有諸多共性。先來看看LSTM，隨後再探究LSTM與GRU的差異。
常見的時序模型:RNN/LSTM/GRU

編碼-解碼，機器翻譯LSTMLong Short-Term Memory：基於長短期記憶的RNN。普通的RNN具有梯度保障或消失的問題，LSTM就是通過引入線性自循環單元cell，保持梯度的長期存在。colah's blog & gru paper直接由更新門控制時序信息流傳遞，比如更新門等於0，其實就是線性自循環Cell。當前輸入X的信息直接由重置門篩選關聯的hidden層特徵。
F82017|技術負責人為你解析Facebook神經機器翻譯

「Auto translation」：當系統判斷翻譯質量很高時，會自動顯示翻譯結果，而不是原始語言。這背後，是 Facebook 對平臺上的每一條翻譯都計算 confidence score（置信度），並據此預估翻譯質量。這靠另一個單獨的機器學習模型來實現。
從動圖中理解 RNN,LSTM 和 GRU

Animated RNN, LSTM and GRU作者 | Raimi Karim譯者 | 汪鵬(重慶郵電大學)、Overfitting本文編輯：王立魚英文原文：https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45
史丹福大學 NLP 組開放神經機器翻譯代碼庫

在這篇文章中，他們還放出了在多種翻譯任務上（比如英德翻譯和英語-捷克語翻譯）實現了當前最佳結果的代碼庫（codebase）。除此之外，「為了鼓勵再現和增加透明」，他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。發布地址：http://nlp.stanford.edu/projects/nmt/
Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯

通過 Caffe2 RNN，Facebook 的神經機器翻譯的效率提升高達 2.5x，Facebook 全部的機器翻譯模型從基於短語的系統轉換為所有語言的神經模型。這意味著 Facebook 可在產品中部署神經機器翻譯了。我們很高興共享 Caffe2 在支持循環神經網絡（RNN）方面的最新成果。
谷歌將AutoML應用於Transformer架構,翻譯結果飆升,已開源!

（NAS）之後，使用了翻譯作為一般的序列任務的代理，並找到了Evolved Transformer這一新的Transformer架構。Evolved Transformer不僅實現了最先進的翻譯結果，與原始的Transformer相比，它還展示了語言建模的改進性能。自幾年前推出以來，Google的Transformer架構已經應用於從製作奇幻小說到編寫音樂和聲的各種挑戰。重要的是，Transformer的高性能已經證明，當應用於序列任務（例如語言建模和翻譯）時，前饋神經網絡可以與遞歸神經網絡一樣有效。
淺析大規模多語種通用神經機器翻譯方法

目前，神經機器翻譯（NMT）已經成為在學術界和工業界最先進的機器翻譯方法。最初的這種基於編碼器-解碼器架構的機器翻譯系統都針對單個語言對進行翻譯。近期的工作開始探索去擴展這種辦法以支持多語言之間的翻譯，也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。
什麼是神經機器翻譯(NMT)?

機器翻譯翻譯行業不斷發展以滿足客戶的需求，神經機器翻譯（NMT）是這一進程的最新一步。由於能夠一次翻譯整個句子，NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化，NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯？NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯，而不是一次翻譯一個單詞的破碎句子。使用大型人工神經網絡計算單詞序列的概率，NMT將完整的句子放入一個集成模型中。
結合堆疊與深度轉換的新型神經翻譯架構:愛丁堡大學提出BiDeep RNN

在神經機器翻譯問題中，不同的堆疊架構已經多次在不同研究中展現出了良好的表現，而深度轉換架構（Deep transition architecture）則成功地用於語言建模等用途中。愛丁堡大學與 Charles University 的研究者們對這兩種架構的多個組合形式在 WMT 翻譯任務中的表現進行了測試，並提出了結合堆疊與深度轉換的新型神經網絡：BiDeep RNN。
神經機器翻譯工具將首先用於中翻英

據新華社消息世界智慧財產權組織10月31日在日內瓦表示，中國國際專利申請量預計兩年內將居全球次席，因此該組織推出的最新基於人工智慧的神經機器翻譯工具將首先用在中文專利文檔轉化為英文的服務上。神經機器翻譯是一個新興技術，建立在龐大的、能夠「學習」之前翻譯過的句子的神經網絡模型上。與之前「基於短語」的方法相比，神經機器翻譯可產生更為自然的語序，並在差異性較大的兩種語言的翻譯中，如日文－英文或中文－英文中有顯著進步。
面向神經機器翻譯的篇章級單語修正模型

《面向神經機器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關於篇章級神經機器翻譯的工作。針對篇章級雙語數據稀缺的問題，這篇文章探討了如何利用篇章級單語數據來提升最終性能，提出了一種基於目標端單語的篇章級修正模型（DocRepair），用來修正傳統的句子級翻譯結果。
序列模型簡介:RNN, 雙向RNN, LSTM, GRU,有圖有真相

正向傳播分為兩個步驟:結論將雙向RNN與LSTM模塊相結合可以顯著提高你的性能，當你將其與注意機制相結合時，你將獲得機器翻譯、情緒分析等用例的最新性能。希望本文對你有所幫助。裡面有很多數學方程，我希望不會太嚇人。
超生動圖解LSTM和GRU:拯救循環神經網絡的記憶障礙就靠它們了!

AI識別你的語音、回答你的問題、幫你翻譯外語，都離不開一種特殊的循環神經網絡（RNN）：長短期記憶網絡（Long short-term
號稱要砸翻譯飯碗,神經機器翻譯哪家強?

Google新發布了神經機器翻譯（GNMT：Google Neural Machine Translation）系統，並稱該系統使用了當前最先進的訓練技術，能夠實現到當下機器翻譯質量上最大的提升。有從事翻譯職業的網友甚至這樣形容：作為翻譯看到這個新聞的時候，我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

研究者在 VATEX 數據集上進行了大量實驗，結果表明：統一的多語言模型不僅能夠更高效地生成視頻中英文描述，其性能還優於單語模型；時空視頻語境可以有效幫助對齊源語言和目標語言，從而輔助機器翻譯。首次提出視頻輔助的機器翻譯任務，並驗證了使用時空視頻語境作為額外信息對機器翻譯性能的提升效果。VATEX vs. MSR-VTT研究者對 VATEX 數據集和 MSR-VTT 數據集進行了全面分析。

首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU

相關焦點

用大規模神經機器翻譯架構分析給出...

神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?

F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯

【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真

RNN系列教程之四 | 利用LSTM或GRU緩解梯度消失問題

常見的時序模型:RNN/LSTM/GRU

F82017|技術負責人為你解析Facebook神經機器翻譯

從動圖中理解 RNN,LSTM 和 GRU

史丹福大學 NLP 組開放神經機器翻譯代碼庫

Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯

谷歌將AutoML應用於Transformer架構,翻譯結果飆升,已開源!

淺析大規模多語種通用神經機器翻譯方法

什麼是神經機器翻譯(NMT)?

結合堆疊與深度轉換的新型神經翻譯架構:愛丁堡大學提出BiDeep RNN

神經機器翻譯工具 將首先用於中翻英

面向神經機器翻譯的篇章級單語修正模型

序列模型簡介:RNN, 雙向RNN, LSTM, GRU,有圖有真相

超生動圖解LSTM和GRU:拯救循環神經網絡的記憶障礙就靠它們了!

號稱要砸翻譯飯碗,神經機器翻譯哪家強?

ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

神經機器翻譯工具將首先用於中翻英