選自arxiv作者:Denny Britz等機器之心編譯參與:微胖、蔣思源、吳攀
這樣的實驗只有谷歌級別的公司才能處理的了。這篇文章對大型 NMT 模型訓練過程中的各個超參數對結果的影響進行了經驗分析,並得出了一些有意義的結論。比如,嵌入用 2048 維結果最好,但是也沒有好到哪裡去,基本上,128 維的結果就不錯了;LSTM 比 GRU 效果好;2-4 層的雙向編碼器效果最好。作為論文的一部分,作者們發布了一個開源 NMT 框架,能讓研究員輕鬆試驗新技術並得出最先進的試驗結果,機器之心也有報導,請見(資源 | 谷歌官方開源 tf-seq2seq:一種通用編碼器-解碼器框架)
論文地址:https://arxiv.org/abs/1703.03906開源地址:https://github.com/google/seq2seq/
摘要
神經機器翻譯(NMT)在過去的幾年中有了很大的進步,並且由 NMT 構成的產品系統現已經部署到客戶端中。不過當前架構主要的缺點就是高昂的訓練成本,收斂所花費的 GPU 時間通常是幾天到幾周。這使得窮盡超參數(hyperparameter)搜索(這在其他神經網絡架構中也很常見)的成本高昂的讓人望而卻步。在這篇論文中,我們首次大規模分析了 NMT 架構的超參數,並報告了幾百次實驗測試的經驗結果和方差數(variance numbers),相當於標準 WMT 英譯德任務上運行 250,000 多個 GPU 小時。我們也通過實驗找到了一些關於構建和擴展 NMT 架構的新洞見,也提出了一些實用建議。作為這次研究貢獻的一部分,我們發布了一個開源 NMT 框架,能讓研究員輕鬆試驗新技術並得出最先進的試驗結果。
圖 1:帶有注意模塊(attention module)的編碼器—解碼器架構。章節號代表該部分相應的參考實驗。
圖 2:帶有以及不帶有殘差連接(residual connections)的深度解碼器訓練圖表,且該圖表示了在評估集上的對數困惑度(log perplexity)。
4.7 最後系統的對比
最後,我們將所有實驗中性能最佳的模型(附加了 512 維注意(attention)的基礎模型),從 newstest2013 驗證集中挑選出的,與文獻中的歷史結果進行了比較(表 8)。儘管這不是這份研究的關注點,但是,通過將我們的洞見融入一個單獨的模型(表 7 描述的),我們能夠進一步改善效果。
雖然我們沒有提供架構創新,但是我們的研究確實表明:通過詳細的超參數調節和良好初始化,我們可以在標準 WMT 基準上實現最佳的性能表現。僅有(Wu et al., 2016)的模型比我們的模型表現更優,但是,他們的模型顯然要複雜得多,也缺乏公開實現。
表 7:我們最終綜合模型的超參數設置,由全部單獨優化值組成
表 8:各種模型比較,包含:RNNSearch (Jean et al., 2015), RNNSearch-LV (Jean et al., 2015), BPE (Sennrich et al., 2016b), BPE-Char (Chung et al., 2016), Deep-Att (Zhou et al., 2016), Luong (Luong et al., 2015a), Deep-Conv (Gehring et al., 2016), GNMT (Wu et al., 2016) 和 OpenNMT (Klein et al., 2017). 帶有 * 的沒有公開的實現。
結論
我們對神經機器翻譯架構差異進行了第一個大規模分析,梳理了實現最先進實驗結果的關鍵因素。我們證實了一些令人驚奇的見解,包括集束搜索調節(beam search tuning)和絕大多數架構變化同樣重要,使用了當前優化技術的深度模型並不總是優於淺模型。以下就是我們總結的實際發現:
使用 2048 維的大型嵌入(embeddings)實現了最優的結果,不過優勢很小。即使只具有 128 維的嵌入似乎也有足夠的能力來獲取絕大多數必要的語義信息。LSTM Cell 始終優於 GRU Cell。2-4 層的雙向編碼器性能最好。更深的編碼器顯然在訓練中不太穩定,不過如果優化好,更深的編碼器會有潛力。深度 4 層解碼器比淺一些的解碼器表現要略勝一籌。訓練 8 層的解碼器,殘差連接是必要的,而且密集的殘差連接能帶來額外的穩健性。參數化的額外的注意模塊產生了總體最優結果。一個調適良好、具有長度罰項(length penalty)的集束搜索(beam search)十分重要。5 到 10 集束寬度(Beam widths)和 1.0 的長度罰項似乎效果不錯。
我們強調幾個重要的研究問題(包括高效利用嵌入參數 (4.1)),注意機制(attention mechanisms)作為加權跳過連接(weighted skip connections)(4.5)而不是記憶單元的角色作用,深度循環網絡(4.3)需要更好的優化方法,以及超參數變化(hyperparameter variations)還需要更具穩健性的集束搜索(beam search/4.6)。
此外,我們還公開發布了一個開源 NMT 框架和我們所有實驗的配置文件,該 NMT 開源框架專門用於研究架構創新和生成可重複實驗。