雷鋒網編者按:十年前,Google Translate發布。當時,這項服務背後的核心算法還是基於短語的機器翻譯。
而十年後的今天,更先進的神經網絡機器翻譯( Neural Machine Translation)技術已經使得翻譯系統的速度和準確度有了大幅提升。Google發現,在多個樣本的翻譯中,神經網絡機器翻譯系統將誤差降低了 55%-85%甚至以上。
雖然成就喜人,但這對研究人員來說卻遠遠不夠。在他們看來,NMT領域還有太多可提升的空間。
近日,來自Google Brain的四位研究人員Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT訓練成本太高這一問題出發,對NMT 架構的超參數進行了大規模分析,並且對建立和擴展NMT構架提出了一些新穎觀點和實用建議。研究人員表示,學界還未有過類似的研究。
同時,該論文也已提交了今年的ACL大會(Association for Computational Linguistics)。
以下是為雷鋒網編譯的部分論文內容。
摘要
在過去幾年裡,基於神經機器翻譯(NMT)技術的產品系統被越來越多部署在終端客戶端中,NMT本身也因此獲得了巨大進步。但目前,NMT構架還存在著一個很大的缺點,即訓練它們的成本太高,尤其是GPU的收斂時間,有時會達到幾天到數周不等。這就使得窮舉超參數搜索(exhaustive hyperparameter search)的成本和其他常見神經網絡結構一樣,讓人望而卻步。
為此,我們首次對 NMT 架構的超參數進行了大規模分析。我們報告了數百次實驗測試的經驗結果和方差數(variance numbers),這相當於在標準WMT英譯德任務上運行超過250,000 GPU小時數的效果。從實驗結果中,我們提出了有關建立和擴展NMT構架的創新觀點,也提供了一些實用建議。
作為此次研究成果的一部分,我們也發布了一個開源的NMT框架,讓研究員們能輕鬆使用該新技術,並得出最新試驗結果。
在研究過程中,我們通過梳理關鍵因素,以獲得最新的實驗結果。
有些研究人員可能並不認為「集束搜索調節(beam search tuning)和大多數架構變化同等重要」,以及「使用了當前優化技術的深度模型並不總是優於淺度模型」等說法,但通過實驗,我們為這類說法給出了實驗證據。
以下是實驗收穫總結:
使用 2048 維的大型嵌入(embeddings)有最優實驗結果,不過優勢不大;僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數必要的語義信息。
LSTM Cell 始終比 GRU Cell表現得好。
2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓練中不如2-4層的穩定,這一點表現得很明顯。不過,如果能接受高質量得優化,更深層的編碼器也很有潛力。
深度 4 層解碼器略優於較淺層的解碼器。殘差連接在訓練 8 層的解碼器時不可或缺,而且,密集的殘差連接能使魯棒性有額外增加。
把額外的關注度參數化(Parameterized additive attention),會產生總體最優結果。
有一個調適良好、具有長度罰分(length penalty)的集束搜索(beam search)很關鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯。
我們還強調了幾個重要的研究課題,包括:
高效利用嵌入參數 (4.1)(雷鋒網(公眾號:雷鋒網)註:4.1代表論文章節,下同)
注意機制(attention mechanisms)作為加權跳過連接(weighted skip connections)(4.5),而不是記憶單元的角色作用,
深度循環網絡需要更好的優化方法(4.3),
超參數變化(hyperparameter variations)還需要更具穩健性的集束搜索(4.6)。
此外,我們還專門發布了一個開源NMT框架,讓大家能對該框架的創新點一探究竟,並進行可重複試驗,同時我們還發布了所有實驗配置的文件。
論文地址:https://arxiv.org/abs/1703.03906
開源地址:https://github.com/google/seq2seq/
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。