近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。除此之外,「為了鼓勵再現和增加透明」,他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。
發布地址:http://nlp.stanford.edu/projects/nmt/
參與成員:
Christopher D. Manning(史丹福大學計算機科學和語言學教授)
Minh-Thang Luong(斯坦福博士,Google Brain 研究科學家)
Abigail See(史丹福大學計算機科學在讀博士)
Hieu Pham
代碼庫
代碼庫:https://github.com/lmthang/nmt.hybrid
論文:使用混合詞-字符模型實現開放詞彙神經機器翻譯(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models)
摘要:幾乎之前所有的神經機器翻譯(NMT)使用的詞彙都受限,隨後可能用一個方法來修補未知的單詞。本論文展示了一個全新的能實現開放詞彙神經機器翻譯(open vocabulary NMT)的詞-字符解決方法。我們建立了一個混合的系統,能夠實現大部分的詞級(word level)翻譯,並可查閱罕見詞的字母組成。我們字符級的循環神經網絡能計算源詞的表徵,並能在需要時恢復未知的目標詞。這種混合的方法還有一個雙重優點是,與基於字符的網絡相比,它更快且更容易訓練;同時,它不像基於詞的模型那樣會產生未知的詞。在 WMT' 15 英語-捷克語的翻譯任務上,這種混合方法還實現了一個額外的+ 2.1 BLEU 分的提升——超過已經能處理未知單詞的模型 11.4 BLEU 分。我們的最佳系統在這個任務上達到了新的最佳表現:20.7 BLEU 分。我們證明了我們的字符模型不僅能成功地學習生成形式很好的捷克語詞(這是一種詞彙複雜高度屈折的語言),還能為英語源詞建立了正確的表徵。
代碼庫:https://github.com/lmthang/nmt.hybrid
論文:實現基於注意的神經機器翻譯的有效方法(Effective Approaches to Attention-based Neural Machine Translation)
摘要:最近一種在翻譯過程中通過選擇性地集中關注部分源句子的注意機制被用於提升神經機器翻譯(NMT)結果。然而,探索用於基於注意的神經機器翻譯(NMT)的有用架構的研究還不多。本論文探討了兩種簡單有效的注意機制類別:一種能顧及到所有源詞的全局方法,以及一種只能一次查看源詞的一個子集的局部方法。我們證明了在英語-德語/德語-英語 WMT 翻譯任務上,這兩種方法都是有效的。使用局部注意方法,相比於已經結合了 dropout 等技術的非注意系統,我們的系統增長了 5.0 BLEU 點。我們的組合模型使用了不同的注意架構,在 WNT'15 英語-德語的翻譯任務中,實現了目前最好的結果:25.9 BLEU 點;比現有的基於 NMT 和 一個 n-gram reranker 的最佳系統提升了 1.0 BLEU 點。
論文:通過剪枝的神經機器翻譯的壓縮(Compression of Neural Machine Translation Models via Pruning)
摘要:和其它許多深度學習領域一樣,神經機器翻譯(NMT)常會遭遇過度參數化(over-parameterization)的問題,這會導致需要大量的存儲空間。這篇論文檢查了三種簡單的基於幅度的(magnitude-based)用來壓縮 NMT 模型的剪枝方案,即 class-blind、class-uniform 和 class-distribution;它們的不同之處在於剪枝的閾值為 NMT 架構中不同的權重類所計算的方式。我們表明權重剪枝(weight pruning)可作為一種用於當前最佳 NMT 壓縮技術。我們表明一個帶有超過 2 億個參數的 NMT 模型可以在僅有非常少量的性能損失的情況下被剪去 40%——這個結果是在 WMT'14 英語-德語翻譯任務上得到的。這揭示了 NMT 架構中的冗餘的分布。我們的主要結果是:通過再訓練(retraining),我們可以使用 80% 剪枝的模型來恢復甚至超越原有的表現。
有任何評論或疑問,可聯繫第一作者:lmthang@stanford.edu
原文來自斯坦福 ,編譯:機器之心