Google Brain:NMT訓練成本太高?用大規模神經機器翻譯架構分析給出...

2020-12-14 雷鋒網

雷鋒網編者按:十年前,Google Translate發布。當時,這項服務背後的核心算法還是基於短語的機器翻譯。

而十年後的今天,更先進的神經網絡機器翻譯( Neural Machine Translation)技術已經使得翻譯系統的速度和準確度有了大幅提升。Google發現,在多個樣本的翻譯中,神經網絡機器翻譯系統將誤差降低了 55%-85%甚至以上。

雖然成就喜人,但這對研究人員來說卻遠遠不夠。在他們看來,NMT領域還有太多可提升的空間。

近日,來自Google Brain的四位研究人員Denny Britz, Anna Goldie , Thang Luong, Quoc Le就由NMT訓練成本太高這一問題出發,對NMT 架構的超參數進行了大規模分析,並且對建立和擴展NMT構架提出了一些新穎觀點和實用建議。研究人員表示,學界還未有過類似的研究。

同時,該論文也已提交了今年的ACL大會(Association for Computational Linguistics)。

以下是為雷鋒網編譯的部分論文內容。     

摘要

在過去幾年裡,基於神經機器翻譯(NMT)技術的產品系統被越來越多部署在終端客戶端中,NMT本身也因此獲得了巨大進步。但目前,NMT構架還存在著一個很大的缺點,即訓練它們的成本太高,尤其是GPU的收斂時間,有時會達到幾天到數周不等。這就使得窮舉超參數搜索(exhaustive hyperparameter search)的成本和其他常見神經網絡結構一樣,讓人望而卻步。

為此,我們首次對 NMT 架構的超參數進行了大規模分析。我們報告了數百次實驗測試的經驗結果和方差數(variance numbers),這相當於在標準WMT英譯德任務上運行超過250,000 GPU小時數的效果。從實驗結果中,我們提出了有關建立和擴展NMT構架的創新觀點,也提供了一些實用建議。

作為此次研究成果的一部分,我們也發布了一個開源的NMT框架,讓研究員們能輕鬆使用該新技術,並得出最新試驗結果。

研究結論

在研究過程中,我們通過梳理關鍵因素,以獲得最新的實驗結果。

有些研究人員可能並不認為「集束搜索調節(beam search tuning)和大多數架構變化同等重要」,以及「使用了當前優化技術的深度模型並不總是優於淺度模型」等說法,但通過實驗,我們為這類說法給出了實驗證據。

以下是實驗收穫總結:

  • 使用 2048 維的大型嵌入(embeddings)有最優實驗結果,不過優勢不大;僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數必要的語義信息。

  • LSTM Cell 始終比 GRU Cell表現得好。

  • 2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓練中不如2-4層的穩定,這一點表現得很明顯。不過,如果能接受高質量得優化,更深層的編碼器也很有潛力。

  • 深度 4 層解碼器略優於較淺層的解碼器。殘差連接在訓練 8 層的解碼器時不可或缺,而且,密集的殘差連接能使魯棒性有額外增加。

  • 把額外的關注度參數化(Parameterized additive attention),會產生總體最優結果。

  • 有一個調適良好、具有長度罰分(length penalty)的集束搜索(beam search)很關鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯。

我們還強調了幾個重要的研究課題,包括:

  • 高效利用嵌入參數 (4.1)(雷鋒網(公眾號:雷鋒網)註:4.1代表論文章節,下同)

  • 注意機制(attention mechanisms)作為加權跳過連接(weighted skip connections)(4.5),而不是記憶單元的角色作用,

  • 深度循環網絡需要更好的優化方法(4.3),

  • 超參數變化(hyperparameter variations)還需要更具穩健性的集束搜索(4.6)。

此外,我們還專門發布了一個開源NMT框架,讓大家能對該框架的創新點一探究竟,並進行可重複試驗,同時我們還發布了所有實驗配置的文件。

論文地址:https://arxiv.org/abs/1703.03906

開源地址:https://github.com/google/seq2seq/

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 首次大規模神經機器翻譯架構分析結果出爐,LSTM 優於GRU
    這篇文章對大型 NMT 模型訓練過程中的各個超參數對結果的影響進行了經驗分析,並得出了一些有意義的結論。比如,嵌入用 2048 維結果最好,但是也沒有好到哪裡去,基本上,128 維的結果就不錯了;LSTM 比 GRU 效果好;2-4 層的雙向編碼器效果最好。
  • 一窺谷歌神經機器翻譯模型真面貌,其底層框架開源!
    現在,它已經用於谷歌翻譯的產品系統。雖然消費者感受到的提升並不十分明顯,谷歌宣稱,GNMT 對翻譯質量帶來了巨大飛躍。但谷歌想做的顯然不止於此。其在官方博客表示:「由於外部研究人員無法獲取訓練這些模型的框架,GNMT 的影響力受到了束縛。」如何把該技術的影響力最大化?答案只有一個——開源。
  • 史丹福大學 NLP 組開放神經機器翻譯代碼庫
    在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。除此之外,「為了鼓勵再現和增加透明」,他們還放出了他們用於訓練模型的處理過的數據以及可以通過他們的代碼庫使用的預訓練好的模型。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 什麼是神經機器翻譯(NMT)?
    機器翻譯翻譯行業不斷發展以滿足客戶的需求,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。使用大型人工神經網絡計算單詞序列的概率,NMT將完整的句子放入一個集成模型中。
  • F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯
    基於短語架構機器翻譯的缺陷:再來看一看神經網絡機器翻譯系統。神經機器翻譯系統會考慮原句的整個語境,以及當次翻譯過程中此前翻譯出的所有內容。它的優點有:支持大段的語序重排(long distance reordering)連續、豐富的表達。
  • 谷歌開放GNMT教程:如何使用TensorFlow構建自己的神經機器翻譯系統
    今天,我們很高興能夠發布最新的 TensorFlow 神經機器翻譯教程,幫助讀者全面了解 seq2seq 模型,並介紹如何從頭開始構建有競爭力的翻譯模型。該教程儘可能簡單地呈現該過程,教程首先介紹神經機器翻譯的背景知識,並講述構建 vanilla 系統的具體代碼。然後介紹注意力機制 [3, 4] 這一幫助 NMT 系統處理長句的重要工具。
  • F82017|技術負責人為你解析Facebook神經機器翻譯
    首先,Necip Fazil Ayan 表示,神經機器翻譯為 Facebook 帶來翻譯質量的大幅提升:精確度(是否清楚表達了原句的意思)提升 20%,通順程度(翻譯語句聽起來是否正常)提升 24%。這是兩代架構的翻譯結果對比(土耳其語到英語)左邊是基於短語的機器翻譯,大多數詞語的意思是對的,但順序不對勁。
  • 【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    這意味著網絡必定是對句子的語義進行編碼,而不是簡單地記住短語到短語之間的翻譯。由此,我們認為這代表了網絡中存在了一種國際通用語(interlingua)。我們在論文中還寫下了更多的結果和分析,希望這些的發現不僅能夠幫助從事機器學習或機器翻譯的研究人員,還能對於語言學家和對使用單一系統處理多語言感興趣的人有用。
  • ACL 2018 | TA-NMT:利用大語種語料,提升小語種神經機器翻譯能力
    與大語種豐富的語料數據相比,小語種機器翻譯面臨的主要挑戰是語料的稀疏性問題。為了更好地解決這一問題,微軟亞洲研究院自然語言計算組提出了一個呈三角結構的神經機器翻譯模型TA-NMT,利用大語種的豐富語料來提升小語種機器翻譯的能力。近年來,神經機器翻譯發展迅速,在諸如英法、英德、中英等許多大語種(Rich Language)翻譯任務上均取得了突破性成果。
  • Google 翻譯出現宗教話語,可能是因為用了聖經訓練模型導致
    例如用 Google 翻譯從索馬利亞語翻譯成英語,輸入不同數量的 「ag」 ,會得出不同的翻譯結果,包括將 「ag」 翻譯成 the sons of Gershon (Gershon 的兒子),the name of the LORD (耶穌的名字)。
  • Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯
    這意味著 Facebook 可在產品中部署神經機器翻譯了。我們很高興共享 Caffe2 在支持循環神經網絡(RNN)方面的最新成果。今年 4 月推出 Caffe2 時,它並不支持 RNN;為此,在過去的幾個月,我們開發出了當前最優的 RNN 構件以支持 RNN 用例(比如機器翻譯、語音識別)。
  • 神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?
    翻譯/  崔躍輝、葉倚青校對/  葉倚青用於循環神經網絡的編碼-解碼架構,在標準機器翻譯基準上取得了最新的成果,並被用於工業翻譯服務的核心。該模型很簡單,但是考慮到訓練所需的大量數據,以及調整模型中無數的設計方案,想要獲得最佳的性能是非常困難的。
  • 面向神經機器翻譯的篇章級單語修正模型
    《面向神經機器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關於篇章級神經機器翻譯的工作。針對篇章級雙語數據稀缺的問題,這篇文章探討了如何利用篇章級單語數據來提升最終性能,提出了一種基於目標端單語的篇章級修正模型(DocRepair),用來修正傳統的句子級翻譯結果。
  • 淺析大規模多語種通用神經機器翻譯方法
    目前,神經機器翻譯(NMT)已經成為在學術界和工業界最先進的機器翻譯方法。最初的這種基於編碼器-解碼器架構的機器翻譯系統都針對單個語言對進行翻譯。近期的工作開始探索去擴展這種辦法以支持多語言之間的翻譯,也就是通過只訓練一個模型就能夠支持在多個語言之間的翻譯。
  • 如何評價Google神經機器翻譯(GNMT)系統?
    當時之所以採用「統計翻譯模型」的一個重要原因就是 Google 的雲計算架構。機器翻譯需要海量的數據存儲空間以及高效的運算能力,而 Google 擁有 GoogleMapReduce(分布式計算系統)和 BigTable(分布式存儲系統),恰好滿足了這兩方面需求。
  • 結合堆疊與深度轉換的新型神經翻譯架構:愛丁堡大學提出BiDeep RNN
    在神經機器翻譯問題中,不同的堆疊架構已經多次在不同研究中展現出了良好的表現,而深度轉換架構(Deep transition architecture)則成功地用於語言建模等用途中。愛丁堡大學與 Charles University 的研究者們對這兩種架構的多個組合形式在 WMT 翻譯任務中的表現進行了測試,並提出了結合堆疊與深度轉換的新型神經網絡:BiDeep RNN。
  • 神經機器翻譯的直觀解釋 | 留言送書
    來源 | Towards Data Science作者 | Renu Khandelwal 編譯 | VK什麼是神經機器翻譯?神經機器翻譯是一種將一種語言翻譯成另一種語言的技術。一個例子是把英語轉換成印地語。讓我們想想,如果你在一個印度村莊,那裡的大多數人都不懂英語。你打算毫不費力地與村民溝通。在這種情況下,你可以使用神經機器翻譯。
  • 學界| 對比神經機器翻譯和統計機器翻譯:NMT的六大挑戰
    作者:Ozan alayan機器之心編譯參與:蔣思源、Smith本文總結了最近發表的論文「神經機器翻譯的六大挑戰(Six Challenges for Neural Machine Translation)」,並希望讀者能看到神經機器翻譯的不足和未來的發展方向。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    1954年,計算機科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。