重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...

2021-01-20 機器之心Pro

選自code.facebook作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin機器之心編譯參與:吳攀、微胖、蔣思源

去年穀歌在機器翻譯上取得了連續不斷的突破,谷歌的方法用到了文本處理慣用的循環神經網絡。近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關原始碼和模型也已經在 GitHub 上開源。

論文地址:https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdfGitHub 項目地址:https://github.com/facebookresearch/fairseq

Facebook 的使命是讓世界更加開放和互聯,讓每個人都能以自己偏好的語言享受視頻和博文——當然,準確度和速度要儘可能最高。因此,語言翻譯就顯得很重要了。

今天,FAIR 團隊推出了一項研究成果:使用一種全新的卷積神經網絡(CNN)進行語言翻譯,結果以 9 倍於以往循環神經網絡(CNN)的速度實現了目前最高準確率。[1] 另外,你可以在 GitHub 開源許可下下載到 FAIR 序列模型工具包(fairseq)原始碼和訓練過的系統,研究人員可以打造用於翻譯、文本摘要以及針對其他任務的定製化模型。

為什麼是 CNN?

幾十年前,最初由 Yann LeCun 開發的 CNN 已經成功用於多個機器學習領域,比如圖像處理。不過,對於文本應用來說,因為 RNN 的高準確度,其已經當仁不讓地成為了被最廣泛採用的技術和語言翻譯的最佳選擇。

儘管歷史表明,在語言翻譯任務上,RNN 勝過 CNN,但其內在設計是有局限性,只要看看它是如何處理信息的就能明白這一點。計算機的翻譯辦法是:閱讀某種語言句子,然後預測在另一種語言中相同含義的語詞排列順序。RNN 運行嚴格遵照從左到右或者從右到左的順序,一次處理一個單詞。這一運行方式並不天然地契合驅動現代機器學習系統的高度並行的 GPU 硬體。由於每個單詞必須等到網絡處理完前一個單詞,因此計算並不是完全並行的。對比之下,CNN 能夠同時計算所有元素,充分利用了 GPU 的並行,計算也因此更高效。CNN 的另一個優勢就是以分層的方式處理信息,因此,捕捉數據中的複雜關係也更容易些。

在之前的研究中,被用於翻譯任務的 CNN 的表現並不比 RNN 出色。然而,鑑於 CNN 架構潛力,FAIR 開始研究將 CNN 用於翻譯,結果發現了一種翻譯模型設計,該設計能夠讓 CNN 的翻譯效果也很出色。鑑於 CNN 更加出色的計算效率,CNN 還有望擴大翻譯規模,將世界上 6,500 多種語言(世界語言種類大約為 6,900 多種——譯者注)納入翻譯範圍。

在速度上達到當前最佳

我們的研究結果表明,與 RNN [2] 相比,我們的系統在由機器翻譯協會(WMT)提供的廣泛使用的公共基準數據集上達到了新的最佳效果。特別是,CNN 模型在 WMT 2014 英語-法語任務(該度量標準被廣泛用於判斷機器翻譯的準確度)上超過了之前最佳結果 1.5 BLEU。我們的模型在 WMT 2014 英語-德語任務上提高了 0.5 BLEU,在 WMT 2016 英語-羅馬尼亞語上提高了 1.8 BLEU。

對於實際應用,神經機器翻譯的一個考量因素是我們為系統提供一個句子後,它到底需要多長時間進行翻譯。FAIR CNN 模型在計算上十分高效,它要比強 RNN 系統快九倍左右。許多研究聚焦於量化權重或濃縮(distillation)等方法來加速神經網絡,而它們同樣也可被用於本 CNN 模型,甚至提速的效果還要大些,表現出了顯著的未來潛力。

利用多跳注意(multi-hop attention)和門控(gating)來改善翻譯效果

在我們模型架構中,一個明顯不同的組件就是多跳注意,這個機制就像人類翻譯句子時會分解句子結構:不是看一眼句子接著頭也不回地翻譯整個句子,這個網絡會反覆「回瞥(glimpse)」句子,選擇接下來翻譯哪個單詞,這點和人類更像:寫句子時,偶然回過頭來看一下關鍵詞。[3] 多跳注意是這一機制的增強版本,可以讓神經網絡多次「回瞥」,以生成更好的翻譯效果。多次「回瞥」也會彼此依存。比如,頭次「回瞥」關注動詞,那麼,第二次「回瞥」就會與助動詞有關。

在下圖中,我們給出了該系統讀取法語短語(編碼)並輸出其英語翻譯(解碼)的情形。我們首先使用一個 CNN 運行其編碼器以為每個法語詞創建一個向量,同時完成計算。接下來,其解碼器 CNN 會一次得到一個英語詞。在每一步,該注意都會「回瞥」原法語句子來確定翻譯句子中最相關的下一個英語詞。解碼器中有兩個所謂的層,下面的動畫給出了每層中注意完成的方式。綠線的強度表示了該網絡對每個法語詞的關注度。當該網絡被訓練時,其一直可以提供翻譯,同時也可以完成對英語詞的計算。

我們的系統另一方面是門控(gating),其控制了神經網絡中的信息流。在每一個神經網絡中,信息流也就是通過隱藏單元的數據。我們的門控機制將具體控制哪些信息應該需要傳遞到下一個神經元中,以便產生一個優良的翻譯效果。例如,當預測下一個詞時,神經網絡會考慮迄今為止完成的翻譯。而門控允許放大翻譯中一個特定的方面或取得廣義的概覽,這一切都取決於神經網絡在當前語境中認為哪個是適當。

未來開發

這種方法是一種可選的機器翻譯架構,也為其它文本處理任務開啟了新的大門。比如說,在對話系統中的多跳注意(multi-hop attention)讓神經網絡可以關注到對話中距離較遠的部分(比如兩個分開的事實),然後將它們聯繫到一起以便更好地對複雜問題作出響應。

以下為相關論文的摘要介紹:

論文:卷積序列到序列學習(Convolutional Sequence to Sequence Learning)

序列到序列學習(sequence to sequence learning)的普遍方法是通過循環神經網絡將一個輸入序列映射到一個可變長度的輸出序列。我們引入了一種完全基於卷積神經網絡的架構。相比於循環模型,其在訓練階段中所有元素上的計算都是完全並行的,且其優化更簡單,因為非線性的數量是固定的且獨立於輸入的長度。我們使用門控線性單元簡化了梯度傳播(gradient propagation),而且我們為每個解碼器層都裝備了一的單獨的注意模塊(attention module)。我們在 WMT'14 英語-德語翻譯和 WMT'14 英語-法語翻譯上的準確度表現都超過了 Wu et al. (2016) 的深度 LSTM 設置,且在 GPU 和 CPU 上的速度都實現了一個數量級的提升。

圖 1:訓練中批處理(batching)的圖示。頂部是英語源句子被編碼,同時我們為 4 個德語目標詞計算所有的注意值(中間)。我們的注意只是解碼器上下文表徵(底部左側)和編碼器表徵之間的點積。我們為解碼器上下文增加了由該注意模塊計算出來的條件輸入(中部右側),其可以預測目標詞(底部右側)。S 型和乘法框表示門控線性單元。

博客文章參考文獻

[1] Convolutional Sequence to Sequence Learning. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, Yann N. Dauphin.(即本論文)

[2] Google『s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Technical Report, 2016. 參考機器之心文章《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破(附論文)》

[3] Neural Machine Translation by Jointly Learning to Align and Translate. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio. International Conference on Learning Representations, 2015. 地址:https://arxiv.org/abs/1409.0473

原文連結:https://code.facebook.com/posts/1978007565818999/a-novel-approach-to-neural-machine-translation/

相關焦點

  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    》,介紹了谷歌的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報導《重磅 | 谷歌翻譯整合神經網絡:機器翻譯實現顛覆性突破》。昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    選自NYT機器之心編譯谷歌如何使用人工智慧來改進谷歌翻譯等許多谷歌服務?《紐約時報》雜誌今日發布了一篇重磅長篇《The Great A.I. Awakening》全面解讀谷歌利用機器學習重塑自身的戰略。機器之心編譯時進行了適當的刪減。
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • 巨頭扎堆的小市場:不學外語,機器翻譯搞定一切?
    神經網絡翻譯(NMT)的前世今生20世紀初期,多位科學家與發明家陸續提出機器翻譯的理論與實作計劃或想法。但真正的機器翻譯研究要追溯到20世紀三四十年代。1949年,W.不得不提,在機器翻譯進化史中,最具裡程碑式的突破之一就是谷歌翻譯在2016年推出的神經網絡翻譯(GNMT),相比於谷歌之前基於短語的機器翻譯(PBMT: Phrase-Based Machine Translation),GNMT所需要設計的工程量更少,同時翻譯效果更好,可見GNMT 的技術將把機器翻譯帶到一個全新的紀元。
  • Facebook放了個大招,基於CNN的語言翻譯模型快9倍,同傳壓力山大了...
    人工翻譯已經遠遠不可能滿足當今世界所產生的海量信息流,那麼,是否能有一種快速而準確的技術決絕方案,能替代人類去完成不同語言間的轉換? 就在昨天,Facebook人工智慧研究中心(FAIR)發布了使用全新的卷積神經網絡(CNN)進行語言翻譯的研究結果。據悉,這種新方法能夠以現有的循環神經網絡系統9倍的速度進行翻譯,而且翻譯的準確性還會得到大幅的提高。
  • 谷歌發布神經機器翻譯,翻譯質量接近筆譯人員
    據外媒報導,谷歌於昨日發布了網頁版本和移動版本的谷歌翻譯。在漢譯英的過程中,谷歌翻譯會採用全新的神經機器翻譯機制,而這個App每天要進行一千八百萬次這樣的翻譯。此外,谷歌針對這個神經機器翻譯系統的運作原理,專門發表了一篇學術論文。
  • 機器翻譯正走入現實生活 未來還需要人工翻譯嗎?
    在這方面,就像在其他許多方面(包括觸屏技術和語音指令)一樣,《銀河系漫遊指南》具有可怕的先見之明:2017年穀歌推出了藍牙翻譯耳機,這是一款能夠用智慧型手機實時翻譯40種語言的耳機。萬能翻譯器來了。神經機器翻譯是一種仿照人腦、預測詞序可能性的人造系統,已經取得了巨大進步,使俄語-英語之間的翻譯準確度達到90%。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    最近,做機器翻譯的同志們一打開朋友圈,猛然發現好像飯碗沒了,谷歌爸爸大力出奇蹟,提高了機器翻譯87%的水平。結果打開人家原文一看,原來虛驚一場,只是現有工作的整合,一篇完美的工程論文,並沒有新的模型提出。不禁長舒一口氣,呼~飯碗還在。呼~到底火遍朋友圈的那篇文章「谷歌機器翻譯取得顛覆性突破,錯誤率下降87%」到底幾分真幾分假呢?
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    變革性的神經機器翻譯去年,谷歌提出了GNMT,神經機器翻譯(NMT: Neural Machine Translation)是一種用於自動翻譯的端到端的學習方法,該方法有望克服傳統的基於短語的翻譯系統的缺點。但 NMT 系統的訓練和翻譯推理的計算成本非常高,同時也難以應對罕見詞,這些問題阻礙了 NMT 在實際部署和服務中的應用,因為在實際應用中,準確度和速度都很關鍵。
  • 騰訊提出NumNet+模型,超越谷歌登DROP排行榜第一名
    新智元還將現場揭曉AI Era創新大獎,並重磅發布AI開放創新平臺和獻禮新書《智周萬物:人工智慧改變中國》。峰會多平臺同步直播,敬請期待!http://video.sina.com.cn/l/p/1728577.html 新智元報導 編輯:小芹 【新智元導讀】最近,在專門考驗計算機數學推理能力的 DROP 數據集上,微信 AI 團隊所研究的機器閱讀理解技術超越了谷歌
  • 人工智慧利用神經網絡來控制機器
    人工智慧利用神經網絡來控制機器,或者是人工智慧根據預定的規則來控制機器.人工智慧可以用於搜索,診斷,預測,監控和機器人等諸多方面.人工智慧為人類提供了創造性解決方案,這個解決方案不僅能創造出改變,同時還能控制它們.世界對於人工智慧抱有非常樂觀的態度,因為它們讓人類工作變得更加高效.然而,智能的出現時間還很短暫,遠沒有到大眾普遍接受的階段.那麼,人工智慧未來的發展方向到底是什麼
  • NMT機器翻譯技術,或將開啟第二次全球化浪潮
    近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。隨著其翻譯準確度的提升,在文化全球化的時代背景推動下,高度成熟的翻譯技術或將開啟第二次全球化的浪潮。
  • 古文字被AI破譯,MIT和谷歌開發失傳語言的機器翻譯系統
    稍古老的一種稱為A類線形文字,可以追溯到公元前1800年至1400年,此時克裡特島還處於青銅時代的米諾文明階段。時間上更近一點的文字系統稱為B類線形文字,公元前1400年後才出現,此時的克裡特島正被希臘大陸的邁錫尼人統治著。 許多年來,伊萬斯等人一直試圖翻譯這些古老的文字,但都無疾而終。
  • 機器翻譯的最新進展與瓶頸所在
    你想過和異國人說話不需要再有翻譯,只需隨身攜帶一個輕巧的數碼機器嗎?目前來看這仍是奢望。不過,或許某一天,我們終於可以不再學習頭疼的外語就能實現和外國人的無縫交流。  谷歌翻譯目前可提供63種主要語言之間的實時翻譯;它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子、文本和網頁翻譯。另外它還可以幫助用戶閱讀搜索結果、網頁、電子郵件、YouTube視頻字幕以及其它信息,用戶甚至還能在Gmail內進行實時的多語言對話。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示形式,然後由解碼器生成目標語言的文本。基於Transformer的模型是谷歌研究人員在2017年首次提出的,在這一點上它比RNN更有效,但谷歌表示,它的研究表明,翻譯質量的提高主要來自Transformer的一個部件:編碼器。
  • B站「不靠譜」翻譯大賽:機器翻譯,還遠不能取代人工翻譯
    在國內知名的彈幕視頻網站bilibili上,很多up主上傳了令人啼笑皆非的機器翻譯視頻。 網友們把一些影視劇、動漫或者其他著名場面中的臺詞用谷歌翻譯重新加工。如果只是翻譯一遍的話,可能效果還不理想——它們錯得還不夠精彩。於是,網友們把谷歌翻譯的結果再翻譯成第三種語言,然後再翻譯成第四種語言,最後再用谷歌翻譯回中文。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    神經機器翻譯在大規模翻譯任務上第一次獲得超越統計機器翻譯(SMT)的效果不過是 2014 年的事情(著名的 RNN encoder-decoder 結構就發表在 2014 年的 EMNLP 上),如今三年過去了,機器翻譯頂級論文中已經幾乎難以見到統計機器翻譯的身影,神經機器翻譯已經成為了機器翻譯領域的主流。
  • 不用輸入就能翻譯的翻譯器!谷歌翻譯推新功能 拍照即可識別
    7月11日消息,據外媒phonearena報導,谷歌翻譯APP近期推出了一項新功能,該功能支持通過手機攝像頭拍攝並掃描文本來進行翻譯,在沒有蜂窩數據或Wi-Fi聯網的條件下依舊可以使用。
  • ACL 2019 論文:谷歌提出增強神經網絡機器翻譯魯棒性的新方法
    (NMT)取得了巨大成功,但是 NMT 模型對輸入的微小幹擾仍然很敏感,從而導致各種不同的錯誤。谷歌研究院的一篇 ACL 2019 論文提出了一種方法,使用生成的對抗性樣本來提高機器翻譯模型的魯棒性,防止輸入中存在的細小擾動度對其造成影響。結果表明,該方法提高了 NMT 模型在標準基準上的性能。在本文中,作者 Yong Cheng、 Lu Jiang 和 Wolfgang Macherey 對其在 ACL 2019 上發表的《具有雙對抗性輸入的魯棒神經機器翻譯》論文進行了介紹。
  • 有道nmt神經網絡_有道神經網絡翻譯(nmt) - CSDN
    不得不提,在機器翻譯進化史中,最具裡程碑式的突破之一就是谷歌翻譯在2016年推出的神經網絡翻譯(GNMT),相比於谷歌之前基於短語的機器翻譯(PBMT: Phrase-Based Machine Translation),GNMT所需要設計的工程量更少,同時翻譯效果更好,可見GNMT 的技術將把機器翻譯帶到一個全新的紀元。