F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯

2020-12-07 雷鋒網


該講座主題為 Facebook 機器翻譯的兩代架構以及技術挑戰。

雷鋒網(公眾號:雷鋒網)消息:在昨日的 F8 會場,該講座吸引了眾多開發者到場,主講者是 Facebook 語言翻譯部門技術負責人 Necip Fazil Ayan。

Necip Fazil Ayan 首先介紹了 Facebook 翻譯業務的使命和願景,以及對機器翻譯的應用。

使命與願景

Necip Fazil Ayan:Facebook 希望推動建立一個真正的全球社區,即「連接世界」:每個人都能與全世界任意國家的人、任意語言內容自如交互。翻譯,便是其中最關鍵的一環。

使命:通過打破語言障礙,讓世界更開放、更緊密聯結。

願景:每一名用戶都能用其語言無障礙的使用 Facebook。

Facebook 是怎麼應用機器翻譯的

有兩種途徑。

  1. 「See translation」:當 Facebook 系統判斷用戶無法理解某個帖子時,便提供「翻譯」選項。

    系統判斷的依據很簡單:對貼子的語言識別和對用戶的語言預測。

  2. 「Auto translation」: 當系統判斷翻譯質量很高時,會自動顯示翻譯結果,而不是原始語言。 這背後,是 Facebook 對平臺上的每一條翻譯都計算 confidence score(置信度),並據此預估翻譯質量。這靠另一個單獨的機器學習模型來實現。

Facebook 機器翻譯的兩代架構

目前,Facebook 絕大部分的翻譯系統,仍是基於 phrase-based machine translation 架構,即「基於短語的機器翻譯」。

在過去的十到十五年中,該架構被行業廣泛採用。但在最近的幾年,Facebook 正轉向 neural net machine translation 架構,即神經網絡機器翻譯。據雷鋒網了解,去年 6 月,Facebook 部署了第一個基於神經機器翻譯的產品——德譯英;拉開了從「基於短語」切換到神經機器翻譯的大幕。至今,已有 15 個不同語言的翻譯系統,遷移到了新的機器翻譯架構;Facebook 平臺上,超過 50% 的翻譯出自基於神經網絡的系統。

那麼,為什麼 Facebook 要轉移至神經網絡機器翻譯?或者說,新架構的優點是什麼?

首先,Necip Fazil Ayan 表示,神經機器翻譯為 Facebook 帶來翻譯質量的大幅提升:

精確度(是否清楚表達了原句的意思)提升 20%,通順程度(翻譯語句聽起來是否正常)提升 24%。

這是兩代架構的翻譯結果對比(土耳其語到英語)

左邊是基於短語的機器翻譯,大多數詞語的意思是對的,但順序不對勁。右邊是神經網絡機器翻譯,大多數詞語的意思也是對的,但語序更加自然。翻譯出來的句子更容易理解、更通順。

底層發生了什麼?

我先談談基於短語的機器翻譯。該系統學習詞語之間的對應關係,然後把這些對應關係泛化到成串詞語上,即短語。這些短語是從海量的句子翻譯(原句+譯句)中得來。給定一個新句子,該系統會根據已學到的短語翻譯,試圖找出一個最優分段方案。

短語越長,我們越不擔心重新排列詞序問題(local reordering)。數據越多,學習長短語的效果越好。

基於短語架構機器翻譯的缺陷:

再來看一看神經網絡機器翻譯系統。

神經機器翻譯系統會考慮原句的整個語境,以及當次翻譯過程中此前翻譯出的所有內容。它的優點有:

  • 支持大段的語序重排(long distance reordering)

  • 連續、豐富的表達。我們把詞語映射到矢量表示(詞向量)。它們不再是獨立的詞語,而是一維空間中的點。不同點之間的距離,可被用來代表不同詞語之間的語義相似性

  • 神經網絡的擴展性非常好。我們可以把不同來源的信息整合進去,使我們得以很容易的把不同類型的表達結合到一起

  • 更通順

至於為什麼更多語境能起到積極作用,我想多解釋一下:這裡的任務,是根據語境預測下一個詞語。當語境信息越豐富,預測就更準確。藉助遞歸神經網絡(RNN),我們的語言建模能力獲得了無限制的提升。通過更大的視野,我們可以做出更好的決策。

對於翻譯系統本身,我們也是用 RNN with attention。我們的架構包含編碼器以及解碼器。編碼器的作用是把原語句轉化為矢量表達;隨後,解碼器把後者轉為另一個句子,這就是機器翻譯的過程。

對於原語句,我們用的是一個雙向的神經網絡。這意味著,我們既利用了前文中的詞語,也用到了後文的詞語。所以,編碼器的輸出,是一個利用了前後文所有語境的、對原句的表示。目標句子也使用 RNN 來生成。在生成過程中的每一步,我們均充分利用了此前生成的詞語,以及語境的某部分。重複這一步驟,我們便得到了最終的機器翻譯結果。

挑戰

1. 網絡語言

首先是網絡語言,我們稱之為「Facebook 語言」。人們在社交網絡上會使用俚語、造出來的動詞,以及奇奇怪怪的拼寫;還有用標點符號表情的,這直接讓 Facebook 的語言識別和機器翻譯系統失靈。

解決該問題的一個方案,被我們成為 sub-word units。

神經網絡受到特定詞彙量的限制,通常是訓練階段遇到過的詞彙。對某些語言而言,這造成了非常大的麻煩,尤其是那些可以對現有詞彙添加新成分、以生成一個新詞彙的語言,比如土耳其語。由於這一點,我們不可能知道一個高質量翻譯所需的全部詞彙。

解決辦法是把詞彙分拆為更小的、更凝聚的單元。舉個例子,可把單詞 being、moving 拆成動詞 +ing 的形式。這種方式,可用 sub-word 模型來生成新動詞,比如 +ing 生成其它動詞的進行時。對於 low resource 語言(LRC),這大幅提升了翻譯效果,並且還能對非正式語言進行標準化。

2. low resource 語言

另一項主要挑戰是 low resource 語言。正如我提到了,Facebook 支持超過 45 種語言,超過 2000 種翻譯方向。訓練一個翻譯系統需要大量數據,不幸的是,對於許多語言我們並沒有很多數據。

一個解決方案被我們成為 back translation。我們一般使用平行數據(parallel data)來訓練這些系統。當我們只有少量平行數據,我們會用它來創建一個小型的翻譯系統。另外,對於多門語言,我們有許多單語言數據(monolingual data),即只以一門語言表示的數據。所以我們把該數據填入這一小型機器翻譯系統,然後獲得翻譯。很顯然,翻譯結果並不完美。

但把它們結合起來,我們可以訓練更大的機器翻譯系統。這種方法十分吸引人的一點,是它有兩個翻譯方向:它不僅生成英語到土耳其語的翻譯系統,還能生成土耳其語到英語的翻譯。另外,由於目標語句基於單語言數據,它會更加通順。

3. 大規模部署

一項比較艱巨的挑戰,是大規模部署機器翻譯以及應用研究。我們需要訓練非常多的翻譯系統,並且快速地訓練、快速地解碼、快速地生成翻譯。

一項加速計算過程的方案,名為 online vocabulary reduction (在線詞彙縮減)。正如我之前提到的,在神經網絡架構中,目標詞彙是受限制的。詞彙量越大,計算成本越高。

於是我們儘可能減小 output projection layer 的規模。

當你需要翻譯一個特定語句,你可以觀察句子中所有詞彙的出現頻率、排在最前的翻譯選項,以對詞彙進行篩選。

在這個例子中,你可以在活躍詞彙庫中忽略 and 和 move,因為對於該翻譯,它們並沒有對應到任意一個詞彙。這使得計算時間大幅縮短,而並不犧牲翻譯質量。

最後,我想說我們實現了許多提升,但仍有很長的路要走。對於 low resource 語言,我們需要做得更好,這是一個非常艱巨的挑戰。我們需要開始翻譯圖像和視頻。我們需要找到更高效地使用圖像、視頻中語境信息的方法。我們需要開發出私人訂製的、符合語境的翻譯系統。我對加入這趟「連接世界」的旅程感到萬分激動並自豪。

謝謝。

本講座由雷鋒網編譯,轉載請聯繫。

相關文章:

一窺谷歌神經機器翻譯模型真面貌,其底層框架開源!

Google Brain:NMT訓練成本太高?用大規模神經機器翻譯架構分析給出解決方案

哈佛神經機器翻譯系統 OpenNMT 更新等 | AI 開發者頭條

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • Facebook收購域名F8.com
    > Facebook的縮寫是「FB」,從外形上來看,f8.com與「FB」十分相像,起初小編以為facebook收購f8.com20億的用戶,2016年營收達276億美元,在2017Parse.com Parse.com有「解析
  • NIPS 2017 | 線上分享第二期:利用價值網絡改進神經機器翻譯
    上周我們發布了《攻略 | 雖然票早已被搶光,你可以從機器之心關注 NIPS 2017》。
  • 什麼是神經機器翻譯(NMT)?
    ,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關原始碼和模型也已經在 GitHub 上開源。
  • Facebook宣布採用AI翻譯平臺內容,但你以為事情就這麼簡單嗎?
    【獵雲網(微信號:ilieyun)】8月7日報導 (編譯:小白)過去,很少有人關注Facebook的翻譯今日,Facebook告別了原來的基於短語的翻譯系統,啟用了最新的AI驅動的神經機器(NMT)翻譯系統。雖然在NMT翻譯技術上,Facebook相比谷歌或微軟(均於去年開始使用NMT技術)略顯落後,但是對Facebook本身,這項技術可以為其翻譯的準確性帶來顯著提升。Facebook原先基於短語的翻譯系統存在的問題是,它無法從整個句子的層面去翻譯句子。
  • 神經機器翻譯中的曝光偏差,幻覺翻譯與跨域穩定性
    摘要:神經機器翻譯中的標準訓練策略存在曝光偏差問題。即使已有研究提出緩解曝光偏差方法,但是曝光偏差造成的實際影響仍然存在爭議。本文,我們將曝光偏差與神經機器翻譯中另一個廣泛討論的問題,即跨域下產生幻覺翻譯聯繫起來。通過三個數據集多個測試域的實驗,我們證實曝光偏差是導致幻覺翻譯的原因之一。使用最小風險訓練模型,避免暴露偏差,即可減輕幻覺翻譯。
  • 神經機器翻譯的編碼-解碼架構有了新進展, 具體要怎麼配置?
    值得慶幸的是,研究科學家已經使用谷歌規模的硬體為我們做了這項工作,並提供了一套啟發式的方法,來配置神經機器翻譯的編碼-解碼模型和預測一般的序列。在雷鋒網這篇譯文中,您將會獲得,在神經機器翻譯和其他自然語言處理任務中,如何最好地配置編碼-解碼循環神經網絡的各種細節。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。但直到近年,即便是最先進的翻譯支持算法也一直落後於人類的表現。谷歌以外的努力充分說明了這個問題的嚴重性——旨在使得非洲大陸的數千種語言可自動翻譯的Masakhane項目,至今還沒有走出數據收集和轉錄階段。
  • 搜狗機器翻譯團隊獲得 WMT 2017 中英機器翻譯冠軍
    其中,作為自然語言處理領域頂級國際會議之一的 EMNLP 2017 將於今年 9 月在丹麥首都哥本哈根舉行,與此同時,第二屆機器翻譯大會(WMT 2017)將會作為本次會議的分論壇同時召開。今年的一大亮點是,WMT 首次增設了中文和英文間的新聞數據翻譯任務。
  • 從分詞、詞性到機器翻譯、對話系統
    上次,《自然語言處理在 2017 年有哪些值得期待的發展?》中,我們已經講到,2016 年是深度學習大潮衝擊 NLP 的一年,通過去年一年的努力,深度學習在 NLP 領域已經站穩了腳跟。其中,對話交互系統已經成為一個重要的應用研究領域,2017 年的自然語言對話系統,將開創一個新的人機互動時代。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    「這既是技術上的突破,也是工程上的突破,是技術和工程的完美結合,只有把過程中的每一件事情都做好,才能得到這樣的結果。」NLP裡程碑式突破:首個媲美人類專業譯者的機器翻譯系統這次微軟的翻譯系統是在數據集WMT-17的新聞數據集newstest2017上取得了上述成果。
  • 機器翻譯三大核心技術原理 | AI知識科普
    機器翻譯技術發展了80多年,巴別塔的傳說已經成為過去,上天是不可能上天的了,但是讓你優雅地和全世界討論世界盃,不再手舞足蹈、雞同鴨講,這一點機器翻譯還是可以做到的!;2015年,蒙特婁大學引入Attention機制,神經機器翻譯達到實用階段;2016年,谷歌GNMT發布,訊飛上線NMT系統,神經翻譯開始大規模應用。
  • 資源| 史丹福大學NLP組開放神經機器翻譯代碼庫(附論文)
    選自斯坦福機器之心編譯參與:吳攀、杜夏德近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。在這篇文章中,他們還放出了在多種翻譯任務上(比如英德翻譯和英語-捷克語翻譯)實現了當前最佳結果的代碼庫(codebase)。
  • 谷歌機器翻譯取得顛覆性突破 到底幾分真假?
    如果說IBM Model1是機器翻譯的牛頓定律,那麼Seq2Seq就是機器翻譯裡的愛因斯坦相對論,Seq2Seq是谷歌在機器學習頂會NIPS的一篇論文,模型簡單漂亮,為文本生成尤其是機器翻譯打下了良好的模型基礎,所有的NMT(神經機器翻譯)均在此模型上添磚加瓦,這篇也是一樣。
  • AlphaGo 神經網絡應用於 Google 翻譯,將接近人類水平
    Google 翻譯中,讓機器翻譯更加通順流暢,表意清晰。目前該系統僅應用於中文到英文的語言對翻譯。Google 表示,新的翻譯系統簡稱為 Google 神經機器翻譯(Google Neural Machine Translation-GNMT),就某些語言而言,GNMT 錯誤率可以減少 60%。
  • 歸功於NMT技術 Google Translate離線翻譯更精準了
    歸功於人工智慧的引入,現在谷歌翻譯在離線狀態下也能獲得更好的翻譯結果了。 在今天發表的博文中宣布,谷歌翻譯在今天的更新中為離線翻譯帶來了神經機器翻譯(NMT)技術,目前該技術已經部署到行動裝置上了。通常情況下用戶需要聯網才能使用谷歌翻譯,而現在用戶能夠獲得一定程度上的離線翻譯。當手機處於飛行模式或者離線狀態下,通過NMT技術能夠帶來更好的翻譯效果。谷歌表示即使用戶在沒有網絡的情況下也能獲得高質量的翻譯效果。這對於經常在國外出差的用戶來說無疑是個好消息,因為並非所有國家和地區都有穩定和高速的上網環境。
  • 【多圖】Facebook個人主頁進化史
    Facebook Timeline自11年推出便為其積攢了不少人氣。最近Facebook 股價大跌,Facebook在這個時候測試新的Timeline,估計也是為一落千丈的股價衝衝喜。 2006年,新聞流。
  • 2017年12月大學英語四級翻譯真題解析(新東方版)
    新東方網>大學教育>四六級>真題解析>四級解析>正文2017年12月大學英語四級翻譯真題解析(新東方版) 2017-12-16 13:39 來源:新東方在線
  • BAT、谷歌、Facebook都在搞的神經機器翻譯,真的就地表最強了嗎?
    這期間發生的大事,是以神經網絡作為基礎的機器翻譯,開始在全面超越此前以統計模型為基礎的統計機器翻譯,並快速成為在線翻譯系統的主流標配。在這場革命之後,機器翻譯徹底進入了Neural Machine Translation,即NWT神經機器翻譯時代。很多人為此歡欣鼓舞。
  • [今日-青島]美容機構負責人聲稱 六天學會四項「微整」技術
    [今日-青島]美容機構負責人聲稱 六天學會四項「微整」技術 美容機構負責人聲稱,六天學會四項「微整」技術。