F82017|技術負責人為你解析Facebook神經機器翻譯

2021-01-13 雷鋒網

該講座主題為 Facebook 機器翻譯的兩代架構以及技術挑戰。

雷鋒網消息:在昨日的 F8 會場,該講座吸引了眾多開發者到場,主講者是 Facebook 語言翻譯部門技術負責人 Necip Fazil Ayan。

Necip Fazil Ayan 首先介紹了 Facebook 翻譯業務的使命和願景,以及對機器翻譯的應用。

使命與願景

Necip Fazil Ayan:Facebook 希望推動建立一個真正的全球社區,即「連接世界」:每個人都能與全世界任意國家的人、任意語言內容自如交互。翻譯,便是其中最關鍵的一環。

使命:通過打破語言障礙,讓世界更開放、更緊密聯結。

願景:每一名用戶都能用其語言無障礙的使用 Facebook。

Facebook 是怎麼應用機器翻譯的

有兩種途徑。

「See translation」:當 Facebook 系統判斷用戶無法理解某個帖子時,便提供「翻譯」選項。

系統判斷的依據很簡單:對貼子的語言識別和對用戶的語言預測。

「Auto translation」: 當系統判斷翻譯質量很高時,會自動顯示翻譯結果,而不是原始語言。 這背後,是 Facebook 對平臺上的每一條翻譯都計算 confidence score(置信度),並據此預估翻譯質量。這靠另一個單獨的機器學習模型來實現。

Facebook 機器翻譯的兩代架構

目前,Facebook 絕大部分的翻譯系統,仍是基於 phrase-based machine translation 架構,即「基於短語的機器翻譯」。

在過去的十到十五年中,該架構被行業廣泛採用。但在最近的幾年,Facebook 正轉向 neural net machine translation 架構,即神經網絡機器翻譯。據雷鋒網了解,去年 6 月,Facebook 部署了第一個基於神經機器翻譯的產品——德譯英;拉開了從「基於短語」切換到神經機器翻譯的大幕。至今,已有 15 個不同語言的翻譯系統,遷移到了新的機器翻譯架構;Facebook 平臺上,超過 50% 的翻譯出自基於神經網絡的系統。

那麼,為什麼 Facebook 要轉移至神經網絡機器翻譯?或者說,新架構的優點是什麼?

首先,Necip Fazil Ayan 表示,神經機器翻譯為 Facebook 帶來翻譯質量的大幅提升:

精確度(是否清楚表達了原句的意思)提升 20%,通順程度(翻譯語句聽起來是否正常)提升 24%。

這是兩代架構的翻譯結果對比(土耳其語到英語)

左邊是基於短語的機器翻譯,大多數詞語的意思是對的,但順序不對勁。右邊是神經網絡機器翻譯,大多數詞語的意思也是對的,但語序更加自然。翻譯出來的句子更容易理解、更通順。

底層發生了什麼?

我先談談基於短語的機器翻譯。該系統學習詞語之間的對應關係,然後把這些對應關係泛化到成串詞語上,即短語。這些短語是從海量的句子翻譯(原句+譯句)中得來。給定一個新句子,該系統會根據已學到的短語翻譯,試圖找出一個最優分段方案。

短語越長,我們越不擔心重新排列詞序問題(local reordering)。數據越多,學習長短語的效果越好。

基於短語架構機器翻譯的缺陷:

缺乏語境。短語一般最多只有 7 到 10 個單詞的長度

短語的重新排序問題很大,尤其對於詞序差異很大的語言,比如英語和土耳其語

其統計模型難以擴展新功能

泛化效果不好,非常依賴學習過的數據

再來看一看神經網絡機器翻譯系統。

神經機器翻譯系統會考慮原句的整個語境,以及當次翻譯過程中此前翻譯出的所有內容。它的優點有:

支持大段的語序重排(long distance reordering)

連續、豐富的表達。我們把詞語映射到矢量表示(詞向量)。它們不再是獨立的詞語,而是一維空間中的點。不同點之間的距離,可被用來代表不同詞語之間的語義相似性

神經網絡的擴展性非常好。我們可以把不同來源的信息整合進去,使我們得以很容易的把不同類型的表達結合到一起

更通順

至於為什麼更多語境能起到積極作用,我想多解釋一下:這裡的任務,是根據語境預測下一個詞語。當語境信息越豐富,預測就更準確。藉助遞歸神經網絡(RNN),我們的語言建模能力獲得了無限制的提升。通過更大的視野,我們可以做出更好的決策。

對於翻譯系統本身,我們也是用 RNN with attention。我們的架構包含編碼器以及解碼器。編碼器的作用是把原語句轉化為矢量表達;隨後,解碼器把後者轉為另一個句子,這就是機器翻譯的過程。

對於原語句,我們用的是一個雙向的神經網絡。這意味著,我們既利用了前文中的詞語,也用到了後文的詞語。所以,編碼器的輸出,是一個利用了前後文所有語境的、對原句的表示。目標句子也使用 RNN 來生成。在生成過程中的每一步,我們均充分利用了此前生成的詞語,以及語境的某部分。重複這一步驟,我們便得到了最終的機器翻譯結果。

挑戰

1. 網絡語言

首先是網絡語言,我們稱之為「Facebook 語言」。人們在社交網絡上會使用俚語、造出來的動詞,以及奇奇怪怪的拼寫;還有用標點符號表情的,這直接讓 Facebook 的語言識別和機器翻譯系統失靈。

解決該問題的一個方案,被我們成為 sub-word units。

神經網絡受到特定詞彙量的限制,通常是訓練階段遇到過的詞彙。對某些語言而言,這造成了非常大的麻煩,尤其是那些可以對現有詞彙添加新成分、以生成一個新詞彙的語言,比如土耳其語。由於這一點,我們不可能知道一個高質量翻譯所需的全部詞彙。

解決辦法是把詞彙分拆為更小的、更凝聚的單元。舉個例子,可把單詞 being、moving 拆成動詞 +ing 的形式。這種方式,可用 sub-word 模型來生成新動詞,比如 +ing 生成其它動詞的進行時。對於 low resource 語言(LRC),這大幅提升了翻譯效果,並且還能對非正式語言進行標準化。

2. low resource 語言

另一項主要挑戰是 low resource 語言。正如我提到了,Facebook 支持超過 45 種語言,超過 2000 種翻譯方向。訓練一個翻譯系統需要大量數據,不幸的是,對於許多語言我們並沒有很多數據。

一個解決方案被我們成為 back translation。我們一般使用平行數據(parallel data)來訓練這些系統。當我們只有少量平行數據,我們會用它來創建一個小型的翻譯系統。另外,對於多門語言,我們有許多單語言數據(monolingual data),即只以一門語言表示的數據。所以我們把該數據填入這一小型機器翻譯系統,然後獲得翻譯。很顯然,翻譯結果並不完美。

但把它們結合起來,我們可以訓練更大的機器翻譯系統。這種方法十分吸引人的一點,是它有兩個翻譯方向:它不僅生成英語到土耳其語的翻譯系統,還能生成土耳其語到英語的翻譯。另外,由於目標語句基於單語言數據,它會更加通順。

3. 大規模部署

一項比較艱巨的挑戰,是大規模部署機器翻譯以及應用研究。我們需要訓練非常多的翻譯系統,並且快速地訓練、快速地解碼、快速地生成翻譯。

一項加速計算過程的方案,名為 online vocabulary reduction (在線詞彙縮減)。正如我之前提到的,在神經網絡架構中,目標詞彙是受限制的。詞彙量越大,計算成本越高。

於是我們儘可能減小 output projection layer 的規模。

當你需要翻譯一個特定語句,你可以觀察句子中所有詞彙的出現頻率、排在最前的翻譯選項,以對詞彙進行篩選。

在這個例子中,你可以在活躍詞彙庫中忽略 and 和 move,因為對於該翻譯,它們並沒有對應到任意一個詞彙。這使得計算時間大幅縮短,而並不犧牲翻譯質量。

最後,我想說我們實現了許多提升,但仍有很長的路要走。對於 low resource 語言,我們需要做得更好,這是一個非常艱巨的挑戰。我們需要開始翻譯圖像和視頻。我們需要找到更高效地使用圖像、視頻中語境信息的方法。我們需要開發出私人訂製的、符合語境的翻譯系統。我對加入這趟「連接世界」的旅程感到萬分激動並自豪。

謝謝。

本講座由雷鋒網編譯,轉載請聯繫。

相關焦點

  • F8 2017 | 技術負責人為你解析 Facebook 神經機器翻譯
    該講座主題為 Facebook 機器翻譯的兩代架構以及技術挑戰。雷鋒網消息:在昨日的 F8 會場,該講座吸引了眾多開發者到場,主講者是 Facebook 語言翻譯部門技術負責人 Necip Fazil Ayan。Necip Fazil Ayan 首先介紹了 Facebook 翻譯業務的使命和願景,以及對機器翻譯的應用。
  • Caffe2新增RNN支持,Facebook全面轉向神經機器翻譯
    通過 Caffe2 RNN,Facebook 的神經機器翻譯的效率提升高達 2.5x,Facebook 全部的機器翻譯模型從基於短語的系統轉換為所有語言的神經模型。這意味著 Facebook 可在產品中部署神經機器翻譯了。我們很高興共享 Caffe2 在支持循環神經網絡(RNN)方面的最新成果。
  • 什麼是神經機器翻譯(NMT)?
    機器翻譯翻譯行業不斷發展以滿足客戶的需求,神經機器翻譯(NMT)是這一進程的最新一步。由於能夠一次翻譯整個句子,NMT的輸出可以類似於人工翻譯。隨著越來越多的企業走向全球化,NMT可能會對翻譯行業產生巨大影響。什麼是神經機器翻譯?NMT使用基於神經網絡的技術來實現更多上下文精確的翻譯,而不是一次翻譯一個單詞的破碎句子。使用大型人工神經網絡計算單詞序列的概率,NMT將完整的句子放入一個集成模型中。
  • 神經機器翻譯工具 將首先用於中翻英
    據新華社消息 世界智慧財產權組織10月31日在日內瓦表示,中國國際專利申請量預計兩年內將居全球次席,因此該組織推出的最新基於人工智慧的神經機器翻譯工具將首先用在中文專利文檔轉化為英文的服務上。 神經機器翻譯是一個新興技術,建立在龐大的、能夠「學習」之前翻譯過的句子的神經網絡模型上。與之前「基於短語」的方法相比,神經機器翻譯可產生更為自然的語序,並在差異性較大的兩種語言的翻譯中,如日文-英文或中文-英文中有顯著進步。
  • 神經機器翻譯的直觀解釋 | 留言送書
    來源 | Towards Data Science作者 | Renu Khandelwal 編譯 | VK什麼是神經機器翻譯?神經機器翻譯是一種將一種語言翻譯成另一種語言的技術。一個例子是把英語轉換成印地語。讓我們想想,如果你在一個印度村莊,那裡的大多數人都不懂英語。你打算毫不費力地與村民溝通。在這種情況下,你可以使用神經機器翻譯。
  • 號稱要砸翻譯飯碗,神經機器翻譯哪家強?
    Google新發布了神經機器翻譯(GNMT:Google Neural Machine Translation)系統,並稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。有從事翻譯職業的網友甚至這樣形容:作為翻譯看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
  • 史丹福大學 NLP 組開放神經機器翻譯代碼庫
    近日,史丹福大學自然語言處理組(Stanford NLP)發布了一篇文章,總結了該研究組在神經機器翻譯(NMT)上的研究信息。
  • ACL 2018 | TA-NMT:利用大語種語料,提升小語種神經機器翻譯能力
    與大語種豐富的語料數據相比,小語種機器翻譯面臨的主要挑戰是語料的稀疏性問題。為了更好地解決這一問題,微軟亞洲研究院自然語言計算組提出了一個呈三角結構的神經機器翻譯模型TA-NMT,利用大語種的豐富語料來提升小語種機器翻譯的能力。近年來,神經機器翻譯發展迅速,在諸如英法、英德、中英等許多大語種(Rich Language)翻譯任務上均取得了突破性成果。
  • Facebook宣布全面轉為神經網絡人工智慧翻譯
    使用上下文Facebook以前使用的基於短語的統計技術確實有效,但它們也有局限性。基於短語的翻譯系統的一個主要缺點是它們將句子分解成單個單詞或短語,因此在生成翻譯時,他們每次只能考慮幾個單詞。 這種方法導致當翻譯具有明顯不同字詞排序的語言時會出現翻譯困難的情況。
  • Facebook宣布採用AI翻譯平臺內容,但你以為事情就這麼簡單嗎?
    )】8月7日報導 (編譯:小白)過去,很少有人關注Facebook的翻譯,但今日之後可就不一樣了。今日,Facebook告別了原來的基於短語的翻譯系統,啟用了最新的AI驅動的神經機器(NMT)翻譯系統。雖然在NMT翻譯技術上,Facebook相比谷歌或微軟(均於去年開始使用NMT技術)略顯落後,但是對Facebook本身,這項技術可以為其翻譯的準確性帶來顯著提升。Facebook原先基於短語的翻譯系統存在的問題是,它無法從整個句子的層面去翻譯句子。
  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關原始碼和模型也已經在 GitHub 上開源。
  • 從技術到產品,搜狗為我們解讀了神經機器翻譯的現狀
    在深度學習快速發展的今天,機器翻譯系統的能力究竟達到了什麼樣的水平?機器翻譯是否已經可以代替人類翻譯?3 月 17 日,機器之心與搜狗共同舉辦的 INTERFACE 線下分享中,搜狗語音交互技術中心研發總監陳偉、搜狗 IOT 事業部產品負責人李健濤,從技術和產品兩個方面為我們回答了這些令人感興趣的問題,解讀了搜狗,以及業內目前機器翻譯技術的現狀。
  • 【重磅】谷歌發布 Zero-Shot 神經機器翻譯系統:AI 巴別塔有望成真
    上圖中的(a)部分顯示了這些翻譯的總體幾何構成。圖中不同顏色的點代表不同的意思;意思相同的一句話,從英語翻譯為韓語,與從日語翻譯為英語的顏色相同。我們可以從上圖中看到不同顏色的點各自形成的集合(group)。
  • 谷歌翻譯預言世界末日 神經機器翻譯或是故障原因
    在谷歌翻譯中設置成夏威夷語翻譯成英語,輸入狗(dog)八次,然後就會看到奇怪的信息:「你想讓一隻狗信仰耶穌並得救嗎?」將'dog'在谷歌翻譯鍵入18次並選擇輸入語言為毛利語會產生以下信息:世界末日時鐘還差3分鐘到12點。我們正在經歷世界上的人物和戲劇性的發展,這表明我們越來越接近末日和耶穌的回歸。谷歌翻譯擁有超過100種語言,每天為超過5億人提供服務。
  • 注意力的動畫解析(以機器翻譯為例)
    本文為 AI 研習社編譯的技術博客,原標題 :Attn: Illustrated Attention作者 | Raimi Karim翻譯 | yata 校對 | 鄧普斯傑弗審核 | 醬番梨 整理 | Pita
  • 面向神經機器翻譯的篇章級單語修正模型
    《面向神經機器翻譯的篇章級單語修正模型》[1]是EMNLP2019上一篇關於篇章級神經機器翻譯的工作。針對篇章級雙語數據稀缺的問題,這篇文章探討了如何利用篇章級單語數據來提升最終性能,提出了一種基於目標端單語的篇章級修正模型(DocRepair),用來修正傳統的句子級翻譯結果。
  • Facebook擬利用AI來完善用戶翻譯服務:較之前的更準確
    【TechWeb報導】8月4日消息,據國外媒體報導,在過去,Facebook的翻譯並不是完全正確的,但這可能會從現在開始改變。Facebook近日宣布其提供的用戶翻譯服務全部由神經網絡(一種形式的人工智慧)完成。
  • 朱靖波:談談機器翻譯技術發展與產業化
    80年代末90年代初,第二代統計機器翻譯出現了,它最吸引人的地方,不是技術的問題,而是不用再寫規則了。用機器學習的方法構建翻譯模型雖然效果有了提升,但是只要句子稍微複雜,機器就翻譯不好了。比如說,它對短語翻譯得不錯,但是一遇到調序問題就不行了。所以,董老師當時稱第二代機器翻譯系統為「瘋子」。
  • 亞馬遜將為開發者推出翻譯服務 挑戰谷歌
    6月27日,據CNBC掌握的消息,亞馬遜的雲計算業務部門一直在研發一種針對開發者的翻譯服務,開發者可以使用這一服務來打造多種語言版本的網站和應用。事實上,亞馬遜早已擁有機器翻譯技術,只不過此前一直在亞馬遜公司內部使用,使用者主要利用這一技術,提供多種語言版本的產品信息。
  • 谷歌翻譯是如何藉助多項新興AI技術提高翻譯質量的
    在一篇即將正式發表的博客文章中,該公司詳細介紹了助力提升谷歌翻譯(Google Translate)所支持的108種語言翻譯質量的新創新技術(特別是缺乏語料數據的約魯巴語和馬拉雅拉姆語)。谷歌翻譯服務平均每天翻譯1500億個單詞。自谷歌翻譯首次亮相以來的13年裡,神經機器翻譯、基於重寫的範式和設備端處理等技術的出現和改進,助力該平臺的翻譯準確性取得不小的飛躍。