Facebook放了個大招,基於CNN的語言翻譯模型快9倍,同傳壓力山大了...

2021-01-10 虎嗅APP


人工智慧技術在近年來的飛速發展,無疑為人們展現了一幅前所未有的未來圖景,人們在歡呼雀躍的同時,也開始擔心被科技加持的主流文化會逐漸拉大與其他人類文化的差距。「科技霸權」不單存在於經濟領域,也在逐漸向諸如語言、藝術創作等人文領域滲透。而一旦脫離主流技術發展體系,這些小眾人類文化所面臨的結局很可能是逐漸消亡。


以AI為代表的新興技術會將重建人類文明的「巴別塔」,還是加速其崩塌?




人類目前使用大約6900種不同的語言,使用漢語、英語、北印度語、西班牙語和俄語這5種語言的人佔了全球人口的一半以上。可事實上,95%的人只使用100多種語言進行交流。

 

另外一個不為人知的事實是,根據語言學家估計,世界上約有三分之一的語言僅由不到1000人使用,而且在未來一個世紀這些語言面臨失傳的危險。這些小眾語言所體現的獨特文化遺產,像傳統故事、短語、笑話、傳統草藥,甚至獨特的情感也會隨著語言的失傳而消失。



  

在這個處處連接的網際網路世界裡,人與人之間的溝通和交流變得無比方便快捷。但現在的問題是,語言的差異仍然像是一道深不可測的鴻溝擺在擁有不同文化背景的人面前。

 

作為全球最大的社交巨頭,Facebook自誕生起就在血脈深處蘊藏著開放和連接的基因,他們的使命就是打破藩籬、重構起互通互聯的「巴別塔」,使每個人都可以以最準確、最快速的方式接觸到全球範圍內的信息。


而要實現這一目標,第一步就是解決不同語言之間的轉換問題。人工翻譯已經遠遠不可能滿足當今世界所產生的海量信息流,那麼,是否能有一種快速而準確的技術決絕方案,能替代人類去完成不同語言間的轉換?

 

就在昨天,Facebook人工智慧研究中心(FAIR)發布了使用全新的卷積神經網絡(CNN)進行語言翻譯的研究結果。據悉,這種新方法能夠以現有的循環神經網絡系統9倍的速度進行翻譯,而且翻譯的準確性還會得到大幅的提高。

 

卷積神經網絡(CNN)最早是由深度學習領域的權威人物Yann LeCun在幾十年前所發明,在以圖像處理為代表的的機器學習應用中表現得非常成功。但在語言翻譯方面,由於對準確性的追求,往往會將循環神經網絡(RNN)作為首選的技術。



  

但儘管如此,RNN在設計上所固有的局限性,還是制約了它在語言翻譯和文本處理上的進一步應用。


舉例來講,計算機在進行文本翻譯的時候,通常是根據一種語言的句子來判斷在另一種語言裡同義單詞的排列順序。但循環神經網絡只能以從左到右(或從右到左)的順序逐字進行翻譯,這就和深度學習中多GPU並行的計算模式十分不契合,必須要等到上一個詞翻譯完之後,下一個詞才可以繼續,實際上也就相當於造成了神經網絡計算能力的浪費。

 

與之對比,CNN就表現出很大的優勢,它可以充分利用多GPU並行計算的能力,同時處理多個語言片段,顯然效率會得到大大提升。除此以外,CNN的另一個優勢就是其所具備的信息分層處理能力,這對於海量信息中的複雜關係歸納匯總十分有利。



 

在以往的研究中,CNN在翻譯上的應用並沒有引起Facebook的重視。不過,FAIR團隊意識到了這一技術的潛力,他們通過搭建翻譯模型驗證了CNN極佳的翻譯表現,如果在未來這一能力可以得到釋放的話,那麼精準、高效翻譯全球6900餘種語言將不再是夢想,人類文化的「巴別塔」將在技術的基石之上重建。

  

Facebook的全新翻譯系統到底表現如何?

 

在由機器翻譯大會(WMT)提供的公開標準數據包上的測試表現來看,Facebook全新的翻譯系統的性能要遠超RNNs2。尤其是在CNN模式下的WMT 2014 英語-法語測試中,要比之前的最佳紀錄提高了1.5個BLEU值。BLEU(Bilingual Evaluation Understudy)是運用最廣泛的機器翻譯準確度評判標準,系統認為,機器翻譯結果越接近人工翻譯,那麼翻譯質量就越高。




此外,Facebook全新的翻譯系統在WMT 2014 英語-德語測試中,將此前的紀錄提高了0.5個BLEU值,在WMT 英語-羅馬尼亞語測試中,也將最好成績提高了1.8個BLEU值。

 

神經網絡在機器翻譯這種實際應用中表現的衡量標準還包括,系統接收到一個句子後,會花多長時間翻譯出來。Facebook全新的CNN模型擁有非常高效的計算能力,比已經很強大的RNN系統還要快9倍。Facebook的研究團隊主要將精力放在了通過量化權重和蒸餾等方法來加速神經網絡,這些方法其實潛力極大,在未來還將進一步大幅提高CNN模型的速度。

 

Facebook全新架構中的一個顯著特徵在於multi-hop注意力機制。這種機制類似於人類在從事翻譯工作時,會將句子進行分解,而不是一次將句子看完,然後頭也不回的直接進行翻譯。這個神經網絡也會在翻譯過程中不斷的回頭看句子,並選擇接下來要翻譯的詞語


這一點與人類在翻譯過程中會經常回顧句中的關鍵詞的行為非常類似,比如,首次回顧關注的是動詞,那麼第二次回顧時就會關注相關的助動詞。



 

該系統的另一個重點是「門控」(Gating),它控制神經網絡中的信息的具體流向,給它們指定最佳的處理單元,從而得到最好的翻譯結果。打個比方,如果說神經網絡會要做的是搜集所有已經完成的翻譯結果,那麼門控要做的就是進行精確地篩選,使它最適合當前的語境。

 

但是,也開始有越來越多的人擔憂,經常使用機器去翻譯某些常用的特定語言,會使得那些不常使用的語言被進一步邊緣化。這就是為什麼機器翻譯有可能會加速瀕危語言、甚至文化的消亡。

 

語言學家們舉了一個通俗的例子,比如衛星電視服務,那些經常被電視臺使用的語言會逐漸變得更流行更受歡迎,而不經常出現的語言則會漸漸被人們遺忘。

  

技術的進步會進一步加速小眾語言、甚至文化的消亡?

 

Google、Facebook等科技巨頭們正在研發的機器學習技術,將極大加快不同主流語種間的轉換效率,這個已經沒有疑問了,但它是否能成為保護小眾語言的利器?


語言學家Sebastian Drude在研究巴西的印第安語言Awetí

 

這是一個很有遠見的設想,但問題是機器翻譯依賴於大量被標記的數據。這些數據集是由人工翻譯的各種語言的書籍、文章和網站組成。機器學習算法就像羅塞達石碑(石碑上用希臘文字、古埃及文字和當時的通俗體文字刻了同樣的內容)一樣,數據集越大,學習效果越好。

 

然而對於大多數語言來說,這種龐大的數據集根本不存在。這就是為什麼目前機器翻譯只能夠翻譯最常見的幾種語言。例如,Google翻譯只能處理90種語言。


因此語言學家面臨的一個重要挑戰就是需要找到一種方法,可以自動分析那些小眾語言,以便讓計算機更好地理解它們。

 

最近,德國慕尼黑大學的Ehsaneddin Asgari和Hinrich Schutze表示他們已經在這方面取得了關鍵性突破。他們展示的新方法揭示了幾乎適用於任何語言的重要元素,這些元素可以很好地幫助機器翻譯。

 

這個新技術是基於一個已被翻譯成至少2000種不同語言的單一文本:《聖經》,語言學家早已認識到它的重要性。



因此,他們創建了一個名為「平行《聖經》語料庫」的資料庫,這其中包含了用1169種語言翻譯的《新約》。然而這個數據集還不足以用於Google和其他商用機器翻譯系統。所以,Asgari和Schutze提出了另一種方法:分析不同語言中,各種時態的表達方式。

 

大多數語言都會使用特定的單詞或字母組合來表示時態。所以這個新方法的小技巧是利用人工去識別一些語言中時態出現的信號,然後採用數據挖掘來搜索其他語言,找到扮演相同角色的單詞或字符串。

 

例如,在英文中,進行時是用「is」來表示,將來時態用「will」,而過去時用「was」。當然這些詞也有其他含義。

 

Asgari和Schutze的想法是在《聖經》的英文翻譯中找到所有這些詞,以及其他語言中相對應的例子。然後查找在其他語言中扮演相同角色的單詞或字母串。例如,字母「-ed」在英語中也表示過去時態。

 

值得注意的是,Asgari和Schutze不是以英語作為一開始的基準。因為英語是一種比較古老的語言,有許多例外的情況,這會使得機器很難學習。



 

相反,他們從根據其他語言混合發展而成的克裡奧爾語系(Creole Language)開始。因為這種語言出現得較晚,它還沒有足夠長的時間來發展出豐富的語言特質。這意味著它們通常包含更明顯的語言特徵標記,譬如時態。


兩位德國學者表示:我們的依據是,克裡奧爾語比其他語言更為規範,因為這個語系很年輕,並沒有積累那些容易讓計算分析更複雜的『歷史包袱』。」



 

這其中之一是塞席爾(Seychelles)克裡奧爾語,它使用「ti」這個詞來表示過去時。例如,「mon travay」是指「I work」,而「mon ti travay」意味著「I worked」,「mon ti pe travay」意思是「I was working」。所以對於判斷過去時來說,「ti」是一個很好的指示符列表。

 

Asgari和Schutze編譯了10種其他語言的過去時態指示符列表,然後在「平行《聖經》語料庫」中,把用於執行相同功能的其他語言的單詞和字符串挖掘出來。對於現在進行時和一般將來時他們也採用了相同的方法。

 

實驗的結果非常有趣,這項技術揭示了與一般常用語言有關的語言學結構,並創建一張關聯圖,顯示使用相似時態結構的語言是如何聯繫的(如下圖)。

 


 

Asgari和Schutze開發的機器學習算法可用來分析人們在超過1000種語言中使用過去、現在和未來時態的方式。這是迄今為止最大的跨語言計算研究,所涉及的語言數量比其他類型的研究甚至大一個數量級。

 

這項工作有很重要的應用價值。語言時態關聯圖允許研究人員快速找出不同語言之間的關係以及它們是如何聯繫的,這可以用來更好地理解語言的進化與演變。Asgari和Schutze表示:「我們所需的只是幾千種語言的語言特徵,而不是要求這幾千種語言被完全標記。」

 

機器學習在語言學領域的應用,對我們理解語言本身、世界變化的方式,以及「機器如何理解語言」將產生深遠的影響。這個新興的學科使得許多語言能夠直接以文字和語音的形式翻譯成其他語言。

 

事實上,這個新興學科的目的就是通過人工智慧技術,來實現機器的即時翻譯,最終勝過人類的同聲傳譯,甚至更進一步幫助全球各種語言使用者們實現無障礙交流。

相關焦點

  • 重磅| Facebook提出全新CNN機器翻譯:準確度超越谷歌而且還快九倍...
    近日,Facebook 也宣布在神經機器翻譯上取得了重大進展,在超過了去年穀歌研究的水平的同時還實現了顯著的速度提升。而和谷歌的方法不一樣,Facebook 的方法採用了一種完全基於卷積神經網絡的架構。機器之心對 Facebook 博客上的介紹文章進行編譯,同時在文末附上了該研究論文的摘要介紹,另外該研究的相關原始碼和模型也已經在 GitHub 上開源。
  • 打破語言壁壘,百度翻譯同傳為智源大會構建跨國溝通橋梁
    除了深厚的語言能力外,還需要極強的反應能力,邊說邊聽,精力高度集中,對譯員的腦力和體力都是極高的挑戰。因此往往一場會需要兩個甚至多個譯員共同完成同傳。針對這些難題,百度翻譯團隊展開攻關,先後提出了集成預測與可控時延的翻譯模型、語義單元驅動的上下文感知翻譯模型、融合音節與文本的聯合編碼模型、基於知識蒸餾的端到端同傳模型、語音識別與翻譯交互解碼等一系列創新技術,在語音容錯、平衡質量與時延、語篇翻譯連貫性和端到端同傳模型等方面取得突破,研發了高質量、低時延的機器同傳系統。
  • 百度翻譯同傳頻現國際會議 搭建中外溝通橋梁
    針對以上問題,百度翻譯提出業界首個「語義信息單元驅動的機器同傳模型」(效果如下圖),實時判斷演講者所講內容是否形成了完整的語義單元,判斷為是則進行翻譯,否則繼續等待。語義信息單元驅動的機器同傳模型(橫向箭頭代表一個語義單元,縱向箭頭表示翻譯結果)此外,傳統的翻譯模型一般僅針對當前的輸入內容進行翻譯,由於缺乏全局信息導致翻譯不準確
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    智東西(公眾號:zhidxcom)編 | 子佩智東西10月23日消息,Facebook近期開源其M2M-100原始碼,這是首個可以不依賴英語數據而可以實現100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。
  • 同傳、翻譯、TESOL?如何選擇英國語言類專業?
    聽說學語言的天朝小夥伴,比如英語專業,就業前景一片霧霾,於是更多的人選擇去英國深造,那麼同傳、翻譯、TESOL怎麼選擇?這麼多專業的區別是什麼呢?英語語言類專業的水這麼深,希望你們能從這篇乾貨裡找到自己想要的答案。
  • 百度聯合谷歌主辦同傳學術講習班 創新技術+產品助力跨語言交流
    會上,由百度聯合Google舉辦的首次機器同聲傳譯學術講習班(Tutorial)召開,圍繞機器同傳的背景、挑戰、模型、數據集、實用系統和產品、未來研究方向等展開報告和研討,吸引了數百位國際學者參會。(EMNLP2020同聲傳譯學術報告會)同聲傳譯一直都被學界和工業界廣泛認為是自然語言處理最難的問題之一。
  • 百度翻譯打造定製化翻譯服務、AI同傳等全產品矩陣 企業效率工具擔當
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • 百度發布即時翻譯「神器」 突破自然語言處理重大難關
    在語音識別方面,區別於傳統的上下文相關建模技術,百度提出了上下文無關音素組合的中英文混合建模單元,包含1749個上下文無關中文音節和1868個上下文無關英文音節。該方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點。
  • 百度大腦開放日召開機器翻譯專場 百度AI同傳翻譯性能可媲美人類
    何中軍在會上詳解了機器翻譯技術的發展歷程,並通過一系列實際應用場景案例,詳解了百度翻譯全面的產品布局和服務方式。自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • Mask R-CNN官方實現「又」來了!基於PyTorch,訓練速度是原來2倍
    10個月前Facebook曾發布過名叫Detecron的項目,也是一款圖像分割與識別平臺,其中也包含Mask R-CNN。不過它是基於Caffe 2深度學習框架編寫的。這一次,在Caffe2項目併入PyTorch半年之後,Facebook換上了更受歡迎的PyTorch框架。
  • 全球首個突破200種語言互譯的翻譯引擎 百度翻譯打破世界溝通壁壘
    自2010年以來,百度翻譯在大規模產業化機器翻譯模型、海量翻譯知識獲取、多語言翻譯統一框架、機器同聲傳譯等方面進行了系統而深入的研究,取得重大技術突破,研製了具有完全自主智慧財產權、技術先進、功能豐富的機器翻譯系統,實時準確地響應全球海量複雜多樣的翻譯請求。
  • Transn傳神攜手阿里雲、釘釘,在線同傳翻譯服務重磅上線
    目前,達摩院AI翻譯技術多項業界第一,2018年國際機器翻譯大賽翻譯任務5個語向冠軍、質量評估任務6項冠軍,日均調用超過10億次。翻譯服務平臺基於語料庫、知識圖譜等能力,及時識別訂單,訂單,供應商及譯員接單風險預測,為在線人工同傳供給提供平臺保障。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    而 Detectron2 則是剛推出的新版 PyTorch 1.3 (詳情查看:https://www.leiphone.com/news/201910/9J4PTd833WMwdVoQ.html)中一重大新工具,它源於 maskrcnn 基準測試,但它卻是對先前版本 detectron 的一次徹底重寫。
  • 百度領銜舉辦首次機器同傳講習班 詳解機器同聲傳譯技術演進
    從翻譯模式看,相比傳統的文本翻譯,同聲傳譯對翻譯時延和準確率要求極高,這使得翻譯模型總是需要在信息不充分的情況進行翻譯,因而較之傳統機器翻譯,同聲傳譯難度又翻倍;從譯員角度看,同傳專業性極強、難度極大、耗腦又耗嗓,對同傳譯員要求極高,除了深厚的語言能力外,還需要極強的反應能力,邊說邊聽,精力高度集中,對譯員的腦力和體力都是極高的挑戰。因此往往一場會需要兩個甚至多個譯員共同完成同傳。
  • 小度真無線耳機+百度AI同傳解決方案 打造耳邊「翻譯官」
    當我們和外國友人交流時,可以開啟「流浪地球」模式,每人戴一隻耳機,對方使用英語說話,我們就能夠實時聽到翻譯過來的中文,輕鬆跨越語言鴻溝。當我們和國外客戶開會時,開啟同聲傳譯模式,實時顯示翻譯結果,更加清晰地了解客戶需求,同時支持雙語會議記錄輸出。
  • Facebook 開源可直接翻譯上百種語言的 AI 模型
    DoNews 10月20日消息(記者 劉文軒)Facebook 近期宣布將首個不需透過英語、可直接翻譯兩種語言的 AI 模型 M2M-100 開源。Facebook 表示一般機器翻譯需要為每種語言及每種任務建立一種 AI 模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰到要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文。Facebook 指出,這種需要以英文為中介的翻譯會導致原意流失或翻譯錯誤,並不適合臉書平臺上160多種語言貼文翻譯的需求。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    第三個問題是,時間延遲與準確率存在矛盾。如果要提高準確率,就需要等待說話人的具體意思表達完整之後再進行翻譯,時間延遲就會比較高。第四個問題是翻譯的連貫性。同傳的主要場景是對演講者的內容進行實時翻譯,需要保證翻譯前後內容的連貫和一致。第二是數據挑戰。面向真實場景的訓練數據只有幾十到幾百個小時,這麼少的數據對於訓練一個高質量的同傳系統而言遠遠不夠。
  • 騰訊AI同傳鬧烏龍,質疑「AI取代論」的理由有哪些?
    隱馬爾可夫模型(HMM)解決統計數據之外的語言問題然而,在參考騰訊AI同傳的失誤後,我們發現,僅僅增加數據量還是不夠的,在現實生活中,我們也會遇到零概率或者統計量不足的問題。比如一個漢語的語言模型,就足足達到20萬這個量級。
  • 從R-CNN到YOLO,一文帶你了解目標檢測模型(附論文下載)
    它和R-CNN的區別是,輸入不需要放縮到指定大小,同時增加了一個空間金字塔池化層,每幅圖片只需要提取一次特徵。/%CB%9Cwlouyang/projects/imagenetDeepId/index.html深度感知卷積神經網絡中的目標檢測器https://www.robots.ox.ac.uk/~vgg/rg/papers/zhou_iclr15.pdfsegDeepM:利用深度神經網絡中的分割和語境進行目標檢測https
  • 烏鎮網際網路大會官方首次使用AI同傳,搜狗為雷軍提供機器翻譯
    11月7值得一提的是,搜狗同傳作為本屆大會智慧化應用的重要組成部分,是世界網際網路大會有史以來,AI同傳首次服務官方主議程。作為大佬雲集的科技盛典,本次會議的對話內容涉及到多個領域的高端技術詞彙,翻譯難度飆升。搜狗同傳不僅將這些詞彙各個擊破,並且隨時聯繫上下文調整翻譯結果,在準確還原語義的基礎上,讓語句更加符合口語習慣,便於人們理解。這是連續五屆世界網際網路大會以來,官方首次使用AI同傳,具有十分重要的意義。以