一次搞定多種語言:Facebook展示全新多語言嵌入系統

2021-02-24 MOOC

| 全文共2838字,建議閱讀時3分鐘 |

 

本文經機器之心(微信公眾號:almosthuman2014)授權轉載,禁止二次轉載

選自code.facebook

作者:Ves Stoyanov、Necip Fazil Ayan

傳統的自然語言處理系統只能對應於特定語言,如果想要讓其應用支持多種語言,則需要從頭開始構建相應數量的新系統。Facebook 最近提出的多語言嵌入方法可以在一些「已知」語言上訓練 Classifier,應用於「未知」語言上,成功解決了社交平臺中 AI 應用的多語言支持問題。本文將向你簡要介紹這一技術背後的原理。

在 Facebook 上,超過一半的用戶使用非英語語言。整個平臺上,人們使用的語言超過 100 種。這種多元化的環境對於我們的服務是很大的挑戰——如何為每個用戶提供首選語言的無縫體驗,尤其是在這些體驗是由 Facebook 機器學習和自然語言處理(NLP)系統提供支持的情況下。為了向整個社區提供更好的服務——無論是推薦(Recommendations)和 M 建議(M Suggestions),還是檢測和刪除違反政策的內容——我們都需要建立一個能夠適應多語言 NLP 任務的機器學習系統。

顯然,現有的適用於特定語言的 NLP 技術無法應對這種挑戰,因為支持每一種語言意味著從頭開始構建全新應用。Facebook 找到了應對之策。近日,他們展示了最新提出的多語言嵌入技術,它可以幫助處理多語言的問題,幫助人工智慧應用更快速地處理新語言的問題,為用戶提供更好的產品體驗。

跨語言 NLP 的挑戰

NLP 的一個常見任務是文本分類,即將預定義類別分配給文本文件的過程。文本分類模型幾乎用於 Facebook 的所有部分,如識別用戶是否在貼文中請求系統推薦,或者自動移除負面內容,如垃圾信息。分類模型通常通過向神經網絡提供大量標註數據作為樣本來進行訓練。模型通過該過程學習如何對新樣本進行分類,然後執行預測以為用戶提供產品體驗。

訓練過程通常針對某種特定語言,這意味著對於你想要分類的每種語言,你都需要收集大量訓練數據。收集數據成本高昂且耗時,當我們想要支持 100 多種語言時,收集就變得更加困難了。

我們使用的另一種方法是收集大量英語數據來訓練英語分類器,然後如果需要分類另一種語言的文本(如土耳其語),則將土耳其語文本翻譯成英語,然後將譯文發送給英語分類器。

但是,該方法也有一些缺陷。首先,翻譯中的誤差會傳輸給分類器,導致性能下降。其次,它要求對我們想進行分類的非英語內容另外啟用翻譯服務。這導致分類產生極大延遲,因為翻譯的耗時通常比分類要長。

我們認為這兩種方法都不夠好。我們想要更通用的解決方案,可以對我們支持的所有語言輸出一致、準確的結果。

使用多語言詞嵌入執行文本分類

目前文本分類模型使用詞嵌入或將詞表徵為多維向量,將其作為理解語言的基本表徵。詞嵌入具有非常好的屬性,它們非常易於操作,並且相似意義的詞彙在向量空間中彼此距離很近。一般而言,詞嵌入是針對特定語言的,每種語言的詞嵌入需要單獨訓練,且存在於完全不同的向量空間。

實現多語言文本分類的一種方法是開發多語言詞嵌入向量。利用這種技術,每種語言的詞嵌入都存在於同一個向量空間中,且不同語言間語義相似的詞在向量空間中距離相近。例如,土耳其語中的「futbol」和英語中的「scoccer」在嵌入空間中距離非常近,因為它們在不同語言中代表著相同的意思。

為了實現跨語言文本分類任務,我們可以使用這些多語言詞嵌入作為文本分類模型的基本表徵。由於新語言中的單詞在嵌入空間中與已訓練語言的單詞相近,所以分類器也能在新語言上執行良好。因此,我們可以使用一種或多種語言進行訓練,學習在一種從未訓練過的語言中執行分類任務。

訓練多語言嵌入

為了訓練多語言詞嵌入,我們首先使用 fastText 和數據(由來自 Facebook、Wikipedia 的數據組合而成)為每種語言分別訓練詞嵌入。然後我們利用詞典將所有嵌入空間投影到共同空間(英語)。詞典從平行數據(即由兩種不同語言的意義相同的句子對構成的數據集)中自動導出,平行數據也用於訓練翻譯系統。

我們利用矩陣將嵌入投影到共同空間。該矩陣被用於最小化詞嵌入 x_i 和它的投影 y_i 之間的距離。即,如果詞典由(x_i,y_i)對構成,我們需要選擇投影器 M,使得:

其中,M 表示令 L2 範數求和最小化的 W。此外,我們將投影矩陣 W 限制為正交矩陣,從而保持詞嵌入向量之間的初始距離。

我們將這些嵌入整合到 DeepText,即我們的文本分類框架中。DeepText 包含多種將詞嵌入作為基本表徵的分類算法。我們在 DeepText 中將多語言詞嵌入作為基本表徵來訓練多語言模型,並將詞嵌入「固定」,或在訓練過程中保持其不變。此外,工作流可以使用不同語言的訓練集和測試集,並計算語言內和跨語言的性能。該方法使開發跨語言模型的進程變得更加容易。

對於一些分類問題,用多語言詞嵌入訓練的模型展現的跨語言性能非常接近於特定語言分類器的性能。我們觀察到,當用在訓練中未見過的語言進行測試時,準確率達到了 95%,和用特定語言數據集訓練的分類器性能相當。之前的翻譯輸入方法的跨語言準確率通常只能達到特定語言模型的 82%。新的多語言方法的整體延遲時間相比翻譯和分類方法,縮短了 20 倍到 30 倍。

在 Facebook 的大規模應用

我們完成了一些基本工作,如對於每個應用,從語言特定的模型轉向多語言嵌入,作為通用的基礎層:

我們在 Facebook 的生態系統中以不同方式應用多語言嵌入,從檢測違反政策內容的 Integrity 系統到支持 Event Recommendation 等功能的分類器。

正在進行的工作

通過多語言嵌入進行擴展的方法前途無限,但是我們仍然有很多工作要做。

研究人員發現,目前的多語言嵌入對英語、德語、法語、西班牙語,及與其相近的語言性能略微好一些。該技術仍在繼續擴展的過程中,未來會專注於對我們不具備大量數據的語言嘗試新技術。Facebook 還將繼續研究捕捉跨語言文化背景細微差別(如詞組「it's raining cats and dogs.」)的方法。

該研究的團隊將與 FAIR 合作,從詞嵌入到利用高級結構(如語句或段落)的嵌入改善多語言 NLP、捕捉語義含義。Facebook 希望這種技術的性能優於語言特定的模型,在文化和語言特定的信息和解析方式方面提高準確度。

原文連結:https://code.facebook.com/posts/550719898617409/under-the-hood-multilingual-embeddings/

喜歡我們就多一次點讚多一次分享吧~


有緣的人終會相聚,慕客君想了想,要是不分享出來,怕我們會擦肩而過~

《預約、體驗——新維空間站》

《【會員招募】「新維空間站」1年100場活動等你來加入》

有緣的人總會相聚——MOOC公號招募長期合作者

產權及免責聲明本文系「MOOC」公號轉載、編輯的文章,編輯後增加的插圖均來自於網際網路,對文中觀點保持中立,對所包含內容的準確性、可靠性或者完整性不提供任何明示或暗示的保證,不對文章觀點負責,僅作分享之用,文章版權及插圖屬於原作者。如果分享內容侵犯您的版權或者非授權發布,請及時與我們聯繫,我們會及時內審核處理。

了解在線教育,
把握MOOC國際發展前沿,請關注:
微信公號:openonline
公號暱稱:MOOC

 

相關焦點

  • 讓AI觸類旁通93種語言:Facebook最新多語種句嵌入來了
    夏乙 發自 凹非寺量子位 出品 | 公眾號 QbitAI搞定一種語言之後,是不是很希望算法能在近百種語言上無縫遷移?AI真能無師自通,對於我們這些「因為語言不通而分散在各處」的人們來說,簡直是天大的福音。新鮮出爐的Facebook「多語種句嵌入」,就是這樣一種「神器」。他們提出了一種新架構,為橫跨34個語族、28種不同文字寫成的的93種語言,學習了統一的聯合多語種句嵌入。
  • 揭開多語言詞嵌入模型的神秘面紗
    為了更好地服務於 Facebook 社區,無論是通過提供多語言的類似 Recommendations 和 M Suggestion 這樣的服務,還是訓練系統來檢測和刪除違規內容的,都需要一種更好的方法來將自然語言處理方法(NLP)拓展到更多語言上去。現有的特定語言的自然語言處理(NLP)技術無法應對這一挑戰,因為支持每種語言相當於從頭重新解決這個問題並建立起全新的應用。
  • Facebook 開源增強版 LASER 庫:可實現 93 種語言的零樣本遷移
    該工具包現在可應用於使用 28 種不同的字符串編寫的 90 多種語言,也就是說,它將所有語言一同嵌入到一個獨立的共享空間中(而不是為每一種語言都創建一個單獨的模型),從而實現在 90 多種語言中的應用。此外,一同開源的還有多語言編碼器、PyTorch 代碼,以及面向 100 多種語言的多語言測試集。
  • 華為手機EMUI滾屏翻譯,多種語言自由切換,多屏內容一次搞定
    近年來去國外旅遊的人越來越多,根據國家數據網的統計顯示,從16年到18年,我國的出境人數從130多萬人次增長到了160多萬人次。出國留學的人也從50多萬人增加60多萬人。無論是長篇外語新聞、外文參考文獻還是國外旅遊攻略,越來越多的用戶,有了翻譯長篇外文的新需要。經過慎重考慮之後,我們決定給這群為此煩惱不已的朋友推薦一個好用的小功能!那就是滾屏翻譯——你的隨身翻譯小助手!多屏內容一次搞定,多種語言自由切換。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    Facebook 通過使用半監督和自監督學習技術,利用未標記的數據來提高純監督系統的性能。在第四屆機器翻譯大會(WMT19)比賽中,Facebook 採用了一種新型的半監督訓練方法,並在多種語言翻譯任務中獲得了第一名。Facebook 還引入了一種新的自我監督的預訓練方法——RoBERTa。它在一些語言理解任務上超過了所有現有的 NLU 系統。
  • 全新Edge瀏覽器上線 支持7個平臺90多種語言
    全新Edge瀏覽器上線 支持7個平臺90多種語言 來源:快科技 • 2020-01-17 11:15:50 1月16日,
  • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
    【新智元導讀】從舊式程式語言(例如COBOL)到現代替代語言(例如Java或C ++)的代碼庫遷移是一項艱巨的任務,Facebook AI開發了Transcoder,這是一個完全自監督的神經轉編譯器系統,可以使代碼遷移變得更加輕鬆和高效。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • Facebook全新無監督機器翻譯法,BLUE測試提升超過10分!
    Facebook無監督機器翻譯的方法,首先是讓系統學習雙語詞典,將一個詞與其他語言對應的多種翻譯聯繫起來。舉個例子,就好比讓系統學會「Bug」在作為名詞時,既有「蟲子」、「計算機漏洞」,也有「竊聽器」的意思。
  • Facebook為對抗欺詐郵件 推出全新程式語言FXL
    今日,Facebook宣布,為了對抗社交網絡平臺上的垃圾欺詐郵件,他們將推出一種全新的程式語言--Feature eXtraction Language(FXL)。Facebook在博客中指出,現在的垃圾郵件更換速度極其地快,也許用戶某天就會收到免費領取iPad 5以及各種各樣禮券的欺詐郵件。
  • Facebook AI研究院文章:自然語言對話系統成果
    【PConline資訊】Facebook AI 研究院(FAIR)日前撰寫了一篇長文章,介紹了自己在基於圖像的自然語言對話系統方面的研究方向以及現有的研究成果。圖像理解和自然語言對話系統都是當前的熱門研究領域,兩者結合的領域更是又迷人、又讓人頭疼。下面我們來一起看看Facebook AI 研究院對這一問題有何見解、他們又做出了哪些成果。編譯此文如下。
  • R語言自然語言處理:文本向量化——詞嵌入(Word Embedding)
    希望與大家分享學習經驗,推廣並加深R語言在業界的應用。郵箱:huang.tian-yuan@qq.com前文推送:R語言自然語言處理:中文分詞R語言自然語言處理:詞性標註與命名實體識別R語言自然語言處理:關鍵詞提取(TF-IDF)R語言自然語言處理:關鍵詞提取與文本摘要(TextRank)我們之前講到的全部都是基於詞袋模型(
  • Facebook推出簡體中文語言版本
    Facebook簡體中文語言版本截圖網易科技訊 6月19日消息,據網易科技網友爆料,Facebook今日推出了簡體中文語言版本。當中國大陸地區用戶訪問Facebook.com時,將自動跳轉到http://zh-cn.facebook.com/的頁面上,頁面顯示為簡體中文字符。 用戶使用以前註冊的帳號在該頁面登陸後,將還是會進入到英文界面;而在該頁面重新註冊後,激活的帳號將顯示中文界面。
  • 大話go 語言:談談 go 語言的類型系統
    引言:最近地鐵上沒事,準備花一點時間研究下 go 語言,分兩節來分享,這節首選『類型系統』因為我覺得類型系統是一門語言之核心。五年前,曾被面試官面試到 C 和 C++的區別。其中有被問到如何用 C 語言實現面向對象編程。
  • 康傳媒facebook群控的多種用法
    康傳媒facebook群控在出現以後,在國內的外貿企業、跨境電商中引起了強烈反響,在國外,在東南亞,歐洲,美國,也有越來越多的客戶使用和準備使用康傳媒facebook群控系統,那麼,康傳媒facebook群控的價值究竟在什麼地方?
  • 用 R 語言搞定統計圖(贈送視頻)
    筆者前一段時間忙於為新文章製作配圖,多處搜集配圖優雅美觀的優質論文。
  • 輕鬆搞定Windows 8中的多種語言
    無論你是精通多種語言,還是只需要完成外語作業,都可以使用Windows 8以多種語言進行閱讀和輸入。在某些國家或地區,你可以購買已經預安裝多種語言的電腦。如果你所需的語言沒有預安裝,你可以手動進行添加。完成之後,可以選擇你的顯示語言,然後在輸入時在不同的語言之間進行切換。
  • 高鐵南站將配備多語言翻譯系統
    據江淮晨報報導,5月10日,記者從全市文明單位、窗口單位喜迎2018世界製造業大會和中國國際徽商大會工作部署會上了解到,全市各級單位將打好「結合牌」,通過微笑服務,在合肥火車站、高鐵南站將配備多語言翻譯系統等舉措,力爭此次大會期間展示合肥城市形象、呈現合肥城市氣質、營造濃厚會議氛圍。
  • 前沿綜述:細數2018年最好的詞嵌入和句嵌入技術
    編譯:集智翻譯組來源:medium在任何一種基於深度學習的自然語言處理系統中對通用嵌入的追尋是個大趨勢:在大型語料庫上預先訓練好的嵌入模型,可以應用到多種下遊任務模型中(情感分析,分類,翻譯...),通過合併一些在較大的數據集上學習的常用詞/句子表示,預訓練的嵌入可以自然地提高其性能。這是一種遷移學習。 最近,已經證實遷移學習能大幅提升NLP模型在很多重要的任務上的表現,例如文本分類任務。
  • Facebook 推出即時翻譯功能,讓你用44種語言發帖
    每天,有超過 5000 個商業團體和名人的主頁在 Facebook 上以各種語言發布超過 10000 篇帖子,而這些帖子將會展示在大約 7000 萬用戶的信息流裡,其中有三分之一用戶不使用英文。Ayan 關注了巴西球星小羅納爾多的 Facebook 主頁,小羅會在發布帖子時同時使用葡萄牙語、西班牙語和英語。「我只能看到英語,」Ayan 說。