讓AI觸類旁通93種語言:Facebook最新多語種句嵌入來了

2020-12-11 量子位

夏乙 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

搞定一種語言之後,是不是很希望算法能在近百種語言上無縫遷移?

AI真能無師自通,對於我們這些「因為語言不通而分散在各處」的人們來說,簡直是天大的福音。

新鮮出爐的Facebook「多語種句嵌入」,就是這樣一種「神器」。他們提出了一種新架構,為橫跨34個語族、28種不同文字寫成的的93種語言,學習了統一的聯合多語種句嵌入。

舉個例子,只要用標註好的英語數據訓練一個分類器算法,教會它判斷一個英語句子是不是少兒不宜,就可以無縫遷移到其他語言上,不管你是豪薩語、韃靼語還是漢語粵方言,它都能判斷有沒有少兒不宜。

能一下子準備好接受這麼多種語言,是怎麼做到的呢?

我們來看一下這個系統的架構

它由編碼器(encoder)、解碼器(decoder)兩大部分組成。其中,編碼器是個無關語種的BiLSTM,負責構建句嵌入,這些句嵌入接下來會通過線性變來換初始化LSTM解碼器。

為了讓這樣一對編碼器、解碼器能處理所有語言,還有個小條件:編碼器最好不知道輸入的究竟是什麼語言,這樣才能學會獨立於語種的表示。所以,還要從所有輸入語料中學習出一個「比特對嵌入詞庫」(BPE)。

不過,解碼器又有著完全相反的需求:它得知道輸入的究竟是什麼語言,才能得出相應的輸出。於是,Facebook就為解碼器附加了一項輸入:語言ID,也就是上圖的Lid。

訓練這樣一個系統,Facebook用了16個英偉達V100 GPU,將batch size設置為12.8萬個token,花5天時間訓練了17個周期。

架構說起來不算複雜,效果怎麼樣呢?

用包含14種語言的跨語種自然語言推斷數據集(cross-lingual natural language inference,簡稱XNLI)來測試,這種多語種句嵌入(上圖的Proposed method)零數據(Zero-Shot) 遷移成績,在其中13種語言上都創造了新紀錄,只有西班牙語例外。

另外,Facebook用其他任務測試了這個系統,包括ML-Doc數據集上的分類任務、BUCC雙語文本數據挖掘。他們還在收集了眾多外語學習者翻譯例句的Tatoeba數據集基礎上,製造了一個122種語言對齊句子的測試集,來證明自家算法在多語言相似度搜索任務上的能力。

最後,附上傳送門~

論文:

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Mikel Artetxe, Holger Schwenk

https://arxiv.org/pdf/1812.10464.pdf

代碼也即將開源,會直接更新到Facebook之前放出的無關語種句嵌入庫LASER中:

https://github.com/facebookresearch/LASER

相關焦點

  • Facebook開源多款AI工具,支持遊戲、翻譯
    、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理)等諸多 Facebook 內部使用的庫和模型。
  • 一次搞定多種語言:Facebook展示全新多語言嵌入系統
    為了向整個社區提供更好的服務——無論是推薦(Recommendations)和 M 建議(M Suggestions),還是檢測和刪除違反政策的內容——我們都需要建立一個能夠適應多語言 NLP 任務的機器學習系統。顯然,現有的適用於特定語言的 NLP 技術無法應對這種挑戰,因為支持每一種語言意味著從頭開始構建全新應用。Facebook 找到了應對之策。
  • Facebook 開源增強版 LASER 庫:可實現 93 種語言的零樣本遷移
    該工具包現在可應用於使用 28 種不同的字符串編寫的 90 多種語言,也就是說,它將所有語言一同嵌入到一個獨立的共享空間中(而不是為每一種語言都創建一個單獨的模型),從而實現在 90 多種語言中的應用。此外,一同開源的還有多語言編碼器、PyTorch 代碼,以及面向 100 多種語言的多語言測試集。
  • 前沿綜述:細數2018年最好的詞嵌入和句嵌入技術
    Skip-thought論文中有一個有趣的見解是詞彙表擴展計劃:Kiros 等人通過學習RNN詞嵌入空間與諸如word2vec之類的較大詞嵌入之間的線性變換來處理在訓練期間看不到的詞。Quick-thoughts vectors是今年在ICLR上發布的Skip-thought vectors的最新改進版。
  • 文本嵌入的經典模型與最新進展
    因此,這篇文章簡要介紹了通用詞和句子嵌入的最新技術:我們先從詞嵌入開始。FastText 向量訓練速度超快,可在 157 種語言的 Wikipedia 和 Crawl 訓練中使用。這是一個很好的基線模型。深度語境化的單詞表示 (ELMo,http://allennlp.org/elmo) 最近大幅提高了詞嵌入的頂級水平。它由 Allen 研究所開發,將於 6 月初在 NAACL 2018 會議上發布。
  • Facebook AI 用深度學習實現程式語言轉換,代碼庫遷移不再困難!
    Facebook AI的方法能夠將代碼從一種程式語言轉換為另一種程式語言,而無需數據進行訓練的AI系統。 Facebook AI已經證明TransCoder可以成功地在C ++,Java和Python之間完成語言轉換。TransCoder的性能優於開放原始碼的且基於商業規則的翻譯程序。
  • 自然語言處理 |收藏!使用Python代碼的4種句嵌入技術
    所以,為了實現有效溝通,我們需要用彼此能理解的語言進行互動。而對於機器來說,為了讓機器可以處理和理解任意文本,我們必須用機器能夠理解的語言來表示文本。那麼它最懂哪種語言呢?這篇文章,我們將介紹Python代碼中最常用的4種句嵌入技術並且概述它們的體系結構以及如何用Python實現這些技術,包括如下內容:二、什麼是句嵌入(Sentence Embedding)
  • 概覽普適詞嵌入句嵌入最新進展
    編者按:Huggingface科研負責人Thomas Wolf簡要介紹了普適詞嵌入、句嵌入的最新方法。
  • Facebook全新無監督機器翻譯法,BLUE測試提升超過10分!
    自動語言翻譯對於Facebook來說非常重要,因為Facebook用戶高達數十億,可以想見其平臺每天承載和需要轉換的語種數量。當然,有了神經機器翻譯(NMT)技術以後,機器翻譯的速度和水平都得到了大幅提升。不過,傳統的統計機器翻譯也好,NMT也罷,都需要大量的訓練數據,比如中英、英德、英法等大量語言對。而對於訓練數據較少的語種,比如尼泊爾語,就很難應對了。
  • 支持117個語種互譯!語種最多的機器翻譯雲平臺上線
    在人類文明和科技迅猛發展的當下,全球各國不同種類的語言信息不斷交融,遍及跨境旅遊、在線社交、商務往來、國際會議、跨境電商、全球資訊和輿情監測等行業領域中,應用計算機軟體將一種語言自動轉換為另一種語言的機器翻譯技術,來滿足全球各國多語言信息快速翻譯的需求是目前最為有效的手段
  • Facebook 推出即時翻譯功能,讓你用44種語言發帖
    Facebook 團隊最近在其博客上發表了一篇文章,解釋了這種多語言發帖功能是如何實現的:Facebook:打造用多語種發帖的更好方法人們在 Facebook 上交流和分享時會採用很多種不同的語言。得到的反饋是,大多數頁面還是偏向於向用粉絲們最熟悉的語言顯示帖子,給用戶最輕鬆順暢的體驗。所以我們決定讓多語種帖子的圍觀者看見他們最熟悉的語言。例如,如果一個多語種帖子用英語和西班牙語發出來,那麼英語用戶看見的是英語,而西班牙語用戶看見的是西班牙語。
  • Facebook 100種語言互譯模型原始碼公開!機器翻譯再也不用英語當...
    在訓練2200種語言對後,該單一多語言模型不僅與傳統的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。傳統機器翻譯算法通過為每種語言和每項任務構建單獨的AI模型能夠同時處理多語翻譯,但由於依賴英語數據作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。
  • 語種多 規模大 《漢語900句》正式面向全球發行
    華聲報法蘭克福消息:最新權威外國人學漢語教材——《漢語900句》將以14種語言在全球50個國家發行。中國外語教學與研究出版社與美國湯姆森學習出版集團10月4日在德國法蘭克福舉行全球合作出版籤字儀式,正式推出這套迄今語種最多、規模最大的外國人學漢語教材。
  • 業界 Facebook 推出即時翻譯功能,讓你用44種語言發帖
    Facebook 團隊最近在其博客上發表了一篇文章,解釋了這種多語言發帖功能是如何實現的:Facebook:打造用多語種發帖的更好方法人們在 Facebook 上交流和分享時會採用很多種不同的語言。得到的反饋是,大多數頁面還是偏向於向用粉絲們最熟悉的語言顯示帖子,給用戶最輕鬆順暢的體驗。所以我們決定讓多語種帖子的圍觀者看見他們最熟悉的語言。例如,如果一個多語種帖子用英語和西班牙語發出來,那麼英語用戶看見的是英語,而西班牙語用戶看見的是西班牙語。
  • 揭開多語言詞嵌入模型的神秘面紗
    為了更好地服務於 Facebook 社區,無論是通過提供多語言的類似 Recommendations 和 M Suggestion 這樣的服務,還是訓練系統來檢測和刪除違規內容的,都需要一種更好的方法來將自然語言處理方法(NLP)拓展到更多語言上去。現有的特定語言的自然語言處理(NLP)技術無法應對這一挑戰,因為支持每種語言相當於從頭重新解決這個問題並建立起全新的應用。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    正向模型的分數主要由候選翻譯在多大程度上捕捉了原句的意思來衡量;相反,反向模型的分數是通過查看模型能從候選譯文中重建出的句子準確性來評判;流暢性模型的分數根據候選翻譯流暢性來衡量,最後系統通過觀察大量的單語數據以自我監督的方式進行訓練;經過對這三個分數的平衡,系統就能夠產生顯著優化後的翻譯結果。
  • Facebook新AI黑科技出現 多語種翻譯模式更有意義
    原標題:Facebook新AI模型實現直接從非英語語言翻譯到另一種非英語語言   據外媒報導,機器翻譯技術自誕生以來走過了漫長的道路。雖然像谷歌這樣的翻譯曾經粗糙、不可靠,而且只對最基本的翻譯有用,但如今,由於AI的力量,它們可以實現驚人的準確。然而一些古老的翻譯方法仍然存在。
  • Facebook推出首個無需依賴英語即可翻譯100種語言的AI模型
    傳統的 MT 系統需要為每種語言和每種任務構建單獨的人工智慧模型,但在 Facebook,這種方法無法有效地擴展。在 Facebook 上,人們在數十億個帖子中發布的內容使用了超過 160 種語言。增強型多語言系統可以同時處理多種語言,但依賴英語數據來彌補源語言和目標語言之間的差距,因而在準確性上有所損失。
  • XLM —— 基於BERT的跨語言模型
    XLM用了一個常見的預處理技術BPE(byte pair encoder字節對編碼)以及BERT雙語言訓練機制來學習不同語言中詞與詞之間的關係。這個模型在跨語言分類任務(15個語言的句子蘊含任務)上比其他模型取得了更好的效果,並且顯著提升了有預訓練的機器翻譯效果。
  • 001ai翻譯耳機內含14語種讓溝通無國界
    經過三年潛心研發,001ai耳機終於全新上線,一般來說能夠中翻英已經很不錯了,但這款耳機目前竟能夠達到14種語言翻譯,並且還正在持續增加中。交流雙方只要各佩戴一隻耳機,用母語也能順暢溝通,不會外語的你,現在面對面交流也是So easy~感謝億智蘑菇平臺給予的評測機會,現在隆重開始介紹今天的主角——001ai智能翻譯耳機,最大亮點「溝通無國界」。