LaBSE:一套支持109種語言的新語言不可知論內嵌模型

2021-01-08 cnBeta

據外媒報導,自transformer架構誕生以來,自然語言處理(NLP)和自然語言生成(NLG)領域就受益匪淺。Transformer模型如BERT及其衍生物已經被應用到一系列領域中,包括情緒分析和分類。近年來,為了讓這些模型變得更加健全,相關人員付出了大量的努力,尤其是通過擴展蒙面語言模型(MLM)的預培訓並將其跟翻譯語言建模(TLM)結合起來從而使得模型變為語言不可知論。

儘管事實證明,這種MLM和TLM的聯繫有助於下遊任務的微調,但截止到目前,它們還沒有直接生成多語言句子嵌入,而這對於翻譯任務是至關重要的。考慮到這一點,谷歌的研究人員現在推出了一種多語言BERT嵌入模型,叫做「語言不可知論BERT句子嵌入(Language-agnostic BERT Sentence Embedding,簡稱LaBSE)」,它在一個單一模型上為109種語言生成語言不可知論的跨語言句子嵌入。簡單地說,LaBSE將MLM和TLM預培訓結合在一個12層transformer上,據悉,該轉換器包含有500,000個帶有使用雙向雙編碼器完成的翻譯排序任務的token。

為了訓練這個模型,研究人員使用了170億個單語句子和60億對雙語句子。一旦訓練完成就會使用Tatoeba語料庫對LaBSE進行評估,據悉,該模型的任務是利用餘弦距離為給定的句子找到最近鄰的翻譯。

結果表明,即使在訓練過程中沒有數據可用的低資源語言上該模型也是有效的。除此之外,LaBSE還在多個並行文本或雙語文本檢索任務上建立了一個藝術新狀態(SOTA)。具體地說,隨著語言數量的增加,傳統的模型如m~USE和LASER模型,其在平均精度上表現出比LaBSE更明顯的下降。

據了解,LaBSE的潛在應用包括從網絡中挖掘並行文本。研究人員則將其應用到CommonCrawl上,進而從LaBSE預處理和編碼的77億英語句子庫中尋找潛在的翻譯。有了這些嵌入,翻譯模型顯示出了極高的準確性,其分數達到了35.7和27.2。谷歌寫道:「這跟目前在高質量並行數據上訓練的先進模型只有幾分之遙。」

現在,這個預訓練模型可以在TensorFlow Hub找到。

相關焦點

  • Facebook開源新AI語言模型,「可對100種語言實現一對一翻譯」
    根據《siliconangle》消息:Facebook表示其利用AI技術在不依賴英語數據的情況下翻譯任意兩種語言的嘗試,已經取得了實質性進展。Facebook正在開源一種名為M2M-100的新AI語言模型,該模型可以在100種語言中的任何一對之間進行翻譯。
  • ...7 種語言的全新數據集:有效提升 BERT 等多語言模型任務精度...
    數據集包括:其中,PaWS-X 數據集則是在 PAWS 數據集基礎上,擴展得到包含另外六種不同類型語言的釋義識別對抗性數據集,支持的語言包括:法語、西班牙語、德語、漢語、日語和韓語。這兩個數據集都包含了格式良好、具有高度重疊詞彙的句子對。其中大約有一半的句子對是釋義對,另一些則不是,數據集也包含了最先進模型的訓練數據。
  • N-gram語言模型初體驗
    Unigram與Bigram,並且使用Bigram語言模型,讓計算機生成句子,以及讓計算機自動完成選詞填空題目> 課程內容Unigram語言模型Bigram語言模型N-gram語言模型自動生成句子自動完成選詞填空題目課時列表:001
  • Facebook新AI模型可以直接對譯100種語言
    針對這些問題,最近,Facebook開發了新的機器翻譯模型,可以不藉助英語直接做到兩種語言的雙向互譯,而且新模型在BLEU評估算法下的得分比傳統的藉助英語的模型還高了10分。Learn morehttps://t.co/9nszUF5nTj#t9n#machinetranslationpic.twitter.com/57kqbParp1 Facebook的新模型被稱作M2M-100,Facebook宣稱它是第一個多語言機器翻譯模型,可以直接在100種語言中的任何一對之間來回翻譯。
  • 谷歌發布含 7 種語言的全新數據集:有效提升 BERT 等多語言模型...
    雷鋒網 AI 開發者按:近日,谷歌發布了包含 7 種語言釋義對的全新數據集,即:PAWS 與 PAWS-X。BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升;其它先進的模型也能夠利用該數據集將精度提高到 85-90%。
  • 必應語音API再強化 TTS支持六種新語言
    Bing Speech API,支持語音-文本(語音識別)和文本-語音(語音合成)的雙向功能。前者(Speech-to-Text)可以將人類語音轉換成計算機可以識別的輸入指令,而後者(TTS)可以將文本轉成語音輸出。
  • 500億參數,支持103種語言:谷歌推出「全球文字翻譯」模型
    來自谷歌的研究者提出了一種能夠翻譯 103 種語言的大規模多語言神經機器翻譯模型,在數據豐富和匱乏的語種翻譯中都實現了顯著的性能提升。他們在 250 億個的句子對上進行訓練,參數量超過 500 億。在過去的幾年裡,由於神經機器翻譯(NMT)的發展,機器翻譯(MT)系統的質量得到了顯著提升,打破了世界各地的語言障礙。
  • Facebook 開源翻譯模型,可處理 100 種語言,無需英語作中間步驟
    支持 100 種語言翻譯,為全新語言創建數據Facebook 利用反向翻譯對低資源語言的數據進行了補充,這種方法包括用一種語言培訓模型,並利用它翻譯單語數據,以便用另一種語言創建合成的反向翻譯數據。M2M-100 基於 XLM-R,Facebook 的多語言模型,可以從一種語言的數據中學習,並用 100 種語言執行任務。今年 7 月,Facebook 發布了一個支持 51 種不同語言的語音識別模型。
  • 支持53種語言預訓練模型,斯坦福發布全新NLP工具包StanfordNLP
    選自stanfordnlp機器之心編譯機器之心編輯部今日,Stanford NLP 團隊發布了包含 53 種語言預訓練模型的自然語言處理工具包StanfordNLP,該工具包支持 Python 3.6 及之後版本,並基於 PyTorch,支持多種語言的完整文本分析管道,包括分詞、詞性標註、詞形歸併和依存關係解析,此外它還提供了與 CoreNLP 的 Python 接口。
  • Facebook 開源翻譯模型,可處理 100 種不同語言,無需英語作為中間步驟
    M2M-100 訓練了 2200 種語言對,翻譯性能的指標上勝過以英語為中心的系統。支持 100 種語言翻譯,為全新語言創建數據Facebook 利用反向翻譯對低資源語言的數據進行了補充,這種方法包括用一種語言培訓模型,並利用它翻譯單語數據,以便用另一種語言創建合成的反向翻譯數據。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    接下來,我們將介紹具體的研究工作,包括為100種語言建立的翻譯訓練數據、模型的細節和訓練。同時,我們還將開源該模型,並發布模型的訓練和評估設置,以方便其他研究人員的復現,以此為基礎進一步推動多語言模型的發展。
  • 谷歌發布萬億參數語言模型,語言模型何時超越人類語言能力?
    ,近日Google提出萬億參數語言模型Switch Transformer,進一步提高了語言模型可以達到的頂峰。 這一領域的真正突破出現在2018年,當時,谷歌重磅引入了BERT模型: Jacob Devlin和他的團隊利用了一種典型的用於機器翻譯的架構,並使其學習與句子上下文相關的單詞的含義。通過教會這個模型去填補維基百科文章中缺失的單詞,這個團隊能夠將語言結構嵌入到BERT模型中。
  • 揭開多語言詞嵌入模型的神秘面紗
    例如,識別某人在帖子中要求的推薦,或自動刪除垃圾信息等令人反感的內容。分類模型通常是通過給神經網絡提供大量帶有這些類別標籤的數據樣本進行訓練。通過這一過程,分類模型可以學到如何對新數據進行分類,並用來做出預測以提高用戶體驗。訓練過程通常是用於特定語言的,這意味著對於每個要被分類的語言,需要分別收集大量的訓練數據。
  • Facebook推出首個無需依賴英語即可翻譯100種語言的AI模型
    Facebook AI 將推出 M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在 100 種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。M2M-100 總共訓練了 2200 個語言方向,比以前最好的以英語為中心的多語言模型多了 10 倍。部署 M2M-100 可以為數十億人提高翻譯質量,特別是那些使用低資源語言的人。
  • Kite AI代碼完成工具已新增對11種語言的支持
    雖然當時僅支持Python,但在充裕的資金支持下,項目團隊還是在今年早些時候為其添加了對JavaScript的支持。最新消息是,KiteAI 代碼完成工具又迎來了對11 種新語言的支持。    今日新支持的語言包括Java、Kotlin、Scala、C/ C ++、ObjectiveC、C#、Go、TypeScript、HTML/ CSS、以及Less,有助於這款AI 代碼完成工具對開發者產生更大的吸引力。    Kite表示,在該工具的幫助下,活躍開發者甚至每天只需編寫由大約175 個「單詞」組成的代碼。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    >來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具。
  • 覆蓋40種語言:谷歌發布多語言、多任務NLP新基準XTREME
    不過現有的大多數 NLP 基準僅限於英文任務,無法評價 NLP 模型在其他語言上的能力。近日,來自 CMU、谷歌研究院和 DeepMind 的科學家們提出了覆蓋四十種語言的大規模多語言多任務基準 XTREME,希望一舉解決這個問題。
  • 什麼樣的NLP庫,可以支持53種語言?
    (NLP)時,常常會遇到一個挑戰——我們可以為非英語語言建立模型嗎?每種語言都有自己的語法模式和語言細微的差別,並且其他語言中並沒有很多數據集可用。直到出現了史丹福大學最新的NLP庫——Sanford NLP。作者聲稱StanfordNLP可以支持超過53種人類語言。
  • Google 智能助理,支持多種語言功能!
    鑑於多語言使用者人群龐大且不斷增加,與以往相比,我們更需要使 Google 開發產品能夠同時支持多種語言,以便更好地為用戶服務。 今天,我們將推出 「Google 智能助理」 的多語言支持功能,讓用戶在查詢時可以切換兩種不同的語言,而無需返回語言設置。
  • 無需依賴英語數據,100種語言互譯,臉書推出「M2M-100」模型
    因此,我們需要一個真正的多語言機器翻譯(MMT)模型,該模型可以在任何語言之間直接進行翻譯,這將為我們的社區提供更好的服務。我們已經在Facebook對MT進行了多年的研究,現在終於可以自豪的宣布:我們首次構建了一個的大型MMT模型,該模型可以在100種不同語言之間直接進行翻譯,而無需依賴英語作為中轉語言。