覆蓋40種語言:谷歌發布多語言、多任務NLP新基準XTREME

2020-12-22 機器之心Pro

機器之心報導

參與:澤南、蛋醬、杜偉

自然語言權威數據集 GLUE 一直是衡量各機構 NLP 預訓練技術水平最重要的指標之一。近年來在其榜單之上實現更好的成績,也成為了科技公司技術提升的體現。不過現有的大多數 NLP 基準僅限於英文任務,無法評價 NLP 模型在其他語言上的能力。

近日,來自 CMU、谷歌研究院和 DeepMind 的科學家們提出了覆蓋四十種語言的大規模多語言多任務基準 XTREME,希望一舉解決這個問題。

自然語言處理(NLP)所面臨的其中一個關鍵性挑戰是,構建的系統不僅要在英文中 work,而且要在世界範圍內約 6900 種語言中也 work。幸運的是,雖然大多數語言呈現數據稀疏(data sparse)且沒有充足可用的數據來自行訓練魯棒的模型,但其中的很多語言共享大量的底層結構。

此外,NLP 領域有很多方法在訓練過程中利用到了多語言的共享結構,以克服數據稀疏的問題。但不足的是,大多數這些方法側重於在多語言中執行特定任務。近幾年,得益於深度學習的進展,有更多的方法試圖學習通用的多語言表示(如 mBERT、XLM 和 XLM-R),這些方法旨在捕獲跨語言間共享且對多任務有用的知識。但在實踐中,這類方法的評估卻大多側重於一小部分任務以及相似的語言

因此,為了鼓勵人們在多語言學習領域開展更多研究,谷歌研究院聯合 CMU、DeepMind 發表了研究論文《XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》,該研究覆蓋了 40 種類型不同的語言(跨 12 個語系),並包含了 9 項需要對不同句法或語義層面進行推理的任務。

在 XTREME 大規模多語言多任務基準上選擇 40 種不同類型的語言,這是為了實現語言多樣性、現有任務覆蓋以及訓練數據可用性的最大化。其中一些是 under-studied 的語言,如達羅毗荼語系中的泰米爾語(印度南部、斯裡蘭卡和新加坡)、泰盧固語和馬拉雅拉姆語(主要集中在印度南部)以及尼日-剛果語系中的斯瓦希裡語和約魯巴語(非洲)。

論文地址:https://arxiv.org/pdf/2003.11080.pdf

項目地址:https://github.com/google-research/xtreme

XTREME 論文的並列一作是 CMU 語言技術研究所的在讀博士胡俊傑,和 DeepMind 著名的研究科學家 Sebastian Ruder

XTREME

XTREME 中的任務涵蓋了句子分類、結構化預測、句子檢索和問答等一系列樣式,因此,為了使模型在 XTREME 上取得好的表現,就必須學習可以泛化至多標準跨語種遷移設置的表徵

XTREME 支持的任務類型。

每種任務都涵蓋 40 種語言的子集,為了獲得 XTREME 分析所用的低資源語言的附加數據,自然語言推理(XNLI)和問答(XQuAD)這兩個代表性任務的測試集會自動從英語翻譯為其他語言。模型在使用這些翻譯過來的測試集執行任務時的性能表現,可與使用人工標註測試集的表現相媲美

Zero-shot 評估

在使用 XTREME 評估模型的性能之前,首先要用支持跨語言學習的多語言文本進行模型預訓練。然後根據任務特定的英語數據對模型進行微調,因為英語是最容易獲得標籤化數據的語言。之後,XTREME 會評估這些模型的 zero-shot 跨語言遷移性能,包括在其他沒有任務特定數據的語言中。

下圖展示了「預訓練-微調-zero-shot 遷移」的過程:

模型的跨語言遷移學習過程:1、針對多語言文本的預訓練;2、使用英語對下遊任務進行微調;3、使用 XTREME 進行 zero-shot 評估。

在實際操作中,這種 zero-shot 設置的好處就在於計算效率,預訓練模型僅需要針對每個任務在英語數據上進行微調,便能直接應用於其他語言的評估。但對於其他有標籤化數據的語言的任務,研究者也進一步對比了微調結果,根據在 9 個 XTREME 任務上的 zero-shot 得分來提供最終綜合得分。

遷移學習測試平臺

研究者使用了幾種多語言預訓練 SOTA 模型進行了實驗,包括:

多語言 BERT(mBERT):BERT 的多語言擴展版本;

XLM 和 XLM-R:規模更大、數據處理量更多版本的「多語言 BERT」;

M4:大規模多語言機器翻譯模型。

所選用的這些模型都有一個共同特點,就是已經過多種語言的大量數據的預訓練。在本次實驗中,研究者使用這些模型的變體——變體已在大概 100 種語言中進行了預訓練,其中也包括 XTREME 上的 40 種語言。

實驗結果表明,雖然模型在大多數現有英語任務中的表現接近於人類表現,但在許多其他語言中的表現卻明顯落了下風。在所有模型中,結構化預測和問答這兩項任務在英語和其他語種之間的性能差距最為明顯,而結構化預測和句子檢索這兩項任務則在跨語言結果上分布差異最大

下圖按照任務和語言的類別,展示了 zero-shot 設置下的 best-performing 模型 XLM-R 在所有語系中的表現。不同任務之間的分數不可相比,重點在於同一任務下、不同語系中的相對排名,如圖所示,許多高資源語言比如印歐語系,排名一直比較高。相比之下,該模型在其他語種,比如藏語、日語、韓語等語言上的性能排名較低

在 zero-shot 設置下,XTREME 基準上 best-performing 模型(XLM-R)在所有任務和語言上的性能表現。得分是基於 task-specific 度量的百分比,並且在不同任務之間沒有直接比較。人類表現(如果可用)則由紅星表示。

總之,研究者得出了以下一些有趣的觀察結果:

在 zero-shot 設置下,M4 和 mBERT 在大多數任務上表現出與 XLM-R 媲美的性能,但是 XLM-R 在特別具有挑戰性的問答任務上要優於前兩者。例如,在 XQuAD 任務上,XLM-R 得分為 76.6,高於 M4 的 64.6 和 mBERT 的 64.5。三者在 MLQA 和 TyDi QA 任務上的表現情況也是如此;

利用機器翻譯的基線方法,在翻譯訓練數據或測試數據時,都會表現出強大的性能。例如,在 XNLI 任務上,mBERT 在 zero-shot 遷移設置下得分為 65.4,但在使用翻譯過的訓練數據時,得分提升到了 74.0。

few-shot 設置(即使用有限的語內標籤數據)對 NER 等相對簡單的任務會表現出特別強大的性能,但對於更為複雜的問答任務則幫助有限。以 mBERT 的性能表現為例,在 few-shot 設置下,它在 NER 任務上的性能提升了 42%,得分由 62.2 提升到 88.3;但在問答任務上(TyDi QA),性能僅提升了 25%,得分由 59.7 提升到 74.5;

最後,所有模型和設置在英文和其他語言上的性能表現依然存在很大的差距,這表明跨語言遷移依然有著巨大的研究潛力。

跨語言遷移分析

與此前對於深度模型泛化能力的觀察類似,我們可以看到預訓練數據越多,效果就更好,如 mBERT 遇 XLM-R 相比。不過這種相關性並未出現在結構化預測任務中:在詞性標記(POS)和命名實體識別(NER)等任務上,當前的深度預訓練模型無法完全利用預訓練數據來遷移此類語法任務。

研究人員還發現模型也很難遷移到非拉丁語言中。這種情況在 POS 任務上非常明顯,其中 mBERT 在西班牙語上的 zero-shot 準確率為 86.9%,在日語上僅為 49.2%。

對於自然語言推理任務 XNLI,研究者發現模型在同一個預測上,英語和其他語言相同的情況為 70%。半監督方法可能會有助於提高翻譯成其他語言後預測的一致性。研究者還發現,模型很難預測出英語訓練數據中未出現的 POS 標記,這表明這些模型難以從用於預訓練的大量未標記數據中學習其他語言的語法。

對於實體命名識別,模型預測最為不準確的是與英語差異最大的幾種語言——其在印尼語和斯瓦西裡語中的準確度為 58.0 和 66.6,相比之下,葡萄牙語和法語為 82.3 和 80.1。

多語言遷移學習

英語的使用人數僅佔全球人口的 15%,但其 NLP 研究卻最為充分。研究者相信通過構建深度上下文表示方式,我們就擁有了為全球其他種類的語言提供實質性技術進展的工具。XTREME 或許可以成為多語言遷移學習的重要一步,就像 GLUE 和 SuperGLUE 在單語言模型基準上那樣,催生出類似 BERT、RoBERTa、XLNet、AlBERT 的優秀模型。

參考內容:http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

相關焦點

  • 谷歌130億參數多語言模型mT5重磅來襲,101種語言輕鬆遷移
    Facebook剛剛開源多語種機器翻譯模型「M2M-100」,這邊谷歌也來了。谷歌宣布,基於T5的mT5多語言模型正式開源,最大模型130億參數,與Facebook的M2M相比,參數少了,而且支持更多語種。
  • ...種語言的全新數據集:有效提升 BERT 等多語言模型任務精度高達...
    近日,谷歌發布了包含 7 種語言釋義對的全新數據集,即:PAWS 與 PAWS-X。BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升;其它先進的模型也能夠利用該數據集將精度提高到 85-90%。谷歌希望這些數據集將有助於推動多語言模型的進一步發展,並發布了相關文章介紹了該數據集,雷鋒網(公眾號:雷鋒網) AI 開發者將其整理編譯如下。
  • 國內自然語言處理(NLP)研究組
    /natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界nlp.baidu.com阿里巴巴達摩院語言技術實驗室
  • PyTorch-Transformers:最先進的自然語言處理庫(附帶python代碼)
    一起發布XLNet (來自谷歌/CMU) 與論文 XLNet: Generalized Autoregressive Pretraining for Language Understanding 一起發布XLM (來自Facebook) 與論文 Cross-lingual Language Model Pretraining一起發布上述所有模型都是適用於各種NLP任務的最佳模型。
  • 預訓練小模型也能拿下13項NLP任務,ALBERT三大改造登頂GLUE基準
    選自openreview.net機器之心編譯機器之心編輯部在預訓練語言模型中,小模型也有出頭的一天?大力出奇蹟這道坎也能輕鬆跨越?看看谷歌最新提出來的 GLUE 榜首模型:A LITE BERT。通常而言,在預訓練自然語言表徵時增加模型大小可以提升模型在下遊任務中的性能。
  • 同時掌握96門語言,多項世界突破,百度發布預訓練模型ERNIE-M
    機器之心報導機器之心編輯部2021 年伊始,百度在自然語言處理領域取得最新突破,發布多語言預訓練模型 ERNIE-M。ERNIE-M 通過對 96 門語言的學習,使得一個模型能同時理解 96 種語言,該項技術在 5 類典型跨語言理解任務上刷新世界最好效果。
  • 谷歌更新翻譯App 實時視頻翻譯語言已達27種
    日前,谷歌聲稱,其更新了iOS及Android版自家翻譯應用App可通過照片翻譯37種語言,通過語音翻譯32種語言,通過實時視頻翻譯27種語言。谷歌更新翻譯App 實時視頻翻譯語言已達27種  更新後,谷歌的字鏡頭(Word Lens)實時視頻翻譯功能和實時通話翻譯將更為強大
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    Google之外的努力也說明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。共同的聲音(雷鋒網注,Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟體創建免費的資料庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。
  • 7天8卡訓練32種語言,字節跳動推出多語言預訓練新範式mRASP
    機器之心發布機器之心編輯部字節跳動發表在 EMNLP 2020 會議上的一項研究提出多語言翻譯新範式——mRASP。1920 年大哲學家羅素先生來中國各地訪問,陪同翻譯的是當時清華大學語言學家趙元任。
  • 性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型
    在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。去年,谷歌發布了一種被稱為 PRADO 的神經架構,該架構當時在許多文本分類問題上都實現了 SOTA 性能,並且參數量少於 200K。
  • 2019 年 NLP 領域都發生了哪些大事件?
    為了給大家提供一個較好的閱讀體驗,本文只附上了其中的部分連結,感興趣的同學可以前往原文,找到相應的連結地址:我們下面進入正文:一、發布的重要工作一覽2019 年,谷歌人工智慧部門針對語境化語言表徵的自監督學習任務,發布了輕量級的
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    典型的 MT 系統需要為每種語言和每種任務構建單獨的 AI 模型,但這種方法無法在 Facebook 上進行有效推廣,因為人們在數十億個帖子中發布超過 160 種語言的內容。先進的多語言處理系統能夠同時處理多種語言,但由於依賴英語數據來彌合源語言和目標語言之間的差距,在準確性上會有所折中。
  • Google翻譯增加了對五種新語言的支持
    谷歌今天宣布將在其翻譯服務中增加對五種新語言的支持。Google Translate四年來首次添加了Kinyarwanda,Odia(Oriya),Tatar,Turkmen和維吾爾語等語言。總體而言,Google通過其翻譯應用程式提供了對超過108種語言的支持。超過7千5百萬人說五種語言。Google翻譯將支持每種語言的文本和網站翻譯。對於Kinyarwanda,Tatar和維吾爾族,Google也將支持虛擬鍵盤輸入。Kinyarwanda是盧安達的官方語言,有超過1200萬人使用。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 谷歌推出美國新冠病毒門戶網站 將陸續覆蓋多國
    據外媒最新消息,周六,谷歌推出了一個新冠病毒教育和信息類的網站,其中包含了安全提示和關於這一流行傳染病的權威信息。 據國外媒體報導,之前,谷歌的一個兄弟公司——生命科學技術公司Verily推出了一個幫助民眾進行免費新冠病毒測試的網站,這和谷歌上述網站並非同一家網站。
  • 估值15億美元躋身獨角獸,語言學習APP「多鄰國」的下一站
    又一家語言學習APP新獨角獸誕生了。日前,多鄰國(Duolingo)宣布獲得了3000萬美元的F輪融資,領投方為Alphabet旗下投資機構CapitalG(谷歌資本)。截至目前,多鄰國的融資總額已經達到1.38 億美元。此次融資後,其估值將達15億美元。多鄰國是一款在線語言學習APP,總部位於美國賓夕法尼亞州匹茲堡市。
  • 一口氣發布1008種機器翻譯模型,GitHub最火NLP項目大更新:涵蓋140...
    一口氣發布1008種機器翻譯模型,GitHub最火NLP項目大更新:涵蓋140種語言組合 2020-05-19 15:51 來源:澎湃新聞·澎湃號·湃客
  • 微軟分享史上最大基於Transformer架構的語言生成模型
    基於Transformer的架構,意味著該模型可以生成單詞來完成開放式文本任務。除了完成未完成的句子外,它還可以生成對輸入文檔的問題和摘要的直接答案。去年8月,英偉達曾宣布已訓練世界上最大的基於Transformer的語言模型,當時該模型使用了83億個參數,比BERT大24倍,比OpenAI的GPT-2大5倍。
  • NLP預訓練利器:小模型也有高精度,單個GPU就能訓練
    它叫ELECTRA,來自谷歌AI,不僅擁有BERT的優勢,效率還比它高。ELECTRA是一種新預訓練方法,它能夠高效地學習如何將收集來的句子進行準確分詞,也就是我們通常說的token-replacement。有多高效?