40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME

2021-01-17 雷鋒網

作者 | 蔣寶尚

編輯 | 賈偉

全世界約有6900種語言,但大多數並沒有英語這種數據規模,這也導致大多數的NLP基準僅限於英文任務,這大大制約了自然語言處理的多語言發展。

從語言學的角度,值得注意的一點是,不同語言或許有相同的來源,例如英語的「desk」和德語的「 Tisch」都來自拉丁語「 discus」。

如何利用語言之間的這種「共享結構」來克服數據不足問題,是當前學術界嘗試多語言研究的方向之一。近日,谷歌聯合CMU、DeepMind推出的《XTREME:評估跨語言泛化的大規模、多語言、多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)極大的鼓勵了多語言研究。

(雷鋒網)這篇研究涵蓋了40種類型多樣的語言(涵蓋12種語系),還包括9項需要共同對不同級別的句法或語義進行推理的任務。

XTREME設計原則

正如谷歌論文的標題,XTREME是一個基準,用來評估跨語言遷移學習的好壞,在多樣化和具有代表性的任務和語言上,其選擇構成基準的任務和語言主要考慮的原則包括:任務的難度、任務的多樣性、以及訓練的效率、多語言性、充足的單語數據等等。

1、任務難度足夠有挑戰性,使得跨語言的表現低於人的表現;2、任務應該要求語言模型在不同的層次上傳遞不同的意義,例如,分類任務需要句子級的意義轉移,而序列標記任務,如語音部分(POS)標記或命名實體識別(NER)則需要測試模型在詞級的意義轉移能力;3、考慮到資源有限,任務要求在一個GPU上就能夠訓練,而且訓練時間不能超過一天;4、首先考慮涵蓋多語言和語系的任務;5、任務的使用是獲得許可的,能夠允許用於研究,以及以此為目的數據再分配。

XTREME任務一覽

(雷鋒網)

XTREME包含9個任務,共有4個類別,可以在不同的意義層次上進行推理。任務概述如上表所示。

XNLI:FAIR 和紐約大學合作開發,作為一個新的自然語言推斷語料庫,其將MultiNLI 的測試集和開發集擴展到 15 種語言,包括斯瓦西裡語和烏爾都語等低資源語言。

PAWS-X:是在 PAWS 數據集基礎上, 擴展了包含另外6 種不同類型語言的釋義識別對抗性數據集, 支持語言包括: 法語、西班牙語、德語、漢語、日語和韓語。PAWS-X 數據集則包含23 659組由人工判斷而得的PAWS 擴展句子對, 以及296 406 組由機器翻譯的訓練對。

POS:作者使用了通用依存關係中資料庫中的POS標籤數據,並使用英語訓練數據進行訓練,並在目標語言的測試集上進行了評估。

NER:對於NER,作者使用了Wikiann數據集,並用知識庫屬性、跨語言、錨連結、自我訓練和數據選擇相結合的方法,對維基百科中的命名實體進行了IOB2格式的LOC、PER和ORG標籤的自動注釋。

XQuAD:是一個更全面的跨語言基準測試,包括由專業翻譯人員翻譯成十種語言的240段和1190對問題回答。

MLQA:這是一個類似於XQuAD的多語言問題回答數據集,能夠用於評估跨語言問答性能的基準。其由SQuAD格式的超過5K提取QA實例(英語為12K)組成,使用7種語言-英語,阿拉伯語,德語,西班牙語,北印度語,越南語和簡體中文。

(雷鋒網)XTREME基準測試中支持的任務

TyDiQA-GoldP:TyDiQA是一個涵蓋了 11 種不同類型語言的問答語料庫,TyDiQA-GoldP是其簡化版,並排除了一些無法回答的問題。它類似於XQuAD和MLQA,但比這兩個分別少了三倍和兩倍的的詞法重疊度。另外,作者使用使用英語訓練數據在目標語言的測試集上進行訓練和評估。

BUCC:該數據集為每種語言提供了訓練和測試分詞,為了簡化,作者直接對測試集上的表徵進行評估,沒有進行微調,但使用了餘弦相似度公式計算相似度。

Tatoeba:該數據集包含了多達1000個覆蓋122種語言的英語句子對,在該數據集上,作者使用餘弦相似度找到近鄰( nearest neighbour),並計算錯誤率。

綜上,XTREME中包含的任務涵蓋了一系列範式,包括句子分類,結構化預測,句子檢索和問題解答。

評估

由於英語是多語言表徵中最常用的評估設置,並且多數任務中僅有英語訓練數據,所以谷歌在評估設置上採用英語作為源語言的zero-shot跨語言遷移。雖然英語並非所有目標語言的跨語言遷移的最佳源語言,但這是目前實踐中最擁有的設置。

為了使用XTREME評估模型性能,首先需要使用引起跨語言學習的目標語言在多語言文本上對模型進行預訓練,接著在指定任務的英語數據上對模型進行微調。隨後,XTREME 在目標語言上評估模型的zero-shot跨語言遷移性能。

下圖展示了從預訓練到微調再到zero-shot遷移的三大流程:

模型的跨語言遷移學習過程:1、針對多語言文本的預訓練;2、使用英語對下遊任務進行微調;3、使用 XTREME 進行 zero-shot 評估。

實踐中,這種zero-shot設置的好處之一是能夠提升計算效率,即預訓練模型僅需要針對每個任務在英語數據上進行微調,便可以在其他語言上直接進行評估。

針對在其他語言中也有標註數據的任務,作者也比較了模型在這些語言上進行微調後的性能,最終獲得了 9 個XTREME任務的zero-shot得分,得出了綜合分數。

在基準測試方面,谷歌研究者選擇幾種當前最先進的多語言模型進行試驗,包括多語言BERT 模型 (mBERT),多語言BERT 模型的大型版本XLM和XLM-R 以及大型多語言機器翻譯模型 M4。這些模型的共同特點,就是它們已經在來自不同語言的大量數據上進行了預訓練。

在方法上,主要採用的是通過自監督或藉助譯文來學習多語言表徵。

圖註:基於翻譯的基準對句子檢索沒有意義。在有目標語言訓練數據的情況下,作者提供了語言內基準。

實驗結果如上圖所示,XLMR是表現最好的模型,總體上比mBERT有明顯的改進,但是在結構化預測任務上的改進較小。MMTE在大多數任務上的性能與mBERT相當,在XNLI、POS和BUCC上的性能更強。

對於有語內訓練數據( in-language training data)的任務,使用語內數據訓練的多語言模型要優於zero-shot遷移模型。但是,只要有更多的英語樣本,zero-shot遷移模型就會好於只訓練了1000個複雜QA任務的語言內示例的多語言模型。

對於結構化預測任務,1,000個語內實例能使模型達到與在完整的標籤化數據集上訓練的性能。

最後,在Translate-train和In-language設置上的多任務學習一般都比單一語言訓練有所改善。

對於一些有代表性的模型,作者研究了跨語言轉移差距,即在英語測試集上的表現與所有其他語言之間的差距。

如上圖所示,雖然在XQuAD和MLQA等具有挑戰性的任務上,XLM-R等強大的模型與mBERT相比,可以顯著縮小差距,但它們在句法結構化預測任務上的影響不盡相同。

在分類任務上,轉移學習的差距最小,說明在這些任務上的進步空間可能較小。

機器翻譯的使用雖然縮小了所有任務之間的差距。總體而言,所有方法都存在很大的差距,這表明跨語言遷移工作的潛力很大。

分析

作者進行了一系列的分析,研究了當前能夠達到SOTA的跨語言模型的局限性。具體分析包括五個部分:

圖註:XLM-R在XTREME任務中所有語言在各個任務中的表現概述

最佳zero-shot模式分析:如上圖所示,這部分主要說明為什麼在不同的任務和語言中評估通用的多語言表徵非常重要。

與訓練前數據大小的相關性:如上圖模型性能與各語言中維基百科文章數量的皮爾森相關係數ρ,表明除了結構化預測任務的任務外,多數任務的相關係數都很高。這意味著當前的模型無法充分利用從預訓練數據中提取的信息來轉移到句法任務。

語言特點分析:如上圖,根據不同語系和編寫腳本分析結果。對於mBERT,印歐語系的分支(如日耳曼語、羅曼語和斯拉夫語)的遷移性能最佳。相比之下,尼日-剛果和克拉-傣語等低資源語系的跨語言遷移表現仍然較低。另外,不同的流行腳本,如拉丁文和表意文字,在句法任務上的表現是不同的。

跨語言的錯誤:因為對於其他測試集是從英語翻譯過來的XNLI和XQuAD,這部分作者分析了這些方法在源語言和目標語言中是否會犯同樣類型的錯誤。更為具體一些是探討了英語中正確和錯誤預測的例子是否在其他語言中被正確預測。結果是在XNLI和XQuAD數據集上有不同答案。

推廣到不可見的標籤組合和實體:這部分主要分析了結構化預測任務遷移不成功的原因。結論是該模型可能難以推廣到更具目標語言特徵的實體。

相關焦點

  • NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!記住今天伯特模型的名字。
  • 斯坦福發布重磅NLP工具包StanfordNLP,支持中文等53種語言
    新智元報導 來源:stanfordnlp.github.io編輯:肖琴【新智元導讀】斯坦福團隊最新發布一個NLP任務的軟體包StanfordNLP,通過Python接口為53種語言提供標記、依存句法分析等NLP任務的重要工具
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    ,旨在總結多種語言任務的研究進展。他們說,這都需要繼續研究突破,以及用新的基準來衡量它們及其影響。SuperGLUE正如研究人員在介紹SuperGLUE的論文中寫的那樣,他們的基準是一種簡單的、難以博弈的衡量標準,用來衡量通用英語理解技術的進步。它包括八個語言理解任務,這些任務來自於現有的數據,並附有一個性能指標和一個分析工具包。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。
  • NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT
    新智元報導 來源:arxiv、知乎等編輯:大明【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標杆BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!近日,谷歌大腦主任科學家Quoc V.
  • 六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估...
    最近,谷歌和 DeepMind 提出了一項系統化的統一基準——Long-Range Arena,重點關注長語境場景下的模型質量評估。谷歌和 DeepMind 的研究人員對比了這些論文的評估和實驗設置,得到了以下幾點發現:首先,高效 Transformer 缺少統一的基準測試,使用的任務類型也多種多樣:每個模型在不同的任務和數據集上進行評估。其次,評估所用基準通常是隨意選擇的,未充分考慮該任務是否適用於長程建模評估。
  • 2019 年 NLP 領域都發生了哪些大事件?
    不知各位有沒有想過為生物醫學文本挖掘任務訓練一個生物醫學語言模型?2019 年,研究人員提出了一種從生物醫學文獻中提取出重要信息的語境化方法—— BioBERT。在 BERT 發布之後,Facebook 的研究人員也隨即發布了 RoBERTa,它引入了新的優化方法來改進 BERT,並在各種自然語言處理的對比基準上取得了最先進的實驗結果。
  • 從想法到實幹,2018年13項NLP絕美新研究
    預訓練模型2018 年,使用預訓練的語言模型可能是 NLP 領域最顯著的趨勢,它可以利用從無監督文本中學習到的「語言知識」,並遷移到各種 NLP 任務中。這些預訓練模型有很多,包括 ELMo、ULMFiT、OpenAI Transformer 和 BERT,其中又以 BERT 最具代表性,它在 11 項 NLP 任務中都獲得當時最佳的性能。
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    自然語言處理(NLP)是許多數據科學系統中必須理解或推理文本的關鍵組成部分。常見的用例包括文本分類、問答、釋義或總結、情感分析、自然語言BI、語言建模和消歧。NLP在越來越多的人工智慧應用中是越來越重要。如果你正在構建聊天機器人、搜索專利資料庫、將患者與臨床試驗相匹配、對客戶服務或銷售電話進行分級、從財務報告中提取摘要,你必須從文本中提取準確的信息。
  • NLP入門+實戰必讀:一文教會你最常見的10種自然語言處理技術
    從自動翻譯、文本分類到情緒分析,自然語言處理成為所有數據科學家的必備技能之一。在這篇文章中,你將學習到最常見的10個NLP任務,以及相關資源和代碼。為什麼要寫這篇文章?(https://ronxin.github.io/wevi/)預訓練詞向量:這裡有一份facebook的預訓練詞向量列表,包含294種語言。
  • 南洋理工大學最新發布開源圖神經網絡基準
    在斯坦福圖形神經網絡bull Jure等人發布「開放圖形基準」之後,又一項旨在構建「圖形神經網絡圖像網」的研究應運而生。近日,來自南洋理工大學、洛約拉·馬裡蒙特大學、蒙特婁大學、米蘭大學等機構的論文已提交到該平臺的預印本上,這項新的研究得到了深造先鋒Yoshua Bengio的參與,也得到了Yann LeCun的關注。
  • 動態基準測試Dynabench已發布,Facebook想用人類來「審問」人工智慧
    MNIST 在自然語言處理方面對手寫數字識別和 GLUE (通用語言理解評估)做了同樣的工作,導致了諸如 GPT-3這樣的突破性語言模型的出現。基準測試已經越來越快地達到飽和,尤其是在自然語言處理(NLP)領域。
  • AI性能基準測試從此有了「中國標準」!英偉達、谷歌可以試試這套算力卷
    早在2018年12月,也就是MLPerf首次出爐之際,英偉達便基於自家Tesla V100,在包括圖像分類、物體分割、推薦系統等六項測試中均取得優秀成績,拿下全場最佳。對此,谷歌AI掌門人Jeff Dean還在社交平臺發文表示:很高興看到MLPerf 0.7的結果,谷歌TPU在八項基準測試中,創造了六項紀錄。
  • NLP 與 NLU:從語言理解到語言處理
    NLP的最終目的是通過機器讀取、解讀、理解和感知人類語言,將某些任務用機器來代替人類來處理,包括在線聊天機器人,文本摘要生成器,自動生成的關鍵字選項卡,以及分析文本情緒的工具。NLP的作用NLP在廣義上來說可以指廣泛的工具,例如語音識別、自然語言識別和自然語言生成。
  • 超強大自動NLP工具!谷歌推出AutoML自然語言預訓練模型
    AutoML Natural Language的通用版本,支持分類、情緒分析和實體提取等任務,以及支持各種文件格式,包括掃描的pdf文件。 今年早些時候,谷歌發布了AutoML自然語言(AutoML Natural Language),這是其Cloud AutoML機器學習平臺向自然語言處理領域的擴展。
  • GPT-3:一個令人失望的語言模型
    GPT-2 論文認為,語言模型(文本預測器)在用作 NLP 基準測試的一些特定任務上可以做得很好,或者在某些場景下「至少不是很糟糕」——即使模型事先並不了解這些任務的細節。這主要是為了證明語言模型的能力有多強。
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    機器之心編輯部在最新的博客文章中,谷歌公布了一個新的 NLP 模型,在文本分類任務上可以達到 BERT 級別的性能,但參數量僅為 BERT 的 1/300。在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。
  • 重磅| 谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot...
    選自Google Blog機器之心編譯參與:吳攀9 月底,谷歌在 arXiv.org 上發表了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation
  • 百度多模態模型ERNIE-ViL刷新5項任務紀錄 登頂權威榜單VCR
    機器之心報導機器之心編輯部近日,百度在多模態語義理解領域取得突破,提出知識增強視覺-語言預訓練模型 ERNIE-ViL,首次將場景圖(Scene Graph)知識融入多模態預訓練,在 5 項多模態任務上刷新世界最好效果,並在多模態領域權威榜單 VCR 上超越微軟、谷歌、Facebook 等機構,登頂榜首。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。NEZHA模型的實驗中採用了5個中文自然語言理解任務,即CMRC(中文閱讀理解)、XNLI(自然語言推斷)、LCQMC(句義匹配)、PD-NER (命名實體識別任務)、ChnSenti(情感分類)。