谷歌提出XTREME:評估跨語言的大規模多語言多任務基準

2021-02-28 AI前線
據估計,如今地球上有 6000 多種語言,我們窮其一生也不可能通曉那麼多語言。那麼,如何理解罕見語言呢?有不少科學家正在研究如何利用人工智慧使用這些語言工作,XTREME 便是其中之一。

作者 | Melvin Johnson、Sebastian Ruder

自然語言處理面臨的主要挑戰是構建這樣一套系統:不僅能用英語,而且也能用世界上所有約 6900 多種語言工作。雖然世界上大多數語言都沒有足夠的數據來單獨訓練健壯的模型,但幸運的是,許多語言確實共享了相當多底層結構。

在詞彙層面,語言中經常會有同源詞,比如英語中的「desk」和德語的「tisch」,都是來自於拉丁文的「discus」。同樣,許多語言也以相似的方式標記語義角色,例如在漢語和土耳其語中,使用介詞來標記時空關係。

在自然語言處理中,為了克服數據稀疏性問題,有許多方法利用多語言的共享結構進行訓練。從歷史上看,這些方法大多集中於用多種語言執行特定任務。過去幾年,在深度學習進步的推動下,試圖學習通用多語言表示(如 mBERT、XLM、XLM-R)方法的數量有所增加,這些方法旨在獲取跨語言共享知識,這些知識對許多任務都是有用的。然而,在實踐中,對這些方法的評估大多集中在一小部分任務上,並且針對相似的語言。

為了鼓勵對多語言學習進行更多研究,我們發表了論文《XTREME:用於評估跨語言泛化的大規模多語言多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)。XTREME 涵蓋了 40 種不同類型的語言(跨 12 個語系),包括 9 個任務,這些任務都需要對不同層次的語法或語義進行推理。選擇 XTREME 中的語言是為了最大限度地提高語言多樣性、現有任務的覆蓋率和訓練數據的可用性。

在這些語言中,還有許多尚未充分研究的語言,如 達羅毗荼語系(Dravidian languages)泰米爾語(Tamil)(印度南部、斯裡蘭卡和新加坡語言)、泰盧固語(Telugu)和馬拉雅拉姆語(Malayalam)(印度南部語言),以及 尼日 - 剛果語系(Niger–Congo languages)斯瓦希裡語(Swahili)和約魯巴語(Yoruba)(非洲語言)。我們提供了代碼和數據,包括運行各種基準的示例,可在 GitHub 上獲得。

地址:https://github.com/google-research/xtreme

XTREME 中包含的任務涵蓋了一系列範式,包括文檔分類、結構化預測、文獻檢索和問答系統。因此,為了使模型在 XTREME 基準測試上取得成功,它們必須學習泛化到許多標準跨語言遷移設置的表示法。

XTREME 基準測試中支持的任務

每個任務都包含 40 種語言的一個子集。為了獲得更多用於 XTREME 分析的低資源語言數據,我們將自然語言推理(XNLI)和問答系統(XQuAD)這兩個具有代表性任務的測試集從英語自動翻譯成其他語言。我們的實驗表明,在這些任務中使用翻譯後的測試集的模型表現出了與使用人類標記的測試集相當的性能。

要評估使用 XTREME 的性能,首先必須對模型進行多語言文本的預訓練,並使用鼓勵跨語言學習的目標。然後,對特定任務的英語數據進行微調,因為英語是最有可能提供標籤數據的語言。然後,XTREME 評估這些模型的零樣本跨語言傳輸性能,也就是說,在沒有特定任務數據的其他語言上對這些模型進行評估。如下圖所示,三個步驟的過程,包括從預訓練到微調再到零樣本遷移。

針對給定模型的跨語言遷移學習過程:對多語言文本進行預訓練,然後對下遊任務進行英語微調,最後使用 XTREME 進行零樣本評估。

在實踐中,這種零樣本設置的好處之一是計算效率:預訓練模型只需對每個任務的英語數據進行微調,然後就可以直接在其他語言上進行評估了。不過,對於有其他語言的標籤數據的任務,我們也會在語言數據上進行微調對比。最後,我們通過獲得所有 9 個 XTREME 任務的零樣本得分來提供一個綜合得分。

我們使用幾種較優的預訓練多語言模型進行實驗,包括 multilingual BERT,一種流行的 BERT 模型的多語言擴展:XLM 和 XLM-R,兩個更大的多語言 BERT 版本,以及大規模多語言機器翻譯模型 M4。這些模型有一個共同特點,就是它們已經對來自多語言的大量數據進行了預訓練。在我們的實驗中,我們選擇了這些模型的變體,這些變體在大約 100 種語言上進行了預訓練,其中包括基準測試的 40 種語言。

我們發現,儘管模型在大多數現有英語任務上實現了接近人類的表現,但在其他許多語言上的表現卻明顯低於人類。在所有模型的結構化預測和問答系統任務中,英語的表現與其他語言的表現差距最大,而在結構化預測和文檔檢索中,不同語言的結果分布最大。

為說明這一點,在下圖中,我們按任務和語言的不同,顯示了在所有語系中表現最好的模型 XLM-R 在零樣本設置中的情況。不同任務之間的得分沒有可比性,所以主要關注的應該是不同任務之間語言的相對排名。正如我們所看到的,許多高資源的語言,特別是印歐語系的語言,其排名一直較高。相比之下,該模型在其他語系,如漢藏語系、日本 - 琉球語系、朝鮮語系、尼日 - 剛果語系等語言上的表現較差。

XTREME 中所有任務和語言在零樣本設置下的最佳表現模型 XLM-R 的性能。所報的分數是基於特定任務的度量標準的百分比,在不同任務中並不能直接比較。人類的表現(如果有的話)以紅星表示,每種語系的具體示例均以其 ISO 639-1 編碼表示。

總的來說,我們進行了一些有趣的觀察。

在零樣本設置中,M4 和 mBERT 在大多數任務中都能與 XLM-R 競爭,而在特別有挑戰性的問答系統任務中,後者的表現要優於它們。例如,在 XQuAD 上,XLM-R 的得分為 76.6,而 mBERT 和 M4 的得分分別為 64.5 和 64.8,在 MLQA 和 TyDi QA 上也有類似的得分差距。

我們發現,使用機器翻譯的基準,無論是翻譯訓練數據還是測試數據,都非常有競爭力。在 XNLI 任務中,mBERT 在零樣本設置中得分為 65.4,而在使用翻譯訓練數據時得分為 74.0。

我們觀察到,少樣本設置(即使用有限數量的語言內標記數據,如果可用的話)對於較簡單的任務(如命名實體識別)特別有競爭力,但對於較複雜的問答系統任務來說,作用不大。這一點可從 mBERT 的表現中看出,在少樣本設置中,mBERT 在命名實體識別任務上的表現提到了 42%,得分從 62.2 提高到 88.3,但對於問答系統任務(TyDi QA),只提高了 25%(得分從 59.7 提高到 74.5)。

總的來說,在所有模式和環境中,英語與其他語言的表現仍存在較大差距,這說明跨語言遷移的研究仍然有很大的潛力。

與之前關於深度模型的泛化能力的觀察類似,我們發現,與具有更多預訓練數據的 XLM-R 相比,如果一種語言有更多的預訓練數據可用,如 mBERT,那麼結果就會有所改善。然而,我們發現,這種相關性對於結構化預測任務、詞性(part-of-speech,POS)標記和命名實體識別(named entity recognition,NER)來說並不成立,這表明當前的深度預訓練模型無法充分利用預訓練數據遷移到這類語法任務中。我們還發現,模型在遷移到非拉丁文腳本時存在困難。這在詞性標記任務上表現得尤為明顯,mBERT 在西班牙語上的零樣本正確率為 86.9,而在日語上的零樣本正確率僅為 49.2。

對於自然語言推理任務 XNLI,我們發現,模型對一個英語測試實例和另一種語言的同一個測試實例進行預測,大約有 70% 的時間,模型會做出相同的預測。半監督的方法可能有助於提高實例預測與它們在不同語言翻譯之間的一致性。我們還發現,這些模型很難預測英語訓練數據中沒有出現的詞性標記序列,因為它們是在英語訓練數據上進行微調的,這凸顯了這些模型很難從用於預訓練的大量未標記數據中學習其他語言的語法。對於命名實體識別,模型在語言距離很大的英語訓練數據中沒有出現的實體時最困難:印尼語(Indonesian)和斯瓦西裡語(Swahili)的正確率分別為 58.0 和 66.6,而葡萄牙語(Portguese)和法語(French)的正確率分別為 82.3 和 80.1。

儘管英語只佔世界人口的 15% 左右,但它一直是自然語言處理領域最新進展的焦點。我們相信,在深度上下文表示的基礎上,我們現在有了工具,可以在服務於世界上其他語言的系統上取得實質性的進展。我們希望,XTREME 能夠推動多語言遷移學習的研究,就像 GLUE 和 SUperGLUE 這樣的基準模型如何推動深度單語言模型的發展一樣,包括 BERT、RoBERTa、XLNet、AIBERT 等。

作者簡介:

Melvin Johnson,Google Research 高級軟體工程師。

Sebastian Ruder,DeepMind 研究科學家。

原文連結:

https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

相關焦點

  • 發布 XTREME — 評估跨語言泛化的大規模多語言多任務基準
    為鼓勵更多關於多語言學習的研究的開展,我們推出用於評估跨語言泛化的大規模多語言多任務基準 XTREME (XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization),此基準包括了 40 種類型多樣的語言(涵蓋 12 個語系),且包括九項推理任務,這些任務需要共同對不同級別的語法或語義進行推理
  • 覆蓋40種語言:谷歌發布多語言、多任務NLP新基準XTREME
    不過現有的大多數 NLP 基準僅限於英文任務,無法評價 NLP 模型在其他語言上的能力。近日,來自 CMU、谷歌研究院和 DeepMind 的科學家們提出了覆蓋四十種語言的大規模多語言多任務基準 XTREME,希望一舉解決這個問題。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試Xtreme
    谷歌今天發布了一個自然語言處理系統基準測試Xtreme,其中包括對12種語言家族和40種語言進行的9項推理任務。這家科技巨頭的研究人員斷言,它能夠評估人工智慧模型是否能夠學習跨語言的知識,這對于越來越多的自然語言應用程式是有用的。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    近日,谷歌聯合CMU、DeepMind推出的《XTREME:評估跨語言泛化的大規模、多語言、多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)極大的鼓勵了多語言研究。
  • 谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 六項任務、多種數據類型,谷歌、DeepMind提出高效Transformer評估...
    最近,谷歌和 DeepMind 提出了一項系統化的統一基準——Long-Range Arena,重點關注長語境場景下的模型質量評估。谷歌和 DeepMind 的研究人員對比了這些論文的評估和實驗設置,得到了以下幾點發現:首先,高效 Transformer 缺少統一的基準測試,使用的任務類型也多種多樣:每個模型在不同的任務和數據集上進行評估。其次,評估所用基準通常是隨意選擇的,未充分考慮該任務是否適用於長程建模評估。
  • 500億參數,支持103種語言:谷歌推出「全球文字翻譯」模型
    來自谷歌的研究者提出了一種能夠翻譯 103 種語言的大規模多語言神經機器翻譯模型,在數據豐富和匱乏的語種翻譯中都實現了顯著的性能提升。他們在 250 億個的句子對上進行訓練,參數量超過 500 億。在過去的幾年裡,由於神經機器翻譯(NMT)的發展,機器翻譯(MT)系統的質量得到了顯著提升,打破了世界各地的語言障礙。
  • 能犧牲大語種、提升小語種翻譯質量的谷歌多語言機器翻譯
    結果表明這種做法不僅可以產出一個在低資源語言和高資源語言上都有更好表現的模型,而且它還可以輕鬆地改造成單個語言對的模型,還在下遊的跨語言遷移任務中也有很好的表現。他們把這個超多語言、超大神經網絡模型(massively multilingual, massive neural machinetranslation)稱作 M4。
  • AI倫理先鋒退出谷歌的背後:論文涉及大型語言模型的風險和不平等
    其他作者包括谷歌人工智慧聯合負責人梅格·米切爾,谷歌研究人員本·哈欽森,馬克·迪亞茲和維諾庫馬·普拉巴卡蘭,以及華盛頓大學博士生安吉麗娜·麥克米蘭-梅傑。周四,丹頓與230多名谷歌員工以及200多名來自學術界、工業界和民間社會的支持者一起籤署了一封信,信中提出了一系列要求,包括進行透明度評估,公開是誰決定讓丹頓和格布魯撤回發布給普通公眾和谷歌用戶研究結果。
  • 官方解讀,谷歌「T5」模型,如何突破遷移學習局限,實現多基準測試SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • ...谷歌神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯
    昨日,谷歌再發論文宣布了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!昨天,谷歌在其官方博客上宣布其在谷歌翻譯(Google Translate)上再次取得重大進展。谷歌在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。Google Translate 產品負責人 Barak Turovsky 在谷歌舊金山的一次新聞發布會上說:「這一次的進步超過了過去十年積累的總和。」谷歌已經將自己的未來定義成了一家人工智慧和機器學習公司——使用這些技術的計算機無需特定的編程就能自己學習執行任務。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    ,這是人工智慧的一個新基準,旨在總結多種語言任務的研究進展。他們說,這都需要繼續研究突破,以及用新的基準來衡量它們及其影響。SuperGLUE正如研究人員在介紹SuperGLUE的論文中寫的那樣,他們的基準是一種簡單的、難以博弈的衡量標準,用來衡量通用英語理解技術的進步。它包括八個語言理解任務,這些任務來自於現有的數據,並附有一個性能指標和一個分析工具包。
  • ACL 2018|南加州大學:學習多語言表示的一種多任務方法
    ,通過訓練多語言skip-gram模型和跨語言句子相似度模型共同學習詞和句子嵌入。除了提出的聯合多任務(JMT)模型,JMT-Sent-LSTM,我們還給出了ablation實驗,其中省略了LSTM層、多語言skip-gram目標或兩者。JMT-Sent-Avg類似於所提出的模型,但不包括LSTM層。JMT-Sent-LSTM和JMT-Sent-Avg是這些模型的單一任務變體。
  • ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集
    研究者還基於 VATEX 數據集提出了兩項視頻語言研究任務:1)多語視頻描述,即使用緊湊的統一描述生成模型為視頻生成多種語言的描述;2)以視頻為輔助的機器翻譯,即使用視頻信息作為額外的時空語境將源語言描述翻譯為目標語言描述。圖 1:VATEX 任務示例。
  • ...7 種語言的全新數據集:有效提升 BERT 等多語言模型任務精度...
    BERT 通過該數據集的訓練,在釋義對問題上的精度實現了約為 3 倍的提升;其它先進的模型也能夠利用該數據集將精度提高到 85-90%。谷歌希望這些數據集將有助於推動多語言模型的進一步發展,並發布了相關文章介紹了該數據集,雷鋒網 AI 開發者將其整理編譯如下。
  • 中文語言理解基準測評(chineseGLUE)來了,公開徵集數據集進行中
    ChineseGLUE的定位為更好的服務中文語言理解、任務和產業界,做為通用語音模型測評的補充,通過完善中文語言理解基礎設施的方式來促進中文語言模型的發展Why do we need a benchmark for Chinese lanague understand evaluation?為什麼我們需要一個中文任務的基準測試?
  • 谷歌發布含 7 種語言的全新數據集:有效提升 BERT 等多語言模型...
    谷歌希望這些數據集將有助於推動多語言模型的進一步發展,並發布了相關文章介紹了該數據集,雷鋒網 AI 開發者將其整理編譯如下。識別一對句子是否為釋義對的任務則被稱為釋義識別,這一任務對於許多實際應用中的自然語言理解(NLU)處理而言是非常重要的,例如:常見的問答任務等。但令人驚訝的是,目前即使是最先進的模型,如:BERT,如果僅在現有的 NLU 數據集下進行訓練,並不能正確地識別大部分非釋義對(就像上面所列舉的 1 與 3)之間的差異。其中很大的原因是由於在現有 NLU 數據集中,缺少諸如此類的訓練數據。
  • 超過GPT3的谷歌萬億參數的AI語言模型
    正如研究人員在一篇詳細介紹他們工作的論文中指出的那樣,大規模訓練是通往強大模型的有效路徑。簡單的架構,在大量數據集和參數數的支持下,超越了遠為複雜的算法。但是,有效的大規模訓練是非常耗費計算的。這就是為什麼研究人員追求他們所謂的Switch Transformer的原因,這是一種 "稀疏激活 "的技術,它只使用模型的權重子集,或者說在模型中轉換輸入數據的參數。
  • 中文語言理解基準測評(CLUE)論文被COLING 2020高分錄用
    中文語言理解基準測評(CLUE)論文被COLING 2020錄用,為長文一篇標題:Weijian Xie, Yanting Li, Yina Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng Zhao, Cong Yue, Xinrui Zhang, Zhengliang Yang, Kyle Richardson and Zhenzhong Lan領域:中文語言理解
  • ChineseGLUE:為中文NLP模型定製的自然語言理解基準
    然而,現有的 GLUE 基準針對的是英文任務,無法評價 NLP 模型處理中文的能力。為了填補這一空白,國內關注 NLP 的熱心人士發布了一個中文語言理解測評基準——ChineseGLUE。ChineseGLUE 目前擁有八個數據集的整體測評及其基線模型,目前已經有 20多位來自各個頂尖機構的自願者加入並成為了創始會員。