7天8卡訓練32種語言,字節跳動推出多語言預訓練新範式mRASP

2020-11-28 手機鳳凰網

機器之心發布

機器之心編輯部

字節跳動發表在 EMNLP 2020 會議上的一項研究提出多語言翻譯新範式——mRASP。

1920 年大哲學家羅素先生來中國各地訪問,陪同翻譯的是當時清華大學語言學家趙元任。趙元任極富語言天才,當時已經會說保定話、常州話、福州話、南京話等多地方言和英語。他在陪同羅素從上海到長沙的船上跟同船的經濟學家楊瑞六學長沙話,船到長沙靠岸,趙元任已經能把羅素的演講和俚語翻譯成長沙話了。神經網絡翻譯能否成為「機器翻譯界的趙元任」呢?即創造一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。

趙元任(後排左二)與羅素(前排右一)

本文將給大家介紹 EMNLP 2020 新鮮出爐的多語言翻譯新範式 multilingual Random Aligned Substitution Pre-training (mRASP) [1],其核心思想是打造「機器翻譯界的趙元任模型」,通過預訓練技術再在具體語種上微調即可達到領先的翻譯效果,其在 32 個語種上預訓練出的統一模型在 47 個翻譯測試集上取得了全面顯著地提升。

mRASP 不同於以往的翻譯模式,樹立了翻譯的預訓練和微調的成功路徑。

以 BERT 為代表的預訓練範式幾乎橫掃了所有的文本理解任務,成為各種 NLP 任務的基石。然而,在文本生成尤其是機器翻譯領域,雖然預訓練模型也湧現出不少新算法,但是取得的效果仍有一定局限性,在資源豐富程度各異的場景和多語言擴展上依然面臨著挑戰。mRASP 解決的核心問題是:能否預訓練出一個統一的翻譯模型,在任何語對例如中文到印尼語中都能通過少量微調來達到好的翻譯效果?

mRASP 主要針對機器翻譯任務而設計,它有三個應用優勢:

打破了資源場景的限制,不論平行雙語資源高低都能有所提升。在資源豐富的語言,比如標準英法翻譯任務上已經有 4000 萬平行語句訓練情況下,使用 mRASP 依然能獲得顯著提升,達到了 44.3 的 BLEU 值;在低資源語言中,mRASP 的表現令人驚喜,極端情況下,只需要一萬句訓練數據,通過 10 分鐘微調訓練,就能得到一個還不錯的翻譯系統。

打破了語種數量的限制。任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,只要是地球上的語言,mRASP 都可以直接拿來微調,並且效果可期。

資源消耗低。相比於上百張卡的「軍備競賽」預訓練玩法,mRASP 更平民,僅需要 8 卡訓練一周就可以得到。簡單來說,我們可以把 mRASP 理解為機器翻譯領域的輕量級 BERT,只要是機器翻譯任務,任何場景或者語言,拿來用用,都有可能出現小驚喜!

論文作者表示已經在字節跳動研發的火山翻譯系統上使用了這項技術,得到了實際業務的檢驗。作者還公布了研究數據、代碼和預訓練模型,參見文末 GitHub 地址。

接下來我們從三個方面介紹分析 mRASP:1)機器翻譯預訓練的挑戰;2)mRASP 的動機和方法;3)mRASP 的實際效果和分析。

機器翻譯預訓練的挑戰

目前絕大多數 AI 任務都是建立在數據基礎之上的統計學習,模型的性能很大程度上依賴於數據的質量和數量。利用大量較易獲得的數據來預訓練模型,在具體應用場景中再利用少量標註數據微調來實現實際場景可用的模型,已經成為 NLP 新的成功範式。例如 BERT [2] 在大規模純文本上預訓練後,在自然語言理解的 11 項任務上進行少量微調就能取得很好的成績。不過,在多語言機器翻譯中,通過預訓練再微調的範式還未取得普遍的成功。以前的 NLP 預訓練方式例如 BERT、GPT [5] 的訓練目標與翻譯任務關注的目標之間差距過大,不易直接使用。

mRASP 提出了全新的思路,利用多個語言已經積累的大量雙語平行語料,合併起來聯合訓練一個統一的模型,之後再基於此微調,讓預訓練和微調目標儘可能接近,這樣才能更大地發揮預訓練模型的作用。

上圖對比分析了之前 NLP 預訓練方法在機器翻譯場景直接應用的限制。BERT 和 GPT 分別對應了 Transformer [6] 編碼器部分和解碼器部分的預訓練,而機器翻譯用的是序列生成模型。這種模型結構的不一致會導致翻譯模型只有一部分參數被初始化,難以有效發揮預訓練的作用,因此需要很多特殊的技巧才能得到性能提升 [10]。

針對序列模型,很快也有研究者提出了 MASS [7] 和 BART [8] 等框架,將預訓練擴展到序列生成任務。它們使用 auto-encoder(自編碼器)進行自學習,在很多下遊生成任務上都取得了顯著的效果。但是在機器翻譯應用中依然存在兩個重要的問題:第一是在資源豐富的語種(例如英德和英法)上沒有觀察到提升,第二沒有辦法擴展到多語種翻譯任務。這種局限性,很大一部分原因在於自編碼是相對簡單的任務,很難學習到更深層次的表示,而機器翻譯需要更複雜的語義轉化,這種預訓練目標和下遊任務之間的差異導致模型很難最大程度地利用好預訓練數據。

如何克服這兩個問題,成了預訓練模型在機器翻譯領域應用的重要挑戰。

mRASP 的動機和方法

對於語言學習者來說,存在一個非常有意思的現象。他們發現在學習了三四種語言之後,再學習一門新的語言速度就會加快。例如,如果有人分別學習德語和法語,可能各需要一年的時間,然而他先學習德語再去學法語,可能只需要一年零三個月,接下來再去學習西班牙語,速度可能會更快 [3]。對於程序語言其實也是類似的道理,學習 C++ 可能需要一年,接下來再學習 Java、Python 可能只需要一個月。

一個淺顯的解釋是,人類在多語言學習的過程中會自發總結語言中比較抽象的共性,重點學習新語言的特性。因此想要提升個人的語言學習能力,往往需要學習更多的語言,能夠對語言的共性有更精確地把握,而不是拼命學習一種語言。同樣的道理,對於機器翻譯而言,能否把翻譯能力遷移到不同語言上,使得不同語言之間的信息可以互相利用,就成了一個非常有趣的問題。

mRASP 正是基於這樣的考慮,設計了一個通用的預訓練模型,學習語言之間轉換的共性,接下來就可以更容易地遷移到新的翻譯方向。就好像語言學習者一樣,在學習了兩種語言之後,學習第三種語言就變得很輕鬆了。

mRASP 的設計遵循了兩個基本原則:第一,預訓練的目標和機器翻譯基本一致,需要學習語言的轉換能力;第二,儘可能學習語言的通用表示、跨語言的句子或詞語,如果語義接近則隱空間中的表示也應該接近。

mRASP 方法,使用帶語言標識的 Transformer 作為翻譯網絡框架

mRASP 遵循了通用的預訓練 - 微調框架。在預訓練階段,不同於傳統預訓練模型大量堆疊無監督單語數據的方式,mRASP 另闢蹊徑,採用了多語言平行數據作為預訓練的主要目標,將幾十種語言的平行數據放到同一個模型進行聯合訓練。

神經網絡結構採用 Transformer,使用語言標識符 (Language token) 標識源語言和目標語言。為了保證不同語言的句子和詞語能嵌入到同一個空間,同一個意思的句子無論中文還是英文都應該對應同一個向量表示。此外,該方法還引入了隨機替換對齊技術 RAS,來製造更豐富的上下文。

中文句子「我 愛 北京 天安門」中的「愛」有一定概率被替換成「aime」(法語),「北京」也有一定概率被替換成「Pékin」(法語),於是原句就可能會變成「我 aime Pékin 天安門」。訓練集中的一對平行句對可以變為兩對(甚至三對、四對……):

1. 我 愛 北京 天安門 ==> I love Beijing Tiananmen Square

2. 我 aime Pékin 天安門 ==> I love Beijing Tiananmen Square

對模型而言,通過大量學習這樣的平行語料,它會很自然地根據這種「人為製造」的「語境」學習到不同語言的同義詞之間的對應關係。實際上,這種基於平行詞典的隨機替換方法,拉近了不同語言的同義句在空間上的分布。在上例中,「愛」和「aime」(法語)計算出來的詞向量期望是儘可能接近的。

而在微調階段,只需要使用預訓練階段的參數進行初始化,之後採用和傳統單向機器翻譯相同的訓練方法即可,因此使用 mRASP 並不需要掌握任何額外的技能。詳細方法介紹參見論文 [1]。

mRASP 實際效果和分析

mRASP 使用 32 個語言的平行語料進行預訓練,在英語到法語方向上僅使用 wmt14 的平行語料進行微調,就達到了不需要使用費時費力的海量單語 Back Translation 的最佳效果 (44.3 BLEU)。同時,應用到新的語言方向——荷蘭語 (Nl) 到葡萄牙語 (Pt) 時,僅使用 1.2 萬平行句對,微調了十分鐘就可以獲得一個可使用的 (BLEU 10+) 模型,而同等平行句對量很難從頭訓練一個可使用的 MT 模型(BLEU 接近 0)。

簡單概括,mRASP 具有如下幾點優勢:

模型簡單易復現

mRASP 的預訓練僅使用了共 1.1 億對平行句對(由於同一對平行句對對兩個方向都適用,所以一共是 2.2 億個訓練樣本),詞表大小僅 64k 個 bpe subword。相比於其它預訓練方法動輒百億數據幾十層網絡,mRASP 的訓練難度更小,單機 8 卡不到一周即可在 32 個語言上完成預訓練。當然在更多語言上的預訓練模型也可以通過簡單擴展獲得。

通用性極強

mRASP 在大中小規模訓練集上,相對於直接訓練的單向機器翻譯模型,效果都有一定的提升,甚至包括平行語料最多的語向英語到法語(提升了 1.1 BLEU)。即使對於預訓練數據從來沒有見過的語種荷蘭語到葡萄牙語,它也取得了 10+ BLEU 的顯著收益。

這裡摘錄了部分有代表性的實驗結果:

1)En-De 和 En-Fr Benchmark

下圖對比了 mRASP 加微調在英德 (En-De) 和英法 (En-Fr) 上的效果和最近同期的其他幾個跨語言預訓練模型加微調的結果。可以看出,mRASP 的效果是有一定優勢的,它在 En->De wmt 2016 測試集上達到了 30.3 (tokenized BLEU), 在 En->Fr wmt 2014 測試集上達到了 44.3 (tokenized BLEU)。其他模型中,CTNMT 使用了 BERT 預訓練;MASS 使用了大規模單語數據;mBERT 是多語言 BERT 模型;mBART 是同期出現的另一種預訓練方式,引入了海量多語言單語數據,訓練時間達到 256 卡 20 天。

2)預訓練階段沒見過的語言擴展

不包含在預訓練階段平行句對中的語向,被稱作「Exotic Direction」。在 Exotic Direction 上是否有效果,決定了 mRASP 是否具有很好的擴展性和泛化能力。

論文中對 Exotic Direction 分為四種情況:

Exotic Pair:源語言和目標語言都經過了單獨地預訓練,但模型還沒有見過它們組成的雙語對;

Exotic Source:模型在預訓練階段只見過目標端語言,源端語言完全沒見過;

Exotic Target:模型在預訓練階段只見過源端語言,目標端語言完全沒見過;

Exotic Full:模型在預訓練階段完全沒見過源端語言和目標端語言。

在這四種未見語對情況下訓練機器翻譯很難。其中難度最大的是最後一種,相當於要求只學習了中文和英語的人,讀少量拉丁語和印地語的句子就可以做從拉丁語到印地語的翻譯。

值得關注的是,法中 (Fr-Zh) 兩邊都單獨出現過,但是沒有作為平行語對出現過,只使用了 20K 平行語料就可以達到 20+ BLEU 值。

同時,對於兩邊語言都沒在預訓練階段出現過的語對,比如荷蘭語到葡萄牙語 (Nl-Pt),只使用 1.2 萬句平行語料,經過大概 10 分鐘的訓練後,也可以達到 10+ BLEU 值。

3. 案例分析

為了更直觀地理解 mRASP 的效果,作者在論文中也進行了案例分析。

法中 (Fr-Zh)

Exotic Pair,20k 平行句對

Direct 0.7 BLEU 遠弱於 mRASP 25.8 BLEU

Direct 系統完全不能翻譯,而 mRASP 系統翻譯得很好。

荷葡 (Nl-Pt)

Exotic Full,1.2 萬平行句對

Direct 0 BLEU vs mRASP 14.1 BLEU

通過案例分析,我們發現 mRASP 得到的荷葡翻譯模型的翻譯效果雖然不能成功翻譯每個細節,但是能抓住原文的一些關鍵信息。比如下面例子中的 (1) 日期 (2) 會議記錄 會議的消息 (3) 分發 共享。

英法 (En-Fr)

我們發現,mRASP 方法訓練出來的模型比 Direct 方法的模型優秀的地方之一是:Direct 系統忽略了無實際意義單詞(冠詞、指示詞等)的傾向,而 mRASP 保持了冠詞和指示詞的一致。

英中 (En-Zh)

4. 效果分析

mRASP 作為通用的預訓練模型,它對各個 MT 下遊任務的提升效果從何而來?

作者認為,其提升主要來源於兩個方面:

mRASP 拉近了不同語言間同義詞的向量表示;

mRASP 拉近了不同語言間同義句子的向量表示。

單詞級別和句子級別的表示被拉近意味著,經過預訓練階段對大量語言的平行句對的處理和學習,mRASP 隱式地「掌握」了語言無關的表示,而這個表示是可以被遷移到任意語言上的,因此 mRASP 可以普遍地提高機器翻譯下遊任務的效果。

1)mRASP 拉近不同語言單詞級別的向量表示

RAS 的引入使得不同語言的同義詞之間共享相同的上下文,而在 NLP 中詞義是由上下文 (context) 決定的,從而進一步拉近不同語言之間同義詞的表示。

上圖:w/o RAS,下圖:w/ RAS

可以看出,加了 RAS 方法之後,不同語言之間的 embedding 分布被拉近了(角度變小)。

2)mRASP 拉近不同語言句子級別的向量表示

除了拉近同義詞的向量表示之外,mRASP 還拉近了語義的向量表示。

使用編碼器輸出向量作為句子的空間表徵(L2 normalized averaged-pooled encoder output),從 TED 平行測試集(經過過濾得到的 15-way 平行測試集,共 2284 條)中匹配到相似度(cosine similarity)最近的句子,計算 Top-1 準確度 (sentence retrieval accuracy)。

圖 1:mRASP 的準確度減去 mBART [9] 的準確度,注意荷蘭語(Nl)在 mRASP 預訓練數據中完全沒出現過,其他方向上的準確度都大大超過了 mBART。

mRASP 檢索的平均準確度達到 76%。

圖 2:mRASP 的準確度減去不使用 RAS 的 mRASP 方法的準確度。可以看出 mRASP 的 RAS 方法在預訓練階段沒出現過的語言 (Nl) 上有明顯收益。

圖 3:將句首的語種標識符(Language token)去掉以後,Nl 的準確度還可以進一步提升,不過其他語言上的準確度大幅下降。

可以看出,RAS 方法的確進一步拉近了語義向量表示,相同語義的句子在 mRASP 預訓練之後會得到接近的表示。

總結

回到文初,語言天才趙元任先生一生掌握 33 種方言加 7 門外語,從北方的保定到南方福州,從長江上遊到下遊,從美國伯克利到法國巴黎,到了當地就能用當地口音說本地話。而建立統一的多語言跨領域的翻譯模型正是機器翻譯研究的終極目標之一。向語言天才趙元任看齊的 mRASP 建立了多語言預訓練到微調到多個語種翻譯模型的成功路徑,這也會成為機器翻譯的新範式。字節跳動已經將這項技術應用到火山翻譯系統裡,可以在下方所附網頁中體驗。

Github 地址:https://github.com/linzehui/mRASP

論文地址:https://arxiv.org/abs/2010.03142

火山翻譯體驗官網:http://translate.volcengine.cn/

參考文獻

[1] Lin, Zehui, et al. "Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information." In the Conference on Empirical Methods in Natural Language Processing (2020).

[2] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." NAACL-HLT (1) 2019: 4171-4186.

[3] Thomas, Reed, and Callie Mady. "Teaching for transfer: Insights from theory and practices in primary-level French-second-language classrooms." McGill Journal of Education/Revue des sciences de l'éducation de McGill 49.2 (2014): 399-416.

[4] Johnson, Melvin, et al. "Google’s multilingual neural machine translation system: Enabling zero-shot translation." Transactions of the Association for Computational Linguistics 5 (2017): 339-351.

[5] Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018): 12.

[6] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

[7] Song, Kaitao, et al. "MASS: Masked Sequence to Sequence Pre-training for Language Generation." ICML. 2019.

[8] Lewis, Mike, et al. "Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension." ACL 2020: 7871-7880

[9] Liu, Yinhan, et al. "Multilingual denoising pre-training for neural machine translation." TACL.2020

[10] Yang, et al. "Towards Making the Most of BERT in Neural Machine Translation" AAAI.2020

相關焦點

  • 字節跳動舉辦 AI 實踐訓練營,報名已正式啟動
    雷鋒網(公眾號:雷鋒網) AI 科技評論消息,近日,由字節跳動發起的面向高校學生的 AI 學習實踐訓練營——Bytedance AI Camp 已正式啟動報名
  • 2020開年解讀:NLP新範式凸顯跨任務、跨語言能力,語音處理落地開花
    預訓練語言模型在幾乎所有自然語言的下遊任務,不管是自然語言理解(NLU)還是自然語言生成(NLG)任務上都取得了優異的性能。預訓練模型也從單語言預訓練模型,擴展到多語言預訓練模型和多模態預訓練模型,並在相應的下遊任務上都取得了優異的性能,進一步驗證了預訓練模型的強大。
  • NeurIPS|既能理解又能生成自然語言,微軟提出統一預訓練新模型
    UniLM:統一的預訓練語言模型UniLM 是一種統一的預訓練語言模型,既可應用於自然語言理解(NLU)任務,也能用於自然語言生成(NLG)任務。UniLM 是一種多層 Transformer 網絡,在大量文本上進行過聯合的預訓練,並針對表 2 中所示的三種類型的無監督語言建模目標進行過優化。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 谷歌推出AutoML自然語言預訓練模型
    現在戳右邊連結上新智元小程序了解更多! 今年早些時候,谷歌發布了AutoML自然語言(AutoML Natural Language),這是其Cloud AutoML機器學習平臺向自然語言處理領域的擴展。
  • NLP領域預訓練模型的現狀及分析
    這種做法的好處是訓練代價很小,預訓練的模型參數可以讓新的模型達到更快的收斂速度,並且能夠有效地提高模型性能,尤其是對一些訓練數據比較稀缺的任務,在神經網絡參數十分龐大的情況下,僅僅依靠任務自身的訓練數據可能無法訓練充分,預訓練方法可以認為是讓模型基於一個更好的初始狀態進行學習,從而能夠達到更好的性能。
  • 端到端+預訓練,自然語言突破性進展的原因 | 青年科學家論壇
    雷鋒網報導,在9月18日下午上海交通大學與氪信科技聯合承辦的世界人工智慧大會特色活動——新世代·新疆界·新引擎:青年AI科學家暢談論壇上,1994年圖靈獎得主、卡內基梅隆大學教授Raj Reddy(羅傑·瑞迪),微軟全球執行副總裁沈向洋
  • PTMs|2020最新NLP預訓練模型綜述
    如:知識增強預訓練,多語言預訓練,多模態預訓練和模型壓縮等3. 如何將PTMs學到的知識遷移到下遊的任務中。4. 收集了目前關於PTMs的學習資料。5.>「預訓練任務類型」,如LM,MLM,PLM;「針對特定場景的拓展」,如跨語言預訓練,知識增強,多模態預訓練,模型壓縮等。
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。
  • 字節跳動:開源Fedlearner框架,廣告投放增效209%
    系統部署好之後,K8s 集群可以自動調度聯邦學習任務,每個 Fedlearner 任務都需要在參與雙方各自拉起一個 K8s 任務,兩個任務的 worker 需要互相配對通信,字節跳動聯邦學習團隊通過自定義 K8s Controller 和 Ingress-NGINX 實現了配對和加密跨機房通信。
  • Pytorch-Transformers 1.0 發布,支持六個預訓練框架,含 27 個預...
    哪些支持PyTorch-Transformers(此前叫做pytorch-pretrained-bert)是面向自然語言處理,當前性能最高的預訓練模型開源庫。27個預訓練模型項目中提供了27個預訓練模型,下面是這些模型的完整列表,以及每個模型的簡短介紹。
  • 2020位元組跳動冬令營啟動全球報名 ICPC世界總冠軍教練現場教學
    本期2020位元組跳動 ByteCamp冬令營,字節跳動將攜手全球頂級賽事訓練機構 Moscow Workshops ICPC,於2020年2月10日-16日在北京為來自全球40支隊伍、120名優秀大學生配備具有豐富經驗的教練團隊,進行為期一周的專業性訓練,幫助大學生提高ICPC競賽實力,備戰第44屆ICPC世界總決賽。
  • ImageNet 帶來的預訓練模型之風,馬上要吹進 NLP 領域了
    這些方法的出現預示著一個分水嶺時刻的到來了:這些預訓練語言模型有可能會在自然語言處理領域造成巨大而廣泛的影響,正如 ImageNet 預訓練模型在計算機視覺中所造成的影響一樣。從淺層到深度預訓練預訓練的詞向量已經統治了自然語言處理領域相當長一段時間。
  • 谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍
    這一改進還可以擴展至多語言設置中,在所有的 101 種語言中都測到了新模型相對於 mT5-Base 版本的性能提升。最後,研究者在 Colossal Clean Crawled Corpus 上進行預訓練,將語言模型的參數量提升至上萬億,且相比 T5-XXL 模型實現了 4 倍加速。
  • 孤獨症語言交流訓練
    (2)禁忌證:無 3、設備與用具 (1)錄音設備、計算機輔助語言系統、早期語言評定與訓練系統、溝通訓練軟體、孤獨與多動症訓練系統。 (2)發音訓練所需訓練工具如:蠟燭、紙條、風車等,語言訓練所需的圖261/262片實物及各類強化物等。
  • 【微軟】大型神經語言模型的對抗性訓練,Adversarial Training
    對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利於推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。
  • 首個萬億級模型:谷歌推出語言模型 Switch Transformers,1.6 萬億...
    此外,與 T5-Base 和 T5-Large 模型相比,新模型在相同計算資源下將預訓練速度提高了 7 倍之多。這些改進擴展到了多語言設置中,可以測量 101 種語言在 mT5-Base 版本上的收益。
  • AI資訊|分析現階段最有效的NLP預訓練模型!
    最新語言預訓練可以說是在自然語言處理領域帶來了很可觀的收益,其中包括最先進的模型如BERT,RoBERTa,XLNet,ALBERT和T5等。現有的預訓練方法及其缺點。箭頭指示哪些標記用於生成給定的輸出表示形式(矩形)。左:傳統語言模型(例如GPT)僅使用當前單詞左側的上下文。右:蒙版語言模型(例如BERT)從左到右都使用上下文,但是對於每個輸入僅預測一小部分單詞。
  • Google重磅推出語言模型Switch Transformers,1.6...
    此外,與T5-Base和T5-Large模型相比,新模型在相同計算資源下將預訓練速度提高了7倍之多。這些改進擴展到了多語言設置中,可以測量101種語言在mT5-Base版本上的收益。最後,通過在「Colossal Clean Crawled Corpus」上預先訓練多達數萬億個參數模型來提高當前語言模型的規模,使速度比T5-XXL模型提高了4倍。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    近日,谷歌聯合CMU、DeepMind推出的《XTREME:評估跨語言泛化的大規模、多語言、多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)極大的鼓勵了多語言研究。