NLP新標杆!谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT

2021-01-17 新智元

新智元報導

來源:arxiv、知乎等

編輯:大明

【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標杆BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!

近日,谷歌大腦主任科學家Quoc V. Le在Twitter上放出一篇重磅論文,立即引發熱議:

這篇論文提出一種新的NLP模型預訓練方法XLNet,在20項任務上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黃金標杆BERT。

XLNet:克服BERT固有局限,20項任務性能強於BERT

本文提出的XLNet是一種廣義自回歸預訓練方法,具有兩大特點:(1)通過最大化分解階的所有排列的預期可能性來學習雙向語境,(2)由於其自回歸的性質,克服了BERT的局限性。

此外,XLNet將最先進的自回歸模型Transformer-XL的創意整合到預訓練過程中。實驗顯示,XLNet在20個任務上的表現優於BERT,而且大都實現了大幅度性能提升,並在18個任務上達到了SOTA結果,這些任務包括問答、自然語言推理、情感分析和文檔排名等。

與現有語言預訓練目標相比,本文提出了一種廣義的自回歸方法,同時利用了AR語言建模和AE的優點,同時避免了二者的局限性。首先是不再像傳統的AR模型那樣,使用固定的前向或後向分解順序,而是最大化序列的預期對數似然性分解順序的所有可能排列。每個位置的上下文可以包含來自該位置前後的令牌,實現捕獲雙向語境的目標。

作為通用AR語言模型,XLNet不依賴於數據損壞。因此,XLNet不會受到BERT受到的預訓練和微調後的模型之間差異的影響。同時以自然的方式使用乘積規則,分解預測的令牌的聯合概率,從而消除了在BERT中做出的獨立性假設。

除了新的預訓練目標外,XLNet還改進了預訓練的架構設計。 XLNet將Transformer-XL的分段重複機制和相對編碼方案集成到預訓練中,從而憑經驗改進了性能,對於涉及較長文本序列的任務效果尤其明顯。

圖1:在給定相同輸入序列x,但分解順序不同的情況下,對置換語言建模目標的預測結果

圖2:(a):內容流注意力機制,與標準的自注意力機制相同。(b)查詢流注意力,其中不含關於內容xzt的訪問信息。(c):使用雙信息流注意力機制的置換語言建模訓練示意圖。

全面屠榜:大幅刷新18項任務數據集SOTA性能

表1:與閱讀理解任務RACE測試集的最新結果的比較。 *表示使用聚集模型。 RACE中的「Middle」和「High」是代表初中和高中難度水平的兩個子集。所有BERT和XLNet結果均採用大小相似的模型(又稱BERT-Large),模型為24層架構。我們的XLNet單一模型在精確度方面高出了7.6分

表2:單XLNet模型在SQuAD1.1數據集上的性能優於分別優於真人表現和最佳聚集模型性能達7.6 EM和2.5 EM。

表3:與幾個文本分類數據集的測試集上錯誤率SOTA結果的比較。所有BERT和XLNet結果均採用具有相似大小的24層模型架構(BERT-Large)

表4:GLUE數據集上的結果。所有結果都基於具有相似模型尺寸的24層架構(也稱BERT-Large)。可以將最上行與BERT和最下行中的結果直接比較。

表5:與文檔排名任務ClueWeb09-B的測試集上的最新結果的比較。 表示XLNet的結果。

表6:我們使用BERT官方實現方案和XLNet超參數搜索空間在其他數據集上運行BERT,結果如圖所示,其中K是控制優化難度的超參數。所有模型都在相同的數據上進行預訓練。

從實驗結果可以看出,說XLNet全面超越BERT其實一點都不誇張。

知乎熱議:512TPU訓練,家裡沒礦真搞不起

有熱心網友一早將這篇「屠榜」論文發在了知乎上,從網友的評論上看,一方面承認谷歌和CMU此項成果的突破,同時也有人指出,這樣性能強勁的XLNet,還是要背靠谷歌TPU平臺的巨額算力資源,「大力出奇蹟」果然還是深度學習界的第一真理嗎?

比如,網友「Towser」在對論文核心部分內容的簡要回顧中,提到了XLNet的優化方法,其中引人注目的一點是其背後的谷歌爸爸的海量算力資源的支持:

512個TPU訓練了2.5天,訓練總計算量是BERT的5倍!要知道作為谷歌的親兒子,BERT的訓練計算量已經讓多數人望塵莫及了。沒錢,搞什麼深度學習?

難怪NLP領域的專家、清華大學劉知遠副教授對XLNet一句評價被毫無懸念地頂到了知乎最高贊:

目前,XLNet的代碼和預訓練模型也已經在GitHub上放出。

參考連結:

論文地址:

https://arxiv.org/pdf/1906.08237.pdf

GitHub(代碼、預訓練模型):

https://github.com/zihangdai/xlnet

知乎討論:

https://www.zhihu.com/question/330307904/answer/722025354

相關焦點

  • NLP歷史突破!谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!記住今天伯特模型的名字。
  • 谷歌搜索:幾乎所有的英文搜索都用上BERT了
    BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就刷新了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜索結果的相關性。BERT 模型中創新性的 架構是一大亮點。
  • 谷歌最強NLP模型BERT,為何炫酷又強大?騰訊程式設計師給你從頭講起
    我們嘗試將 Bert 模型應用在 query-title 分檔任務上,將 query 和 title 作為句對輸入到 bert 中,取最後一層 cls 向量用做 5 分類(如上圖),最後得到的結果比 LSTM-Attention
  • CMU大佬分享三類優質數據集:綜合、CV和NLP
    UCI機器學習數據集目前共收納了將近500個數據集,並將這些數據集按數據類型(univariate、multivariate、time-series等)和機器學習任務(classification、regression、recommendation systems等)分類。其中有不少數據是已經清洗好的,可以拿來直接使用。
  • 基於Bert和通用句子編碼的Spark-NLP文本分類
    文本分類是現代自然語言處理的主要任務之一,它是為句子或文檔指定一個合適的類別的任務。類別取決於所選的數據集,並且可以從主題開始。每一個文本分類問題都遵循相似的步驟,並用不同的算法來解決。更不用說經典和流行的機器學習分類器,如隨機森林或Logistic回歸,有150多個深度學習框架提出了各種文本分類問題。
  • 性能媲美BERT,參數量僅為1/300,谷歌最新的NLP模型
    機器之心編輯部在最新的博客文章中,谷歌公布了一個新的 NLP 模型,在文本分類任務上可以達到 BERT 級別的性能,但參數量僅為 BERT 的 1/300。在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。
  • NLP之文本分類:「Tf-Idf、Word2Vec和BERT」三種模型比較
    word = "data"fig = plt.figure()## word embeddingtot_words = [word] + [tupla[0] for tupla in                  nlp.most_similar(word, topn=20)]X
  • 一口氣11項發布 一文看懂百度大腦的NLP布局
    8月25日,百度CTO王海峰在百度大腦語言與知識技術峰會上,首次對外全面完整的闡述了百度的NLP布局,還推出了一攬子11項新發布。百度集團副總裁吳甜給出了答案,她連續發布了語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定製與服務平臺UNIT的3項全新升級。吳甜在講解中表示,我們希望讓語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值。
  • 谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI最新消息,谷歌推出了NLP系列「芝麻街」的新成員Big Bird。這個在外界眼中看起來有點可愛的動漫小鳥,搖身一變,解決了BERT模型中的全注意力機制帶來的序列長度二次依賴限制,可以兼顧更長的上下文。
  • 2019 年 NLP 領域都發生了哪些大事件?
    XLNet 是一種用於自然語言處理任務的預訓練方法,它在 20 種任務上相較於 BERT 有了進一步的提升。關於這份卓越的工作的總結,請參閱: https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b。
  • 百度正式發布ERNIE 2.0:16項中英文任務超越BERT、XLNet刷新SOTA
    ERNIE 2.0 模型在英語任務上很多都優於 BERT 和 XLNet,在 7 個 GLUE 任務上取得了最好的結果;中文任務上,ERNIE 2.0 模型在所有 9 個中文 NLP 任務上全面優於 BERT。當然這只是更新主要體現的方面,還有很多核心思想、調優技巧都隱藏在模型中。下面就讓我們看看 ERNIE 2.0 的主要思想及具體結構都是什麼樣的吧。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    近日,谷歌聯合CMU、DeepMind推出的《XTREME:評估跨語言泛化的大規模、多語言、多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)極大的鼓勵了多語言研究。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    機器之心報導參與:一鳴昨日,機器之心報導了 CMU 全新模型 XLNet 在 20 項任務上碾壓 BERT 的研究,引起了極大的關注。而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。
  • 谷歌推出個人定位新軟體
    谷歌推出個人定位新軟體中國網 china.com.cn  時間: 2009-02-06一名「谷歌緯度」用戶在倫敦的搜 索結果美國搜尋引擎巨頭谷歌公司4號推出一款名為「谷歌緯度」的新軟體「谷歌緯度」通過移動通訊公司的基站、全球定位系統和無線上網業務等確定用戶位置,然後在網際網路的谷歌地圖頁面上標出用戶所在地。這些信息在獲得用戶準許後,可以與用戶的親友共享。
  • 從想法到實幹,2018年13項NLP絕美新研究
    預訓練模型2018 年,使用預訓練的語言模型可能是 NLP 領域最顯著的趨勢,它可以利用從無監督文本中學習到的「語言知識」,並遷移到各種 NLP 任務中。這些預訓練模型有很多,包括 ELMo、ULMFiT、OpenAI Transformer 和 BERT,其中又以 BERT 最具代表性,它在 11 項 NLP 任務中都獲得當時最佳的性能。
  • 谷歌氣球在肯亞推出網際網路服務
    這是在非洲推出的第一個氣球動力網際網路服務,也是世界上第一個非緊急商業部署項目。20公裡的天空上,以提供覆蓋肯亞中西部的50000平方公裡的4G LTE服務。此前,在行動網路中斷時,諸如波多黎各在瑪麗亞颶風受災之後,谷歌氣球曾被用於提供緊急連接。根據相關報告顯示,非洲13億人口中只有28%可以訪問網際網路。谷歌氣球和肯亞電信希望彌合這一差距。
  • 搞定NLP領域的「變形金剛」!教你用BERT進行多標籤文本分類
    大數據文摘出品來源:medium編譯:李雷、睡不著的iris、Aileen過去的一年,深度神經網絡的應用開啟了自然語言處理的新時代。預訓練模型在研究領域的應用已經令許多NLP項目的最新成果產生了巨大的飛躍,例如文本分類,自然語言推理和問答。