180G!中文ELECTRA預訓練模型再升級

2021-02-20 哈工大SCIR

聲明:本文轉載自 哈工大訊飛聯合實驗室 公眾號

在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。在閱讀理解、自然語言推斷、句對分類等中文自然語言處理任務中,ELECTRA-180G相比原版ELECTRA獲得了顯著性能提升。歡迎各位讀者下載試用相關模型。


項目地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA簡介

ELECTRA提出了一套新的預訓練框架,其中包含兩個部分:Generator和Discriminator。

Generator: 一個小的MLM,在[MASK]的位置預測原來的詞。Generator將用來把輸入文本做部分詞的替換。

Discriminator: 判斷輸入句子中的每個詞是否被替換,即使用Replaced Token Detection (RTD)預訓練任務,取代了BERT原始的Masked Language Model (MLM)。需要注意的是這裡並沒有使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束之後,我們只使用Discriminator作為下遊任務精調的基模型。

更詳細的技術內容請查閱ELECTRA論文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB

同時,也可通過閱讀我們的講義《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多預訓練語言模型相關前沿進展(公眾號後臺回復NLPCC2020即可下載)。

中文ELECTRA

除了使用與RoBERTa-wwm-ext系列模型一致的擴展訓練數據(約20G)之外,我們從CommonCrawl中獲取了更大規模中文文本數據,並經過數據清洗等操作,進一步將預訓練語料規模擴充到180G。本次發布以下四個模型:

ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters

ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加載

哈工大訊飛聯合實驗室發布的所有中文預訓練語言模型均可通過huggingface transformers庫進行快速加載訪問,請登錄我們的共享頁面獲取更多信息。

https://huggingface.co/HFL

效果評測

在CMRC 2018(簡體中文閱讀理解),DRCD(繁體中文閱讀理解),XNLI(自然語言推斷),BQ Corpus(句對分類)任務上,ELECTRA-180G顯著超過原版ELECTRA的效果。更詳細的效果評測請查看項目的GitHub。

CMRC 2018

DRCD

XNLI

BQ Corpus

相關資源地址

TextBrewer知識蒸餾工具

中文BERT、RoBERTa、RBT系列模型

中文XLNet系列模型

本期編輯:馮   晨

哈工大SCIR』公眾號

編輯:王若珂,鍾蔚弘,彭湃,朱文軒,馮晨,杜佳琪,牟虹霖,張馨長按下圖即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公眾號『哈工大SCIR』。

相關焦點

  • 哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員
    哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員 哈工大訊飛聯合實 發表於 2020-12-26 09:49:26 哈工大訊飛聯合實驗室發布的中文
  • ELECTRA中文預訓練模型開源,僅1/10參數量,性能依舊媲美BERT
    然而,其發布的預訓練模型只是針對英語,卻非如BERT那樣是多語言版本。更重要的是,生成器使用最大似然來訓練,而不是通過對抗性訓練來欺騙判別器。中文ELECTRA預訓練模型目前已有的開源 ELECTRA 預訓練模型只是英文的預訓練模型。但世界上還有許多其他語言(例如中文)研究的學者,他們需要與其相應的語言預訓練模型。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 賽爾原創@Findings|中文預訓練語言模型回顧
    簡介以BERT為代表的預訓練語言模型在眾多自然語言處理任務中取得了顯著性能提升,並且隨後湧現出一批效果更優的預訓練語言模型。在本文中,我們將經典的預訓練語言模型應用在中文場景並使用相同的實驗設置去驗證它們在中文領域的性能表現。
  • 賽爾原創@Findings | 中文預訓練語言模型回顧
    簡介以BERT為代表的預訓練語言模型在眾多自然語言處理任務中取得了顯著性能提升,並且隨後湧現出一批效果更優的預訓練語言模型。在本文中,我們將經典的預訓練語言模型應用在中文場景並使用相同的實驗設置去驗證它們在中文領域的性能表現。
  • 26億參數,智源、清華開源中文大規模預訓練模型
    近日,北京智源人工智慧研究院和清華大學研究團隊合作開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃,旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用於中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。
  • RoBERTa中文預訓練模型,你離中文任務的「SOTA」只差個它
    機器之心報導參與:思源、一鳴有了中文文本和實現模型後,我們還差個什麼?還差了中文預訓練語言模型提升效果呀。對於中文領域的預訓練語言模型,我們最常用的就是 BERT 了,這並不是說它的效果最好,而是最為方便。
  • 華為開源預訓練語言模型「哪吒」:提升多項中文NLP任務性能
    雷鋒網 AI 開發者按:一個月前,在「AICon 全球人工智慧與機器學習技術大會」上,華為諾亞方舟實驗首席科學家劉群剛分享了新發布的中文預訓練語言模型 NEZHA(哪吒);就在這兩天,NEZHA 已在 Github 上開源,同時開源的還有壓縮 BERT 模型「TinyBERT」,它在推理時大小可縮小 7.5 倍,並且速度加快 9.4 倍。
  • 飛槳帶你了解:基於百科類數據訓練的 ELMo 中文預訓練模型
    ELMo模型簡介  ELMo(Embeddings from Language Models) 是重要的通用語義表示模型之一,以雙向 LSTM 為網路基本組件,以 Language Model 為訓練目標,通過預訓練得到通用的語義表示,將通用的語義表示作為 Feature 遷移到下遊 NLP 任務中,會顯著提升下遊任務的模型性能。
  • 華為雲摘得NLPCC 輕量級預訓練中文語言模型測評桂冠
    近日,華為雲AI團隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020 輕量級預訓練中文語言模型測評第一名。NLPCC 由中國計算機學會主辦,是自然語言處理(NLP)和中文計算(CC)領域的頂級國際前沿會議,每年會議都秉承國際化和一流化的嚴格標準來進行自然語言處理任務的開放評測,推動相關任務的研究和發展。
  • 飛槳帶你了解:基於百科類數據訓練的ELMo中文預訓練模型
    ELMo 模型簡介 ELMo ( Embeddings from Language Models )是重要的通用語義表示模型之一,以雙向 LSTM 為網路基本組件,以 Language Model 為訓練目標,通過預訓練得到通用的語義表示,將通用的語義表示作為 Feature 遷移到下遊 NLP 任務中,會顯著提升下遊任務的模型性能。
  • 直播回顧|最強中文NLP預訓練模型艾尼ERNIE官方揭秘
    而艾尼(ERNIE),可謂是目前NLP領域的最強中文預訓練模型。昨天,百度資深研發工程師龍老師,就通過直播帶開發者走近最強中文NLP預訓練模型ERNIE,在線上解讀了一系列艾尼ERNIE的強大特性,並現場與同為NLP模型的BERT直接PK,讓開發者連連感嘆,希望能把ERNIE運用到自己的工作與生活之中。
  • 預訓練語言模型:還能走多遠?
    預訓練語言模型還有哪些潛在的突破口?預訓練語言模型亟待解決的問題有哪些?在最後的討論環節,眾專家將圍繞這些話題進行討論。 韋福如對現有的語言模型預訓練工作進行總結和比較,然後介紹面向自然語言理解和生成任務的統一預訓練語言模型 UniLM 以及多語言預訓練模型 InfoXLM(演講內容請觀看CNCC回放視頻)。
  • 一作解讀NLPCC最佳學生論文:1200萬中文對話數據和預訓練模型CDial...
    基於Transformer的大規模預訓練語言模型極大地促進了開放領域對話的研究進展。然而目前這一技術在中文對話領域並未被廣泛應用,主要原因在於目前缺乏大規模高質量的中文對話開源數據。  為了推動中文對話領域的研究,彌補中文對話語料不足這一問題,我們發布了一個包含1200萬對話的大規模中文對話數據集LCCC,並開源了在LCCC上預訓練的大規模中文對話生成模型CDial-GPT。
  • 滴滴提出無監督預訓練模型,中文識別性能提10%以上
    為了解決這個問題,來自滴滴出行人工智慧實驗室的研究者提出了一種新穎的無監督預訓練方法,他們稱之為 masked 預測編碼(masked predictive coding,MPC)。這種方法可以應用於基於 Transformer 模型的無監督預訓練。
  • 一作解讀NLPCC最佳學生論文:1200萬中文對話數據和預訓練模型CDial-GPT
    基於Transformer的大規模預訓練語言模型極大地促進了開放領域對話的研究進展。然而目前這一技術在中文對話領域並未被廣泛應用,主要原因在於目前缺乏大規模高質量的中文對話開源數據。為了推動中文對話領域的研究,彌補中文對話語料不足這一問題,我們發布了一個包含1200萬對話的大規模中文對話數據集LCCC,並開源了在LCCC上預訓練的大規模中文對話生成模型CDial-GPT。
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    基於飛槳開源的持續學習的語義理解框架ERNIE 2.0,及基於此框架的ERNIE 2.0預訓練模型,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。本文帶你進一步深入了解ERNIE的技術細節。
  • transformer預訓練模型
    用維基百科的前104種語言在區分大小寫的文本上訓練(見細節:https://github.com/google-research/bert/blob/master/multilingual.md)。bert-base-chinese12個層,768個隱藏節點,12個heads,110M參數量。在中文簡體和繁體中文上訓練。
  • 【NLP】Facebook提出的預訓練模型BART
    該模型結合雙向和自回歸 Transformer 進行模型預訓練,在一些自然語言處理任務上取得了SOTA性能表現。近日,Facebook 發表論文,提出一種為預訓練序列到序列模型而設計的去噪自編碼器 BART。BART 通過以下步驟訓練得到:1)使用任意噪聲函數破壞文本;2)學習模型來重建原始文本。
  • 吐槽貼:用ELECTRA、ALBERT之前,你真的了解它們嗎?
    文 | 蘇劍林單位 | 追一科技編 | 兔子醬在預訓練語言模型中,ALBERT和ELECTRA算是繼BERT之後的兩個「後起之秀」。它們從不同的角度入手對BERT進行了改進,最終提升了效果(至少在不少公開評測數據集上是這樣),因此也贏得了一定的口碑。