聲明:本文轉載自 哈工大訊飛聯合實驗室 公眾號
在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。在閱讀理解、自然語言推斷、句對分類等中文自然語言處理任務中,ELECTRA-180G相比原版ELECTRA獲得了顯著性能提升。歡迎各位讀者下載試用相關模型。
項目地址:http://github.com/ymcui/Chinese-ELECTRA
ELECTRA簡介ELECTRA提出了一套新的預訓練框架,其中包含兩個部分:Generator和Discriminator。
Generator: 一個小的MLM,在[MASK]的位置預測原來的詞。Generator將用來把輸入文本做部分詞的替換。
Discriminator: 判斷輸入句子中的每個詞是否被替換,即使用Replaced Token Detection (RTD)預訓練任務,取代了BERT原始的Masked Language Model (MLM)。需要注意的是這裡並沒有使用Next Sentence Prediction (NSP)任務。
在預訓練階段結束之後,我們只使用Discriminator作為下遊任務精調的基模型。
更詳細的技術內容請查閱ELECTRA論文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB)
同時,也可通過閱讀我們的講義《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多預訓練語言模型相關前沿進展(公眾號後臺回復NLPCC2020即可下載)。
除了使用與RoBERTa-wwm-ext系列模型一致的擴展訓練數據(約20G)之外,我們從CommonCrawl中獲取了更大規模中文文本數據,並經過數據清洗等操作,進一步將預訓練語料規模擴充到180G。本次發布以下四個模型:
ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters
ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters
ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters
ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters
快速加載哈工大訊飛聯合實驗室發布的所有中文預訓練語言模型均可通過huggingface transformers庫進行快速加載訪問,請登錄我們的共享頁面獲取更多信息。
https://huggingface.co/HFL
效果評測在CMRC 2018(簡體中文閱讀理解),DRCD(繁體中文閱讀理解),XNLI(自然語言推斷),BQ Corpus(句對分類)任務上,ELECTRA-180G顯著超過原版ELECTRA的效果。更詳細的效果評測請查看項目的GitHub。
CMRC 2018
DRCD
XNLI
BQ Corpus
相關資源地址TextBrewer知識蒸餾工具
中文BERT、RoBERTa、RBT系列模型
中文XLNet系列模型
本期編輯:馮 晨
『哈工大SCIR』公眾號
編輯:王若珂,鍾蔚弘,彭湃,朱文軒,馮晨,杜佳琪,牟虹霖,張馨長按下圖即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公眾號『哈工大SCIR』。