180G!中文ELECTRA預訓練模型再升級

2021-02-20 哈工大SCIR

聲明:本文轉載自 哈工大訊飛聯合實驗室 公眾號

在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。在閱讀理解、自然語言推斷、句對分類等中文自然語言處理任務中,ELECTRA-180G相比原版ELECTRA獲得了顯著性能提升。歡迎各位讀者下載試用相關模型。


項目地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA簡介

ELECTRA提出了一套新的預訓練框架,其中包含兩個部分:Generator和Discriminator。

Generator: 一個小的MLM,在[MASK]的位置預測原來的詞。Generator將用來把輸入文本做部分詞的替換。

Discriminator: 判斷輸入句子中的每個詞是否被替換,即使用Replaced Token Detection (RTD)預訓練任務,取代了BERT原始的Masked Language Model (MLM)。需要注意的是這裡並沒有使用Next Sentence Prediction (NSP)任務。

在預訓練階段結束之後,我們只使用Discriminator作為下遊任務精調的基模型。

更詳細的技術內容請查閱ELECTRA論文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB

同時,也可通過閱讀我們的講義《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多預訓練語言模型相關前沿進展(公眾號後臺回復NLPCC2020即可下載)。

中文ELECTRA

除了使用與RoBERTa-wwm-ext系列模型一致的擴展訓練數據(約20G)之外,我們從CommonCrawl中獲取了更大規模中文文本數據,並經過數據清洗等操作,進一步將預訓練語料規模擴充到180G。本次發布以下四個模型:

ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters

ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加載

哈工大訊飛聯合實驗室發布的所有中文預訓練語言模型均可通過huggingface transformers庫進行快速加載訪問,請登錄我們的共享頁面獲取更多信息。

https://huggingface.co/HFL

效果評測

在CMRC 2018(簡體中文閱讀理解),DRCD(繁體中文閱讀理解),XNLI(自然語言推斷),BQ Corpus(句對分類)任務上,ELECTRA-180G顯著超過原版ELECTRA的效果。更詳細的效果評測請查看項目的GitHub。

CMRC 2018

DRCD

XNLI

BQ Corpus

相關資源地址

TextBrewer知識蒸餾工具

中文BERT、RoBERTa、RBT系列模型

中文XLNet系列模型

本期編輯:馮   晨

哈工大SCIR』公眾號

編輯:王若珂,鍾蔚弘,彭湃,朱文軒,馮晨,杜佳琪,牟虹霖,張馨長按下圖即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公眾號『哈工大SCIR』。

相關焦點

  • 哈工大訊飛聯合實驗室發布法律領域ELECTRA預訓練模型
    哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員。我們基於大規模法律文本訓練出中文法律領域ELECTRA系列模型,並且在法律領域自然語言處理任務中獲得了顯著性能提升。歡迎各位讀者下載試用相關模型。
  • 哈工大訊飛聯合實驗室發布中文ELECTRA預訓練模型
    由谷歌與史丹福大學共同研發的最新預訓練模型ELECTRA因其小巧的模型體積以及良好的模型性能受到了廣泛關注。
  • 發布 ELECTRA:提升 NLP 模型預訓練效率
    發布(閱讀原文)https://github.com/google-research/electraBERThttps://arxiv.org/abs/1810.04805RoBERTahttps://arxiv.org/abs/1907.11692XLNethttps://arxiv.org/abs/1906.08237
  • 天池NLP中文預訓練模型賽來了!
    自從2017年具有劃時代意義的Transformer模型問世以來,短短兩年多的時間內,如雨後春筍般的出現了大量的預訓練模型,比如:
  • 【NLP】Pytorch中文語言模型bert預訓練代碼
    這篇論文做了很多語言模型預訓練的實驗,系統的分析了語言模型預訓練對子任務的效果提升情況。有幾個主要結論:在目標領域的數據集上繼續預訓練(DAPT)可以提升效果;目標領域的語料與RoBERTa的原始預訓練語料越不相關,DAPT效果則提升更明顯。在具體任務的數據集上繼續預訓練(TAPT)可以十分「廉價」地提升效果。
  • 26億參數,智源、清華開源中文大規模預訓練模型
    近日,北京智源人工智慧研究院和清華大學研究團隊聯合發布了以中文為核心的大規模預訓練語言模型 CPM-LM,參數規模達 26 億,預訓練中文數據規模 100 GB。自 2018 年穀歌發布 BERT 以來,預訓練模型在自然語言處理(NLP)領域逐漸成為主流。今年 5 月份,OpenAI 推出的史上最大 AI 模型 GPT-3 更是引起了大量討論。
  • 中文預訓練模型ERNIE超詳細使用指南
    作者 | 高開遠,上海交通大學,自然語言處理研究方向最近在工作上處理的都是中文語料,也嘗試了一些最近放出來的預訓練模型(ERNIE
  • 飛槳帶你了解:基於百科類數據訓練的ELMo中文預訓練模型
    ELMo 模型簡介 ELMo ( Embeddings from Language Models )是重要的通用語義表示模型之一,以雙向 LSTM 為網路基本組件,以 Language Model 為訓練目標,通過預訓練得到通用的語義表示,將通用的語義表示作為 Feature 遷移到下遊 NLP 任務中,會顯著提升下遊任務的模型性能。
  • 小白採坑---中文預訓練模型泛化能力挑戰賽(demo)
    中文預訓練模型泛化能力挑戰賽是阿里天池舉辦的NLP比賽。
  • albert-chinese-ner使用預訓練語言模型ALBERT做中文NER
    向AI轉型的程式設計師都關注了這個號👇👇👇機器學習AI算法工程   公眾號:datayx這次的albert某種程度上可能比bert本身更具有意義,恰逢中文預訓練模型出來AI項目體驗地址 https://loveai.techalbert_zh海量中文語料上預訓練ALBERT模型:參數更少,效果更好。
  • 預訓練永不止步,遊戲問答語言模型實操
    在這種背景下,預訓練應運而生,該技術可以從大量無標註數據中進行預訓使許多 NLP 任務獲得顯著的性能提升,大批的預訓練模型也相繼開源了。但是由於場景的偏差,通用的預訓練模型通常無法在垂直領域取得理想的效果,在我們的實際業務中同樣也遇到了這個問題, 為了能進一步提升業務下遊任務的性能,將大量無標籤領域數據價值發揮到最大,我們嘗試在遊戲問答場景下自研預訓練模型 [1],主要遇到的挑戰是如何在預訓時引入更多的知識。
  • 預訓練模型遷移學習
    在計算機視覺領域中,遷移學習通常是通過使用預訓練模型來表示的。預訓練模型是在大型基準數據集上訓練的模型,用於解決相似的問題。由於訓練這種模型的計算成本較高,因此,導入已發布的成果並使用相應的模型是比較常見的做法。2、卷積神經網絡(CNN)在遷移學習中,常用的幾個預訓練模型是基於大規模卷積神經網絡的(Voulodimos)。
  • NLP專欄|圖解 BERT 預訓練模型!
    BERT模型打破了基於語言處理的任務的幾個記錄。在 BERT 的論文發布後不久,這個團隊還公開了模型的代碼,並提供了模型的下載版本,這些模型已經在大規模數據集上進行了預訓練。這是一個重大的發展,因為它使得任何一個構建構建機器學習模型來處理語言的人,都可以將這個強大的功能作為一個現成的組件來使用,從而節省了從零開始訓練語言處理模型所需要的時間、精力、知識和資源。
  • 按照時間線幫你梳理10種預訓練模型
    用語言模型進行預訓練,模型可獲得更可靠的語言表示)用大量中文數據集、異質數據集為適應多輪的貼吧數據,引入對話語言模型(DLM ,Dialogue Language Model)的任務(ERNIE對mask機制的改進,為BERT-wwm、SpanBERT等提供了思路)連續用大量的數據與先驗知識連續構建不同的預訓練任務(詞法級別,語法級別,語義級別
  • 通用模型、全新框架,WavLM語音預訓練模型全解
    通過94,000小時的英語語音進行預訓練,通用語音預訓練模型 WavLM 在 SUPERB 所有13項語音任務測評中超過先前所有模型,排名第一,並在其它4個不同的語音經典測評數據集上都取得了很好效果。近兩年來,預訓練模型在自然語言處理和計算機視覺領域引起了學術界和工業界的廣泛關注。
  • PTMs| 2020最新NLP預訓練模型綜述
    該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括:1.深入盤點了目前主流的預訓練模型,如word2vec,ELMo,BERT等。2. 提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。
  • 134個預訓練模型、精度高達85.1%,百度視覺算法最強基石PaddleClas全新升級
    更高精度的模型:基於百度自研的知識蒸餾方案(SSLD),PaddleClas 開源了 14 個 SSLD 分類預訓練模型,精度普遍提升 3% 以上;其中 ResNet50_vd 模型在 ImageNet-1k 數據集上的 Top-1 精度達到了 84.0%,Res2Net200_vd 預訓練模型
  • NLP預訓練模型大集合!
    近日,Separius 在 GitHub 上列舉了一系列關於 NLP 預訓練模型的近期論文和文章,力求全面地概述 NLP 各個方面的最新研究成果,包括詞嵌入、池化方法、編碼器、OOV 處理等。詞嵌入這部分 Separius 介紹了 19 篇相關論文,包括 GloVe、word2vec、fastText 等預訓練模型:
  • 一文讀懂最強中文NLP預訓練模型ERNIE
    通過使用連續學習,可以不斷積累新的知識,模型在新任務當中可以用歷史任務學習到參數進行初始化,一般來說比直接開始新任務的學習會獲得更好的效果。 a: 預訓練連續學習ERNIE 的預訓練連續學習分為兩步,首先,連續用大量的數據與先驗知識連續構建不同的預訓練任務。其次,不斷的用預訓練任務更新ERNIE 模型。
  • FinBERT: 金融領域的預訓練語言模型
    今天介紹一個使用金融領域語料訓練的BERT模型:FinBERT,出自IJCAI 2020的論文"FinBERT: A Pre-trained Financial Language Representation Model for Financial Text Mining[1]"如上圖所示,這篇論文,簡單來說就是用了BERT的模型和ERNIE2