哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員

2020-12-27 電子發燒友

哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員

哈工大訊飛聯合實 發表於 2020-12-26 09:49:26

哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員。我們基於大規模法律文本訓練出中文法律領域ELECTRA系列模型,並且在法律領域自然語言處理任務中獲得了顯著性能提升。歡迎各位讀者下載試用相關模型。

 

項目地址:http://electra.hfl-rc.com

中文法律領域ELECTRA

我們在20G版(原版)中文ELECTRA的基礎上加入了高質量2000萬裁判文書數據進行了二次預訓練,在不丟失大規模通用數據上學習到的語義信息,同時使模型對法律文本更加適配。本次發布以下三個模型:

legal-ELECTRA-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

legal-ELECTRA-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

legal-ELECTRA-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加載

哈工大訊飛聯合實驗室發布的所有中文預訓練語言模型均可通過huggingface transformers庫進行快速加載訪問,請登錄我們的共享頁面獲取更多信息。

https://huggingface.co/HFL

 

模型鍵值如下:

hfl/chinese-legal-electra-large-discriminator

hfl/chinese-legal-electra-large-generator

hfl/chinese-legal-electra-base-discriminator

hfl/chinese-legal-electra-base-generator

hfl/chinese-legal-electra-small-discriminator

hfl/chinese-legal-electra-small-generator

效果評測

我們在罪名預測以及要素抽取任務上進行了基線測試。其中罪名預測任務使用的是CAIL 2018數據,要素抽取任務為in-house實際應用。可以看到本次發布的法律領域ELECTRA模型均相比通用ELECTRA模型獲得了顯著性能提升。

表1 罪名預測任務

表2 要素抽取任務

其他相關資源

TextBrewer知識蒸餾工具

http://textbrewer.hfl-rc.com

中文BERT、RoBERTa、RBT系列模型

http://bert.hfl-rc.com

中文XLNet系列模型

http://xlnet.hfl-rc.com

中文MacBERT模型

http://macbert.hfl-rc.com

責任編輯:xj

原文標題:哈工大訊飛聯合實驗室發布法律領域ELECTRA預訓練模型

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請註明出處。

 

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 中文ELECTRA預訓練模型再升級
    聲明:本文轉載自 哈工大訊飛聯合實驗室 公眾號在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型
    近日,哈工大訊飛聯合實驗室發布了基於全詞覆蓋的中文 BERT 預訓練模型,該模型在多個中文數據集上,取得了當前中文預訓練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。哈工大訊飛聯合實驗室(HFL)是科大訊飛重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創辦。
  • 哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首
    哈工大訊飛聯合實驗室不僅在國際比賽中拔得頭籌,也持續積極推動中文信息處理技術的研究與發展。2019年10月19日,由中國中文信息學會計算語言學專業委員會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名的第三屆「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2019)在雲南昆明圓滿落幕。
  • ELECTRA中文預訓練模型開源,僅1/10參數量,性能依舊媲美BERT
    (雷鋒網)針對這一問題,今天哈工大訊飛聯合實驗室(HFL)基於ELECTRA開原始碼,發布了中文版的 ELECTRA 預訓練模型。更重要的是,生成器使用最大似然來訓練,而不是通過對抗性訓練來欺騙判別器。中文ELECTRA預訓練模型目前已有的開源 ELECTRA 預訓練模型只是英文的預訓練模型。但世界上還有許多其他語言(例如中文)研究的學者,他們需要與其相應的語言預訓練模型。
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。A.I.也能改作文,我們拿下多項冠軍!原來,隨著深度學習相關技術的快速發展,越來越適合任務本身的模型被研究出來,並且隨著預訓練語言模型的發展,更多的外部知識被加入到模型中,使得模型的表徵能力越來越強。HFL就是以深度學習技術與預訓練語言模型為基礎,結合集成學習相關技術,完成對語病的精準識別、定位與修正。
  • 哈工大訊飛聯合實驗室奪中文語法診斷大賽全球冠軍
    在語病糾錯的武林江湖裡,中文又比英文難得多。最近,一場通過AI檢測中文語病的「中文語法錯誤自動診斷大賽」上,哈工大訊飛聯合實驗室摘得桂冠。第五屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,簡稱 CGED)剛在澳大利亞墨爾本舉辦。
  • 在外國人寫的中文句子裡找錯 哈工大訊飛聯合實驗室奪冠
    第五屆中文語法錯誤自動診斷大賽日前在澳大利亞墨爾本閉幕,中國社科院、阿里巴巴、北京大學等全球13個團隊參賽,最終哈工大訊飛聯合實驗室憑藉在人工智慧領域的多項技術積累,首次參賽就奪得冠軍。
  • 訊飛行業認知智能升級讓文書質檢更簡單
    本次哈工大訊飛聯合實驗室提交的MacALBERT + DKM模型以總成績90.7分位居GLUE評測榜首,其中MRPC(語義等價性)、QNLI(問句文本蘊含)、WNLI(Winograd Schema Challenge)任務達到或超過榜單最好水平。除了9項主任務之外,GLUE評測還設立了一項診斷任務(AX),用於檢測模型在不同語言學問題上的表現。
  • 訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升
    文 | 奕欣來自雷鋒網(leiphone-sz)的報導雷鋒網AI科技評論按:科大訊飛與哈工大聯合實驗室
  • 華為諾亞方舟開源預訓練模型「哪吒」,4項任務均達到SOTA
    BERT之後,新的預訓練語言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實驗室開源了基於BERT的中文預訓練語言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇蹟,可以處理很多不同的自然語言任務。 據介紹,當前版本的NEZHA基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。
  • 華為開源中文版BERT模型
    近日,華為諾亞實驗室開源中文預訓練語言模型「哪吒」,基於BERT模型,並進行了多處優化,能夠在一系列中文自然語言理解任務達到先進水平。。現在戳右邊連結上新智元小程序了解更多! 自Google於2018年發布預訓練語言模型BERT ,並在11項自然語言處理(NLP)任務上取得最好成績,預訓練語言模型開始得到學術界和工業界的極大關注,已經成為自然語言處理的新範式。
  • 26億參數,智源、清華開源中文大規模預訓練模型
    機器之心報導機器之心編輯部近日,北京智源人工智慧研究院和清華大學研究團隊聯合發布了以中文為核心的大規模預訓練語言模型 CPM-LM,參數規模達 26 億,預訓練中文數據規模 100 GB。
  • 賽爾原創@Findings|中文預訓練語言模型回顧
    簡介以BERT為代表的預訓練語言模型在眾多自然語言處理任務中取得了顯著性能提升,並且隨後湧現出一批效果更優的預訓練語言模型。在本文中,我們將經典的預訓練語言模型應用在中文場景並使用相同的實驗設置去驗證它們在中文領域的性能表現。
  • 單模型可完成6項NLP任務,哈工大SCIR LTP再度升級,4.0版本面世
    LTP 的全稱為「Language Technology Platform」,是哈工大社會計算與信息檢索研究中心(HIT-SCIR)歷時多年研發的一整套高效、高精度的中文自然語言處理開源基礎技術平臺。此外,平臺還榮獲了 2010 年中國中文信息學會科學技術一等獎、2016 年黑龍江省科技進步一等獎。目前,LTP 已被包括清華大學、北京大學、CMU 等國內外眾多大學及科研機構在內的 600 餘家研究單位籤署協議使用,同時向百度、騰訊、華為、訊飛等多家知名公司收費授權。
  • 華為雲摘得NLPCC 輕量級預訓練中文語言模型測評桂冠
    近日,華為雲AI團隊獲得第9屆國際自然語言處理與中文計算會議NLPCC 2020 輕量級預訓練中文語言模型測評第一名。NLPCC 由中國計算機學會主辦,是自然語言處理(NLP)和中文計算(CC)領域的頂級國際前沿會議,每年會議都秉承國際化和一流化的嚴格標準來進行自然語言處理任務的開放評測,推動相關任務的研究和發展。
  • 賽爾原創@Findings | 中文預訓練語言模型回顧
    簡介以BERT為代表的預訓練語言模型在眾多自然語言處理任務中取得了顯著性能提升,並且隨後湧現出一批效果更優的預訓練語言模型。在本文中,我們將經典的預訓練語言模型應用在中文場景並使用相同的實驗設置去驗證它們在中文領域的性能表現。
  • 科大訊飛機器閱讀理解技術再次登頂SQuAD挑戰賽
    繼2017年7月刷新世界紀錄後,近日,科大訊飛與哈工大聯合實驗室(HFL)再次在由史丹福大學發起的機器閱讀理解領域權威評測SQuAD(Stanford
  • 飛槳帶你了解:基於百科類數據訓練的 ELMo 中文預訓練模型
    ELMo模型簡介  ELMo(Embeddings from Language Models) 是重要的通用語義表示模型之一,以雙向 LSTM 為網路基本組件,以 Language Model 為訓練目標,通過預訓練得到通用的語義表示,將通用的語義表示作為 Feature 遷移到下遊 NLP 任務中,會顯著提升下遊任務的模型性能。
  • 哈工大劉挺:哈工大 SCIR 實驗室的 NLP 研究 | CCF-GAIR
    我們的對話機器人「笨笨」也在多個不同的場景下得到了應用,例如在用戶購物前的導購環節,通過對用戶消費意圖的準確判斷,進而推薦更合乎用戶需求的產品。我們與訊飛的聯合實驗室在機器閱讀理解領域權威評測大賽 SQuAD 連續三次奪得第一名。