超100億中文數據,要造出中國自己的BERT!首個專為中文NLP打造的語言理解基準CLUE升級

2021-02-13 新智元



















編輯:小智,元子

【新智元導讀】首個專為中文NLP量身打造的CLUE升級了!目前擁有八個數據集的整體測評及其基線模型,30多位來自各個頂尖機構的志願者加入並成為了會員。CLUE還發布了已經處理好的100G大規模中文語料,研究者可直接拿來做預訓練,完成下遊的語言理解、文本分類等任務。「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」分在不同的位置意思大不同。比如「我喜歡上一個人」,到底說的是「I like the last one」,還是說「I'm falling love with someone」?需要根據上下文語境來判斷。「一位友好的哥譚市民」 vs「一位友好/的哥/譚市民」

用過具有AI閱讀功能的讀書app,你會發現很多時候它讀的停頓不對,很多讀音也不對,比如把「有債必還」,讀成「有債必孩」。千萬別讓孩子跟著AI學語文!英文很多數據集、預訓練模型都是開源的,而中文這方面非常稀缺,雖然很多大廠最先進的技術都用上了,但沒有開源數據集和預訓練模型,那麼多數人就用不上;同時由於是針對企業內部定製的,缺乏普適性。一群中文NLP開發者,憑著一腔熱情,利用業餘時間,在GLUE的基礎上,做出了中文語言理解測評基準CLUE。這是什麼精神?CLUE包含了代表性的數據集、基準(預訓練)模型、語料庫、排行榜。它的誕生,承載著這群開發者巨大的野心:跑遍主流的中文數據集,解決當前中文任務公開可用數據集匱乏、沒有基準測評、最先進的預訓練模型不足等中文任務基礎設施問題,見證像BERT一樣、更強大的中文 NLP 模型。8項任務,多個標準全面衡量預訓練模型的語言理解能力本次選取的8個任務可以全面測試預訓練模型的語言理解能力,CLUE團隊制定了一套科學的任務遴選標準。不同的任務中文本的大小、語言理解的類型、訓練的樣本量都要有差異性,而且每個任務必須要有明確的定義,比如短文本的分類任務,句子相似性判斷等。CLUE官方會處理好數據,讓研究者可以更專注在建模本身。任務的難度方面,不能太簡單也不能是已經解決的問題,太簡單的問題沒有研究價值,只有未解決的問題才能激發研究者去搭建更好的模型。任務必須是自然語言理解任務的代表,可以很容易應用到現實場景,如果任務很生僻沒有實用價值,那它就沒有多大意義了。最後一點,任務要能衡量漢語獨有的語言特性,比如成語、俗語,這塊將會給模型帶來巨大的挑戰,漢語本身就很難了,再加上成語大多是高度概括的,模型理解起來就更有難度。100GB原始語料庫的大規模預訓練數據集CLUE官方總共收集了214 GB的原始語料庫,大約760億個單詞,包含三個部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。CLUECorpus2020-small包含14 GB的中文語料庫,包括四個子部分:新聞,網頁文本,維基百科和評論。CLUECorpus2020包含100 GB的中文原始語料庫,該語料庫可從Common Crawl中檢索。這個數據集可以直接用於預訓練,而無需其他預處理,包含約2萬9千個單獨的文件,每個文件都處理成了預訓練格式。CLUEOSCAR是一個龐大的多語種語料庫,它是通過Common Crawl語料庫的語言分類過濾得到的,包含250 GB的中文原始語料庫,做進一步的處理後,最終得到100 GB的中文數據。一鍵遍歷所有任務,代碼開源可獲官方認證你建好了模型,還要一個個去適配所有的8個任務,那就太麻煩了,CLUE官方專門寫了一個工具PyCLUE,可以幫你一鍵完成在不同任務的測試。為了檢測模型是否真正理解了句子的語義,結合中文的特點手工製作了一個包含514個句子對的診斷集,這些句子對覆蓋了常見的9種容易造成錯誤理解的場景。CLUE還提供了一個排行榜,供用戶在CLUE上提交自己的結果。當用戶提交預測結果時,評估系統將為每個任務提供最終分數。為了鼓勵模型復現,如果模型是開源的,會將模型標記為「已認證」。

看看榜單上這些名字!華為、騰訊都來CLUE刷榜了,但看起來都不如CLUE官方團隊提供的人類成績,實力還是有待提高!如果想了解CLUE的更多詳細信息,可參見CLUE團隊最近發表在arxiv的論文。

論文連結:

https://arxiv.org/abs/2004.05986

中文NLP開發者們,一起來壯大CLUE吧!
現在,CLUE誠摯邀請中文自然語言理解方面的專家學者、老師同學、參與者提供更多的中文自然語言理解數據集。這些數據集可以是你自己製作推出的,也可以是您認為很有意義但是是他人製作的數據集。CLUE官方計劃在5月14日前完成篩選,推出正式的CLUE Benchmark。請您將推薦數據集的名稱、作者、形式以及License情況發送至:任務與自然語言理解相關:要求數據集能夠測試模型是否理解了中文,模型可以是以研究為導向,也可以由實際應用為導向,重點是需要包含語言理解的成分。任務形式:任務輸入是一段文本(可長可短),具體任務可以是分類、序列標註、指代消歧、多項選擇、回歸任務,等等。【任務最好能夠使用基本的神經網絡模型做出基線,方便測評】能夠測評:提交的任務需要有簡單、客觀的評測標準。如果是包含文本生成的項目,那麼需要證明該項目有易行的可靠評測標準。公開的訓練數據:任務的訓練數據和開發數據需要公開,並且能夠由CLUE使用。任務難度:提交的任務不能太簡單。具體來講,目前的模型如BERT應該比訓練過的普通標註者做的差很多。如果您推薦的數據集被選中,將能極大擴展數據集的知名度,並為學界、業界對自然語言理解的研究做出貢獻

參考連結:

http://www.cluebenchmark.com/

相關焦點

  • ChineseGLUE:為中文NLP模型定製的自然語言理解基準
    然而,現有的 GLUE 基準針對的是英文任務,無法評價 NLP 模型處理中文的能力。為了填補這一空白,國內關注 NLP 的熱心人士發布了一個中文語言理解測評基準——ChineseGLUE。ChineseGLUE 目前擁有八個數據集的整體測評及其基線模型,目前已經有 20多位來自各個頂尖機構的自願者加入並成為了創始會員。
  • 中文語言理解基準測評(chineseGLUE)來了,公開徵集數據集進行中
    Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard中文語言理解測評基準,包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜。
  • ChineseGLUE(CLUE):針對中文自然語言理解任務的基準平臺
    導語2018 年,來自紐約大學、華盛頓大學、DeepMind 機構的研究者創建了一個多任務自然語言理解基準和分析平臺——GLUE(General Language
  • NLPer福利-中文語言理解基準測【CLUEbenchmark】
    官方連結:https://www.cluebenchmarks.com/Github連結:https://github.com/CLUEbenchmark/CLUE中文語言理解測評基準,包括代表性的數據集、基準(預訓練)
  • 中文NLP熱點|AMBERT模型在CLUE等數據集上獲卓越表現
    GLUE 包含九個英文數據集,目前已經成為衡量模型在語言理解方面最為重要的評價體系之一。對中文 NLP 而言,之前缺少與之相對應的成熟評價體系和交流平臺。就像人類學說話一樣,環境是語言學習的基礎,人工智慧也是如此。相對英文,中文NLP 的資源比較匱乏並缺少有價值的整合。
  • CLUE發布第一個原生中文自然語言推理數據集
    ,是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。OCNLI包含5萬餘訓練數據,3千驗證數據及3千測試數據。我們將提供訓練與驗證集的數據及標籤。測試數據僅提供數據,不提供標籤。OCNLI為中文語言理解基準測評(CLUE benchmark)的一部分。
  • 中文語言理解基準測評(CLUE)論文被COLING 2020高分錄用
    中文語言理解基準測評(CLUE)論文被COLING 2020錄用,為長文一篇標題:, Weijian Xie, Yanting Li, Yina Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng Zhao, Cong Yue, Xinrui Zhang, Zhengliang Yang, Kyle Richardson and Zhenzhong Lan領域:中文語言理解
  • 精彩回顧 | CLUE2020年度總結
    回顧這一年,中文語言理解評測基準(CLUE)也一直是兢兢業業,穩步前行,在很多方面都取得了不錯的成果,為這不平凡的一年交上了一份滿意的答卷。在這辭舊迎新之際,我們也對這一年的工作做了一個大盤點,這一個個成績都是大家共同努力的結果,也是激勵我們繼續前行的動力。感謝過去大家的辛苦付出,也期待未來的我們能再創佳績。我相信,在我們的共同努力下,CLUE一定能更上一層樓。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    因此,他們沒有從零開始訓練,而是在官方 BERT 中文模型(BERT-base Chinese)上訓練。模型首先在最長樣本長度為 128,批大小為 2560,使用 1e-4 的學習率,初始預熱為 10% 的條件下訓練了 100k 輪,然後在序列長度為 512,批大小為 384 的樣本上進行了同樣輪次的訓練。訓練使用了 LAMB 目標函數,而非 AdamWeightDecayOptimizer。
  • 中文自然語言處理數據集:ChineseNLPCorpus
    ,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。
  • 中文NLP福利!大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • GitHub 最受歡迎的 NLP 相關項目 | 資源推薦
    整理常見 NLP 任務的 SOTA 模型,及對應數據集。想要涵蓋傳統和核心的 NLP 任務,例如依存分析、詞性標註以及最近的閱讀理解和自然語言推理。主要目的是讓讀者快速了解,他們感興趣任務的基準數據集和 SOTA 模型,為進一步研究奠定基礎。
  • Awesome-Chinese-NLP:中文自然語言處理相關資料
    訓練的近義詞庫,封裝為python包文件。中文突發事件語料庫 Chinese Emergency Corpusdgk_lost_conv 中文對白語料 chinese conversation corpus用於訓練中英文對話系統的語料庫 Datasets for Training Chatbot System八卦版問答中文語料中國股市公告信息爬取 通過python腳本從巨潮網絡的伺服器獲取中國股市
  • 中文自然語言處理數據集:ChineseNLPCorpus(附連結)
    本文為你推薦中文自然語言處理數據集。推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。歡迎補充提交合併。
  • 從 one-hot 到 BERT,帶你一步步理解 BERT
    理解複雜的語言也是人工智慧的重要組成部分。而自google在2018年10月底公布BERT在11項nlp任務中的卓越表後,BERT(Bidirectional Encoder Representation from Transformers)就成為NLP一枝獨秀,本文將為大家層層剖析bert。
  • 中文自然語言處理數據共建讓機器讀懂「千言」
    在剛剛結束的以「掌握知識、理解語言、擁有智能」為主題的百度大腦語言與知識技術峰會上,百度CTO王海峰解讀了語言與知識技術的發展歷程與最新成果,與產學研各界分享技術及產業發展趨勢和展望。   基於最大的搜索平臺的數據優勢,百度打造了世界上最大規模的知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新。該知識圖譜應用於各行各業,每天的調用次數超過400億次。
  • 最全的中文語言處理數據集、平臺和工具!
    資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。/fateleak/toutiao-text-classfication-dataset    數據規模:共38萬條,分布於15個分類中。
  • 中文自然語言處理相關資料集合指南
    中文突發事件語料庫 Chinese Emergency Corpusdgk_lost_conv 中文對白語料 chinese conversation corpus用於訓練中英文對話系統的語料庫 Datasets for Training Chatbot System八卦版問答中文語料中國股市公告信息爬取 通過python腳本從巨潮網絡的伺服器獲取中國股市
  • 【分享包】最全語音文本數據、工具包大分享,快來下載吧!(II)
    有一些英文package使用spacy的英文模型的,如果要適配中文,可能需要使用spacy中文模型。100部帶標記英文小說語料 https://github.com/dbamman/litbank89.百度開源的基準信息抽取系統 https://github.com/baidu/information-extraction90.虛假新聞數據集fake news corpus
  • 百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」
    十年來,百度大腦語言與知識技術獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。百度CTO王海峰介紹,知識圖譜是機器認知世界的重要基礎,百度已經打造了世界上最大規模知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新。百度知識圖譜應用於各行各業,每天的調用次數超過400億次。