編輯:小智,元子
【新智元導讀】首個專為中文NLP量身打造的CLUE升級了!目前擁有八個數據集的整體測評及其基線模型,30多位來自各個頂尖機構的志願者加入並成為了會員。CLUE還發布了已經處理好的100G大規模中文語料,研究者可直接拿來做預訓練,完成下遊的語言理解、文本分類等任務。「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」分在不同的位置意思大不同。比如「我喜歡上一個人」,到底說的是「I like the last one」,還是說「I'm falling love with someone」?需要根據上下文語境來判斷。「一位友好的哥譚市民」 vs「一位友好/的哥/譚市民」
用過具有AI閱讀功能的讀書app,你會發現很多時候它讀的停頓不對,很多讀音也不對,比如把「有債必還」,讀成「有債必孩」。千萬別讓孩子跟著AI學語文!英文很多數據集、預訓練模型都是開源的,而中文這方面非常稀缺,雖然很多大廠最先進的技術都用上了,但沒有開源數據集和預訓練模型,那麼多數人就用不上;同時由於是針對企業內部定製的,缺乏普適性。一群中文NLP開發者,憑著一腔熱情,利用業餘時間,在GLUE的基礎上,做出了中文語言理解測評基準CLUE。這是什麼精神?CLUE包含了代表性的數據集、基準(預訓練)模型、語料庫、排行榜。它的誕生,承載著這群開發者巨大的野心:跑遍主流的中文數據集,解決當前中文任務公開可用數據集匱乏、沒有基準測評、最先進的預訓練模型不足等中文任務基礎設施問題,見證像BERT一樣、更強大的中文 NLP 模型。8項任務,多個標準全面衡量預訓練模型的語言理解能力本次選取的8個任務可以全面測試預訓練模型的語言理解能力,CLUE團隊制定了一套科學的任務遴選標準。不同的任務中文本的大小、語言理解的類型、訓練的樣本量都要有差異性,而且每個任務必須要有明確的定義,比如短文本的分類任務,句子相似性判斷等。CLUE官方會處理好數據,讓研究者可以更專注在建模本身。任務的難度方面,不能太簡單也不能是已經解決的問題,太簡單的問題沒有研究價值,只有未解決的問題才能激發研究者去搭建更好的模型。任務必須是自然語言理解任務的代表,可以很容易應用到現實場景,如果任務很生僻沒有實用價值,那它就沒有多大意義了。最後一點,任務要能衡量漢語獨有的語言特性,比如成語、俗語,這塊將會給模型帶來巨大的挑戰,漢語本身就很難了,再加上成語大多是高度概括的,模型理解起來就更有難度。100GB原始語料庫的大規模預訓練數據集CLUE官方總共收集了214 GB的原始語料庫,大約760億個單詞,包含三個部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。CLUECorpus2020-small包含14 GB的中文語料庫,包括四個子部分:新聞,網頁文本,維基百科和評論。CLUECorpus2020包含100 GB的中文原始語料庫,該語料庫可從Common Crawl中檢索。這個數據集可以直接用於預訓練,而無需其他預處理,包含約2萬9千個單獨的文件,每個文件都處理成了預訓練格式。CLUEOSCAR是一個龐大的多語種語料庫,它是通過Common Crawl語料庫的語言分類過濾得到的,包含250 GB的中文原始語料庫,做進一步的處理後,最終得到100 GB的中文數據。一鍵遍歷所有任務,代碼開源可獲官方認證你建好了模型,還要一個個去適配所有的8個任務,那就太麻煩了,CLUE官方專門寫了一個工具PyCLUE,可以幫你一鍵完成在不同任務的測試。為了檢測模型是否真正理解了句子的語義,結合中文的特點手工製作了一個包含514個句子對的診斷集,這些句子對覆蓋了常見的9種容易造成錯誤理解的場景。CLUE還提供了一個排行榜,供用戶在CLUE上提交自己的結果。當用戶提交預測結果時,評估系統將為每個任務提供最終分數。為了鼓勵模型復現,如果模型是開源的,會將模型標記為「已認證」。
看看榜單上這些名字!華為、騰訊都來CLUE刷榜了,但看起來都不如CLUE官方團隊提供的人類成績,實力還是有待提高!如果想了解CLUE的更多詳細信息,可參見CLUE團隊最近發表在arxiv的論文。
論文連結:
https://arxiv.org/abs/2004.05986
中文NLP開發者們,一起來壯大CLUE吧!
現在,CLUE誠摯邀請中文自然語言理解方面的專家學者、老師同學、參與者提供更多的中文自然語言理解數據集。這些數據集可以是你自己製作推出的,也可以是您認為很有意義但是是他人製作的數據集。CLUE官方計劃在5月14日前完成篩選,推出正式的CLUE Benchmark。請您將推薦數據集的名稱、作者、形式以及License情況發送至:任務與自然語言理解相關:要求數據集能夠測試模型是否理解了中文,模型可以是以研究為導向,也可以由實際應用為導向,重點是需要包含語言理解的成分。任務形式:任務輸入是一段文本(可長可短),具體任務可以是分類、序列標註、指代消歧、多項選擇、回歸任務,等等。【任務最好能夠使用基本的神經網絡模型做出基線,方便測評】能夠測評:提交的任務需要有簡單、客觀的評測標準。如果是包含文本生成的項目,那麼需要證明該項目有易行的可靠評測標準。公開的訓練數據:任務的訓練數據和開發數據需要公開,並且能夠由CLUE使用。任務難度:提交的任務不能太簡單。具體來講,目前的模型如BERT應該比訓練過的普通標註者做的差很多。如果您推薦的數據集被選中,
將能極大擴展數據集的知名度,並為學界、業界對自然語言理解的研究做出貢獻。
參考連結:
http://www.cluebenchmark.com/