CLUE發布第一個原生中文自然語言推理數據集

2021-02-20 AINLP

OCNLI(Original Chinese Natural Language Inference),原生/原創中文自然語言推理數據集,是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。

OCNLI包含5萬餘訓練數據,3千驗證數據及3千測試數據。我們將提供訓練與驗證集的數據及標籤。測試數據僅提供數據,不提供標籤。OCNLI為中文語言理解基準測評(CLUE benchmark)的一部分。

數據集下載連結:https://github.com/CLUEbenchmark/OCNLI

Leaderboard提交連結:https://www.cluebenchmarks.com/nli.html

論文:Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

論文連結:https://arxiv.org/abs/2010.05444

近年來,自然語言推理(Natural Language Inference,NLI)逐步成為自然語言理解中的核心任務。Dagan et al 2005認為自然語言推理與paraphrase, summarization, information retrieval, QA等多種重要任務緊密相連,可以作為綜合性任務來測試模型對語義理解的掌握。而NLI的數據作用遠不止於推理任務本身,它也可以用來構造sentence embeddings (Conneau et al 2017), 進行intermediate-task training (Bowman et al 2020), 幫助問答任務 (Trivedi et al 2019),模型探測 (Richardson et al 2020),等等。

英語數據集如SICK, SNLI, MNLI, SciTail, alphaNLI, ANLI等層出不窮,然而中文幾乎沒有這方面的大型數據集。唯一例外可能要算將MNLI翻譯成多種語言(包括中文)的XNLI數據集了。但是翻譯的數據集質量堪憂,也缺少中文語境和中國文化背景下的推理。因此,我們參考並改進了MNLI的數據收集方法,收集建立了原生(原創)中文自然語言推理數據集,即OCNLI。

自然語言推理任務可以概括為,判斷「前提」(Premise)與「假設」(Hypothesis)的「推理關係」(Inference relation)。如:

前提(Premise)

推理關係

(Inference relation)

假設(Hypothesis)

和呂鴻賓共事幾十年的村會計楊進躬身進屋,小心翼翼推出老模範那輛50年代買的自行車

entailment

蘊含

E1: 楊進與呂鴻賓共事的時間非常久

E2: 楊進是村會計

neutral

未知

N1: 呂鴻賓和楊進的關係很好

N2: 呂鴻賓曾被評為模範

contradiction

矛盾

C1: 自行車的款式非常新

C2: 故事發生的地點為城裡

(該例選自OCNLI)

也就是說,在前提為真的情況下,E1與E2也為真,或者說可以從前提通過推理得出E1和E2。同時,在前提為真的情況下,我們無法得知N1與N2是否也為真,但是可以得出C1和C2是(幾乎)不可能成立的。這就是自然語言推理任務。

OCNLI的特點:

- OCNLI改進了SNLI、MNLI數據收集和標註方法,使數據難度更大,對現有模型更有挑戰性。目前(2020年10月)人類測評得分比模型最高分高出12%。同時,驗證集和測試集的數據分為easy, medium, hard三個難度。

- OCNLI的前提(premise)選自5種不同的文體:政府公文、新聞、文學、電視談話節目、電話錄音。

- 與SNLI、MNLI類似,我們選取了部分數據進行二次標註,以確保標籤的準確性。所有驗證和測試數據的標籤均為3/5多數投票決定,不合格的數據點標籤為"-",實驗中應將這些數據排除。

- 為了保證數據質量,我們的標註人員均為語言相關專業的本科生。OCNLI的完成離不開所有參與標註同學的辛勤努力,我們在此表示感謝!

參考文獻:

- Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.

- Ido Dagan, Oren Glickman, and Bernardo Magnini. 2005. The PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the PASCAL Challenges Workshop on Recognizing Textual Entailment.

- Alexis Conneau, Douwe Kiela, Holger Schwenk, Loı̈c Barrault, and Antoine Bordes. 2017. Supervised learning of universal sentence representations from natural language inference data. In Proceedings of EMNLP.

- Samuel R Bowman, Jennimaria Palomaki, Livio Baldini Soares, and Emily Pitler. 2020. Collecting entailment data for pretraining: New protocols and negative results. arXiv preprint arXiv:2004.11997.

- Harsh Trivedi, Heeyoung Kwon, Tushar Khot, Ashish Sabharwal, and Niranjan Balasubramanian. 2019. Repurposing entailment for multi-hop question answering Tasks. Proceedings of NAACL.

- Kyle Richardson, Hai Hu, Lawrence S Moss, and Ashish Sabharwal. 2020. Probing Natural Language Inference Models through Semantic Fragments. In Proceedings of AAAI.

由於微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為:

(1)點擊頁面最上方"AINLP",進入公眾號主頁。

(2)點擊右上角的小點點,在彈出頁面點擊「設為星標」,就可以啦。

感謝支持,比心

進群請添加AINLP小助手微信 AINLPer(id: ainlper),備註預訓練模型

推薦閱讀

這個NLP工具,玩得根本停不下來

徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)

完結撒花!李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)

從數據到模型,你可能需要1篇詳實的pytorch踩坑指南

如何讓Bert在finetune小數據集時更「穩」一點

模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法

文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化

Node2Vec 論文+代碼筆記

模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

中文命名實體識別工具(NER)哪家強?

學自然語言處理,其實更應該學好英語

史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用

關於AINLP

AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。

閱讀至此了,分享、點讚、在看三選一吧🙏

相關焦點

  • 中文自然語言處理數據集:ChineseNLPCorpus
    點擊上方「MLNLP」,選擇「星標」公眾號重磅乾貨,第一時間送達推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。
  • 精彩回顧 | CLUE2020年度總結
    國際自然語言處理與中文計算會議等重要國際會議上發表了多篇高水平的學術論文。        CLUE在2020年整理髮布了多個開源項目,同時還推出了中文NLP數據集搜索功能,受到了很多關注。        1、CLUE,中文語言理解測評基準-主項目  -->  1522 star        2、CLUEDatasetSearch,中文NLP數據集搜索,搜索所有中文數據集,附常用英文數據集  -->  1334 star        3、CLUENER2020,
  • 中文NLP熱點|AMBERT模型在CLUE等數據集上獲卓越表現
    在此背景下,構建中文自然語言理解評價標準體系,為中文NLP打造高質量衡量效果平臺已是當務之急。它包含八個不同的任務,包括單句分類、句子對分類和機器閱讀理解,團隊評估了CLUE現有的一些全網絡的中文預訓練模型,還包括一個小的手工製作的診斷測試集,使用不同的模型去探索特定的語言現象(其中一些是中國特有的)。項目還提供一個大型的乾淨原始的原始文本語料庫,可用於模型預訓練,在Github上發布的CLUE、基線、預訓練數據集可以為大家提供一個可以訓練中文模型的語言數據集。
  • 中文自然語言處理數據集:ChineseNLPCorpus(附連結)
    本文為你推薦中文自然語言處理數據集。推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理數據集的相關連結,可以用來練手,點擊閱讀原文可以直達該項目連結:https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁中文自然語言處理數據集,平時做做實驗的材料。歡迎補充提交合併。
  • 百度聯合發布全球最大中文自然語言處理數據共建計劃「千言」
    來源:證券時報網在8月25日舉行的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜和百度技術委員會主席吳華分別發布百度語言與知識技術系列產品和數據集共建計劃,推出5款產品的新發布,全面加速AI技術大規模應用。
  • ChineseGLUE(CLUE):針對中文自然語言理解任務的基準平臺
    導語2018 年,來自紐約大學、華盛頓大學、DeepMind 機構的研究者創建了一個多任務自然語言理解基準和分析平臺——GLUE(General Language
  • 最全中文自然語言處理數據集、平臺和工具整理
    資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA    SIGHAN Bakeoff 2005:一共有四個數據集,包含繁體中文和簡體中文,下面是簡體中文分詞數據。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的論文。
  • 中文自然語言處理開放任務介紹、數據集、當前最佳結果分享
    本文整理了中文自然語言處理相關開放任務,詳細任務說明,數據集,相關評價指標,以及當前最佳結果整理。涉及指代消歧 ,對話狀態管理,情緒分類,實體連結 ,實體標註 (Entity Tagging),語言模型 ,機器翻譯 ,詞性標註 ,問答,關係抽取等任務。
  • 超100億中文數據,要造出中國自己的BERT!首個專為中文NLP打造的語言理解基準CLUE升級
    目前擁有八個數據集的整體測評及其基線模型,30多位來自各個頂尖機構的志願者加入並成為了會員。CLUE還發布了已經處理好的100G大規模中文語料,研究者可直接拿來做預訓練,完成下遊的語言理解、文本分類等任務。「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」分在不同的位置意思大不同。
  • 中文自然語言處理數據共建讓機器讀懂「千言」
    「機器人保姆要想真正走入家庭,自然語言是第一關。」達闥科技總裁黃曉慶在此前的一次座談上對記者說。   自然語言理解(NLP)素有「人工智慧皇冠上的明珠」的盛譽,語言與知識技術是人工智慧認知能力的核心。這也意味著語言與知識等認知層面的技術突破,將進一步促進AI深入發展。
  • 中文語言理解基準測評(CLUE)論文被COLING 2020高分錄用
    中文語言理解基準測評(CLUE)論文被COLING 2020錄用,為長文一篇標題:, Weijian Xie, Yanting Li, Yina Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng Zhao, Cong Yue, Xinrui Zhang, Zhengliang Yang, Kyle Richardson and Zhenzhong Lan領域:中文語言理解
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    機器之心發布機器之心編輯部大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。
  • 最全的中文語言處理數據集、平臺和工具!
    資源整理了文本分類、實體識別&詞性標註、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。    https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA    SIGHAN Bakeoff 2005:一共有四個數據集,包含繁體中文和簡體中文,下面是簡體中文分詞數據。
  • 中文語言理解基準測評(chineseGLUE)來了,公開徵集數據集進行中
    Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard中文語言理解測評基準,包括代表性的數據集、基準(預訓練)模型、語料庫、排行榜。
  • ChineseGLUE:為中文NLP模型定製的自然語言理解基準
    然而,現有的 GLUE 基準針對的是英文任務,無法評價 NLP 模型處理中文的能力。為了填補這一空白,國內關注 NLP 的熱心人士發布了一個中文語言理解測評基準——ChineseGLUE。ChineseGLUE 目前擁有八個數據集的整體測評及其基線模型,目前已經有 20多位來自各個頂尖機構的自願者加入並成為了創始會員。
  • 谷歌發布自然問答數據集 Natural Questions
    Google 發布用於訓練和評估開放領域(Open-domain)問答系統的大型語料庫 Natural Questions(NQ
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    機器閱讀理解讓機器閱讀文本,然後回答和閱讀內容相關的問題,其中涉及到的理解、推理、摘要等複雜技術,對機器而言頗具挑戰。該任務的研究對於智能搜索、智能推薦、智能交互等人工智慧應用具有重要意義,是自然語言處理和人工智慧領域的重要前沿課題。這也是百度聯合舉辦2018機器閱讀理解技術競賽的重要原因。
  • NLPer福利-中文語言理解基準測【CLUEbenchmark】
    CLUE benchmark的定位 Vision為更好的服務中文語言理解、任務和產業界,做為通用語言模型測評的補充,通過完善中文語言理解基礎設施的方式來促進中文語言模型的發展數據集介紹與下載 Introduction of datasets提交樣例下載1.
  • 谷歌開放全新自然語言數據集:多元化場景更詳細標註,讓 AI 助手更...
    雷鋒網 AI 開發者:近日,谷歌宣布開放兩個新的自然語言對話數據集,分別是 Coached Conversational Preference Elicitation(CCPE)和 Taskmaster-1。這兩個數據集旨在對更接近人類對話的數據進行更詳細的標註,並提供到自然語言處理相關研究者更符合生活實際的數據內容。