OCNLI(Original Chinese Natural Language Inference),原生/原創中文自然語言推理數據集,是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。
OCNLI包含5萬餘訓練數據,3千驗證數據及3千測試數據。我們將提供訓練與驗證集的數據及標籤。測試數據僅提供數據,不提供標籤。OCNLI為中文語言理解基準測評(CLUE benchmark)的一部分。
數據集下載連結:https://github.com/CLUEbenchmark/OCNLI
Leaderboard提交連結:https://www.cluebenchmarks.com/nli.html
論文:Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.
論文連結:https://arxiv.org/abs/2010.05444
近年來,自然語言推理(Natural Language Inference,NLI)逐步成為自然語言理解中的核心任務。Dagan et al 2005認為自然語言推理與paraphrase, summarization, information retrieval, QA等多種重要任務緊密相連,可以作為綜合性任務來測試模型對語義理解的掌握。而NLI的數據作用遠不止於推理任務本身,它也可以用來構造sentence embeddings (Conneau et al 2017), 進行intermediate-task training (Bowman et al 2020), 幫助問答任務 (Trivedi et al 2019),模型探測 (Richardson et al 2020),等等。
英語數據集如SICK, SNLI, MNLI, SciTail, alphaNLI, ANLI等層出不窮,然而中文幾乎沒有這方面的大型數據集。唯一例外可能要算將MNLI翻譯成多種語言(包括中文)的XNLI數據集了。但是翻譯的數據集質量堪憂,也缺少中文語境和中國文化背景下的推理。因此,我們參考並改進了MNLI的數據收集方法,收集建立了原生(原創)中文自然語言推理數據集,即OCNLI。
自然語言推理任務可以概括為,判斷「前提」(Premise)與「假設」(Hypothesis)的「推理關係」(Inference relation)。如:
前提(Premise)
推理關係
(Inference relation)
假設(Hypothesis)
和呂鴻賓共事幾十年的村會計楊進躬身進屋,小心翼翼推出老模範那輛50年代買的自行車
entailment
蘊含
E1: 楊進與呂鴻賓共事的時間非常久
E2: 楊進是村會計
neutral
未知
N1: 呂鴻賓和楊進的關係很好
N2: 呂鴻賓曾被評為模範
contradiction
矛盾
C1: 自行車的款式非常新
C2: 故事發生的地點為城裡
(該例選自OCNLI)
也就是說,在前提為真的情況下,E1與E2也為真,或者說可以從前提通過推理得出E1和E2。同時,在前提為真的情況下,我們無法得知N1與N2是否也為真,但是可以得出C1和C2是(幾乎)不可能成立的。這就是自然語言推理任務。
OCNLI的特點:
- OCNLI改進了SNLI、MNLI數據收集和標註方法,使數據難度更大,對現有模型更有挑戰性。目前(2020年10月)人類測評得分比模型最高分高出12%。同時,驗證集和測試集的數據分為easy, medium, hard三個難度。
- OCNLI的前提(premise)選自5種不同的文體:政府公文、新聞、文學、電視談話節目、電話錄音。
- 與SNLI、MNLI類似,我們選取了部分數據進行二次標註,以確保標籤的準確性。所有驗證和測試數據的標籤均為3/5多數投票決定,不合格的數據點標籤為"-",實驗中應將這些數據排除。
- 為了保證數據質量,我們的標註人員均為語言相關專業的本科生。OCNLI的完成離不開所有參與標註同學的辛勤努力,我們在此表示感謝!
參考文獻:
- Hai Hu, Kyle Richardson, Liang Xu, Lu Li, Sandra Kübler, and Larry Moss. 2020. OCNLI: Original Chinese Natural Language Inference. In Findings of EMNLP.
- Ido Dagan, Oren Glickman, and Bernardo Magnini. 2005. The PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the PASCAL Challenges Workshop on Recognizing Textual Entailment.
- Alexis Conneau, Douwe Kiela, Holger Schwenk, Loı̈c Barrault, and Antoine Bordes. 2017. Supervised learning of universal sentence representations from natural language inference data. In Proceedings of EMNLP.
- Samuel R Bowman, Jennimaria Palomaki, Livio Baldini Soares, and Emily Pitler. 2020. Collecting entailment data for pretraining: New protocols and negative results. arXiv preprint arXiv:2004.11997.
- Harsh Trivedi, Heeyoung Kwon, Tushar Khot, Ashish Sabharwal, and Niranjan Balasubramanian. 2019. Repurposing entailment for multi-hop question answering Tasks. Proceedings of NAACL.
- Kyle Richardson, Hai Hu, Lawrence S Moss, and Ashish Sabharwal. 2020. Probing Natural Language Inference Models through Semantic Fragments. In Proceedings of AAAI.
由於微信平臺算法改版,公號內容將不再以時間排序展示,如果大家想第一時間看到我們的推送,強烈建議星標我們和給我們多點點【在看】。星標具體步驟為:
(1)點擊頁面最上方"AINLP",進入公眾號主頁。
(2)點擊右上角的小點點,在彈出頁面點擊「設為星標」,就可以啦。
感謝支持,比心。
進群請添加AINLP小助手微信 AINLPer(id: ainlper),備註預訓練模型推薦閱讀
這個NLP工具,玩得根本停不下來
徵稿啟示| 200元稿費+5000DBC(價值20個小時GPU算力)
完結撒花!李宏毅老師深度學習與人類語言處理課程視頻及課件(附下載)
從數據到模型,你可能需要1篇詳實的pytorch踩坑指南
如何讓Bert在finetune小數據集時更「穩」一點
模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法
文本自動摘要任務的「不完全」心得總結番外篇——submodular函數優化
Node2Vec 論文+代碼筆記
模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結
中文命名實體識別工具(NER)哪家強?
學自然語言處理,其實更應該學好英語
史丹福大學NLP組Python深度學習自然語言處理工具Stanza試用
關於AINLP
AINLP 是一個有趣有AI的自然語言處理社區,專注於 AI、NLP、機器學習、深度學習、推薦算法等相關技術的分享,主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預訓練模型、推薦系統、計算廣告、招聘信息、求職經驗分享等,歡迎關注!加技術交流群請添加AINLPer(id:ainlper),備註工作/研究方向+加群目的。
閱讀至此了,分享、點讚、在看三選一吧🙏