本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的論文。該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。
論文名稱:A Span-Extraction Dataset for Chinese Machine Reading Comprehension
論文作者:崔一鳴,劉挺,車萬翔,肖莉,陳致鵬,馬文濤,王士進,胡國平
下載連結:https://www.aclweb.org/anthology/D19-1600/
項目地址:https://github.com/ymcui/cmrc2018
摘要簡介機器閱讀理解(Machine Reading Comprehension, MRC)任務在近些年受到廣泛關注。然而,大多數閱讀理解數據集是英文材料。在本文中,我們提出了一種基於篇章片段抽取的中文閱讀理解數據集CMRC 2018以豐富這項任務的語言多樣性。CMRC 2018數據集包含了約20,000個在維基百科文本上人工標註的問題。同時,我們還標註了一個挑戰集,其中包含了需要多句推理才能夠正確解答的問題,更富有挑戰性。我們給出了若干個基線系統以及在本數據集上測試驗證的匿名系統。該數據集同時也是第二屆「訊飛杯」中文機器閱讀理解評測使用的數據。我們希望該數據集的發布能夠進一步促進中文機器閱讀理解的技術研究。
本文的主要貢獻點:
我們提出了一個篇章片段抽取的中文閱讀理解數據集CMRC 2018,包含兩萬個人工標註的問題。
除了常規的開發集和測試集之外,我們額外標註了一個挑戰集,包含了需要綜合推理才能解答的問題,對未來的閱讀理解系統發起挑戰。
所提出的數據集也可以作為跨語言研究的素材使用,來探究不同語種在同一任務上的性能表現。
CMRC 2018數據集是一個基於篇章片段抽取的中文閱讀理解數據集,對標英文的SQuAD數據集。系統需要閱讀一篇文章,並使用篇章中的某個連續片段回答相關問題。我們下載了2018年1月22日的中文維基百科數據,並使用Wikipedia Extractor將原始數據處理為純文本。我們也使用了opencc工具將文本中的繁體中文轉為簡體中文。
在篇章篩選上,我們採用了如下標準(滿足任意一條則剔除):
包含超過30%以上的非中文文本
包含太多專業文本
包含太多特殊字符、符號等
採用了古文、文言文等古代漢語書寫
在問題標註上,我們採用了如下標準:
除了常規的開發集和測試集之外,我們標註了一個挑戰集,其中包含了需要綜合推理才能解答的問題,但仍然保持篇章片段抽取的形式。挑戰集採用了如下標註標準:
下圖給出了一個挑戰集中的樣例。
圖1 CMRC 2018挑戰集樣例
最後我們得到了整個CMRC 2018數據集,其綜合統計數據以及開發集中的問題分布如下所示。
表1 CMRC 2018數據集的統計信息
圖2 CMRC 2018開發集上的問題類型分布
基線系統我們提供了基於中文BERT、多語種BERT的基線系統來測試該數據集的難度。評價標準採用了EM(精準準確率)以及F1(模糊準確率)。同時,我們提供了預估的人類平均水平供未來參考。表2 CMRC 2018數據集上的效果
我們可以看到多數系統在開發集和測試集上取得了不錯的效果。相比於英文SQuAD數據上已有部分系統超過人類平均水平,在CMRC 2018數據集上暫未有系統超過人類平均水平,說明該數據集具有一定的難度。同時我們可以看到在挑戰集上,多數系統的效果距離人類平均水平還有非常大的差距,說明目前的模型在需要複雜推理和綜合歸納的問題上仍然具有較大的提升空間。為了進一步促進中文機器閱讀理解技術發展,評測委員會決定開展CMRC 2018 Open Challenge,繼續接收評測系統在隱藏的測試集和挑戰集上進行評測,同時將結果更新至Open Challenge排行榜中。該挑戰賽將作為一個持續的項目進行運營,期待各參賽單位所研發的系統能夠進一步提升挑戰集合的技術水平。更多內容請查閱:https://bit.ly/2ZdS8Ct
結論在本文中我們提出了一個基於篇章片段抽取的中文閱讀理解數據集CMRC 2018,包含了兩萬個人工標註的問題。同時該數據集還包含一個挑戰集,包含了需要綜合推理才能夠解答的問題。雖然多數系統在開發集和測試集上能夠達到較好的水平,但仍未超過人類平均水平,而挑戰集上的結果更是距離人類平均水平較遠。我們希望該數據集的發布能夠進一步促進中文機器閱讀理解技術的發展,並且歡迎更多的研究者在我們的挑戰集上測試系統效果。
點擊「閱讀原文」直達相關項目地址。