EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集

2021-03-02 哈工大訊飛聯合實驗室

本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的論文。該論文提出了一種基於篇章片段抽取的中文閱讀理解數據集,也是由哈工大訊飛聯合實驗室承辦的第二屆「訊飛杯」中文機器閱讀理解評測(CMRC 2018)使用的數據。第二屆CCL「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2018)由中國中文信息學會計算語言學專委會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名,於2018年10月19日在湖南長沙圓滿落幕。

基本信息

論文名稱:A Span-Extraction Dataset for Chinese Machine Reading Comprehension

論文作者:崔一鳴,劉挺,車萬翔,肖莉,陳致鵬,馬文濤,王士進,胡國平

下載連結:https://www.aclweb.org/anthology/D19-1600/ 

項目地址:https://github.com/ymcui/cmrc2018

摘要簡介

機器閱讀理解(Machine Reading Comprehension, MRC)任務在近些年受到廣泛關注。然而,大多數閱讀理解數據集是英文材料。在本文中,我們提出了一種基於篇章片段抽取的中文閱讀理解數據集CMRC 2018以豐富這項任務的語言多樣性。CMRC 2018數據集包含了約20,000個在維基百科文本上人工標註的問題。同時,我們還標註了一個挑戰集,其中包含了需要多句推理才能夠正確解答的問題,更富有挑戰性。我們給出了若干個基線系統以及在本數據集上測試驗證的匿名系統。該數據集同時也是第二屆「訊飛杯」中文機器閱讀理解評測使用的數據。我們希望該數據集的發布能夠進一步促進中文機器閱讀理解的技術研究。

本文的主要貢獻點:

我們提出了一個篇章片段抽取的中文閱讀理解數據集CMRC 2018,包含兩萬個人工標註的問題。

除了常規的開發集和測試集之外,我們額外標註了一個挑戰集,包含了需要綜合推理才能解答的問題,對未來的閱讀理解系統發起挑戰。

所提出的數據集也可以作為跨語言研究的素材使用,來探究不同語種在同一任務上的性能表現。

CMRC 2018數據集

CMRC 2018數據集是一個基於篇章片段抽取的中文閱讀理解數據集,對標英文的SQuAD數據集。系統需要閱讀一篇文章,並使用篇章中的某個連續片段回答相關問題。我們下載了2018年1月22日的中文維基百科數據,並使用Wikipedia Extractor將原始數據處理為純文本。我們也使用了opencc工具將文本中的繁體中文轉為簡體中文。

在篇章篩選上,我們採用了如下標準(滿足任意一條則剔除):

包含超過30%以上的非中文文本

包含太多專業文本

包含太多特殊字符、符號等

採用了古文、文言文等古代漢語書寫

在問題標註上,我們採用了如下標準:

除了常規的開發集和測試集之外,我們標註了一個挑戰集,其中包含了需要綜合推理才能解答的問題,但仍然保持篇章片段抽取的形式。挑戰集採用了如下標註標準:

下圖給出了一個挑戰集中的樣例。

圖1 CMRC 2018挑戰集樣例

最後我們得到了整個CMRC 2018數據集,其綜合統計數據以及開發集中的問題分布如下所示。

表1 CMRC 2018數據集的統計信息

圖2 CMRC 2018開發集上的問題類型分布

基線系統我們提供了基於中文BERT、多語種BERT的基線系統來測試該數據集的難度。評價標準採用了EM(精準準確率)以及F1(模糊準確率)。同時,我們提供了預估的人類平均水平供未來參考。

表2 CMRC 2018數據集上的效果

我們可以看到多數系統在開發集和測試集上取得了不錯的效果。相比於英文SQuAD數據上已有部分系統超過人類平均水平,在CMRC 2018數據集上暫未有系統超過人類平均水平,說明該數據集具有一定的難度。同時我們可以看到在挑戰集上,多數系統的效果距離人類平均水平還有非常大的差距,說明目前的模型在需要複雜推理和綜合歸納的問題上仍然具有較大的提升空間。
開放式挑戰

為了進一步促進中文機器閱讀理解技術發展,評測委員會決定開展CMRC 2018 Open Challenge,繼續接收評測系統在隱藏的測試集和挑戰集上進行評測,同時將結果更新至Open Challenge排行榜中。該挑戰賽將作為一個持續的項目進行運營,期待各參賽單位所研發的系統能夠進一步提升挑戰集合的技術水平。更多內容請查閱:https://bit.ly/2ZdS8Ct

結論

在本文中我們提出了一個基於篇章片段抽取的中文閱讀理解數據集CMRC 2018,包含了兩萬個人工標註的問題。同時該數據集還包含一個挑戰集,包含了需要綜合推理才能夠解答的問題。雖然多數系統在開發集和測試集上能夠達到較好的水平,但仍未超過人類平均水平,而挑戰集上的結果更是距離人類平均水平較遠。我們希望該數據集的發布能夠進一步促進中文機器閱讀理解技術的發展,並且歡迎更多的研究者在我們的挑戰集上測試系統效果。

點擊「閱讀原文」直達相關項目地址。

延伸閱讀原文:崔一鳴
 編輯:HFL 編輯部

相關焦點

  • 機器閱讀理解(基於BiDAF實現片段抽取)
    任務類型:根據答案的形式,機器閱讀理解任務被細分為完型填空式、多項選擇式、片段抽取式和自由作答式四類,這四類任務從易到難,見證了機器閱讀理解技術的發展。多項選擇:多項選擇數據集為(文檔,問題,候選答案集,答案)四元組形式,機器閱讀文檔和問題後,從候選答案集中挑選正確的答案,如MCText,RACE。RACE數據集源自初高中英語考試試題,包含約2.8萬篇文章和10萬個專家問題,用於測試機器的理解和推理能力。
  • 機器閱讀理解簡述
    閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1.
  • 【賽爾筆記】機器閱讀理解簡述
    閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1. 填
  • 賽爾筆記 | 機器閱讀理解簡述
    閱讀理解大致可以分為四個任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由格式閱讀理解任務。隨著以BERT為代表的預訓練模型的發展,四種閱讀理解任務都有著飛速的發展,主要體現為從關注限定文本到結合外部知識,從關注特定片段到對上下文的全面理解。本文對上述幾種主流的機器閱讀理解任務從任務描述、相關數據集、解決方法等幾方面逐一展開介紹。1.
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 30 萬獎金海華 AI 挑戰賽 | 用機器挑戰中文閱讀理解
    到目前為止,SQuAD 和 SQuAD 2.0 都是機器閱讀理解領域最重要的數據集之一,同時也引發了一波搭建閱讀理解數據集的熱潮。 在題型方面,SQuAD 既不是多項選擇也不是完形填空,而是要求模型從原文中抽取一個或幾個連續詞組成的文字片段作為問題答案。
  • 實體-關係信息抽取上線使用F1值87.1% (附數據集)
    TensorFlow 的實體及關係抽取,2019語言與智能技術競賽信息抽取(實體與關係抽取)任務解決方案。本次競賽使用的SKE數據集是業界規模最大的基於schema的中文信息抽取數據集,其包含超過43萬三元組數據、21萬中文句子及50個已定義好的schema,表1中展示了SKE數據集中包含的50個schema及對應的例子。
  • 賽爾原創 | 基於連通圖的篇章級事件抽取與相關度計算
    摘要:事件抽取及基於此的事件相關度計算在自然語言處理領域有著非常廣泛的應用前景。
  • 30萬獎金海華AI挑戰賽 | 用機器挑戰中文閱讀理解
    因此我們看多有越來越多新型的閱讀理解數據集不斷湧現。但總體而言,閱讀理解數據集仍可以進行大致的分類。例如,按照答案格式分為以下幾類:1)選擇,2)完形填空,3)自由文本(free text),4)文本片段(span);按照語料素材可以分為:1)文章,2)多模態(如需要理解圖片的數據集)。但這些分類標準其實較為模糊,不同類別之間存在交集,有的數據集會同時屬於多種類別。
  • ACL 2019論文分享:百度閱讀理解知識和文本融合模型KT-NET
    通過在海量無標註文本數據上預訓練足夠深的網絡結構,使當前最先進的語言表示模型能夠捕捉複雜的語言現象,更好地理解語言、回答問題。然而, 基於語言表示的機器閱讀理解模型通常還是從詞法、句法層面抽取答案,缺乏相應的背景知識以支撐對問題的深度理解和精準回答。
  • 哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首
    HotpotQA挑戰賽(幹擾項賽道)最新榜單(截至2019年10月24日)2019年3月,哈工大訊飛聯合實驗室在國際權威閱讀理解評測SQuAD 2.0中首次超過人類平均水平,意味著機器已經能夠充分理解一般難度的文本語義
  • 基於Bert-NER構建特定領域的中文信息抽取框架(上)
    本文對比了基於 Bert 的命名實體識別框架和普通的序列標註框架在模型訓練、實體預測等方面的效果,並對基於小數據集的訓練效果做出實驗驗證。 Word Embedding-BiLSTM-CRF 眾多實驗表明,該結構屬於命名實體識別中最主流的模型,代表的工具有:NeuroNER)。
  • AI機器閱讀理解已超越人類!
    在自然語言處理技術中,機器閱讀理解是繼語音判斷、語義理解之後最大的挑戰:讓智能體理解全文語境。不只是要處理語音和簡單的語義,而是要理解和關注詞彙、語句、篇章結構、思維邏輯、輔助語句和關鍵句等等元素構成的複雜組織網絡。該任務的起源可追溯到 20 世紀 70 年代,但是受限於小規模數據集和基於規則的傳統方法,使機器閱讀理解系統在當時並不能滿足實際應用的需求。
  • EMNLP 2019 參會小結及最佳論文解讀
    本篇文章是RUC AI Box小組成員分享了他們參加今年EMNLP 2019會議的感想和總結,同時精選了EMNLP 2019獲獎論文進行解讀。作者介紹卞書青,中國人民大學2019級博士研究生、研究方向自然語言處理。
  • 《中文信息學報》新刊概覽∣ 2020年第4期(34卷第4期)
    第一,採用基於詞的論元表示,避免了片段邊界的確定,從而降低標註難度;第二,標註者直接根據句子上下文信息,標註謂詞相關論元角色,而無須預先定義每個謂詞的所有語義框架;第三,顯式標註句子中省略的核心論元,更準確地刻畫句子的語義信息。此外,為了保證標註一致性和提高數據標註質量,規範針對各種複雜語言現象,給出了明確的優先級規定和難點分析。
  • 模型NLP事件抽取方法總結
    本系列文章主要分享近年來事件抽取方法總結,包括中文事件抽取、開放域事件抽取、事件數據生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。漂白語句是指基於注釋準則、描述事件發生的通常情況的機器可讀的自然語言句子。實驗結果表明,模型能夠提取封閉本體下的事件,並且只需閱讀新的漂白語句即可將其推廣到未知的事件類型。
  • 2018機器閱讀理解競賽獲獎名單出爐 百度數據集點亮行業創想
    近日,由中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手百度公司共同舉辦的「2018機器閱讀理解技術競賽」 圓滿落幕。來自全球各地的1062支參賽隊伍,在百度提供的中文閱讀理解數據集基礎上,對測試問題進行不斷探索,使得參賽系統水平得到顯著提升。大賽更多信息可登錄2018機器閱讀理解技術競賽官網http://mrc2018.cipsc.org.cn/查看。
  • Deepmind 最新閱讀理解數據集 NarrativeQA ,讓機器挑戰更複雜閱讀...
    而最近, Deepmind 發布了一個新的閱讀理解數據集 NarrativeQA,那麼這個數據集有什麼特點呢?一起來和雷鋒網了解一下。在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解釋了這個推出這個數據集的初衷:自然語言理解試圖創建閱讀和理解文本的模型。評估理解模型語言理解能力的一個常用策略是證明他們能回答他們所閱讀的文檔的問題,類似於兒童在學習閱讀時如何理解閱讀內容的能力。
  • 中文自然語言處理開放任務介紹、數據集、當前最佳結果分享
    本文整理了中文自然語言處理相關開放任務,詳細任務說明,數據集,相關評價指標,以及當前最佳結果整理。涉及指代消歧 ,對話狀態管理,情緒分類,實體連結 ,實體標註 (Entity Tagging),語言模型 ,機器翻譯 ,詞性標註 ,問答,關係抽取等任務。