面向課程學習,解讀中文多項選擇數據集「RACE-C」

2021-02-28 數據實戰派

 圖片出處:unsplash.com

深度學習和大規模數據集的興起,讓我們見證了機器閱讀理解(MRC, Machine Reading Comprehension)的快速發展,尤其是極具挑戰性的子任務 —— 多項選擇閱讀理解(MCRC, Multiple-Choice Reading Comprehension)。而大規模數據集的發布更有力地推動了這一領域的研究。

然而,先前提出的方法在 MCRC 數據集上已經交出了很好的 「成績單」,如收集自中國學生的初、高中的英語考試的、目前使用最廣泛的大規模選擇型閱讀理解數據集 RACE(ReAding Comprehension dataset collected from English Examinations)。所以,為了更好地評估新方法的理解能力,有必要提出一個更具挑戰性的、需要更多推理和推論的數據集。

為了滿足這種需求,來自中山大學的一支團隊在 ACML2019 發表的論文《A New Multi-choice Reading Comprehension Dataset for Curriculum Learning》中提出了一個新的多選題閱讀理解數據集 ——RACE-C。

該數據集收集自中國大學英語考試,旨在解決多項選擇閱讀理解問題,也就是從一組考生給定的問題和文章中選擇正確的答案。團隊成員將其提出的數據集與 2017 年 Lai 等人分別從初、高中考試中收集的 RACE-M 和 RACE-H 兩個數據集進行整合,將 RACE 擴展為新版本 RACE++ 數據集。基於 RACE++ 數據集,團隊還提出了一個三階段的課程學習(Curriculum Learning)框架,此框架能夠按難度等級升序的特點最大限度地利用這三個子數據集。統計數據顯示,與 RACE 的兩個子數據集 RACE- M 和 RACE- H 相比,這支團隊收集的 RACE- C 數據集的難度係數更高,效果更好。

如今的信息爆炸時代,若要自然語言處理和理解領域的 AI 系統幫助人們高效、準確地從海量數據中抓取有用信息,需要機器掌握閱讀和理解的技能,MRC 任務應運而生。

簡單來說,MRC 任務的目標就是通過機器根據上下文回答問題的情況,測試其理解自然語言的程度。這種 AI 能力具有廣泛的商業應用潛力,比如回答維基百科文檔中的常識問題,或者回答公司財務報告中的問題,亦或是使用產品手冊進行故障排除等等。

伴隨著各種大規模數據集的快速發布, MRC 得到了充分的研究。依據數據集的格式劃分,MRC 任務可大致分為三種類型,即完形填空式 MRC、片段抽取式 MRC 和多項選擇式 MRC。

而本文將介紹的工作,主要關注教育專家設計的多項選擇考試數據集,因為這些數據集的問題通常表述的非常清晰、沒有錯誤,並且具有挑戰性。在閱讀理解研究之初,多項選擇閱讀理解(MCRC, Multiple-Choice Reading Comprehension)任務的發展步履維艱,因為缺少大規模的數據集,也就沒法嘗試神經網絡的方法。

為了給閱讀理解任務帶來更多的挑戰,緩解大規模多項選擇閱讀理解數據集的缺失,數據集 RACE 出現了。正因這個大規模數據集的出現,NLP 出現了新的突破,使得訓練和評估基於神經網絡的複雜模型以及測量 MCRC 的發展成為了可能。

不可否認地,RACE 在推動 MRC 發展的同時,也潛藏著很多值得挖掘的問題。例如,數據清理過程是否合理?儘管 RACE 的收集團隊做了刪除聲明,已經刪除了包含關鍵字 「underlined」 的問題以避免下劃線效果的不可再現性,但現實情況下包含關鍵詞 「underline」 的問題沒有被刪除,其次,RACE 在一定程度上是重複的。

據此,研究團隊得出結論:該數據集的性能幾乎發揮到最高水平,其難度對於目前較前沿的模型(如 XLNe、 DCMN、OCN、BERT、閱讀策略模型、GPT 等)在語義信息和語法結構上已經比較有限。這也就引出了發布更具挑戰性數據集測試上述最新模型的必要性。

因此,團隊提出了構建難度更高的新的數據集 RACE-C。

RACE-C 數據集的構建

RACE-C 由各種大學英語考試中收集而得,繼承了與 RACE 相同的數據格式,大部分問題的正確答案可能不會直接出現在原文中,需要依賴於對自然語言和知識的理解,更具推理性,可以更好地測試 MCRC 模型的性能。此外,團隊還將 RACE 和 RACE- C 合併到 RACE++ 中,構成更完整的數據集。

團隊成員從各種英語考試(包括實踐測試)中收集大學閱讀理解數據集,如大學英語考試,英語專業考試,專業職稱英語考試和全國公共英語等級考試(一級)等,這些考試共同的特點是由專業英語教師來設計題目和難度,以評估大學英語學習者(通常是 18 - 24 歲)的閱讀理解水平。遵循 RACE 的命名規則,RACE- M 表示初中考試,RACE- H 表示高中考試,而大學考試則稱為 RACE-C。其中,RACE-C 的主題覆蓋面最廣,內容上包羅萬象,如動植物、傳記、歷史、文化、資源、環境、交通、經濟、醫藥和信息等。重要的是,RACE-C 中的所有問題都是開源的,以供公眾方便使用。每道題由一篇短文和一系列多項選擇題組成。注意,清洗前的數據包含 4,451 篇文章和 22,692 個問題項。

那麼,研究團隊是如何清理原數據的?

揭曉答案:首先,刪除所有問題數量與選項列表或答案列表數量不匹配的問題,比如說,有 5 個問題但只存在 4 個答案或 4 個選項列表的情況會被完全刪除。換句話說,只有問題、選項列表和答案數量一致的問題才會被保留。

其次,刪除所有與問題設置格式不一致的問題,例如,如果一個問題的選項設置不是 4 個,那麼將其刪除。然後,刪除含有圖像或表格的文章和問題以及所有包含關鍵字 「underline」 或 「underlined」 的問題,因為很難再現下劃線的效果。但是研究團隊並沒有刪除包含關鍵字 「paragraph」 的問題,畢竟還希望模型能夠從文章中獲取段落段信息。

最後,刪除所有重複的文章。經過上述處理,團隊得到清洗後的數據集 RACE-C,其中包含 4,275 篇文章和 14,122 個問題。如表 1 左側所示的數據集樣例。

表 1:RACE-C 和 RACE 中的閱讀理解例題。

作者匯總了表 2 中的數據分割(data split)和表 3 中的 RACE- C 統計數據,分別總結了 RACE (RACE- M 和 RACE- H) 的數據分區和統計數據。隨著 RACE,研發團隊將 5% 的數據作為驗證集和 5% 設置為測試集。

表 2

表 3

如表 3 所示,RACE-M、RACE-H、RACE-C 中文章的單詞或句子的平均數是按遞增順序排列的,所以問題和選項的平均單詞數也是如此,剛好證明這一假設,初中、高中和大學英語考試的難度都保持著逐漸增加的趨勢。此外,RACE-C 數據集中的總單詞數為 1727,117,而 RACE-M 中的總單詞數為 2497,893。但是 RACE-C 的詞彙量是 58,812,而 RACE-M 是 38,564。換句話說,RACE-C 的詞彙量是 RACE-M 的 1.5 倍,而整個的 RACE-C 的單詞規模是 RACE-M 的十分之七。順便說一下,RACE-H 因其規模太大,與 RACE-C 無法進行合理比較,作者便採用公式 1 的形式來評估 RACE-C、RACE-H 以及 RACE-M 的不重複率。

其中,表示 RACE-C 的詞彙量,而可以指定為或者兩者之一,分別代表 RACE-M 或 RACE-H 的詞彙量大小。藉助這個規則,可以得出 RACE-H 和 RACE-C 的不重複率為 38.5%,這反映出,儘管 RACE-H 的詞彙規模大得多(約為 RACE-C 的 2.4 倍),但 RACE-C 中仍然有一部分單詞並未出現在 RACE-H 中;此外,RACE-C 與 RACE-M 的不重複率為 70.1%,說明 RACE-C 中大部分單詞的水平較高,難度也高,沒有出現在 RACE-M 中。這些統計有力地證明了大學數據集 RACE-C 顯然要比 RACE (包括 RACE-M 和 RACE-H) 更難,需要更強的推理能力。而表 1 的右側便是 RACE 數據集樣例的直觀表示。

另外,研究團隊發現 RACE 中的數據並不像論文中宣稱的那樣,沒有噪聲,從表 3 的統計數據中,可以清晰發現,RACE-H 中針對每篇文章最小問題數一項上顯示為零值,而且數據集中的很多文章僅有一個句子。因此,如果打開了一些文件(每篇文章只有一句話構成),發現其中的一些文章屬於中國學生英語考試的信息匹配類型,這並不適合現在所研究的任務。此外,上述作者提到的一些問題所包含的關鍵詞 「underline」 沒有被刪除,在某種程度上也會影響到數據質量。還有,競賽中的樣本重複性的問題。總之,數據集並不像 Lai 等人宣稱的那樣乾淨。因此團隊做出了決策:對 RACE 的數據進行重新清理,並將清理過的 RCAE-C 累加到一起,以整合到 RACE++ 中,構建一個覆蓋中國初中、高中和大學英語考試的大型閱讀理解數據集。

研究團隊還對問題類型進行人工標註,以全面了解 RACE-C 的推理難度要求。依據 Lai 等人開發規則,將問題分為以下 5 類:

1、單詞匹配(Word matching):問題以文本跨度的形式出現在文章中,答案具有透明性;。

2、轉述(Paraphrasing):問題恰好被文章的一句話轉述,答案可以在句內進行提取;

3、單句推理(Single-sentence reasoning):通過識別不完整信息或重疊的概念,可以從文章的某句話中推斷出答案;

4、多句推理(Multi-sentence reasoning):答案必須通過文章中分布在不同位置的多個句子的信息中綜合推斷出來;

5、不充分 / 模稜兩可(Insufficient/Ambiguous):基於給定的文章,問題不存在答案或答案並不唯一。

圖 1:不同數據集中推理類型統計信息的可視化。

上述五種推理類型的難度是按升序排列。作者首先從 RACE-C 中抽取 200 個問題作為樣本,得到每個問題類型所佔的比例,並與 RACE (RACE-M,RACE-H) 進行比較,統計數據的結果如圖 1 所示。其中,RACE-C 題目類型中推理類型 (單句推理和多句推理) 佔 71.0%,RACE-M 和 RACE-H 的比例分別為 53.9% 和 61.0%。特別注意的是,RACE-C 的詞匹配題比例僅佔 2.3%,是三者中最低的,而 RACE-H 的比例 (11.3%) 低於 RACE-M 的比例 (29.4%)。

眾所周知,問題推理所需的能力和問題的難度是正相關的。由此可以得出,RACE-C 是最複雜的,因為它有最高比例的推理問題和最低比例的單詞匹配問題,其次是 RACE-H 和 RACE-M。具體的直觀表示見表 1。

表 4:BERT 在三個數據集上的表現

如表 4 所示,BERT 在 RACE-M、RACE-H 和 RACE-C 三個數據集上的微調結果呈降序排列,分別為 69.0%、62.3% 和 33.8%,這也暗示出了難度卻是升序排列的。

另一方面,受課程學習(Curriculum Learning)和自步學習 (Self-paced Learning) 的啟發,研究團隊提出了一種創新性的框架來訓練 MCRC 模型。課程學習這一概念由 Bengio 教授團隊在 2009 年 ICML 上提出,主要思想通過模擬人的認知機理,首先學習簡單的、普適性的知識結構,然後逐漸增加難度,過渡到學習更複雜、更專業化的知識。這樣容易使模型找到更好的局部最優,同時加快訓練的速度(根據先驗知識賦予樣本學習先後順序)。而自步學習則是在課程學習上進行了改進,由 2010 年 Koller 教授在 NIPS 上給出了自步學習的數學表達(學習算法在每一步迭代中決定下一步學習樣本)。

如 Bengio 等人所言,如果例子不是隨機呈現的,而是按照有意義的順序組織起來,從而逐步闡明更多、更複雜的概念,那麼人類和動物的學習效果會更好。基於這種認知,團隊作出假設,如果模型逐步訓練初中、高中考試數據集,性能會更好,然後對這些課程學習方法進行了調整,以適應新的數據集。

表 5

研究團隊提出的三階段課程學習方法的性能表現如表 5 所示。

團隊通過一個比較實驗來驗證三階段方法的有效性:首先在 RACE (包括 RACE-M 和 RCAE-H) 的融合數據集上微調 BERT,然後在 RACE-C 上微調;而文中作者提的方法是:首先在最簡單的數據集上(RACE-M)微調 BERT,然後在普通難度數據集上(RACE-H)進行微調,最後在難度最大的數據集上(RACE-C)微調。

最終實驗結果證明,他們提出的方法取得的測試精度更高,有效的支持了團隊成員的假設,即神經網絡模型可以通過從簡單到困難地次序吸收知識可以達到更好學習的目的。

總結

最後,做一下總結,本文介紹了一個多樣化、高難度、高質量的 MRC 數據集 RACE-C,它來源於教育專家精心編排的用以測試學生英語能力的中國大學英語考試。

開發團隊深入研究了 RACE-C,並對 RACE-C 和 RACE(包括 RACE-M 和 RACE-H)進行了詳盡的對比。受這三個子數據集遞增難度的啟發,團隊又提出了一個三階段課程學習框架,使用最新的突破性神經網絡模型逐步訓練 RACE++。大量實驗結果表明,這支團隊提出的三階段課程學習方法在提升機器閱讀理解模型性能上效果顯著,相比 RACE-M 和 RACE-H 的融合訓練策略,研究團隊的方法所展現的效果要好 2.6%。團隊成員希望該數據集可以作為一個有價值的資源為研究和評估機器閱讀理解助力。

數據集見:https://github.com/mrcdata/race-c/。

論文見:http://proceedings.mlr.press/v101/liang19a/liang19a.pdf。

數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。

相關焦點

  • CLUE發布第一個原生中文自然語言推理數據集
    OCNLI(Original Chinese Natural Language Inference),原生/原創中文自然語言推理數據集
  • 資源 | 百萬級字符:清華大學提出中文自然文本數據集CTW
    近日,清華大學與騰訊共同推出了中文自然文本數據集(Chinese Text in the Wild,CTW)——一個超大的街景圖片中文文本數據集,為訓練先進的深度學習模型奠定了基礎。目前,該數據集包含 32,285 張圖像和 1,018,402 個中文字符,規模遠超此前的同類數據集。研究人員表示,未來還將在此數據集之上推出基於業內最先進模型的評測基準。
  • 數據堂開源1505小時中文普通話語音數據集
    5月20日,數據堂推出AI數據開源計劃,面向高校和學術機構等非商業組織群體,首次開源的數據集為:1505小時中文普通話語音數據集。  該數據集的錄音內容,由6408名來自中國不同地區的錄音人參與錄製,有超過30萬條口語化句子。句準確率達98%以上。
  • 香港中文大學:推出多項新課程包括新增人工智慧等課程
    香港中文大學是一所綜合性的研究型大學,到香港中文大學來上課,學生們都有好多選擇,因為現在香港中文大學總共提供了超過了40多個課程,分布在8個不同的學院裡面。同學可以看到現在在屏幕上的這8個學院。 香港中文大學除了提供超過70多個本科課程以外,我們還會讓同學有其他的選擇,包括雙學位的選擇,以及跨學院或者是跨學科的雙學位選擇。在銀幕上看到的就是我們雙學位很多的課程選擇。
  • 中文摘要數據集匯總
    近期,對該項目進行了更新,從網上收集數據,將清華新聞數據、搜狗新聞數據等新聞數據集,以及開源的一些摘要數據進行整理清洗,構建一個較完善的中文摘要數據集(其實很多數據的官方連結都已經失效,筆者也是找了很久數據,問了一些朋友,才要到)。數據集清洗時,僅進行了簡單的規則清洗。例如:清洗htlm標記、去除多餘空字符、去除圖片標記等。
  • 中文醫療NLP領域 數據集,論文 ,知識圖譜,語料,工具包
    中文評測數據集中文醫學知識圖譜英文數據集相關論文中文醫療領域語料醫學embedding開源工具包工業級產品/解決方案blog分享友情連結Yidu-S4K:醫渡雲結構化4K數據集數據集描述:Yidu-S4K 數據集源自CCKS 2019 評測任務一,即「面向中文電子病歷的命名實體識別」的數據集,包括兩個子任務:1)醫療命名實體識別:由於國內沒有公開可獲得的面向中文電子病歷醫療實體識別數據集,本年度保留了醫療命名實體識別任務,對2017年度數據集做了修訂,並隨任務一同發布。本子任務的數據集包括訓練集和測試集。
  • 學完吳恩達全部深度學習課程,這有一份課程解讀
    ,並為我們提供了課程解讀。第 1 課:為什麼深度學習如此熱門?現在人類產生的 90% 數據是在最近 2 年內被收集的。深度神經網絡(DNN)能夠利用體量巨大的數據。因此,DNN 超越了較小的網絡和傳統學習算法。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(二)(論文/教程/代碼/書籍/數據/課程等)
    介紹:ICML2015 論文集,優化4個+稀疏優化1個;強化學習4個,深度學習3個+深度學習計算1個;貝葉斯非參、高斯過程和學習理論3個;還有計算廣告和社會選擇.ICML2015 Sessions.
  • 從程式設計師到數據科學家:SAS 編程基礎 (5)- 邏輯庫與數據集
    SAS 組織管理數據的最基本單位是 SAS 邏輯庫(SAS Library)和 SAS 數據集(SAS Dataset)。細心的讀者也許會記得 SAS 的 HelloWorld 程序,第一行都是以 Data 語句開頭?因為 SAS 語言就是面向數據分析的專門語言,在 SAS 的世界裡數據是分析的基礎,也是從數據到智能的基石。後面我們會逐漸領略到 「數據就是分析的基礎」 這一精髓!
  • 機器學習吧面向ai的中文機器學習資源與分享平臺
    如果你對這個感興趣的話至少學習如何抓取的知識。機器學習吧,機器學習吧-面向ai的中文機器學習資源與分享平臺。裡面涵蓋了比較新的機器學習算法,可以看看。當然這僅僅是入門級的機器學習算法,下面會引入深度學習算法的文章。並且機器學習算法的理論比深度學習算法更加複雜,這裡有深度學習算法的專題篇。不管從什麼角度看,機器學習都是一個非常好的方向,希望你對機器學習有更多的了解。
  • 【乾貨】2010-2017最全KDD CUP賽題回顧及數據集下載
    競賽提供3個開發(develop)數據集和2個挑戰(challenge)數據集,每個數據集又分為訓練(train)部分和測試(test)部分。Challenge數據集的test部分被隱藏,參賽者需要開發一種學習模型,來準確預測這部分隱藏部分的成績。
  • 學習了!谷歌今日上線基於TensorFlow的機器學習速成課程(中文版)
    機器之心整理參與:思源、許迪隨著機器學習越來越受到公眾的關注,很多初學者希望能快速了解機器學習及前沿技術。而今天谷歌上線了基於 TensorFlow 的機器學習速成課程,它包含 40 多項練習、25 節課程以及 15 個小時的緊湊學習內容。谷歌官方描述為機器學習熱愛者的自學指南,且課程資料都是中文書寫,課程視頻都由機器學習技術轉述為中文音頻。
  • 2018機器閱讀理解技術競賽開始報名 百度提供中文閱讀理解數據集
    3月1日,由百度公司、中國中文信息學會(CIPS)、中國計算機學會(CCF)聯手舉辦的「2018機器閱讀理解技術競賽」正式開啟報名通道。本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解數據集DuReader。
  • 業界| 深度學習與XGBoost在小數據集上的測評,你怎麼看?(附源碼)
    作者:Max Brggen機器之心編譯參與:蔣思源近來,部分機器學習從業者對深度學習不能訓練小數據集這一觀點表示懷疑,他們普遍認為如果深度學習經過優良的調參,那麼就不會出現過擬合和過訓練情況,也就能較好地從小數據集學習不錯的模型。
  • 業界 | 深度學習與XGBoost在小數據集上的測評,你怎麼看?(附源碼)
    ,他們普遍認為如果深度學習經過優良的調參,那麼就不會出現過擬合和過訓練情況,也就能較好地從小數據集學習不錯的模型。模型原始碼:https://gist.github.com/maxberggren/b3ae92b26fd7039ccf22d937d49b1dfdAndrew Beam 曾展示目前的神經網絡方法如果有很好的調參是能夠在小數據集上取得好結果的。如果你目前正在使用正則化方法,那麼人工神經網絡完全有可能在小數據集上取代傳統的統計機器學習方法。
  • B站教學,全中文課程:港中文周博磊強化學習課程完結
    歷時兩個多月,本周一,香港中文大學信息工程系助理教授周博磊的中文強化學習課程終於完結了。作為全國知名的學習網站,我們經常可以在 B 站上看到國內外名師的講課視頻。但這些視頻一般都是「搬運工」們從油管等渠道搬上來的。那有沒有哪位大佬親自下場當 up 主呢?香港中文大學的周博磊老師就是其中一位。
  • 春季線上作品集課程介紹
    作品集課程建議對設計有一定熱情同學報名,作品集課程需要學生在短時間內來表現自己的設計項目方案,所以對於學生的基本素質要求較高.本次課程希望可以實現跨專業和零基礎卻對設計有興趣希望能進入設計院校學習的同學有一好的輔助作用.16個課時一個課程(每課時45-60分鐘),分為15節作品線上基礎課程和1節線下或者線上面試模擬課程(學生可根據自己的需求來選擇線上或者線下進行模擬面試)。
  • WELL中文解讀已完成∣面向WELL AP考試與WELL項目
    WELL中文解讀已完成,面向WELL AP考試與WELL項目的基本理解,如果說LEED是以節能環保為主,那麼WELL則是以健康舒適為主
  • 【B站課程】B站學強化學習?港中文周博磊變身up主,中文課程已上線
    新冠疫情還未退散,目前國內很多大學仍然沒有返校開學的計劃,不過留在家中的我們已經可以獲得越來越多的線上學習內容。此前有很多國內外學校已經把自家的 AI 課程搬到了線上。不過對於不少人來說,YouTube 和英文是個問題。有沒有直接在 B 站上開課的教授呢?最近,香港中文大學(CUHK)信息工程系助理教授周博磊就有了一個大膽的想法,他決定把自己每周的《強化學習》課程用中文在 B 站上進行直播。
  • IGCSE中文作為第二語言(0523)新大綱解讀
    IGCSE漢語考試是由英國劍橋國際考試局研發,主要面向14到16歲的漢語學習者的語言測試