圖片出處:unsplash.com
深度學習和大規模數據集的興起,讓我們見證了機器閱讀理解(MRC, Machine Reading Comprehension)的快速發展,尤其是極具挑戰性的子任務 —— 多項選擇閱讀理解(MCRC, Multiple-Choice Reading Comprehension)。而大規模數據集的發布更有力地推動了這一領域的研究。
然而,先前提出的方法在 MCRC 數據集上已經交出了很好的 「成績單」,如收集自中國學生的初、高中的英語考試的、目前使用最廣泛的大規模選擇型閱讀理解數據集 RACE(ReAding Comprehension dataset collected from English Examinations)。所以,為了更好地評估新方法的理解能力,有必要提出一個更具挑戰性的、需要更多推理和推論的數據集。
為了滿足這種需求,來自中山大學的一支團隊在 ACML2019 發表的論文《A New Multi-choice Reading Comprehension Dataset for Curriculum Learning》中提出了一個新的多選題閱讀理解數據集 ——RACE-C。該數據集收集自中國大學英語考試,旨在解決多項選擇閱讀理解問題,也就是從一組考生給定的問題和文章中選擇正確的答案。團隊成員將其提出的數據集與 2017 年 Lai 等人分別從初、高中考試中收集的 RACE-M 和 RACE-H 兩個數據集進行整合,將 RACE 擴展為新版本 RACE++ 數據集。基於 RACE++ 數據集,團隊還提出了一個三階段的課程學習(Curriculum Learning)框架,此框架能夠按難度等級升序的特點最大限度地利用這三個子數據集。統計數據顯示,與 RACE 的兩個子數據集 RACE- M 和 RACE- H 相比,這支團隊收集的 RACE- C 數據集的難度係數更高,效果更好。如今的信息爆炸時代,若要自然語言處理和理解領域的 AI 系統幫助人們高效、準確地從海量數據中抓取有用信息,需要機器掌握閱讀和理解的技能,MRC 任務應運而生。
簡單來說,MRC 任務的目標就是通過機器根據上下文回答問題的情況,測試其理解自然語言的程度。這種 AI 能力具有廣泛的商業應用潛力,比如回答維基百科文檔中的常識問題,或者回答公司財務報告中的問題,亦或是使用產品手冊進行故障排除等等。
伴隨著各種大規模數據集的快速發布, MRC 得到了充分的研究。依據數據集的格式劃分,MRC 任務可大致分為三種類型,即完形填空式 MRC、片段抽取式 MRC 和多項選擇式 MRC。
而本文將介紹的工作,主要關注教育專家設計的多項選擇考試數據集,因為這些數據集的問題通常表述的非常清晰、沒有錯誤,並且具有挑戰性。在閱讀理解研究之初,多項選擇閱讀理解(MCRC, Multiple-Choice Reading Comprehension)任務的發展步履維艱,因為缺少大規模的數據集,也就沒法嘗試神經網絡的方法。
為了給閱讀理解任務帶來更多的挑戰,緩解大規模多項選擇閱讀理解數據集的缺失,數據集 RACE 出現了。正因這個大規模數據集的出現,NLP 出現了新的突破,使得訓練和評估基於神經網絡的複雜模型以及測量 MCRC 的發展成為了可能。
不可否認地,RACE 在推動 MRC 發展的同時,也潛藏著很多值得挖掘的問題。例如,數據清理過程是否合理?儘管 RACE 的收集團隊做了刪除聲明,已經刪除了包含關鍵字 「underlined」 的問題以避免下劃線效果的不可再現性,但現實情況下包含關鍵詞 「underline」 的問題沒有被刪除,其次,RACE 在一定程度上是重複的。
據此,研究團隊得出結論:該數據集的性能幾乎發揮到最高水平,其難度對於目前較前沿的模型(如 XLNe、 DCMN、OCN、BERT、閱讀策略模型、GPT 等)在語義信息和語法結構上已經比較有限。這也就引出了發布更具挑戰性數據集測試上述最新模型的必要性。
因此,團隊提出了構建難度更高的新的數據集 RACE-C。
RACE-C 數據集的構建
RACE-C 由各種大學英語考試中收集而得,繼承了與 RACE 相同的數據格式,大部分問題的正確答案可能不會直接出現在原文中,需要依賴於對自然語言和知識的理解,更具推理性,可以更好地測試 MCRC 模型的性能。此外,團隊還將 RACE 和 RACE- C 合併到 RACE++ 中,構成更完整的數據集。
團隊成員從各種英語考試(包括實踐測試)中收集大學閱讀理解數據集,如大學英語考試,英語專業考試,專業職稱英語考試和全國公共英語等級考試(一級)等,這些考試共同的特點是由專業英語教師來設計題目和難度,以評估大學英語學習者(通常是 18 - 24 歲)的閱讀理解水平。遵循 RACE 的命名規則,RACE- M 表示初中考試,RACE- H 表示高中考試,而大學考試則稱為 RACE-C。其中,RACE-C 的主題覆蓋面最廣,內容上包羅萬象,如動植物、傳記、歷史、文化、資源、環境、交通、經濟、醫藥和信息等。重要的是,RACE-C 中的所有問題都是開源的,以供公眾方便使用。每道題由一篇短文和一系列多項選擇題組成。注意,清洗前的數據包含 4,451 篇文章和 22,692 個問題項。
那麼,研究團隊是如何清理原數據的?
揭曉答案:首先,刪除所有問題數量與選項列表或答案列表數量不匹配的問題,比如說,有 5 個問題但只存在 4 個答案或 4 個選項列表的情況會被完全刪除。換句話說,只有問題、選項列表和答案數量一致的問題才會被保留。
其次,刪除所有與問題設置格式不一致的問題,例如,如果一個問題的選項設置不是 4 個,那麼將其刪除。然後,刪除含有圖像或表格的文章和問題以及所有包含關鍵字 「underline」 或 「underlined」 的問題,因為很難再現下劃線的效果。但是研究團隊並沒有刪除包含關鍵字 「paragraph」 的問題,畢竟還希望模型能夠從文章中獲取段落段信息。
最後,刪除所有重複的文章。經過上述處理,團隊得到清洗後的數據集 RACE-C,其中包含 4,275 篇文章和 14,122 個問題。如表 1 左側所示的數據集樣例。
表 1:RACE-C 和 RACE 中的閱讀理解例題。
作者匯總了表 2 中的數據分割(data split)和表 3 中的 RACE- C 統計數據,分別總結了 RACE (RACE- M 和 RACE- H) 的數據分區和統計數據。隨著 RACE,研發團隊將 5% 的數據作為驗證集和 5% 設置為測試集。
表 2
表 3
如表 3 所示,RACE-M、RACE-H、RACE-C 中文章的單詞或句子的平均數是按遞增順序排列的,所以問題和選項的平均單詞數也是如此,剛好證明這一假設,初中、高中和大學英語考試的難度都保持著逐漸增加的趨勢。此外,RACE-C 數據集中的總單詞數為 1727,117,而 RACE-M 中的總單詞數為 2497,893。但是 RACE-C 的詞彙量是 58,812,而 RACE-M 是 38,564。換句話說,RACE-C 的詞彙量是 RACE-M 的 1.5 倍,而整個的 RACE-C 的單詞規模是 RACE-M 的十分之七。順便說一下,RACE-H 因其規模太大,與 RACE-C 無法進行合理比較,作者便採用公式 1 的形式來評估 RACE-C、RACE-H 以及 RACE-M 的不重複率。
其中,表示 RACE-C 的詞彙量,而可以指定為或者兩者之一,分別代表 RACE-M 或 RACE-H 的詞彙量大小。藉助這個規則,可以得出 RACE-H 和 RACE-C 的不重複率為 38.5%,這反映出,儘管 RACE-H 的詞彙規模大得多(約為 RACE-C 的 2.4 倍),但 RACE-C 中仍然有一部分單詞並未出現在 RACE-H 中;此外,RACE-C 與 RACE-M 的不重複率為 70.1%,說明 RACE-C 中大部分單詞的水平較高,難度也高,沒有出現在 RACE-M 中。這些統計有力地證明了大學數據集 RACE-C 顯然要比 RACE (包括 RACE-M 和 RACE-H) 更難,需要更強的推理能力。而表 1 的右側便是 RACE 數據集樣例的直觀表示。
另外,研究團隊發現 RACE 中的數據並不像論文中宣稱的那樣,沒有噪聲,從表 3 的統計數據中,可以清晰發現,RACE-H 中針對每篇文章最小問題數一項上顯示為零值,而且數據集中的很多文章僅有一個句子。因此,如果打開了一些文件(每篇文章只有一句話構成),發現其中的一些文章屬於中國學生英語考試的信息匹配類型,這並不適合現在所研究的任務。此外,上述作者提到的一些問題所包含的關鍵詞 「underline」 沒有被刪除,在某種程度上也會影響到數據質量。還有,競賽中的樣本重複性的問題。總之,數據集並不像 Lai 等人宣稱的那樣乾淨。因此團隊做出了決策:對 RACE 的數據進行重新清理,並將清理過的 RCAE-C 累加到一起,以整合到 RACE++ 中,構建一個覆蓋中國初中、高中和大學英語考試的大型閱讀理解數據集。
研究團隊還對問題類型進行人工標註,以全面了解 RACE-C 的推理難度要求。依據 Lai 等人開發規則,將問題分為以下 5 類:
1、單詞匹配(Word matching):問題以文本跨度的形式出現在文章中,答案具有透明性;。
2、轉述(Paraphrasing):問題恰好被文章的一句話轉述,答案可以在句內進行提取;
3、單句推理(Single-sentence reasoning):通過識別不完整信息或重疊的概念,可以從文章的某句話中推斷出答案;
4、多句推理(Multi-sentence reasoning):答案必須通過文章中分布在不同位置的多個句子的信息中綜合推斷出來;
5、不充分 / 模稜兩可(Insufficient/Ambiguous):基於給定的文章,問題不存在答案或答案並不唯一。
圖 1:不同數據集中推理類型統計信息的可視化。
上述五種推理類型的難度是按升序排列。作者首先從 RACE-C 中抽取 200 個問題作為樣本,得到每個問題類型所佔的比例,並與 RACE (RACE-M,RACE-H) 進行比較,統計數據的結果如圖 1 所示。其中,RACE-C 題目類型中推理類型 (單句推理和多句推理) 佔 71.0%,RACE-M 和 RACE-H 的比例分別為 53.9% 和 61.0%。特別注意的是,RACE-C 的詞匹配題比例僅佔 2.3%,是三者中最低的,而 RACE-H 的比例 (11.3%) 低於 RACE-M 的比例 (29.4%)。
眾所周知,問題推理所需的能力和問題的難度是正相關的。由此可以得出,RACE-C 是最複雜的,因為它有最高比例的推理問題和最低比例的單詞匹配問題,其次是 RACE-H 和 RACE-M。具體的直觀表示見表 1。
表 4:BERT 在三個數據集上的表現
如表 4 所示,BERT 在 RACE-M、RACE-H 和 RACE-C 三個數據集上的微調結果呈降序排列,分別為 69.0%、62.3% 和 33.8%,這也暗示出了難度卻是升序排列的。
另一方面,受課程學習(Curriculum Learning)和自步學習 (Self-paced Learning) 的啟發,研究團隊提出了一種創新性的框架來訓練 MCRC 模型。課程學習這一概念由 Bengio 教授團隊在 2009 年 ICML 上提出,主要思想通過模擬人的認知機理,首先學習簡單的、普適性的知識結構,然後逐漸增加難度,過渡到學習更複雜、更專業化的知識。這樣容易使模型找到更好的局部最優,同時加快訓練的速度(根據先驗知識賦予樣本學習先後順序)。而自步學習則是在課程學習上進行了改進,由 2010 年 Koller 教授在 NIPS 上給出了自步學習的數學表達(學習算法在每一步迭代中決定下一步學習樣本)。
如 Bengio 等人所言,如果例子不是隨機呈現的,而是按照有意義的順序組織起來,從而逐步闡明更多、更複雜的概念,那麼人類和動物的學習效果會更好。基於這種認知,團隊作出假設,如果模型逐步訓練初中、高中考試數據集,性能會更好,然後對這些課程學習方法進行了調整,以適應新的數據集。
表 5
研究團隊提出的三階段課程學習方法的性能表現如表 5 所示。
團隊通過一個比較實驗來驗證三階段方法的有效性:首先在 RACE (包括 RACE-M 和 RCAE-H) 的融合數據集上微調 BERT,然後在 RACE-C 上微調;而文中作者提的方法是:首先在最簡單的數據集上(RACE-M)微調 BERT,然後在普通難度數據集上(RACE-H)進行微調,最後在難度最大的數據集上(RACE-C)微調。
最終實驗結果證明,他們提出的方法取得的測試精度更高,有效的支持了團隊成員的假設,即神經網絡模型可以通過從簡單到困難地次序吸收知識可以達到更好學習的目的。
總結
最後,做一下總結,本文介紹了一個多樣化、高難度、高質量的 MRC 數據集 RACE-C,它來源於教育專家精心編排的用以測試學生英語能力的中國大學英語考試。
開發團隊深入研究了 RACE-C,並對 RACE-C 和 RACE(包括 RACE-M 和 RACE-H)進行了詳盡的對比。受這三個子數據集遞增難度的啟發,團隊又提出了一個三階段課程學習框架,使用最新的突破性神經網絡模型逐步訓練 RACE++。大量實驗結果表明,這支團隊提出的三階段課程學習方法在提升機器閱讀理解模型性能上效果顯著,相比 RACE-M 和 RACE-H 的融合訓練策略,研究團隊的方法所展現的效果要好 2.6%。團隊成員希望該數據集可以作為一個有價值的資源為研究和評估機器閱讀理解助力。
數據集見:https://github.com/mrcdata/race-c/。
論文見:http://proceedings.mlr.press/v101/liang19a/liang19a.pdf。
數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。