...是啥?面向自然語言和多步推理問題,新型問答數據集HotpotQA面世

2021-01-09 機器之心Pro

選自GitHub

作者:楊植麟、齊鵬、張賽崢

機器之心編譯

參與:路

近日,來自斯坦福、CMU 和蒙特婁大學的三名中國學生推出了新型問答數據集 HotpotQA,該數據集面向自然語言和多步推理問題。Emmm,從名字來看,這三位小朋友貌似很喜歡吃火鍋~

「火鍋兄弟團」成員:

作者楊植麟目前博士就讀於卡內基梅隆大學,師從 Ruslan Salakhutdinov 教授(蘋果公司 AI 負責人)和 William Cohen 教授從事深度學習方面的研究。作者齊鵬目前博士就讀於史丹福大學,師從 Christopher Manning 教授從事自然語言處理方面的研究。作者張賽崢目前博士就讀於蒙特婁大學,師從 Yoshua Bengio 教授從事深度學習和自然語言處理方面的研究。

HotpotQA 數據集的作者寫了一篇博客,介紹了這個「讓人看餓了」的數據集:

你是否好奇過以下問題:

我們都知道 Facebook 總部在加州,那你知道 Facebook 的誕生地在哪個城市嗎?吃雞和王者農藥這兩款遊戲到底哪個玩家多一些?如果你是一個吃貨,那你每天要在跑步機上跑多久才能消耗掉你今天偷吃的十包辣條的熱量?

乍一看這些問題有些複雜,然而作為人類,回答這些問題並不難。

比如第一個問題,你只要先在某百科上找到小扎在哈佛大學的寢室創立 Facebook 這一事實,而另一個百科頁面則告訴你哈佛大學在美國麻省的劍橋市。又如第二個問題,你可以在網上的某兩篇新聞中搜索到吃雞和農藥各自的活躍用戶數量,兩個數字一比對結果便一目了然。而對於第三個問題,你可以首先在辣條官網上發現辣條的卡路裡說明,然後在健身網站上搜索到成年人在跑步機上揮汗一小時消耗的熱量,最後計算一番便能得出答案。

總結下來,要回答這些問題,我們需要定位多個信息來源並從中找到最相關的部分,並且基於這些信息進行多步推理和理解。一個機智的機器學習研究者看到這裡一定會問了:那目前的機器算法是否也可以進行這種「基於多個信息內容的多步推理 (multi-hop reasoning)」並回答問題呢?

懷揣著同樣的疑問,我們對目前主流的問答系統 (question answering (QA) system) 以及相關的大規模數據集 (large-scale QA dataset) 進行了調研,結果稍顯悲劇:對於目前主流的問答數據集(例如斯坦福的 SQuAD 數據集 [1]),問題的答案基本都在單一文檔的單一(或連續的)句子中,並且這類問題大多可通過對問題和單一文檔使用類似關鍵詞匹配(keyword matching)的方式來回答。基於這些數據集訓練的模型雖然在這類問題上表現不俗,但是它們是否有基於多個信息進行多步推理的能力依舊是個未知數。同時我們也注意到,一些研究者已經開始對機器多步推理問答的研究:例如 Facebook 之前發布的 bAbI 數據集 [2] 就嘗試探究機器基於多條信息的推理綜合能力,然而由於其數據本身並不是來源於真實文本而是通過人造模版生成的,這使得該數據集在實際場景中的性能大打折扣。自去年以來,陸續有研究者開始嘗試收集大規模多步推理問答數據集,其中典型的工作包括 TriviaQA [3] 和 QAngaroo [4]。在 TriviaQA 中,每個問題通常附帶了多個相關文檔用來獲取答案(這些文檔是通過信息檢索的方式得到的)。然而相關文檔的增多並不能保證回答某個問題一定用到跨文檔的多步推理,實際上,該資料庫中大部分問題仍舊可以只通過多個文檔中的某一個直接回答。另一方面,QAngaroo 利用知識圖譜技術構建了一批確實需要多步推理才能回答的問題。然而,該數據集的問題和答案的種類嚴重受限於知識圖譜預先定義的模式 (schema) 本身,同時問題格式也被限制為知識圖譜的三元組形式(triple)而非自然語言。此外,以上提到的所有數據集在給出相關問題的同時僅提供相關文檔本身,並沒有給出更細粒度和更直接的推理線索。

基於以上種種問題,我們(來自 CMU、Stanford 和 Mila 的聯合小分隊)提出了一個名為「HotpotQA」的數據集(中文名又作「火鍋問答」。註:這篇文章始於作者們在紐約法拉盛的一次火鍋聚餐,同時「火鍋中多種食材混合產生的終極美味」也暗喻多源多步推理)。HotpotQA 是作者們對機器多步推理問答的更進一步探究,它有以下幾個重要特點:

問題被設計為必須使用多步推理來回答。為了收集這些問題和答案,我們使用了亞馬遜的眾包服務 (Amazon Mechanical Turk)。我們向眾包工人展示兩個維基百科選段,通過一些用戶互動設計保證他們可以提問出「必須基於兩個選段進行多步推理才能得到答案」的問題。問題本身不會受限於任何預設的知識圖譜。我們從維基百科中收集了多種類型多種主題的選段,並且不限制問題的類型。這使得最終收集的數據(問題、答案、選段)以自然語言的形式呈現,並且在內容和難度上具有多樣性。對於每一個問題,我們還收集了回答它所需要的更細粒度的支持推理線索 (supporting fact)。這些線索可以用來提升模型的可解釋性 (explainability)。相比於之前基於整篇文章進行訓練的粗粒度方式,HotpotQA 允許模型利用這些更加準確的推理線索來提升表現,並且迫使模型在回答問題的同時給出它基於哪些事實進行的推理,不像以前的模型只給出一個答案,知其然而不知其所以然。

話不多說,下面是 HotpotQA 裡面的一個樣例問題,在選段中我們用綠色標出了用來回答該問題的支持推理線索。

除此之外,HotpotQA 的問題種類也十分多樣。除了一些常見的多步推理問題,還包括在大規模文本問答數據集中首次出現的比較型問題 (comparison question),例如文章開頭的「吃雞 vs 農藥」。下圖展示了 HotpotQA 中的問題種類以及佔比情況:

俗話說,酒逢知己千杯少,話不投機半句多。相信耐心讀到此處還沒有關掉頁面的看官一定也像我們一樣對多步推理問答充滿了好奇,那不妨移步我們的 EMNLP2018 paper 一探我們的方法細節。同時對於那些「我的模型已經饑渴難耐」的同仁,你們一定要訪問 HotpotQA 的官方網站,我們在此處設擂,歡迎前來砸場子!你們模型的提交是機器多步推理進步的動力!

以上。

火鍋兄弟團 Zhilin、Peng、Saizheng

HotpotQA 官網:https://hotpotqa.github.io/

論文:HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

論文連結:https://arxiv.org/pdf/1809.09600.pdf

摘要:現有的問答(QA)數據集無法訓練可執行複雜推理和提供答案解釋的 QA 系統。我們創建了一個新型問答數據集 HotpotQA,該數據集包含 11.3 萬個基於維基百科的問答對,具備以下四個特點:

1. 問題的答案必須要基於多個支持文檔;

2. 問題多樣化,不局限於任何已有的知識庫或知識模式;

3. 提供句子級別的支持推理線索(supporting fact),允許 QA 系統用強大的監督進行推理,並對預測結果進行解釋;

4. 提供了新型模擬比較型問題,來測試 QA 系統提取相關線索、執行必要對比的能力。

我們展示了 HotpotQA 數據集對最新 QA 系統是有難度的,支持推理線索幫助模型提升性能、做出可解釋的預測。

參考文獻:

[1] "SQuAD: 100,000+ Questions for Machine Comprehension of Text", Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang. EMNLP 2016.

[2] "Towards AI Complete Question Answering: A Set of Prerequisite Toy Tasks", Jason Weston, Antoine Bordes, Sumit Chopra, Alexander M. Rush, Bart van Merrinboer, Armand Joulin and Tomas Mikolov. arXiv:1502.05698.

[3] "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension", Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. ACL 2017.

[4] "Constructing Datasets for Multi-hop Reading Comprehension Across Documents", Johannes Welbl, Pontus Stenetorp, Sebastian Riedel. TACL 2018.

相關焦點

  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 >機器之心編譯 參與:李澤南 最近,麻省理工學院(MIT)的在讀博士 Karthik Narasimhan 發起了一個為自然語言處理(NLP)準備的數據集/語料庫列表,以時間順序排列。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    選自Github作者:Sebastian Ruder機器之心編譯參與:思源、曉坤自然語言處理有非常多的子領域,且很多都沒有達到令人滿意的性能。本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。
  • 2019 自然語言處理前沿論壇,百度NLP技術全揭秘
    他表示,百度的語義計算方向包括語義表示學習、語義匹配計算、語義解析、多模態語義計算。計算機理解人類語言是一件非常有挑戰性的事情。語義表示技術存在的問題是,自然語言存在基本單元一詞多義、多詞同義、句子表述無限等特性。
  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    而利用知識圖譜支撐上層應用仍存在諸多挑戰,因此基於知識圖譜的自然語言問答展開研究是十分有必要的。百分點認知實驗室參加了該評測任務中的」知識圖譜的自然語言問答」比賽,經過長達3個多月的激烈角逐,百分點認知智能實驗室在比賽數據集上得分0.90106,位列A榜第三名。本文主要介紹實驗室在本次比賽和基於知識圖譜問答業務的實踐中使用的技術方案。
  • 金融領域中的自然語言處理,弄懂這五個問題就夠了
    計算機非常擅長使用結構化數據,因此針對大量的數據和表格的處理,它都信手拈來。但是對於人類來說,我們是以非結構化的文字等信息進行交流的。計算機並不擅長處理這些非結構化數據,因此如何讓計算機理解人類的語言,一直以來是一大難題。
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    機器之心發布 機器之心編輯部 自然語言處理(Natural Language Processing)是人工智慧的核心問題之一,旨在讓計算機理解語言,實現人與計算機之間用自然語言進行通信。
  • 2019自然語言處理前沿論壇 五大議題全面解析NLP技術前沿
    相較於BERT學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力,在多項中文自然語言處理任務上取得最好的效果。自動問答中國科學院自動化研究所模式識別國家重點實驗室副研究員劉康結合研究組近年的工作[7][8],介紹了文本閱讀理解的研究進展與挑戰。劉康首先介紹了閱讀理解的主要任務、基本原理和數據集。
  • 自然語言處理(NLP)中的深度學習發展史和待解難題
    王小新 編譯自 sigmoidal量子位 出品 | 公眾號 QbitAI自然語言處理(NLP)是指機器理解並解釋人類寫作與說話方式的能力。近年來,深度學習技術在自然語言處理方面的研究和應用也取得了顯著的成果。技術博客Sigmoidal最近發布了一篇文章,作者是機器學習工程師Rafal。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    相較於BERT學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力,在多項中文自然語言處理任務上取得最好的效果。自動問答中國科學院自動化研究所模式識別國家重點實驗室副研究員劉康結合研究組近年的工作[7][8],介紹了文本閱讀理解的研究進展與挑戰。劉康首先介紹了閱讀理解的主要任務、基本原理和數據集。
  • CMU大佬分享三類優質數據集:綜合、CV和NLP
    主要包括了綜合性數據集、CV計算機視覺數據集和NLP自然語言處理數據集。 PS:以前我們也分享過一些數據集的資源,感興趣的可以在公眾號歷史文章中搜索查看,數據集系列也會持續更新。 一、綜合性機器學習數據集 1.
  • AAAI 2020學術會議提前看:常識知識與常識推理
    常識問題是人工智慧領域最難的問題之一。在 NLP 領域,BERT 模型雖然已經表現出色,但是在常識知識問答數據集上的性能仍舊遠低於人類。在計算機視覺領域,結合視覺場景的常識知識問答問題仍然具有較大難度。促進人工智慧發展,使得機器具有「常識思維」,對於常識知識、常識推理的研究是值得關注的未來發展方向。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    作者 | 蔣寶尚編輯 | 賈偉全世界約有6900種語言,但大多數並沒有英語這種數據規模,這也導致大多數的NLP基準僅限於英文任務,這大大制約了自然語言處理的多語言發展。從語言學的角度,值得注意的一點是,不同語言或許有相同的來源,例如英語的「desk」和德語的「 Tisch」都來自拉丁語「 discus」。
  • 蘇州大學張民教授兩小時講座精華摘錄:自然語言處理方法與應用
    二、自然語言處理的方法與人工智慧一樣,張民教授也將自然語言處理劃分為外延和內涵兩個部分。外延指的是自然語言處理的應用(下一部分會重點說明);內涵則涵蓋三大內容,包括以自然語言分析(分析語言表達的結構和含義)、自然語言生成(從內部表示生成語言表達)和多語言處理等。
  • 面向認知,智源研究院聯合阿里、清華等發布超大規模新型預訓練模型...
    來源:中國網科技日前,北京智源人工智慧研究院(以下簡稱智源研究院)聯合阿里、清華等多家單位發布超大規模新型預訓練模型「文匯」,旨在探索解決當前大規模自監督預訓練模型不具有認知能力的問題。與傳統AI訓練需要人工標註數據不同,面向認知的預訓練語言模型提供了一種全新的學習思路,即AI首先自動學習大量語言文字和圖像數據,記憶和理解其中的信息以及人類語言表述的規律後,再進一步學習專業領域知識,從而讓AI同時掌握常識和專業知識。此次發布的「文匯」是目前國內規模最大的預訓練模型,參數量級達113億。
  • 2019自然語言處理前沿論壇:聚焦機器「讀、寫、說、譯」,探尋NLP...
    以語言和知識為研究對象的自然語言處理(NLP)技術是人工智慧的核心問題之一。5月26日,百度、中國計算機學會中文信息技術專委會和中國中文信息學會青工委聯合舉辦「2019自然語言處理前沿論壇」。百度高級副總裁、ACL Fellow王海峰博士為論壇做開場致辭。他表示,「語言是人類思維和交流的載體,同時也是人類知識凝練和傳承的載體。
  • NeurIPS|既能理解又能生成自然語言,微軟提出統一預訓練新模型
    論文地址:https://arxiv.org/abs/1905.03197實現地址:https://github.com/microsoft/unilm這篇論文提出了一種新型的統一的預訓練語言模型(UniLM),它既可以針對自然語言理解任務進行微調,也能用於自然語言生成任務。
  • 如何解決自然語言處理中90%的問題
    文本數據無處不在無論你是已成立的公司還是致力於推出新服務,你都可以使用文本數據驗證、提升和擴展產品的性能與功能。學習並提取文本數據中的意義,這一科學是自然語言處理(NLP)中的一個活躍的研究課題。NLP是一個非常龐大的領域,每天都會產生新的令人興奮的結果。
  • 大規模中文自然語言處理語料
    新智元推薦來源:AINLP作者:徐亮【新智元導讀】本文介紹一個中文自然語言處理語料庫項目:nlp_chinese_corpus ,初步貢獻了幾個已經預處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
  • 人工智慧與自然語言處理概述:AI三大階段、NLP關鍵應用領域
    ,對自然語言處理在大數據中扮演的角色作了探討。自然語言處理知識表示自動推理機器學習NLP、人工智慧、機器學習、深度學習和神經網絡之間的區別人工智慧:建立能智能化處理事物的系統。自然語言處理:建立能夠理解語言的系統,人工智慧的一個分支。機器學習:建立能從經驗中進行學習的系統,也是人工智慧的一個分支。神經網絡:生物學啟發出的人工神經元網絡。
  • 人工智慧難點之——自然語言處理(NLP)
    (NLP)是人工智慧和語言學領域的分支學科。(人工智慧主要包含以下幾個方面: 自動推理-計算語言學-計算機視覺-進化計算-專家系統-自然語言處理-機器人學)自然語言處理(NLP)是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。