HotpotQA挑戰賽(幹擾項賽道)最新榜單(截至2019年10月24日)
2019年3月,哈工大訊飛聯合實驗室在國際權威閱讀理解評測SQuAD 2.0中首次超過人類平均水平,意味著機器已經能夠充分理解一般難度的文本語義,並準備向更高難度的文本理解任務發起挑戰。傳統的閱讀理解數據集只需要理解單個篇章中與問題相關的某個特定篇章片段即可得到答案。而多步推理閱讀理解評測HotpotQA不僅將模型需要「讀」的文本範圍擴展到了多個篇章段落,同時要從多個篇章中篩選出與問題相關的篇章,並進一步要求模型能夠對佐證篇章中所敘述事物的邏輯關係構建兩步及以上的推理鏈,因而更具有挑戰性。HotpotQA評測根據提供的篇章數量分為兩個賽道:本次哈工大訊飛聯合實驗室參加的是幹擾項賽道(Distractor Setting),該賽道更側重於考察模型的文本推理能力,同時也是參賽隊伍最多的賽道。下圖中給出了一個HotpotQA數據的示例,向機器詢問「Rand Paul在2016年宣布競選總統活動所在的酒店位於哪條河上?」。為了回答這個問題,機器需要首先從備選篇章中尋找到與問題相關的篇章。得到這些篇章後,我們從第一個篇章中得知該活動位於Galt House這家酒店。在閱讀另一個篇章時,機器得知該Galt House這家酒店位於Ohio River上。最終,機器從這兩條佐證證據(文章中綠色部分)推理得到答案「Ohio River」。
HotpotQA數據示例
其次,為了證明模型確實利用了原文中的相關證據進行推理並提升模型的可解釋性,HotpotQA不僅要求模型給出最終答案,還要求模型給出推理所用到的佐證證據(Supporting Facts)。在評價指標上,HotpotQA評測會根據答案和佐證證據的精確匹配率(EM)和模糊匹配率(F1)求得最終的聯合精確匹配率和模糊匹配率(Joint EM / F1)。從最終評測結果可以看出C2F Reader模型的得分顯著高於榜單其他公開以及非公開的技術方案。
本次提交的C2F Reader(Coarse-to-Fine Reader)模型在結合了目前主流的基於預訓練的語義表徵模型BERT的基礎上,針對需要多步推理的閱讀理解任務進行了優化設計,主要包括以下三個特點:目前,人工智慧正經歷由感知智能向認知智能邁進的關鍵時期,為機器在理解文本語義的基礎上進一步賦予推理能力對認知智能的研究和發展具有重大的意義。
哈工大訊飛聯合實驗室不僅在國際比賽中拔得頭籌,也持續積極推動中文信息處理技術的研究與發展。2019年10月19日,由中國中文信息學會計算語言學專業委員會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名的第三屆「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2019)在雲南昆明圓滿落幕。至此,哈工大訊飛聯合實驗室已先後承辦了三屆「訊飛杯」中文機器閱讀理解評測(CMRC)並且發布了相關中文閱讀理解數據集,受到了業界廣泛關注和各界研究人員的積極參加,進一步促進了中文機器閱讀理解技術研究。
同時,為了進一步提升中文自然語言處理任務效果,哈工大訊飛聯合實驗室、認知智能國家重點實驗室發布多種中文預訓練模型,並且首次在CMRC 2018閱讀理解挑戰集的F1指標上超過60%,意味著中文預訓練模型在困難問題上首次超過「及格線」。目前,哈工大訊飛聯合實驗室已發布的中文預訓練模型有:BERT系列:BERT-wwm, BERT-wwm-ext
XLNet系列:XLNet-base, XLNet-mid
RoBERTa系列:RoBERTa-wwm-ext, RoBERTa-wwm-ext-large
>
哈工大訊飛聯合實驗室閱讀理解團隊(HFL-RC)哈工大訊飛聯合實驗室閱讀理解團隊(HFL-RC)是國內外最早啟動機器閱讀理解研究的團隊之一,持續深耕機器閱讀理解核心技術研究以及相關技術的產業落地。團隊成立至今斬獲了多項國際榮譽:
多次榮獲國際權威機器閱讀理解評測SQuAD 1.1冠軍多次榮獲國際權威機器閱讀理解評測SQuAD 2.0冠軍榮獲國際語義評測SemEval 2018閱讀理解任務冠軍哈工大訊飛聯合實驗室(HFL)是科大訊飛針對「訊飛超腦」項目計劃,重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)共同創辦。根據聯合實驗室建設規劃,雙方將在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術,支撐科大訊飛實現從「能聽會說」到「能理解會思考」的技術跨越,並圍繞教育、司法、人機互動等領域實現科研成果的規模化應用。
本期責任編輯:李忠陽
本期編輯:李照鵬
「哈工大SCIR」公眾號
主編:車萬翔
副主編:張偉男,丁效
執行編輯:李家琦
責任編輯:張偉男,丁效,崔一鳴,李忠陽
編輯:賴勇魁,李照鵬,馮梓嫻,王若珂,顧宇軒
長按下圖並點擊 「識別圖中二維碼」,即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公眾號:「哈工大SCIR」 。