哈工大訊飛聯合實驗室榮登多步推理閱讀理解評測HotpotQA榜首

2021-02-12 哈工大SCIR
2019年10月18日,哈工大訊飛聯合實驗室(Joint Laboratory of HIT and iFLYTEK Research, HFL)與河北省訊飛人工智慧研究院聯合團隊在由卡內基梅隆大學(CMU)、史丹福大學和蒙特婁大學聯合發起的多步推理閱讀理解評測HotpotQA中榮登榜首,全面刷新所有評測指標,其中綜合模糊準確率(Joint F1)指標達到72.73。多步推理閱讀理解評測HotpotQA自2018年發布以來吸引了大量高校和研究機構參與,其中包括微軟、IBM研究院、上海交通大學、日本電報電話公司(NTT)、華盛頓大學等。

HotpotQA挑戰賽(幹擾項賽道)最新榜單(截至2019年10月24日)

2019年3月,哈工大訊飛聯合實驗室在國際權威閱讀理解評測SQuAD 2.0中首次超過人類平均水平,意味著機器已經能夠充分理解一般難度的文本語義,並準備向更高難度的文本理解任務發起挑戰。傳統的閱讀理解數據集只需要理解單個篇章中與問題相關的某個特定篇章片段即可得到答案。而多步推理閱讀理解評測HotpotQA不僅將模型需要「讀」的文本範圍擴展到了多個篇章段落,同時要從多個篇章中篩選出與問題相關的篇章,並進一步要求模型能夠對佐證篇章中所敘述事物的邏輯關係構建兩步及以上的推理鏈,因而更具有挑戰性。HotpotQA評測根據提供的篇章數量分為兩個賽道:

本次哈工大訊飛聯合實驗室參加的是幹擾項賽道(Distractor Setting),該賽道更側重於考察模型的文本推理能力,同時也是參賽隊伍最多的賽道。下圖中給出了一個HotpotQA數據的示例,向機器詢問「Rand Paul在2016年宣布競選總統活動所在的酒店位於哪條河上?」。為了回答這個問題,機器需要首先從備選篇章中尋找到與問題相關的篇章。得到這些篇章後,我們從第一個篇章中得知該活動位於Galt House這家酒店。在閱讀另一個篇章時,機器得知該Galt House這家酒店位於Ohio River上。最終,機器從這兩條佐證證據(文章中綠色部分)推理得到答案「Ohio River」。

HotpotQA數據示例

其次,為了證明模型確實利用了原文中的相關證據進行推理並提升模型的可解釋性,HotpotQA不僅要求模型給出最終答案,還要求模型給出推理所用到的佐證證據(Supporting Facts)。在評價指標上,HotpotQA評測會根據答案和佐證證據的精確匹配率(EM)和模糊匹配率(F1)求得最終的聯合精確匹配率和模糊匹配率(Joint EM / F1)。從最終評測結果可以看出C2F Reader模型的得分顯著高於榜單其他公開以及非公開的技術方案。

本次提交的C2F Reader(Coarse-to-Fine Reader)模型在結合了目前主流的基於預訓練的語義表徵模型BERT的基礎上,針對需要多步推理的閱讀理解任務進行了優化設計,主要包括以下三個特點:

目前,人工智慧正經歷由感知智能向認知智能邁進的關鍵時期,為機器在理解文本語義的基礎上進一步賦予推理能力對認知智能的研究和發展具有重大的意義。

哈工大訊飛聯合實驗室不僅在國際比賽中拔得頭籌,也持續積極推動中文信息處理技術的研究與發展。2019年10月19日,由中國中文信息學會計算語言學專業委員會主辦,哈工大訊飛聯合實驗室承辦,科大訊飛股份有限公司冠名的第三屆「訊飛杯」中文機器閱讀理解評測研討會(CMRC 2019)在雲南昆明圓滿落幕。至此,哈工大訊飛聯合實驗室已先後承辦了三屆「訊飛杯」中文機器閱讀理解評測(CMRC)並且發布了相關中文閱讀理解數據集,受到了業界廣泛關注和各界研究人員的積極參加,進一步促進了中文機器閱讀理解技術研究。

同時,為了進一步提升中文自然語言處理任務效果,哈工大訊飛聯合實驗室、認知智能國家重點實驗室發布多種中文預訓練模型,並且首次在CMRC 2018閱讀理解挑戰集的F1指標上超過60%,意味著中文預訓練模型在困難問題上首次超過「及格線」。目前,哈工大訊飛聯合實驗室已發布的中文預訓練模型有:

BERT系列:BERT-wwm, BERT-wwm-ext

XLNet系列:XLNet-base, XLNet-mid

RoBERTa系列:RoBERTa-wwm-ext, RoBERTa-wwm-ext-large

>

哈工大訊飛聯合實驗室閱讀理解團隊(HFL-RC)

哈工大訊飛聯合實驗室閱讀理解團隊(HFL-RC)是國內外最早啟動機器閱讀理解研究的團隊之一,持續深耕機器閱讀理解核心技術研究以及相關技術的產業落地。團隊成立至今斬獲了多項國際榮譽:

多次榮獲國際權威機器閱讀理解評測SQuAD 1.1冠軍多次榮獲國際權威機器閱讀理解評測SQuAD 2.0冠軍榮獲國際語義評測SemEval 2018閱讀理解任務冠軍

哈工大訊飛聯合實驗室(HFL)是科大訊飛針對「訊飛超腦」項目計劃,重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)共同創辦。根據聯合實驗室建設規劃,雙方將在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智能關鍵技術,支撐科大訊飛實現從「能聽會說」到「能理解會思考」的技術跨越,並圍繞教育、司法、人機互動等領域實現科研成果的規模化應用。

本期責任編輯:李忠陽

本期編輯:李照鵬

「哈工大SCIR」公眾號

主編:車萬翔

副主編:張偉男,丁效

執行編輯:李家琦

責任編輯:張偉男,丁效,崔一鳴,李忠陽

編輯:賴勇魁,李照鵬,馮梓嫻,王若珂,顧宇軒

長按下圖並點擊 「識別圖中二維碼」,即可關注哈爾濱工業大學社會計算與信息檢索研究中心微信公眾號:「哈工大SCIR」 。

相關焦點

  • 哈工大訊飛聯合實驗室奪中文語法診斷大賽全球冠軍
    本屆CGED評測的參賽者可謂高手如雲,團隊包括中國社科院、阿里巴巴、北京大學、哈工大訊飛聯合實驗室(下文簡稱HFL)等,最終由HFL競得冠軍。而上一屆的冠軍是阿里巴巴團隊。今年第五屆的評測大會於上周四(2018年7月19日)在澳大利亞墨爾本舉行,這場比賽最終由哈工大訊飛聯合實驗室摘得桂冠。比賽方式是,主辦方挑選了一些外國人寫作的中文句子片段,讓參賽者通過人工智慧算法技術對其中的語法語義錯誤進行識別並進行系統性能評估。
  • 科大訊飛機器閱讀理解技術再次登頂SQuAD挑戰賽
    繼2017年7月刷新世界紀錄後,近日,科大訊飛與哈工大聯合實驗室(HFL)再次在由史丹福大學發起的機器閱讀理解領域權威評測SQuAD(Stanford
  • 訊飛行業認知智能升級讓文書質檢更簡單
    單句任務:CoLA(語法檢測)、SST-2(情感極性判斷) 相似度及複述任務:MRPC(語義等價性)、STS-B(相似度檢測)、QQP(問句語義等價性) 推斷任務:MNLI(文本蘊含)、QNLI(問句文本蘊含)、RTE(文本蘊含)、WNLI(Winograd Schema Challenge)最終結果是九項主任務得分的平均值。
  • 第六屆中文語法錯誤診斷大賽,哈工大訊飛聯合實驗室再獲多項冠軍
    訊飛、阿里、上交、南大、有道、外研社、新華社等團隊均有精彩表現。其中,哈工大訊飛聯合實驗室(下文簡稱HFL)團隊獲得綜合排名第一的成績,多項核心指標保持領先。A.I.也能改作文,我們拿下多項冠軍!布局訊飛超腦,HFL讓機器能理解會思考哈工大訊飛聯合實驗室(HFL)是科大訊飛針對「訊飛超腦」項目計劃,重點引進和布局的核心研發團隊之一,成立於2014年,由哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)與科大訊飛AI研究院共同創辦。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT模型
    近日,哈工大訊飛聯合實驗室發布了基於全詞覆蓋的中文 BERT 預訓練模型,該模型在多個中文數據集上,取得了當前中文預訓練模型的最佳水平,部分效果甚至超過了原版 BERT、ERNIE等中文預訓練模型。。哈工大訊飛聯合實驗室(HFL)是科大訊飛重點引進和布局的核心研發團隊之一,由科大訊飛AI研究院與哈爾濱工業大學社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創辦。
  • 2017年史丹福大學機器閱讀理解SQuAD挑戰賽,哈工大取得世界第一的驕人戰績!
    根據SQuAD此次公布的結果,哈工大•訊飛語言認知計算聯合實驗室(HFL)提交的系統模型「InteractiveAoA Reader」取得了精確匹配77.845%和模糊匹配85.297%的成績,位列世界第一。這也是中國本土研究機構首次登上該賽事的榜首。
  • 訊飛與哈工大聯合實驗室刷新SQuAD成績,兩項指標均大幅提升
    文 | 奕欣來自雷鋒網(leiphone-sz)的報導雷鋒網AI科技評論按:科大訊飛與哈工大聯合實驗室
  • 科大訊飛認知智能持續突破,機器閱讀理解SQuAD測試勇奪第一!
    Dataset)挑戰賽榜單更新成績,科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一名,這也是中國本土研究機構首次取得該賽事的榜首。目前,科大訊飛與哈工大的聯合實驗室提交的系統模型取得了精確匹配77.845%和模糊匹配85.297%的成績,位列世界第一。
  • 哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員
    哈工大訊飛聯合實驗室發布的中文ELECTRA系列預訓練模型再迎新成員 哈工大訊飛聯合實 發表於 2020-12-26 09:49:26 哈工大訊飛聯合實驗室發布的中文
  • 在外國人寫的中文句子裡找錯 哈工大訊飛聯合實驗室奪冠
    第五屆中文語法錯誤自動診斷大賽日前在澳大利亞墨爾本閉幕,中國社科院、阿里巴巴、北京大學等全球13個團隊參賽,最終哈工大訊飛聯合實驗室憑藉在人工智慧領域的多項技術積累,首次參賽就奪得冠軍。
  • EMNLP 2019 | 基於篇章片段抽取的中文閱讀理解數據集
    本文介紹了哈工大訊飛聯合實驗室(HFL)在自然語言處理頂級國際會議EMNLP 2019上發表的論文。
  • 哈工大劉挺:哈工大 SCIR 實驗室的 NLP 研究 | CCF-GAIR
    對話機器人組,主要研究對話機器人和營銷機器人。閱讀理解組,主要研究閱讀理解、篇章語義、信息抽取、大詞林。文本生成組,主要研究作文生成、新聞寫作、公文寫作。情感分析組,主要研究傾向性分析、觀點分析、情緒分析、情感對話。社會預測組,主要研究消費意圖挖掘、事理圖譜和股市預測。
  • 專訪科大訊飛:成為世界第一,只是閱讀理解系統萬裡長徵的第一步
    科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一,這也是中國本土研究機構首次取得該比賽的冠軍。在加拿大溫哥華舉辦的ACL大會現場,雷鋒網對正在參加大會的科大訊飛研究院副院長王士進進行了專訪,王士進不僅向雷鋒網介紹了訊飛取得良好成績的關鍵因素,還對在機器閱讀理解領域的未來研發方向及產業化狀況做了解答。王士進認為,機器閱讀理解具有廣闊的應用場景,目前的成績只是萬裡長徵的第一步,訊飛也會繼續探索機器閱讀理解技術落地應用的場景。
  • 中文最佳,哈工大訊飛聯合發布全詞覆蓋中文BERT預訓練模型
    而在中文領域,哈工大訊飛聯合實驗室也於昨日發布了基於全詞覆蓋的中文 BERT 預訓練模型,在多個中文數據集上取得了當前中文預訓練模型的最佳水平,效果甚至超過了原版 BERT、ERINE 等中文預訓練模型。基於 Transformers 的雙向編碼表示(BERT)在多個自然語言處理任務中取得了廣泛的性能提升。
  • 在國外,hotpot居然不是火鍋?
    hot pot 和hotpot有什麼區別 t] 火鍋 hotpot[?hɑ?tpɑ?t] 燜罐(內裝燉的肉、土豆、洋蔥等);小電熱鍋(可燒水或熱飯) 要注意的是,hotpot和hot pot看上去很像,但是意思卻完全不一樣,hot pot字面意思是加熱的鍋,我們所吃的火鍋也正好是正在加熱的鍋裡的食物,所以hot pot是火鍋的意思。
  • Hotpot finds sweet spot
    Haidilao Hotpot, the restaurant chain that leads the hotpot catering market in China, launched an instant variety of its famous offering last quarter.
  • 實用英語|火鍋是hotpot,鴛鴦鍋呢?
    hotpot /htpt/ n.火鍋例如:If I could, I would eat hotpot every day!如果可以,我願意天天吃火鍋但是hotpot還有「土豆燉肉」的意思同樣還可以指「電熱鍋」所以可以加上Sichuan hotpot四川火鍋
  • Robots at work at hot-pot restaurant
    Customers collect hot-pot ingredients from a delivery box brought by a robot via a cloud trackingsystem at an AI hot-pot restaurant in Nanshan District that just opened this month.
  • 10 top hotpot restaurants in Shanghai
    From Shabu Shabu chains to spicy Sichuan-style broths to a completely organic hotpot, here's where to get your fix this winter.
  • 「火鍋」可不能翻譯成「Hotpot」,知行君:應該是「Hot Pot」
    知行君在這裡提醒一下大家,「Hot Pot」是火鍋的意思,但是「Hotpot」可不是指火鍋,千萬不要鬧出笑話哦。如果在國外吃飯時,你在菜單上寫了「Hotpot」,那麼服務員端上來的絕對不是你認為的火鍋,而是一份連鍋的土豆洋蔥燉肉,和我們平常吃的大雜燴差不多,別看只是小小的差別,有時候會鬧出很大的誤會。