微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生

2020-12-25 新智元

新智元報導

來源:Arxiv/CoQA編輯:大明,文強

【新智元導讀】微軟語音與對話研究團隊開發的SDNet,在面向公共數據集CoQA的問答對話系統模型性能挑戰賽中刷新最佳性能紀錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%。

近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA Challenge中奪冠,並且單模型和集成模型分別位列第二和第一,讓機器閱讀理解向著人類水平又靠近了一步。

這也是繼語音識別、機器翻譯等成果之後,微軟取得的又一項好成績。

微軟研究人員將自注意力模型和外部注意力相結合,並且用新的方法整合了谷歌BERT語境模型,構建了一個基於注意力的會話式問答深度神經網絡SDNet,更有效地理解文本和對話歷史。

一直以來,微軟研究人員都有在機器閱讀理解中使用自注意力模型加外部注意力的想法,終於在這項工作中首次得以實現。

CoQA競賽:更接近人類對話的機器問答挑戰賽

CoQA是面向建立對話式問答系統的大型數據集,CoQA挑戰的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低(CoQA的發音是「扣卡」)

CoQA包含12.7萬個問題和答案,這些內容是從8000多個對話中收集而來的。每組對話都是通過眾籌方式,以真人問答的形式在聊天中獲取的。

CoQA的獨特之處在於:

數據集中的問題是對話式的答案可以是自由格式的文本 每個答案還附有對話段落中相應答案的理由這些問題收集自七個不同的領域

CoQA 數據集旨在體現人類對話中的特質,追求答案的自然性和問答系統的魯棒性。在CoQA 中,答案沒有固定的格式,在問題中頻繁出現指代詞,而且有專門用於跨領域測試的數據集。

CoQA具備了許多現有閱讀理解數據集中不存在的挑戰,比如共用參照和實用推理等。因此,CoQA Challenge 也更能反映人類真實對話的場景。

CoQA 與 SQuAD 兩個數據集對比:SQuAD 中約一半都是what型,CoAQ種類更多;SQuAD中沒有共識推斷,CoQA幾乎每組對話都需要進行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,CoQA中這一比例僅為66.8%。

此前,史丹福大學的自然語言處理小組已經先後發表了 SQuAD 和 SQuAD2.0 數據集。該數據集包含一系列文本和基於文本的問題、答案。針對該數據集提出的任務要求系統閱讀文本後判斷該問題是否可以從文本中得出答案,如果可以回答則從文本中截取某一片段做出回答。

目前,微軟語音與對話研究已經把他們在 CoQA Challenge上奪冠成果的預印本論文發在了Arxiv上。下面結合論文內容,對該團隊的實驗方法和研究成果做簡單介紹。

結合自注意力模型和外部注意力,更有效理解文本和對話歷史

在本文中,我們提出了SDNet,一種基於語境注意力的會話問答的深度神經網絡。我們的網絡源於機器閱讀理解模型,但具備幾個獨特的特徵,來解決面向對話的情境理解問題。

首先,我們在對話和問題中同時應用注意力和自我注意機制,更有效地理解文章和對話的歷史。其次,SDNet利用了NLP領域的最新突破性成果:比如BERT上下文嵌入Devlin等。

我們採用了BERT層輸出的加權和,以及鎖定的BERT參數。我們在前幾輪問題和答案之前加上了當前問題,以納入背景信息。結果表明,每個部分都實現了顯著提高了預測準確性的作用。

我們在CoQA數據集上對SDNet進行了評估,結果在全局F1得分方面,比之前最先進模型結果表現提升了1.6%(從75.0%至76.6%)。整體模型進一步將F1得分提升至79.3%。此外,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型。

實驗方法與衡量指標

我們在CoQA 上評估了我們的模型。在CoQA中,許多問題的答案需要理解之前的問題和答案,這對傳統的機器閱讀模型提出了挑戰。表1總結了CoQA中的領域分布。如圖所示,CoQA包含來自多個領域的段落,並且每個段落的平均問答超過15個。許多問題需要上下文的理解才能生成正確答案。

對於每個域內數據集,開發集中有100個段落,測試集中有100個段落。其餘的域內數據集位於訓練集中。測試集還包括所有域外段落。

基線模型和指標

我們將SDNet與以下基線模型進行了比較:PGNet(具有複製機制的Seq2Seq)、DrQA、DrQA +PGNet、BiDAF ++ Yatskar(2018)和FlowQA Huang等。 (2018)。與官方排行榜一致,我們使用F1作為評估指標,F1是在預測答案和基本事實之間的單詞級別的精度上的調和平均。

結果

上表所示為SDNet和基線模型的性能對比。如圖所示,使用SDNet的實現結果明顯好於基線模型。具體而言,與先前的CoQA FlowQA模型相比,單個SDNet模型將整體F1得分提高了1.6%。 Ensemble SDNet模型進一步將整體F1得分提升了2.7%,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型(80.7%)。

上圖所示為開發集隨epoch變化的F1得分情況。SDNet在第二個epoch之後的表現超越了兩個基線模型,並且僅在8個epoch後就實現了最優秀的表現。

消融研究 (Ablation)

我們對SDNet模型進行了消融研究,結果在上表中顯示。結果表明,正確使用上下文嵌入BERT是至關重要的。雖然移除BERT會使開發集的F1得分降低6.4%,但在未鎖定內部權重的情況下加入BERT會使得F1得分降低13%。

上下文歷史

在SDNet中,我們將當前問題與前N輪問題和真實答案前置一致,來利用對話歷史記錄。我們試驗了不同的N值的效果,並在表4中列出了結果。試驗顯示,我們的模型的性能對N的設置不是非常敏感。最後,我們的最終模型設置N = 2。

未來:讓模型更接近於真人對話場景

我們提出了一種新的基於情境注意的深度神經網絡SDNet,以解決對話問題的回答任務。通過在通過和對話歷史上利用注意力和自我關注,該模型能夠理解對話流並將其與消化段落內容融合在一起。

此外,我們融入了自然語言處理領域 BERT的最新突破,並以創新的方式利用它。與以前的方法相比,SDNet取得了卓越的成果。在公共數據集CoQA上,SDNet在整體F1指標得分上的表現比之前最先進的模型高1.6%。

縱觀CoQA Challenge排行榜,從今年8月21日到11月29日,短短3個月時間裡,機器問答對話的總體成績就從52.6提升到79.3,距離人類水平88.8似乎指日可待。

「最後一公裡往往是最難的,很難預測機器能否達到人類水平。」論文作者之一、微軟全球技術Fellow、負責微軟語音、自然語言和機器翻譯工作的黃學東博士告訴新智元。

未來,他們打算將SDNet模型應用於具有大型語料庫或知識庫的開放域中,解決多循環問答問題,這類問題中,目標段落可能是無法直接獲得的。這和人類世界中的問答的實際情況可能更為接近。

更多閱讀:

突發!中國法院初步裁決禁售多款iPhone,高通告贏了蘋果?孟晚舟終獲保釋!抱律師哭泣,現場掌聲雷動禁售iPhone再升級!高通尋求美國禁止進口蘋果,5G大戰英特爾躺槍

SDNet相關論文地址:

https://arxiv.org/pdf/1812.03593.pdf

關於CoQA Challenge的更多信息詳見:

https://stanfordnlp.github.io/coqa/

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • AlphaFold預測蛋白質3D結構,2018谷歌走下神壇,微軟創CoQA挑戰
    【新聞 | 微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生】來源:Arxiv/CoQACoQA挑戰新紀錄微軟數據挑戰賽CoQA Challenge中奪冠近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
  • 微軟刷新CoQA對話問答挑戰賽紀錄,模型性能達到人類同等水平
    來自微軟亞洲研究院(MSRA)自然語言處理(NLP)小組和微軟 Redmond 語言對話研究小組的一組研究人員目前在史丹福大學組織的對話問答(COQA)挑戰中處於領先位置。在在這一挑戰中,衡量機器的方法是其理解文本段落和回答會話中出現的一系列相互關聯的問題的能力大小。微軟目前是唯一一個在其模型性能上達到人類同等水平的團隊。CoQA 是一個大型的會話問答數據集,由來自不同領域的一組文章上的會話問題組成。MSRA NLP 團隊使用斯坦福問答數據集(SQuAD)在單輪問答上達到了人類同等水平,這是一個新的裡程碑。
  • 阿里AI英文閱讀理解成績超微軟,接近人類水平
    12月24日消息,在MS MARCO文本閱讀理解挑戰賽中,阿里AI創造了閱讀理解能力測試的新紀錄。MS MARCO挑戰賽是AI閱讀理解領域的權威比賽,它包含100多個萬問題和300多萬篇文檔,相當於參賽機構提供的人工智慧模型需要閱讀完維基百科中的所有文章。測試結果顯示,阿里AI模型在英文閱讀理解比賽中得分超過了微軟、百度等研究機構,排名第一,接近人類理解水平。這意味著人工智慧的閱讀理解能力達到新的高度。
  • 微軟宣布!中英機器翻譯水平媲美人類
    IT之家3月14日消息 根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟機器翻譯新突破 中譯英水平可與人類相當
    繼在語音識別和機器閱讀領域取得的「過人」成績,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 機器翻譯新突破,微軟中英新聞翻譯達人類水平
    這個約束,應用於神經機器翻譯訓練過程中,以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。與人類比較由於機器翻譯沒有「正確的」翻譯結果,為了與人類的翻譯水平進行比較,就必須嚴格地定義什麼是與人類翻譯水平相當。
  • 阿里打破自然語言理解世界紀錄,AI常識推理水平正在逼近人類
    7月16日消息,阿里AI在常識QA領域的權威數據集CommonsenseQA上刷新世界紀錄,超過微軟取得第一名,顯著提升AI的常識推理能力。目前最流行的語言模型BERT在SWAG、SQuAD上的性能已經接近或超過人類,但在CommonsenseQA上的準確率還遠低於人類。
  • 微軟「中譯英」機器翻譯水平媲美人類
    微軟亞洲研究院宣布,微軟研究團隊研發的機器翻譯系統在通用新聞報導測試集 newstest2017 中 – 英測試集達到了可以與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 微軟人工智慧又一裡程碑:微軟中-英機器翻譯水平可「與人類媲美」
    繼在語音識別和機器閱讀領域取得的「過人」成績,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 刷新CoQA榜單:基於對抗訓練和知識蒸餾的機器閱讀理解方案解析
    紀錄。值得注意的是,團隊提交的技術方案中,單模型的各項指標表現首次全面超越人類。CoQA Leaderboard。 一直以來,機器閱讀理解都是自然語言處理界最受關注、進步最快的技術方向之一,主要有兩大比賽較受矚目,分別是注重一問一答的SQuAD [2]和多輪對話問答的CoQA [3]。
  • 微軟宣布其中英機器翻譯水平可與人類相當
    為了確保翻譯結果準確且達到人類的翻譯水平,微軟研究團隊邀請了雙語語言顧問將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。微軟技術院士,負責微軟語音、自然語言和機器翻譯工作的黃學東稱,這是對自然語言處理領域最具挑戰性任務的一項重大突破。「在機器翻譯方面達到與人類相同的水平是所有人的夢想,我們沒有想到這麼快就能實現。」
  • 搜狗超越微軟成CoQA新紀錄保持者,閱讀理解能力可媲美人類
    CoQA是面向建立對話式問答系統的大型數據集,挑戰賽的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低。2018年8月,CoQA挑戰賽正式啟動,吸引了眾多國內外知名研究機構和高校,其中包括微軟、艾倫研究院(AI2)、史丹福大學、清華大學COAI實驗室、北京大學、復旦大學、北京郵電大學、中國科技大學等。
  • 微軟AI翻譯突破 中譯英已接近人類水平
    但微軟的機器翻譯在上周打破了這一現狀,他們研發出了首個可以將中文翻譯成英文的人工智慧翻譯系統,而且表現的像人類一樣自然。  據悉,微軟所開發的這一翻譯系統能夠完成中譯英的文章和語句,採用的AI基礎方法是雙重學習,把中文翻譯成英文,然後再翻譯回來保障準確度,而且AI在學習的過程中還能改進結果,學會根據用戶編輯和修改進行自主編輯和修改翻譯結果
  • 又一裡程碑:微軟宣布中英機器翻譯達到人類水平
    【網易智能訊3月15日消息】昨天,由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊宣布,其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平,微軟稱這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。
  • 微軟技術院士黃學東:以人為師,機器翻譯達人類專業水平
    今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智慧領域科學研究的前線。2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。
  • 谷歌AI翻譯系統準確率正接近人類水平
    據外媒報導,谷歌是全球AI語言翻譯服務的領先者之一,日前,這家公司表示,他們新開發的一項技術將進一步大幅提高其翻譯水準。新技術叫做Google Neural Machine Translation(以下簡稱GNMT),它能讓翻譯系統不再像以往那麼逐字逐字地翻譯,而是從整體上分析句子。Google Brain團隊研究員Quoc V. Le和Mike Schuster指出,GNMT所要面對的工程設計抉擇要比基於詞組的翻譯系統少得多。
  • 微軟宣布中英機器翻譯水平媲美人類 可應用於整個AI研究...
    微軟亞洲和美國實驗室的研究人員表示,他們的系統在一套常用的新聞報導測試集上實現了達到了人類水平,測試集名為newstest2017。系統是由一群行業和學術合作夥伴開發的,去年秋天在WMT17研討會上發布。為確保結果既準確又符合人們的期望,團隊聘請了外部雙語人力評估人員,他們將微軟的結果與兩個獨立製作的人類參考翻譯進行了比較。
  • 機器翻譯系統提前7年達到人類專業翻譯水平
    ,2017 在斯坦福問答數據集 SQuAD 上達到人類水平,今天又在機器翻譯上達到人類水平,一路走來,微軟的進步激動人心,「這是我們共同的成就,我們是站在同行的肩膀上往上走」。   裡程碑式突破:首個媲美人類專業水平的機器翻譯系統   這次微軟的翻譯系統是在數據集 WMT-17 的新聞數據集 newstest2017 上取得了上述成果。WMT 是機器翻譯領域的國際頂級評測比賽之一。WMT 數據集也是機器翻譯領域一個公認的主流數據集。