微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生

2021-01-17 新智元

新智元報導

來源:Arxiv/CoQA編輯:大明,文強

【新智元導讀】微軟語音與對話研究團隊開發的SDNet,在面向公共數據集CoQA的問答對話系統模型性能挑戰賽中刷新最佳性能紀錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%。

近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA Challenge中奪冠,並且單模型和集成模型分別位列第二和第一,讓機器閱讀理解向著人類水平又靠近了一步。

這也是繼語音識別、機器翻譯等成果之後,微軟取得的又一項好成績。

微軟研究人員將自注意力模型和外部注意力相結合,並且用新的方法整合了谷歌BERT語境模型,構建了一個基於注意力的會話式問答深度神經網絡SDNet,更有效地理解文本和對話歷史。

一直以來,微軟研究人員都有在機器閱讀理解中使用自注意力模型加外部注意力的想法,終於在這項工作中首次得以實現。

CoQA競賽:更接近人類對話的機器問答挑戰賽

CoQA是面向建立對話式問答系統的大型數據集,CoQA挑戰的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低(CoQA的發音是「扣卡」)。

CoQA包含12.7萬個問題和答案,這些內容是從8000多個對話中收集而來的。每組對話都是通過眾籌方式,以真人問答的形式在聊天中獲取的。

CoQA的獨特之處在於:

數據集中的問題是對話式的答案可以是自由格式的文本 每個答案還附有對話段落中相應答案的理由這些問題收集自七個不同的領域

CoQA 數據集旨在體現人類對話中的特質,追求答案的自然性和問答系統的魯棒性。在CoQA 中,答案沒有固定的格式,在問題中頻繁出現指代詞,而且有專門用於跨領域測試的數據集。

CoQA具備了許多現有閱讀理解數據集中不存在的挑戰,比如共用參照和實用推理等。因此,CoQA Challenge 也更能反映人類真實對話的場景。

CoQA 與 SQuAD 兩個數據集對比:SQuAD 中約一半都是what型,CoAQ種類更多;SQuAD中沒有共識推斷,CoQA幾乎每組對話都需要進行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,CoQA中這一比例僅為66.8%。

此前,史丹福大學的自然語言處理小組已經先後發表了 SQuAD 和 SQuAD2.0 數據集。該數據集包含一系列文本和基於文本的問題、答案。針對該數據集提出的任務要求系統閱讀文本後判斷該問題是否可以從文本中得出答案,如果可以回答則從文本中截取某一片段做出回答。

目前,微軟語音與對話研究已經把他們在 CoQA Challenge上奪冠成果的預印本論文發在了Arxiv上。下面結合論文內容,對該團隊的實驗方法和研究成果做簡單介紹。

結合自注意力模型和外部注意力,更有效理解文本和對話歷史

在本文中,我們提出了SDNet,一種基於語境注意力的會話問答的深度神經網絡。我們的網絡源於機器閱讀理解模型,但具備幾個獨特的特徵,來解決面向對話的情境理解問題。

首先,我們在對話和問題中同時應用注意力和自我注意機制,更有效地理解文章和對話的歷史。其次,SDNet利用了NLP領域的最新突破性成果:比如BERT上下文嵌入Devlin等。

我們採用了BERT層輸出的加權和,以及鎖定的BERT參數。我們在前幾輪問題和答案之前加上了當前問題,以納入背景信息。結果表明,每個部分都實現了顯著提高了預測準確性的作用。

我們在CoQA數據集上對SDNet進行了評估,結果在全局F1得分方面,比之前最先進模型結果表現提升了1.6%(從75.0%至76.6%)。整體模型進一步將F1得分提升至79.3%。此外,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型。

實驗方法與衡量指標

我們在CoQA 上評估了我們的模型。在CoQA中,許多問題的答案需要理解之前的問題和答案,這對傳統的機器閱讀模型提出了挑戰。表1總結了CoQA中的領域分布。如圖所示,CoQA包含來自多個領域的段落,並且每個段落的平均問答超過15個。許多問題需要上下文的理解才能生成正確答案。

對於每個域內數據集,開發集中有100個段落,測試集中有100個段落。其餘的域內數據集位於訓練集中。測試集還包括所有域外段落。

基線模型和指標

我們將SDNet與以下基線模型進行了比較:PGNet(具有複製機制的Seq2Seq)、DrQA、DrQA +PGNet、BiDAF ++ Yatskar(2018)和FlowQA Huang等。 (2018)。與官方排行榜一致,我們使用F1作為評估指標,F1是在預測答案和基本事實之間的單詞級別的精度上的調和平均。

結果

上表所示為SDNet和基線模型的性能對比。如圖所示,使用SDNet的實現結果明顯好於基線模型。具體而言,與先前的CoQA FlowQA模型相比,單個SDNet模型將整體F1得分提高了1.6%。 Ensemble SDNet模型進一步將整體F1得分提升了2.7%,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型(80.7%)。

上圖所示為開發集隨epoch變化的F1得分情況。SDNet在第二個epoch之後的表現超越了兩個基線模型,並且僅在8個epoch後就實現了最優秀的表現。

消融研究 (Ablation)

我們對SDNet模型進行了消融研究,結果在上表中顯示。結果表明,正確使用上下文嵌入BERT是至關重要的。雖然移除BERT會使開發集的F1得分降低6.4%,但在未鎖定內部權重的情況下加入BERT會使得F1得分降低13%。

上下文歷史

在SDNet中,我們將當前問題與前N輪問題和真實答案前置一致,來利用對話歷史記錄。我們試驗了不同的N值的效果,並在表4中列出了結果。試驗顯示,我們的模型的性能對N的設置不是非常敏感。最後,我們的最終模型設置N = 2。

未來:讓模型更接近於真人對話場景

我們提出了一種新的基於情境注意的深度神經網絡SDNet,以解決對話問題的回答任務。通過在通過和對話歷史上利用注意力和自我關注,該模型能夠理解對話流並將其與消化段落內容融合在一起。

此外,我們融入了自然語言處理領域 BERT的最新突破,並以創新的方式利用它。與以前的方法相比,SDNet取得了卓越的成果。在公共數據集CoQA上,SDNet在整體F1指標得分上的表現比之前最先進的模型高1.6%。

縱觀CoQA Challenge排行榜,從今年8月21日到11月29日,短短3個月時間裡,機器問答對話的總體成績就從52.6提升到79.3,距離人類水平88.8似乎指日可待。

「最後一公裡往往是最難的,很難預測機器能否達到人類水平。」論文作者之一、微軟全球技術Fellow、負責微軟語音、自然語言和機器翻譯工作的黃學東博士告訴新智元。

未來,他們打算將SDNet模型應用於具有大型語料庫或知識庫的開放域中,解決多循環問答問題,這類問題中,目標段落可能是無法直接獲得的。這和人類世界中的問答的實際情況可能更為接近。

更多閱讀:

突發!中國法院初步裁決禁售多款iPhone,高通告贏了蘋果?孟晚舟終獲保釋!抱律師哭泣,現場掌聲雷動禁售iPhone再升級!高通尋求美國禁止進口蘋果,5G大戰英特爾躺槍

SDNet相關論文地址:

https://arxiv.org/pdf/1812.03593.pdf

關於CoQA Challenge的更多信息詳見:

https://stanfordnlp.github.io/coqa/

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手_2 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

相關焦點

  • AlphaFold預測蛋白質3D結構,2018谷歌走下神壇,微軟創CoQA挑戰
    CoQA挑戰新紀錄微軟數據挑戰賽CoQA Challenge中奪冠近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA Challenge中奪冠,SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
  • 追一科技CoQA冠軍方案分享:基於對抗訓練和知識蒸餾的機器閱讀理解...
    近日,在由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技AI Lab團隊超越微軟團隊成為榜單第一[1],刷新了之前微軟等團隊創造的CoQA紀錄。值得注意的是,團隊提交的技術方案中,單模型的各項指標表現首次全面超越人類。
  • 刷新CoQA榜單:基於對抗訓練和知識蒸餾的機器閱讀理解方案解析
    機器之心發布作者:追一科技 AI Lab研究員 Nicolas近日,在由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技AI Lab團隊成為榜單第一[1],刷新了之前微軟等團隊創造的CoQA紀錄。
  • 微軟「中譯英」機器翻譯水平媲美人類
    微軟亞洲研究院宣布,微軟研究團隊研發的機器翻譯系統在通用新聞報導測試集 newstest2017 中 – 英測試集達到了可以與人工翻譯媲美的水平。這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。微軟亞洲研究院表示,機器翻譯是自然語言處理領域最具挑戰性的研究任務之一,這一系統模型包括由微軟亞洲研究院研發的對偶學習、推敲網絡、聯合訓練和一致性規範技術。
  • 微軟技術院士黃學東:以人為師,機器翻譯達人類專業水平
    今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智慧領域科學研究的前線。2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。
  • 微軟AI翻譯突破 中譯英已接近人類水平
    但微軟的機器翻譯在上周打破了這一現狀,他們研發出了首個可以將中文翻譯成英文的人工智慧翻譯系統,而且表現的像人類一樣自然。  據悉,微軟所開發的這一翻譯系統能夠完成中譯英的文章和語句,採用的AI基礎方法是雙重學習,把中文翻譯成英文,然後再翻譯回來保障準確度,而且
  • 搜狗超越微軟成CoQA新紀錄保持者,閱讀理解能力可媲美人類
    CoQA是面向建立對話式問答系統的大型數據集,挑戰賽的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低。2018年8月,CoQA挑戰賽正式啟動,吸引了眾多國內外知名研究機構和高校,其中包括微軟、艾倫研究院(AI2)、史丹福大學、清華大學COAI實驗室、北京大學、復旦大學、北京郵電大學、中國科技大學等。
  • 中聯重科塔機 再創吉尼斯紀錄
    原標題:中聯重科塔機 再創吉尼斯紀錄    7月26日下午,全球最大平頭塔機T3000定製交付儀式在中聯重科常德工業園隆重舉行,標誌著這顆塔機領域的「璀璨明星」正式閃耀全球。    據介紹,T3000是中聯重科繼成功研製出全球最大輪式起重機、最大履帶式起重機、最大全地面起重機、最大水平臂上迴轉自升塔式起重機之後,再一次挑戰世界科研新高度的精品力作,進一步完善了中聯重科起重機「家族」產品型譜。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    今日,微軟研究團隊表示,微軟和微軟亞研創造了首個在質量與準確率上匹配人類水平的中英新聞機器翻譯系統。黃學東告訴機器之心,他們採用專業人類標註與盲測評分代替 BLEU 分值而具有更高的準確性,且新系統相比於現存的機器翻譯系統有非常大的提升。因此,根據人類盲測評分,微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。
  • 微軟宣布重大裡程碑:中英機器翻譯水平可「與人類媲美」
    PingWest品玩3月15日報導,根據微軟亞洲研究院消息,今天,微軟研究團隊宣布其研發的機器翻譯系統在通用新聞報導測試集newstest2017的中-英測試集上達到了人類水平,這是首個在新聞報導的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
  • 八項摩託車耐力運動世界紀錄誕生,歡迎車手挑戰!
    我發現,本周就出現了各種越來越奇特的耐力運動紀錄。其中一些紀錄並不是同一天內誕生的,並且這些耐力運動項目不僅僅局限於摩託車類運動,但這些成就已經完全展示了他們驚人的勇氣和正能量。 而在這篇文章中所提到的第一項目應該能激勵所有的摩託車手——不分年齡,一切皆有可能。
  • 「百創賽」第74日:第十項世界紀錄即將在江西誕生
    9月4日是TEAM CHINA(中國國家隊)陸上賽艇百日創紀錄賽的第74個比賽日,經過一番設計和準備,「百創賽」即將在井岡山-南昌站產生第十項世界紀錄。 江西運動員要衝擊的第一項世界紀錄,是陸上賽艇划船測功儀女子輕量級19歲及以下年齡組的雙人100公裡,這將是中國運動員第一次挑戰雙人項目的世界紀錄,原紀錄是美國運動員Juliette Hackett和Emily Wiebe在2011賽季創造的,成績是7小時21分38秒9,當時這兩名運動員的年齡分別是16歲和17歲,鑑於江西盛產優秀的輕量級選手,參賽選手黃一帆、謝伶俐打破這項紀錄將很有希望
  • 媲美人類有何不可?深度解讀微軟新 AI 翻譯系統四大秘技
    機器翻譯新突破,微軟中英新聞翻譯達人類水平》中,我們介紹了微軟亞洲研究院與雷德蒙研究院共同研發的新的機器翻譯系統,微軟稱它在 newstest2017 的中-英測試集上達到了與人工翻譯媲美的水平。畢竟,我們時常見到新模型在公開測試中刷榜,能夠和人類拿到同樣的分數,但不一定換一個數據集就還能和人類媲美,尤其是對於靈活多變的人類語言而言;另一面,谷歌、搜狗、百度等網際網路巨頭都有自己神經網絡翻譯系統,大家都或多或少體驗過,即便最新的模型都普遍使用了注意力機制,但翻譯質量不盡如人意的地方仍時常出現,繼續做出大跨步式的突破又談何容易呢?
  • 葉晨光成功挑戰高空跳傘 三萬英尺創華人紀錄
    (解說)5月31日,繼極限挑戰者葉晨光在美國成功完成高空跳傘挑戰後,以「挑戰三萬英尺」為主題的媒體答謝會在北京舉行。  (解說)美國時間5月29日,中國籍80後極限愛好者葉晨光在美國加州戴維斯機場成功完成了10000米高空跳傘挑戰,此次挑戰成功,意味著葉晨光刷新了華人高空跳傘紀錄。
  • 國內自然語言處理(NLP)研究組
    中國大陸地區:微軟亞研自然語言計算組 Natural Language Computing (NLC) Grouphttps://www.microsoft.com/en-us/research/group/natural-language-computing/www.microsoft.com百度自然語言處理百度自然語言處理 - 理解語言,擁有智能,改變世界
  • 再創金氏世界紀錄™!長安汽車使中國製造「鯨」動世界
    再創金氏世界紀錄™!長安汽車使中國製造「鯨」動世界12月16日—27日,長安汽車在重慶全球研發中心發起主題為「鯨動世界」的金氏世界紀錄™稱號挑戰活動,活動期間,功勳「主播」藍鯨NE1.5T高壓直噴發動機全程保持每分鐘5500轉全油門高速運轉工作狀態,在全負荷運行259小時46分45秒,累計51195公裡後,憑藉出色的可靠性、耐久性和穩定性,成功獲得金氏世界紀錄™「最長時間的視頻直播」
  • 新模型機理更接近真實人類視覺系統;搜狗2019年全年營收超80億
    >計算機視覺是目前人工智慧最成功的領域之一,但這些用來檢測物體、人臉的複雜系統,直至今日也無法與人類的視覺系統相提並論。近日,來自麻省理工學院和耶魯大學等高校研究者提出了一種名為「EIG」的深度神經網絡模型,與常用的帶標籤數據訓練出的神經系統相比,新模型的機理更接近真實的人類視覺系統,可以像人類一樣從圖像中迅速生成詳細的場景描述。這一成果已經以論文的形式在《Science Advance》上發表,為我們探索大腦這一強大機制的工作原理提供了參考。
  • 一項新的世界紀錄在珠海上空誕生
    就在今日凌晨3點40分3051架無人機同時升空一項新的世界紀錄在珠海上空誕生了今天凌晨3點30分開始在北京理工大學珠海學院師生的見證下由2020年央視春晚無人機編隊飛行表演執行團隊深圳大漠大智控技術有限公司操控的3051架無人機
  • 「冰王」金松浩央視創世界紀錄 全身埋冰裡達113分鐘
    原標題:「冰王」金松浩央視創世界紀錄 全身埋冰裡達113分鐘 「冰王」金松浩挑戰金氏世界紀錄   央視大型競技挑戰節目《吉尼斯中國之夜》目前正在CCTV-1每晚17:55分進行七天聯播。在已經播出的兩期節目中,眾多的金氏世界紀錄全新誕生。擁有「世界冰王」美譽的中國黑龍江選手金松浩成功挑戰自己保持的金氏世界紀錄,技驚全場。