AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄

2021-01-17 手機鳳凰網

智東西5月5日消息,人類在NLP領域的研究已長達半世紀,現在AI終於揚眉吐氣了!5月4日,在史丹福大學的會話問答(CoQA)挑戰賽中,AI的會話能力已媲美人類,並以0.6分優勢全面「碾壓」人類水平!也就是說,人類與這個模型互動更像是與真人之間的交流。

CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。

在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!他們於2019年3月29日提交的集合系統得分對應域內、域外和整體F1分別為89.9 / 88.0 / 89.4,而同一組會話問題和答案的人類表現則分別為89.4 / 87.4 / 88.8。

從2018年至今,人類在NLP領域不斷有好消息傳來。去年10月谷歌推出BERT語言模型在11項NLP任務中奪得STOA結果。今年2月,OpenAI展示了其訓練的一個大規模的無監督語言模型GPT-2,可以根據前文進行續寫,並且不需要特定訓練。

這也說明了,當下NLP研發正進入一個黃金時期!

微軟再度贏得斯坦福CoQA挑戰賽

CoQA是一個大規模的會話式問答數據集,這些問答數據來自不同領域的文章中,機器學習通過從這些文章中提取問答數據進行會話問答。CoQA挑戰的目的,是為了衡量機器對文本的理解能力,檢驗機器在接近人類的對話中回答問題能力的高低。

NLP團隊之前使用斯坦福SQuAD(問題答疑數據集)在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%,在對話系統模型性能挑戰賽中刷新最佳性能紀錄。與SQuAD相比,CoQA中的問題更具會話性,答案可以是自由格式文本,以確保對話中答案的自然性。

CoQA中的會話問題形式是模仿人類的對話,但一般都很短。進行第一個問題之後的每個問題都根據第一個問題來進行問答,這使得簡短問題對於機器解析更加困難。例如,假設您向系統提問,「誰是微軟的創始人?」當您提出後續問題「他什麼時候出生?」時,機器解析需要判斷現在談論的仍然是同一主題。

根據CoQA排行榜,NLP和SDRG模型取得的成績再次刷新了記錄,機器閱讀理解已成功達到人類水平。

這項成就意味著Bing等搜尋引擎和Cortana等智能助手與人們的互動可以通過這種模型以更自然的方式提供信息,就像人與人之間相互溝通一樣。

微軟模型如何「碾壓」人類?

為了更好地測試現有模型的泛化能力,CoQA從七個不同的領域收集數據,兒童故事、文學、中學和高中英語考試、新聞、維基百科、Reddit和科學。其中前五種類型的文章用於模型的訓練、開發和測試集,後兩種僅用於測試集。

CoQA使用F1(統計學中衡量二分類模型精確度的指標)指標來評估性能。F1評分衡量模型系統的實際問答效果和預測情況之間的平均單詞重疊。域內F1根據與訓練集相同的域的測試數據進行評分;並對來自不同域的測試數據評分域外F1。總體F1是整個測試集的最終得分。

微軟研究人員使用了一種訓練模型的策略,模型系統從幾個相關任務中學習,並將信息用於改進目標機器閱讀理解(MRC)任務。

在這種多階段、多任務的微調方法中,研究人員首先在多任務設置下從相關任務中學習MRC相關背景信息,然後在目標任務上微調模型,並使用語言建模在兩個階段中輔助完成任務,以幫助減少會話式問答模型的過度擬合。

NLP和SDRG的策略起到了有效的作用,他們的機器模型在CoQA挑戰賽中的強大表現進一步證明了這一點。

走過半世紀,人類在NLP領域取得十大裡程碑

NLP是人工智慧領域的一個重要子領域,同時也是一種非常吸引人的人機互動方式,從50年代機器翻譯和人工智慧研究算起,NLP至今有長達半個世紀的歷史了。

在過去的二十多年裡,科學家們利用統計機器學習方法,讓NLP技術不斷向前邁進。

近四年來,深度學習則給NLP帶來了新的學習模式。其中在單句翻譯、抽取式閱讀理解、語法檢查等任務上,更是達到了可比擬人類的水平。

細數半個世紀以來,人類在NLP領域有著十大裡程碑,分別是:

1、1985複雜特徵集

2、1966詞彙主義

3、1976統計語言模型

4、2001神經語言模型(Neural language models)

5、2008多任務學習(Multi-task learning)

6、2013詞嵌入

7、2013RNN/CNN用於NLP的神經網絡

8、2014序列到序列模型(Sequence-to-sequencemodels)

9、2015注意力機制和基於記憶的神經網絡

10、2018預訓練語言模型

從2018年至今,人類在NLP領域不斷有好消息傳來。

去年10月谷歌推出BERT語言模型,通過在33億文本的語料上訓練語言模型,最終BERT在11項NLP任務中奪得STOA結果,在自然語言處理學界以及工業界都引起了不小的熱議。

▲OpenAI GPT-2編造的新聞

今年2月,OpenAI展示了其訓練的一個大規模的無監督語言模型GPT-2,具有來自800萬個網頁的15億數據集,其訓練目標就是基於前面給定的文本,從而預測接下來的文字。它可以生成連貫的文本段落,並進行閱讀理解、機器翻譯、問答和撰寫摘要,並且所以這些AI能力都不需要特定任務的訓練。

結語:NLP研發正迎來黃金時期

在此次比賽中,由微軟亞研院NLP團隊和微軟Redmond語音對話團隊在比賽中已經讓模型在性能方面達到人類水平,這也標誌著微軟可以在搜尋引擎和語音助手等與人們強交互領域可以更自然地互動和提供信息。

自然語言理解被譽為被譽為「人工智慧皇冠上的明珠」,其進步必將會推動人工智慧整體進展。從目前來看,隨著深度學習技術的應用,人類在NLP領域正不斷取得進步,更多有趣、驚人的AI在陸續出現,NLP研發也正迎來又一個黃金時期。

相關焦點

  • 微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生
    新智元報導 來源:Arxiv/CoQA編輯:大明,文強【新智元導讀】微軟語音與對話研究團隊開發的SDNet,在面向公共數據集CoQA的問答對話系統模型性能挑戰賽中刷新最佳性能紀錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%。
  • 搜狗超越微軟成CoQA新紀錄保持者,閱讀理解能力可媲美人類
    CoQA是面向建立對話式問答系統的大型數據集,挑戰賽的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低。與業界所熟知的機器閱讀理解評測SQuAD相比,該挑戰賽集中的問題不再是單輪的一問一答的形式,而是擴展到多輪的對話交互;SQuAD 中約一半都是what型,該挑戰賽問題種類更多;SQuAD中沒有共識推斷,該挑戰賽幾乎每組對話都需要進行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,該挑戰賽中這一比例僅為66.8%。
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    能看圖會說話的AI,表現還超過了人類?最近,Azure悄然上線了一個新的人工智慧服務,能精準的說出圖片中的內容。而背後的視覺詞表技術,更是超越了基於Transformer的前輩們,拿到nocaps挑戰賽冠軍。有沒有發現,搜索出來的圖片有時相關性很差?
  • 追一科技AI Lab團隊獲CoQA閱讀理解冠軍
    近日,由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技 AI Lab團隊超越微軟團隊成為榜單第一,刷新了之前微軟等團隊創造的CoQA紀錄。
  • 追一科技CoQA冠軍方案分享:基於對抗訓練和知識蒸餾的機器閱讀理解...
    近日,在由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技AI Lab團隊超越微軟團隊成為榜單第一[1],刷新了之前微軟等團隊創造的CoQA紀錄。值得注意的是,團隊提交的技術方案中,單模型的各項指標表現首次全面超越人類。
  • 刷新CoQA榜單:基於對抗訓練和知識蒸餾的機器閱讀理解方案解析
    機器之心發布作者:追一科技 AI Lab研究員 Nicolas近日,在由史丹福大學發起的對話式問答挑戰賽 CoQA (Conversational Question Answering Challenge)中,追一科技AI Lab團隊成為榜單第一[1],刷新了之前微軟等團隊創造的CoQA紀錄。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI
    【AI星球(微信ID:ai_xingqiu)】8月23日報導(編譯:福爾摩望)微軟今天推出了一款可以支持高速、低延遲機器學習模型的系統,也預示著微軟開始在專用AI硬體領域嶄露頭角。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 首屆「航天杯」移動機器人AI創新技術挑戰賽成功舉辦
    航天科工三院副院長莊劍在挑戰賽開幕式上進行視頻致辭。中國日報1月10日電(記者 趙磊)記者從中國航天科工集團有限公司第三研究院獲悉,1月7日至9日,首屆「航天杯」移動機器人AI創新技術挑戰賽在線上舉辦。本次比賽由航天科工三院主辦,航天科工集團增材製造創新技術中心承辦。
  • 微軟和ODI啟動教育開放數據挑戰賽 以縮小K-12教育中的數字鴻溝 |...
    微軟和開放數據研究所(Open Data Institute,ODI)宣布啟動教育開放數據挑戰賽,以揭示寬帶接入與在新冠疫情之後,教育開放數據挑戰賽可幫助教育者和研究組織更好地了解持續破壞傳統學習對世界上最弱勢學習者的潛在長期影響。  微軟和ODI鼓勵團隊參加挑戰賽以幫助開發創新性解決方案來縮小K-12教育中的數字鴻溝。冠軍團隊將被邀請選出一家非盈利組織,該組織可獲得5萬英鎊的獎勵;亞軍和季軍也將分別選出一家非盈利組織,他們可分別獲得3萬英鎊和2萬英鎊的獎勵。此次挑戰賽面向全球的團隊和個人。
  • 微軟「編程之美」挑戰賽總決賽落幕:上海交大團隊奪冠
    IT之家8月18日消息 近日,微軟「編程之美」挑戰賽2017年總決賽在北京落幕。本次比賽共有26名選手,分別組成8支隊伍,目前比賽結果已經揭曉,最終奪冠的是上海交通大學的「交小通」團隊。
  • 首屆「航天杯」移動機器人AI創新技術挑戰賽舉辦
    中國青年報客戶端訊(趙國偉 中青報中青網記者 邱晨輝)記者從中國航天科工三院獲悉,1月7日至9日,首屆「航天杯」移動機器人AI創新技術挑戰賽在線上舉辦。此次比賽由中國航天科工三院主辦,中國航天科工增材製造創新技術中心承辦,來自全國8所高校學生代表隊參賽,多位機器人領域的專家學者參與交流。
  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。這也意味著以零售、物流、金融、客服等優質場景為依託的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。
  • AlphaFold預測蛋白質3D結構,2018谷歌走下神壇,微軟創CoQA挑戰
    CoQA挑戰新紀錄微軟數據挑戰賽CoQA Challenge中奪冠近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA Challenge中奪冠,SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過
  • 2018年施耐德電氣綠色能效全球創新案例挑戰賽
    2018年施耐德電氣綠色能效全球創新案例挑戰賽活動背景施耐德電氣作為能源管理與自動化領域的全球專家,致力於改善城市生態與人類生活。由施耐德電氣主辦的2018年施耐德電氣綠色能效全球創新案例挑戰賽正式啟動。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    2018年,在中英機器翻譯上和人類做比較,發現機器翻譯的質量跟專業翻譯人員的結果完全可以相媲美。2018年9月,微軟首先發布了基於神經網絡的語音合成產品服務,它與人聲的自然度得分的比例達到98.6%,也就是說非常接近人聲。
  • AI大咖說|微軟亞洲研究院院長洪小文:人工智慧創新還有很長路要走
    這幾年,AI技術已越來越多地運用到現實生活裡,人類是否迎來了人工智慧全面開花的階段?今天,2020世界人工智慧大會在上海開幕,作為三屆參會「元老」,微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文接受本報記者採訪時說,短短3年間,AI確實了有了超乎人們想像的發展。「它會和任何行業結合落地,但距離這一天還有距離。」
  • 全球三十大最佳 AI 創業公司公布
    機器之心根據研究實力、技術與產品、市場與行業潛力、運營能力、資本與財務狀況、創新性與實用性等多項標準,評選出四項大獎:全球三十大最佳 AI 創業公司、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。Drive.ai、流利說、追一科技等GGV紀源資本被投企業入選榜單。
  • 微軟沈向洋:AI 時代,世界向哪裡走?
    我覺得創新一直是有三個程式的創新,一個是技術創新,第二個產品創新,第三個是商業模式的創新。我自己因為一直在做技術,當然是有偏見的,我一直覺得真正顛覆的創新是技術的創新。我個人覺得產品這部分的創新,沒有你,別人也可以創,上次我在你們大會上也講過,有量子計算機和沒量子計算機,根本是兩碼事。