智東西5月5日消息,人類在NLP領域的研究已長達半世紀,現在AI終於揚眉吐氣了!5月4日,在史丹福大學的會話問答(CoQA)挑戰賽中,AI的會話能力已媲美人類,並以0.6分優勢全面「碾壓」人類水平!也就是說,人類與這個模型互動更像是與真人之間的交流。
CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。
在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!他們於2019年3月29日提交的集合系統得分對應域內、域外和整體F1分別為89.9 / 88.0 / 89.4,而同一組會話問題和答案的人類表現則分別為89.4 / 87.4 / 88.8。
從2018年至今,人類在NLP領域不斷有好消息傳來。去年10月谷歌推出BERT語言模型在11項NLP任務中奪得STOA結果。今年2月,OpenAI展示了其訓練的一個大規模的無監督語言模型GPT-2,可以根據前文進行續寫,並且不需要特定訓練。
這也說明了,當下NLP研發正進入一個黃金時期!
微軟再度贏得斯坦福CoQA挑戰賽
CoQA是一個大規模的會話式問答數據集,這些問答數據來自不同領域的文章中,機器學習通過從這些文章中提取問答數據進行會話問答。CoQA挑戰的目的,是為了衡量機器對文本的理解能力,檢驗機器在接近人類的對話中回答問題能力的高低。
NLP團隊之前使用斯坦福SQuAD(問題答疑數據集)在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%,在對話系統模型性能挑戰賽中刷新最佳性能紀錄。與SQuAD相比,CoQA中的問題更具會話性,答案可以是自由格式文本,以確保對話中答案的自然性。
CoQA中的會話問題形式是模仿人類的對話,但一般都很短。進行第一個問題之後的每個問題都根據第一個問題來進行問答,這使得簡短問題對於機器解析更加困難。例如,假設您向系統提問,「誰是微軟的創始人?」當您提出後續問題「他什麼時候出生?」時,機器解析需要判斷現在談論的仍然是同一主題。
根據CoQA排行榜,NLP和SDRG模型取得的成績再次刷新了記錄,機器閱讀理解已成功達到人類水平。
這項成就意味著Bing等搜尋引擎和Cortana等智能助手與人們的互動可以通過這種模型以更自然的方式提供信息,就像人與人之間相互溝通一樣。
微軟模型如何「碾壓」人類?
為了更好地測試現有模型的泛化能力,CoQA從七個不同的領域收集數據,兒童故事、文學、中學和高中英語考試、新聞、維基百科、Reddit和科學。其中前五種類型的文章用於模型的訓練、開發和測試集,後兩種僅用於測試集。
CoQA使用F1(統計學中衡量二分類模型精確度的指標)指標來評估性能。F1評分衡量模型系統的實際問答效果和預測情況之間的平均單詞重疊。域內F1根據與訓練集相同的域的測試數據進行評分;並對來自不同域的測試數據評分域外F1。總體F1是整個測試集的最終得分。
微軟研究人員使用了一種訓練模型的策略,模型系統從幾個相關任務中學習,並將信息用於改進目標機器閱讀理解(MRC)任務。
在這種多階段、多任務的微調方法中,研究人員首先在多任務設置下從相關任務中學習MRC相關背景信息,然後在目標任務上微調模型,並使用語言建模在兩個階段中輔助完成任務,以幫助減少會話式問答模型的過度擬合。
NLP和SDRG的策略起到了有效的作用,他們的機器模型在CoQA挑戰賽中的強大表現進一步證明了這一點。
走過半世紀,人類在NLP領域取得十大裡程碑
NLP是人工智慧領域的一個重要子領域,同時也是一種非常吸引人的人機互動方式,從50年代機器翻譯和人工智慧研究算起,NLP至今有長達半個世紀的歷史了。
在過去的二十多年裡,科學家們利用統計機器學習方法,讓NLP技術不斷向前邁進。
近四年來,深度學習則給NLP帶來了新的學習模式。其中在單句翻譯、抽取式閱讀理解、語法檢查等任務上,更是達到了可比擬人類的水平。
細數半個世紀以來,人類在NLP領域有著十大裡程碑,分別是:
1、1985複雜特徵集
2、1966詞彙主義
3、1976統計語言模型
4、2001神經語言模型(Neural language models)
5、2008多任務學習(Multi-task learning)
6、2013詞嵌入
7、2013RNN/CNN用於NLP的神經網絡
8、2014序列到序列模型(Sequence-to-sequencemodels)
9、2015注意力機制和基於記憶的神經網絡
10、2018預訓練語言模型
從2018年至今,人類在NLP領域不斷有好消息傳來。
去年10月谷歌推出BERT語言模型,通過在33億文本的語料上訓練語言模型,最終BERT在11項NLP任務中奪得STOA結果,在自然語言處理學界以及工業界都引起了不小的熱議。
▲OpenAI GPT-2編造的新聞
今年2月,OpenAI展示了其訓練的一個大規模的無監督語言模型GPT-2,具有來自800萬個網頁的15億數據集,其訓練目標就是基於前面給定的文本,從而預測接下來的文字。它可以生成連貫的文本段落,並進行閱讀理解、機器翻譯、問答和撰寫摘要,並且所以這些AI能力都不需要特定任務的訓練。
結語:NLP研發正迎來黃金時期
在此次比賽中,由微軟亞研院NLP團隊和微軟Redmond語音對話團隊在比賽中已經讓模型在性能方面達到人類水平,這也標誌著微軟可以在搜尋引擎和語音助手等與人們強交互領域可以更自然地互動和提供信息。
自然語言理解被譽為被譽為「人工智慧皇冠上的明珠」,其進步必將會推動人工智慧整體進展。從目前來看,隨著深度學習技術的應用,人類在NLP領域正不斷取得進步,更多有趣、驚人的AI在陸續出現,NLP研發也正迎來又一個黃金時期。