AI WORLD 2019世界人工智慧峰會明日開幕!
【倒計時1天】10月18日,2019中關村論壇平行論壇——AI WORLD 2019世界人工智慧峰會將在北京啟幕。峰會由海澱區政府、中關村科學城管委會主辦,新智元、海澱園管委會、智源研究院承辦。新智元楊靜、科大訊飛胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS張崢、依圖顏水成、地平線黃暢、autowise.ai黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的AI未來。新智元還將現場揭曉AI Era創新大獎,並重磅發布AI開放創新平臺和獻禮新書《智周萬物:人工智慧改變中國》。峰會多平臺同步直播,敬請期待!直播連結:
【騰訊科技】
客戶端:https://view.inews.qq.com/a/TEC2019101600718500
PC端:http://v.qq.com/live/p/topic/74606/preview.html
【海澱融媒】
上午場:m.365yg.com/i6748195040323062540/
下午場:m.365yg.com/i6748216659368184584/
【新浪科技】
http://video.sina.com.cn/l/p/1728577.html
新智元報導
編輯:小芹
【新智元導讀】最近,在專門考驗計算機數學推理能力的 DROP 數據集上,微信 AI 團隊所研究的機器閱讀理解技術超越了谷歌,佔據排行榜第一名,F1 達 80% 以上。這項技術突破點在哪裡,快來新智元 AI 朋友圈與AI大咖一起參與討論吧~
程式設計師圈有一個流行的段子:
如何證明一個人不是真正的程式設計師?
你找個有西瓜和西紅柿的菜市場,告訴他,去買一個西瓜,如果看見西紅柿,就買兩個
要是買回來一個西瓜和兩個西紅柿,他就不是真正的程式設計師
真正的程式設計師會買回來兩個西瓜
這只是個段子,自嘲 + 博君一笑罷了~不過,即使是這種需要邏輯推理、數學運算的閱讀理解,AI 也已經能夠掌握。
https://leaderboard.allenai.org/drop/submissions/public
過去,如果你對機器說,請幫忙點 10 個蛋撻,它就可以給你 10 個蛋撻,但是如果你對它說,請給我們 5 個一人兩個蛋撻,機器就很難理解你的意思。微信 AI 的這項能力致力於完善機器的閱讀理解能力,讓機器有更強的邏輯推理能力。今後,如果你跟機器說,請給我們 5 個一人兩個蛋撻,甚至更加複雜的指令,它都可以準確無誤地完成。
該模型名為NumNet+,是在 NumNet 模型的基礎上改進而來。在專用於測試段落綜合理解的 QA 數據集 DROP 上,NumNet+ 獲得了單模型 F1 值 82.99% 的效果。
項目已經開源:
https://github.com/llamazing/numnet_plus
微信 AI 團隊表示,目前,該技術還沒有在業務上落地,未來將會用於完善騰訊小微智能對話助手。
接下來,本文將具體闡述 NumNet+ 模型的架構細節,以及新智元對微信 AI 團隊的專訪。
NumNet+:基於數字感知的圖神經網絡
在多數已往的機器閱讀理解模型中,數字與非數字單詞被同等對待,如此便無法獲知數字的大小關係,也不能完成諸如計數、加減法等數學運算。
為了解決這個問題,我們提出一種數字感知的圖神經網絡(numerically-aware graph neural network,NumGNN)。一方面,我們利用圖的拓撲結構編碼數字間的大小關係,具體的,我們將文章和問題中的數字作為圖結點,在具有 「>」 和 「
NumNet 模型的框架
該模型由編碼模塊、推理模塊和預測模塊組成。數字之間的數學關係用圖的拓撲結構來編碼。例如,從 「6」 指向 「5」 的邊表示 「6」 大於 「5」。推理模塊利用數字感知的圖神經網絡對圖進行數字推理。由於模型中明確地建模了數值比較,因此該模型對於回答需要數值推理的問題,如加法、計數或數字排序,更為有效。
NumNet+ 以發表在 EMNLP 2019 的 NumNet 模型 NumGNN 作為核心,結合 NAQANet 基礎模塊以及改進的前處理方法,在不使用 BERT、RoBERTa 等預訓練模型的條件下,便獲得了高達 67.97% 的 F1 值;進一步的,在 NumNet+ 模型中,我們融入了 RoBERTa 的能力以及對多 span 型問題的支持,最終獲得了單模型 F1 值 82.99% 的效果。
DROP 數據集由 AI2 實驗室提出,是一個類似於 SQuAD 的閱讀理解 QA 數據集,但 SQuAD 很少涉及數學運算的問題,而 DROP 數據集專為考察模型去做涉及到數學運算問題的處理能力而設計。
來自 DROP 數據集示例問題,涉及到數值比較。段落中突出的相關部分可用來推斷答案。
除了最核心的 NumGNN 模塊外,NumNet+還結合了預訓練模型 RoBERTa。
具體來說,問題和文本進入模型後需要先進行 encoding,NumNet+ 中用預訓練模型替換了 NumNet 中的未經過預訓練的 Transformer 作為 encoder。
從去年 10 月份到現在大家反覆在證明的一件事情,即這種大規模的預訓練模型是有能力從大規模的文本裡面學到一定的語義和語法相關的知識的。同樣的,通過把沒有經過預訓練的 encoder 換成經過預訓練的 encoder,相當於它額外的以隱式方式注入了額外信息。所以,通過替換以後可以明顯的進一步提升,這是它的主要好處。
微信團隊表示,這項研究最困難的階段是對問題的定義和抽象的階段,他們花了很長時間根據數據集所定義的問題提出假設,又花了很長時間通過各種推算方式驗證這些假設是不是對的。中間還花了大量的精力做數據的預處理和提升,因為提前做了很多分析、假設和驗證的工作,最後在模型最終驗證階段還比較順利。
而對於數字離散推理,當前充分顯示出來很強的文本理解能力的模型一般都是基於神經網絡的,但神經網絡很不擅長處理離散符號相關的問題。傳統的方法相對來講處理會更容易一些,但對於文本,特別是複雜文本的理解上就比較欠缺。最大的挑戰在於如何把這兩方面能力更好地結合起來。
下面是新智元對微信 AI 團隊的採訪:
專訪微信AI:機器閱讀理解今年最大突破是預訓練模型
新智元:在 SQuAD 數據集上,谷歌的 ALBERT 等模型已經超越了人類的表現,但在 DROP 排行榜看來,AI 距離人類的水平 (F1 96.42%) 似乎還很遠,是否 DROP 的閱讀理解任務更難?體現在哪些方面?
從學術發展現狀來看,現在神經網絡模型比較擅長做分類、模式識別等等相關工作,一旦涉及到數學運算,就會涉及到具體符號的操作。這種操作雖然之前也有一些工作在關心這個問題,但是因為用神經網絡建模這類問題相對來講還是比較難,現在大家還沒有特別公認的非常成熟的建模手段。所以現在還在探索階段,就沒有之前 SQuAD 上面定義的那類問題那樣有相對成熟的解法了。
新智元:DROP 挑戰賽的規則可以介紹一下嗎?
新智元:這項研究在產品落地上將會有什麼用途呢?
微信 AI 團隊:在當前階段還沒有把它做在某個產品上,最主要原因它現在還沒有完全達到特別成熟的程度。但是這個技術稍微往下再走一步,其實在很多地方都可以用的。比如像我們中心主要的產品是對話系統,像現在對話系統大家用的時候會發現很多方面比較傻,另外有一些稍微複雜一點的,涉及到數字的需求可能都沒法滿足。比如一開始舉的例子,一共 5 個人,每個人想要 2 個蛋撻,你給我拿過來。那你現在不直接告訴它要 10 個蛋撻,它是不知道的。這個技術發展得再成熟一點,這方面的能力是具備的。
除了對話系統,其他的應用比如說,閱讀企業年報,比賽結果的報導,像我們這個技術可以幫助人們自動從文本當中獲取相關的數字方面的信息,而且不只是文章裡面直接說到的事情,而是可以更進一步的對這篇文章當中提到的信息進一步推理出更複雜的信息出來,然後給大家來用。相關的技術在未來還有很多非常好的應用場景。
新智元:您認為當前機器閱讀理解發展到了什麼程度?今年這一領域有什麼重大突破呢?
微信 AI 團隊:像我剛才舉的例子 「劉德華老婆是誰?」,這種相對比較簡單的,在文本當中能夠直接找到答案的這類問題,或者通過稍複雜一點的字面匹配就能夠把問題答案定位出來,現在來看大家提出的模型對這些問題解決得還是不錯的。最近一兩年大家比較關心的問題,SQuAD 是預先給定問題一段文本,並且答案一定會在這段文本裡面出現。OpenQA 相對來說會把它拓寬一些,需要系統到庫裡面找材料,然後回答問題,這個顯然比 SQuAD 的定義會更難一些。現在這一塊大家也做了很多工作,但是普遍來看對於自動檢索文本這一塊做得還不是特別成熟,所以 OpenQA 的效果會比 SQuAD 差一些。這是一個分支。
第二,大家關心各種各樣的推理問題。典型的兩類,一類是正在研究的涉及到數學運算,或者涉及到直接操作符號相關的推理;另類是大家研究比較多的推理分支,是要回答這個問題一定要結合多條文本做多步推理,綜合起來看才能拿到答案。這是第二種相對比較複雜的推理類型。
第三,像我們人回答問題的時候,我們基於生活會得到很多的背景知識,或者關於這個世界的常識。比如說,我們會知道金屬是會導電的,讀文章的時候,文章內容裡面即使沒有明確告訴我們金屬會導電,我們也知道不能拿鑰匙捅電門,因為會觸電。但是對於機器來講,如果這些知識沒有明確告訴它,那麼它肯定是不知道的。如何表達關於世界的常識在模型當中使用,這也是大家最近一年來關注的方向。
這些是基於閱讀理解下一步會去關注的問題。
至於這一年來最大的突破是什麼?最近這一年來大家反反覆覆都在證明一件事情,預訓練模型對於很多自然語言處理任務、包括閱讀理解上,會帶來非常大的提升。預訓練模型,通過在大規模文本上的合適訓練,是可以學到很多隱性的知識。預訓練模型的提出,使得用一個很簡單的方法都可以超過前兩年大家花很多時間和精力研究各種複雜的閱讀理解模型。這是大家一年來在機器閱讀上最大的改變。
新智元:請您展望一下機器閱讀理解的發展趨勢,您預測還有多少年 AI 可以達到人類的閱讀理解水平,甚至超越人類?
至於機器閱讀什麼時候超越人類?這是非常難預測的,我只能說在特定條件下的閱讀理解相關問題,機器是有可能會在很短時間之內,甚至有些當前就已經能夠超越人類,或者至少普通人類的結果。如果想在不加任何限制條件下機器閱讀超越人類,這個時間會挺長的,可能是幾年或是幾十年。
大家有沒有關注到 RACE 數據集,有學者把中考和高考英語考試選擇型閱讀理解題目都收集起來做成數據集,我們在年初的時候首次基於預訓練模型實現在高中題目上用機器超越了眾包人類做出來的效果。截至目前為止,不管初中題目也好,還是高中題目也好,基於預訓練模型再加一些改造,目前已經全面超越了人類的水平。這也是印證了我剛才說的意思,如果在一個限定條件下閱讀理解的問題,那麼可能機器就能夠在短期的將來就有可能超過,但是全面超越這件事目前說不好。
DROP排行榜:
https://leaderboard.allenai.org/drop/submissions/public
GitHub:
https://github.com/llamazing/numnet_plus