騰訊提出NumNet+模型,超越谷歌登DROP排行榜第一名

2020-12-05 騰訊網

AI WORLD 2019世界人工智慧峰會明日開幕!

【倒計時1天】10月18日,2019中關村論壇平行論壇——AI WORLD 2019世界人工智慧峰會將在北京啟幕。峰會由海澱區政府、中關村科學城管委會主辦,新智元、海澱園管委會、智源研究院承辦。新智元楊靜、科大訊飛胡鬱、微軟王永東、華為王成錄、英特爾宋繼強、曠視及智源學者孫劍、滴滴葉傑平、AWS張崢、依圖顏水成、地平線黃暢、autowise.ai黃超等重磅嘉賓中關村論劍,重啟充滿創新活力的AI未來。新智元還將現場揭曉AI Era創新大獎,並重磅發布AI開放創新平臺和獻禮新書《智周萬物:人工智慧改變中國》。峰會多平臺同步直播,敬請期待!直播連結:

【騰訊科技】

客戶端:https://view.inews.qq.com/a/TEC2019101600718500

PC端:http://v.qq.com/live/p/topic/74606/preview.html

【海澱融媒】

上午場:m.365yg.com/i6748195040323062540/

下午場:m.365yg.com/i6748216659368184584/

【新浪科技】

http://video.sina.com.cn/l/p/1728577.html

新智元報導

編輯:小芹

【新智元導讀】最近,在專門考驗計算機數學推理能力的 DROP 數據集上,微信 AI 團隊所研究的機器閱讀理解技術超越了谷歌,佔據排行榜第一名,F1 達 80% 以上。這項技術突破點在哪裡,快來新智元 AI 朋友圈與AI大咖一起參與討論吧~

程式設計師圈有一個流行的段子:

如何證明一個人不是真正的程式設計師?

你找個有西瓜和西紅柿的菜市場,告訴他,去買一個西瓜,如果看見西紅柿,就買兩個

要是買回來一個西瓜和兩個西紅柿,他就不是真正的程式設計師

真正的程式設計師會買回來兩個西瓜

這只是個段子,自嘲 + 博君一笑罷了~不過,即使是這種需要邏輯推理、數學運算的閱讀理解,AI 也已經能夠掌握。

https://leaderboard.allenai.org/drop/submissions/public

過去,如果你對機器說,請幫忙點 10 個蛋撻,它就可以給你 10 個蛋撻,但是如果你對它說,請給我們 5 個一人兩個蛋撻,機器就很難理解你的意思。微信 AI 的這項能力致力於完善機器的閱讀理解能力,讓機器有更強的邏輯推理能力。今後,如果你跟機器說,請給我們 5 個一人兩個蛋撻,甚至更加複雜的指令,它都可以準確無誤地完成。

該模型名為NumNet+,是在 NumNet 模型的基礎上改進而來。在專用於測試段落綜合理解的 QA 數據集 DROP 上,NumNet+ 獲得了單模型 F1 值 82.99% 的效果。

項目已經開源:

https://github.com/llamazing/numnet_plus

微信 AI 團隊表示,目前,該技術還沒有在業務上落地,未來將會用於完善騰訊小微智能對話助手。

接下來,本文將具體闡述 NumNet+ 模型的架構細節,以及新智元對微信 AI 團隊的專訪。

NumNet+:基於數字感知的圖神經網絡

在多數已往的機器閱讀理解模型中,數字與非數字單詞被同等對待,如此便無法獲知數字的大小關係,也不能完成諸如計數、加減法等數學運算。

為了解決這個問題,我們提出一種數字感知的圖神經網絡(numerically-aware graph neural network,NumGNN)。一方面,我們利用圖的拓撲結構編碼數字間的大小關係,具體的,我們將文章和問題中的數字作為圖結點,在具有 「>」 和 「

NumNet 模型的框架

該模型由編碼模塊、推理模塊和預測模塊組成。數字之間的數學關係用圖的拓撲結構來編碼。例如,從 「6」 指向 「5」 的邊表示 「6」 大於 「5」。推理模塊利用數字感知的圖神經網絡對圖進行數字推理。由於模型中明確地建模了數值比較,因此該模型對於回答需要數值推理的問題,如加法、計數或數字排序,更為有效。

NumNet+ 以發表在 EMNLP 2019 的 NumNet 模型 NumGNN 作為核心,結合 NAQANet 基礎模塊以及改進的前處理方法,在不使用 BERT、RoBERTa 等預訓練模型的條件下,便獲得了高達 67.97% 的 F1 值;進一步的,在 NumNet+ 模型中,我們融入了 RoBERTa 的能力以及對多 span 型問題的支持,最終獲得了單模型 F1 值 82.99% 的效果。

DROP 數據集由 AI2 實驗室提出,是一個類似於 SQuAD 的閱讀理解 QA 數據集,但 SQuAD 很少涉及數學運算的問題,而 DROP 數據集專為考察模型去做涉及到數學運算問題的處理能力而設計。

來自 DROP 數據集示例問題,涉及到數值比較。段落中突出的相關部分可用來推斷答案。

除了最核心的 NumGNN 模塊外,NumNet+還結合了預訓練模型 RoBERTa

具體來說,問題和文本進入模型後需要先進行 encoding,NumNet+ 中用預訓練模型替換了 NumNet 中的未經過預訓練的 Transformer 作為 encoder。

從去年 10 月份到現在大家反覆在證明的一件事情,即這種大規模的預訓練模型是有能力從大規模的文本裡面學到一定的語義和語法相關的知識的。同樣的,通過把沒有經過預訓練的 encoder 換成經過預訓練的 encoder,相當於它額外的以隱式方式注入了額外信息。所以,通過替換以後可以明顯的進一步提升,這是它的主要好處。

微信團隊表示,這項研究最困難的階段是對問題的定義和抽象的階段,他們花了很長時間根據數據集所定義的問題提出假設,又花了很長時間通過各種推算方式驗證這些假設是不是對的。中間還花了大量的精力做數據的預處理和提升,因為提前做了很多分析、假設和驗證的工作,最後在模型最終驗證階段還比較順利。

而對於數字離散推理,當前充分顯示出來很強的文本理解能力的模型一般都是基於神經網絡的,但神經網絡很不擅長處理離散符號相關的問題。傳統的方法相對來講處理會更容易一些,但對於文本,特別是複雜文本的理解上就比較欠缺。最大的挑戰在於如何把這兩方面能力更好地結合起來。

下面是新智元對微信 AI 團隊的採訪:

專訪微信AI:機器閱讀理解今年最大突破是預訓練模型

新智元:在 SQuAD 數據集上,谷歌的 ALBERT 等模型已經超越了人類的表現,但在 DROP 排行榜看來,AI 距離人類的水平 (F1 96.42%) 似乎還很遠,是否 DROP 的閱讀理解任務更難?體現在哪些方面?

從學術發展現狀來看,現在神經網絡模型比較擅長做分類、模式識別等等相關工作,一旦涉及到數學運算,就會涉及到具體符號的操作。這種操作雖然之前也有一些工作在關心這個問題,但是因為用神經網絡建模這類問題相對來講還是比較難,現在大家還沒有特別公認的非常成熟的建模手段。所以現在還在探索階段,就沒有之前 SQuAD 上面定義的那類問題那樣有相對成熟的解法了。

新智元:DROP 挑戰賽的規則可以介紹一下嗎?

新智元:這項研究在產品落地上將會有什麼用途呢?

微信 AI 團隊:在當前階段還沒有把它做在某個產品上,最主要原因它現在還沒有完全達到特別成熟的程度。但是這個技術稍微往下再走一步,其實在很多地方都可以用的。比如像我們中心主要的產品是對話系統,像現在對話系統大家用的時候會發現很多方面比較傻,另外有一些稍微複雜一點的,涉及到數字的需求可能都沒法滿足。比如一開始舉的例子,一共 5 個人,每個人想要 2 個蛋撻,你給我拿過來。那你現在不直接告訴它要 10 個蛋撻,它是不知道的。這個技術發展得再成熟一點,這方面的能力是具備的。

除了對話系統,其他的應用比如說,閱讀企業年報,比賽結果的報導,像我們這個技術可以幫助人們自動從文本當中獲取相關的數字方面的信息,而且不只是文章裡面直接說到的事情,而是可以更進一步的對這篇文章當中提到的信息進一步推理出更複雜的信息出來,然後給大家來用。相關的技術在未來還有很多非常好的應用場景。

新智元:您認為當前機器閱讀理解發展到了什麼程度?今年這一領域有什麼重大突破呢?

微信 AI 團隊:像我剛才舉的例子 「劉德華老婆是誰?」,這種相對比較簡單的,在文本當中能夠直接找到答案的這類問題,或者通過稍複雜一點的字面匹配就能夠把問題答案定位出來,現在來看大家提出的模型對這些問題解決得還是不錯的。最近一兩年大家比較關心的問題,SQuAD 是預先給定問題一段文本,並且答案一定會在這段文本裡面出現。OpenQA 相對來說會把它拓寬一些,需要系統到庫裡面找材料,然後回答問題,這個顯然比 SQuAD 的定義會更難一些。現在這一塊大家也做了很多工作,但是普遍來看對於自動檢索文本這一塊做得還不是特別成熟,所以 OpenQA 的效果會比 SQuAD 差一些。這是一個分支。

第二,大家關心各種各樣的推理問題。典型的兩類,一類是正在研究的涉及到數學運算,或者涉及到直接操作符號相關的推理;另類是大家研究比較多的推理分支,是要回答這個問題一定要結合多條文本做多步推理,綜合起來看才能拿到答案。這是第二種相對比較複雜的推理類型。

第三,像我們人回答問題的時候,我們基於生活會得到很多的背景知識,或者關於這個世界的常識。比如說,我們會知道金屬是會導電的,讀文章的時候,文章內容裡面即使沒有明確告訴我們金屬會導電,我們也知道不能拿鑰匙捅電門,因為會觸電。但是對於機器來講,如果這些知識沒有明確告訴它,那麼它肯定是不知道的。如何表達關於世界的常識在模型當中使用,這也是大家最近一年來關注的方向。

這些是基於閱讀理解下一步會去關注的問題。

至於這一年來最大的突破是什麼?最近這一年來大家反反覆覆都在證明一件事情,預訓練模型對於很多自然語言處理任務、包括閱讀理解上,會帶來非常大的提升。預訓練模型,通過在大規模文本上的合適訓練,是可以學到很多隱性的知識。預訓練模型的提出,使得用一個很簡單的方法都可以超過前兩年大家花很多時間和精力研究各種複雜的閱讀理解模型。這是大家一年來在機器閱讀上最大的改變。

新智元:請您展望一下機器閱讀理解的發展趨勢,您預測還有多少年 AI 可以達到人類的閱讀理解水平,甚至超越人類?

至於機器閱讀什麼時候超越人類?這是非常難預測的,我只能說在特定條件下的閱讀理解相關問題,機器是有可能會在很短時間之內,甚至有些當前就已經能夠超越人類,或者至少普通人類的結果。如果想在不加任何限制條件下機器閱讀超越人類,這個時間會挺長的,可能是幾年或是幾十年。

大家有沒有關注到 RACE 數據集,有學者把中考和高考英語考試選擇型閱讀理解題目都收集起來做成數據集,我們在年初的時候首次基於預訓練模型實現在高中題目上用機器超越了眾包人類做出來的效果。截至目前為止,不管初中題目也好,還是高中題目也好,基於預訓練模型再加一些改造,目前已經全面超越了人類的水平。這也是印證了我剛才說的意思,如果在一個限定條件下閱讀理解的問題,那麼可能機器就能夠在短期的將來就有可能超過,但是全面超越這件事目前說不好。

DROP排行榜:

https://leaderboard.allenai.org/drop/submissions/public

GitHub:

https://github.com/llamazing/numnet_plus

相關焦點

  • 谷歌2019劇集熱搜排行榜 第一名爭議極大
    時光網訊 谷歌剛剛公布了2019年電視劇搜索排行榜TOP10,美劇仍然全球熱搜,《權力的遊戲》雖然口碑爭議極大,但仍然是熱搜第一名,上億美元砸出來的最後一季,動靜確實不小。2019谷歌熱搜劇集TOP101.  《權力的遊戲》2.  《怪奇物語》3.  《車諾比》4.  《有色眼鏡》5.  《傘學院》6.  《曼達洛人》7.  《बालवीर》(印度)8.  《亢奮》9.
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。
  • 2020年《財富》世界500強發布 中國企業上榜數量首次超越美國
    今年排行榜最引人注目的變化是中國大陸公司實現了歷史性突破,在上榜公司數量方面,中國首次超過美國位居第一名。今年中國大陸(含香港)上榜公司數量達到124家,如果加上臺灣地區企業,中國共有133家公司上榜,美國則為121家。今年《財富》世界500強排行榜企業的營業收入達到33萬億美元,創下歷史新高,接近中美兩國GDP的總和。
  • 性能超越谷歌!依圖團隊提出新一代移動端網絡架構MobileNeXt
    最近,依圖團隊發表在ECCV的一篇論文,提出了新一代移動端神經網絡架構MobileNeXt,大大優於谷歌的MobileNet、何愷明團隊提出的ResNet等使用倒殘差結構的模型,為移動端算力帶來了新的突破。
  • 騰訊AI Lab聯合清華提出DropEdge
    這些模型分類效果往往隨著深度加深而變差(即使使用殘差連接),這與用於圖片分類的卷積網絡動輒超過幾十層的現象很不一致。圖卷積神經網絡變深之後難以訓練的現象嚴重製約了其表達能力。所以,如何有效的訓練超深圖卷積網絡是圖學習研究的一個重大挑戰。這項工作由騰訊 AI Lab 與清華大學合作完成。
  • 嵐的新曲《Turning Up》獲排行榜第一
    瀏覽器版本過低,暫不支持視頻播放3日發布的《RecoChoku單曲排行榜》中,嵐的新曲《Turning Up》獲得了第一名。此外,在3日發布的《Oricon每日數字單曲排行榜》中,《Turning Up》也獲得了2萬7680下載量的第一名;實時排名變動的《iTunes》排行榜,截止到4日下午,排名第一的也是《Turning Up》,前10名中嵐的歌曲佔了4首。
  • 超越BERT、GPT,微軟提出通用預訓練模型MASS
    藉助於BERT和GPT等預訓練模型,人類在多個自然語言理解任務中取得了重大突破。然而,在序列到序列的自然語言生成任務中,目前主流預訓練模型並沒有取得顯著效果。為此,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS,在序列到序列的自然語言生成任務中全面超越BERT和GPT。
  • 微軟亞研院提出通用預訓練模型MASS
    5月10日消息,微軟亞洲研究院的研究員在ICML 2019上提出了一個全新的通用預訓練方法MASS(Masked Sequence to Sequence Pre-training),在序列到序列的自然語言生成任務中全面超越BERT和GPT。在微軟參加的WMT19機器翻譯比賽中,MASS幫助中-英、英-立陶宛兩個語言對取得了第一名的成績。
  • 谷歌BERT模型狂破11項紀錄,全面超越人類!
    谷歌人工智慧團隊發布的新伯特模型在squad1.1(一種機器閱讀理解的頂級測試)上的表現出奇的好:它在所有兩項測試中的表現都優於人類,在11種不同的nlp測試中表現最好。毫無疑問,伯特模型已經迎來了NLP的一個新時代!記住今天伯特模型的名字。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。與這些想法不同,谷歌大腦這項研究採用簡化策略,只將 token 表徵發送給單個專家。研究表明,這種簡化策略保持了模型質量,降低了路由計算,並且性能更好。研究者將這種 k=1 的策略稱為 Switch 層。下圖 3 展示了具有不同專家容量因子(expert capacity factor)的路由示例:
  • 谷歌大腦CMU聯手推出XLNet,20項任務全面超越BERT
    新智元報導 來源:arxiv、知乎等編輯:大明【新智元導讀】谷歌大腦和CMU聯合團隊提出面向NLP預訓練新方法XLNet,性能全面超越此前NLP領域的黃金標杆BERT,在20個任務上實現了性能的大幅提升,刷新了18個任務上的SOTA結果,可謂全面屠榜!近日,谷歌大腦主任科學家Quoc V.
  • 谷歌官方公布:票房預測模型
    這在業內引起了強烈討論,不少內人士認為該模型非常適合好萊塢電影公司通過預測票房來及時調整電影營銷戰略,但同時也有吐槽者暗示谷歌的票房預測模型別有用心,旨在鼓動電影公司購買其搜尋引擎廣告。那麼,孰是孰非,谷歌票房預測模型以及大數據在電影行業的應用是噓頭,還是大有來頭,讓我們來一探究竟。
  • 李航等提出多粒度AMBERT模型,中文提升顯著
    選自arXiv作者:Xinsong Zhang、李航機器之心編譯編輯:杜偉、小舟自谷歌 BERT 模型問世以來,各式各樣的 BERT 變體模型在自然語言理解任務上大顯身手。近日,字節跳動 AI 實驗室李航等研究者提出了一種新型多粒度 BERT 模型,該模型在 CLUE 和 GLUE 任務上的性能超過了谷歌 BERT、Albert、XLNet 等。BERT 等預訓練語言模型在自然語言理解(Natural Language Understanding, NLU)的許多任務中均表現出了卓越的性能。
  • 騰訊絕藝對戰谷歌阿爾法狗,中美人工智慧的對弈
    打開APP 騰訊絕藝對戰谷歌阿爾法狗,中美人工智慧的對弈 發表於 2018-01-26 13:55:13 2012年之前,谷歌一直在利用動物訓練Google Brain(谷歌大腦)項目,並在2012年做了一個實驗,在沒有輸入「貓」的概念,讓機器透過學習,最終認識了「貓」。
  • 十二星座智商排行榜,雙魚座智商最低,第一名是雙子座!
    每個人都希望自己有高情商和高智商,然而上帝造人的時候往往是蒙著眼睛造的,你被賦予什麼樣的智商和情商都是隨機的,下面我們來看一下十二星座智商排行榜,雙魚座智商最低,第一名是雙子座!雙子座:第一名雙子座對每一個女生都非常的溫柔多情,愛無拘無束的感覺,雙子座智商排名是第一名,別人都是用左腦思考,他們好像是左右腦一塊用的。十二星座智商排行榜,雙魚座智商最低,第一名是雙子座!
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 中國首富是誰第一 福布斯中國富豪榜2020排行榜
    11月5日,福布斯中國發布中國富豪榜,登榜富豪總財富比一年前增長了8,200億美元,折合人民幣超5萬億。  IPO及股價增長是富豪財富增值的主因,網際網路、醫療、科技等行業均富豪頻出。  馬雲仍是首富  身家一年增長72%  中國最富有的人,依然是馬雲。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    今天,谷歌開源了其最新、性能最優的語義圖像分割模型 DeepLab-v3+ [1],該模型使用 TensorFlow 實現。DeepLab-v3+ 模型建立在一種強大的卷積神經網絡主幹架構上 [2,3],以得到最準確的結果,該模型適用於伺服器端的部署。
  • 騰訊優圖推出卷積神經網絡深度學習算法模型
    騰訊優圖實驗室聯合廣東省肺癌研究所吳一龍教授/鍾文昭教授團隊,與清華大學以及國內多家中心呼吸科/放射科團隊等共同開發了基於卷積神經網絡算法的肺結節診斷模型,近日,該初步研究成果已被全球癌症領域知名醫學期刊《腫瘤學家》(《The Oncologist》)收錄並全文發表。
  • Steam周銷量排行榜:《只狼》無懸念榜首 《絕地求生》重登第二
    遊戲正式後,憑藉著本身的熱度本期的銷量排行榜的第一名可以說是毫無懸念,非《只狼:影逝二度》莫屬。 作為宮崎英高的最新作品,在有之前《黑暗之魂》系列的鋪墊下,玩家對於《只狼:影逝二度》的熱情空前高漲,目前同時在線人數峰值已經突破12萬,相信在接下來的幾個周《只狼:影逝二度》會一直佔據排行榜第一了。