微軟AI模型在SuperGLUE基準超越人類位居排行榜第一

2021-01-11 網易

2021-01-08 14:57:46 來源: 十輪網

舉報

  

  微軟的DeBERTa模型在SuperGLUE基準中,超過了人類基準線的89.9分,以90.3分成為SuperGLUE排行榜的第一名。SuperGLUE是2019年,臉書人工智慧研究院、Google DeepMind、華盛頓大學和紐約大學共同推出的一系列基準任務,用來衡量現代高性能語言理解人工智慧的能力。

  DeBERTa是一種變換(Transformer)神經語言模型,使用自我監督式學習技術,以大量原始文本資料進行預訓練,與其他預訓練語言模型一樣,DeBERTa目的在於學習通用語言表達形式,用來解決各種自然語言理解任務。

  由於對話式人工智慧深度學習模型已發展到一定的程度,過去的基準測試被認為不敷使用。紐約大學、華盛頓大學和DeepMind在2018年的時候,發布通用語言理解評估(GLUE)基準,來評估模型的語言理解程度,但是有不少自然語言處理模型,在GLUE特定任務的表現,已經遠遠超過人類,但是即便這些模型可以在GLUE超越人類,但是卻無法良好處理某些人類可以輕鬆且完美解決的問題,因此研究人員設計出SuperGLUE,來更好地評估模型能力。

  微軟提到,SuperGLUE是目前評估NLU模型最具挑戰的基準。SuperGLUE共含有8種不同任務,包括選擇合理的替代方案(COPA)的因果推理任務,模型必須在取得前提之後,從兩個可能的選擇判斷其因果關係,人類能在COPA任務簡單地達到100%精確度,但是人工智慧模型則還有許多進步空間。

  微軟舉例,當考慮到前提是「孩子對疾病免疫了」,並且提問「造成這種結果的原因?」,要求模型從「他避免暴露在疾病中」和「他使用了該疾病疫苗」中做選擇,通常人類都可以選對,但是這卻對人工智慧是很大的挑戰,因為模型必需要了解前提,才能夠正確選擇因果關係。

  而微軟最近通過更大規模地訓練DeBERTa模型,使得模型能力獲得提升,最新版本的模型擁有15億個參數48個變換層,光單個DeBERTa模型就能超越人類在SuperGLUE上的表現達到89.9,而組合DeBERTa模型更可達到90.3分,更大幅度超過人類的89.8,另外,DeBERTa模型也在GLUE基準獲得90.8分,也是排名第一。

  微軟將會對外發布這個具有15億參數的DeBERTa模型以及其程序代碼,此外,該DeBERTa模型,也會集成到微軟圖靈自然語言表達模型的下一個版本Turing NLRv4中,支持微軟的各種產品。

  圖靈模型融合了多種微軟開發的語言創新技術,並且經過大規模訓練,用在Bing、Office、Dynamics和Azure認知服務等產品中,提供諸如聊天機器人、推薦、搜索以及內容生成等人機互動任務中。

  在SuperGLUE超過人類基準的模型,不只有微軟的DeBERTa模型,還有Google大腦結合T5與Meena的語言模型,得分為90.2,分數僅差距DeBERTa分數0.1分,另一個分數也很接近人類基準的Google T5模型,也有89.3分。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。現如今,人類一下子被兩家AI超越。一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?AI全方面完勝人類,是時間問題,還是技術問題?話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。
  • 谷歌大腦組合模型霸榜 SuperGLUE
    12 月 30 日,他向大家介紹了來自微軟 DeBERTa 團隊取得了明顯進展,並在評論當中對 T5 模型進行簡單的評價。 SuperGLUE 是什麼?
  • Steam周銷量排行榜:《糖豆人:終極淘汰賽》位居榜首 《地平線:零之...
    PS4獨佔大作《地平線:零之曙光》發售,位居排行榜第二名。黑曜石新作《Grounded》熱度稍降,位居排行榜第三名。,並位居排行榜榜首,同時預購的銷量也佔據著第五名的位置。,位居排行榜的第二名。>Steam開啟預購,遊戲也成功進榜,位居排行榜的第七名。
  • 微軟麻將AI超越人類後,研究團隊稱有意出教材提升人類牌技
    人類以後想提升自己的麻將技能,可能要拜人工智慧為師了。微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞(www.thepaper.cn)採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將。
  • 超越99.9%人類玩家,微軟專業十段麻將AI論文細節首次公布
    在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx 」。近日,關於 Suphx 的所有技術細節已經正式公布。微軟亞洲研究院副院長劉鐵巖曾表示:「可以說 Dota 這類遊戲更「遊戲」,而麻將這類棋牌遊戲更「AI」。」Suphx 代表著 AI 系統在麻將領域取得的最好成績,它也是首個在國際知名專業麻將平臺「天鳳」上榮升十段的 AI 系統,其實力超越了該平臺與之對戰過的 99.9% 的人類選手。
  • 微軟分享史上最大基於Transformer架構的語言生成模型
    而此次微軟所分享的模型,T-NLG的參數為170億個,是英偉達的Megatron(現在是第二大Transformer模型)的兩倍,其參數是OpenAI的GPT-2的十倍。微軟表示,T-NLG在各種語言建模基準上均優於最新技術,並在應用於許多實際任務(包括總結和問題解答)時表現出色。
  • 微軟發布史上最大NLG模型:基於Transformer架構生成
    一、Turing-NLG:自帶170億參數,性能超其他最佳模型Turing-NLG 一個基於Transformer的生成語言模型,擁有 170億參數,在諸多語言模型基準上都超越了當前性能最佳的其他模型,並且在應用於問答、摘要等實踐任務時,表現出色。
  • 直播丨微軟超級麻將AI Suphx 如何榮升十段?研發團隊深度揭秘技術...
    2019年8月,由微軟亞洲研究院研發的麻將AI系統Suphx成為首個在國際知名專業麻將平臺「天鳳」上榮升十段的 AI 系統,其實力超越該平臺公開房間頂級人類選手的平均水平 。麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • Steam周銷量排行榜:《Among Us》後來居上奪第一名《糖豆人》位居...
    本期排行榜中《Among Us》後來居上打破《糖豆人》六連冠,奪得第一名。《糖豆人:終極淘汰賽》則位居第二名。P社旗下《十字軍之王》系列最新作《十字軍之王4》位居第四名。套件繼續待在排行榜中,位居第三名。
  • DNF:全職業最高傷害搭配,20S打樁排行榜出爐,紅眼高調位居第一
    而今,依據計算器搭配出最強裝備,來算出每個職業20S打樁傷害排行榜,紅眼成為贏家,十分高調的排在第一。 20S理論傷害打樁,紅眼位居排行榜第一 要知道,計算器不存在失誤,而是理論上最高傷害。當然,這個傷害玩家在實戰中,也未必能打出來,畢竟過於極限。
  • 騰訊微視憑 BLENDer 模型斬獲 VCR 競賽榜第一
    近日,騰訊微視視頻理解團隊在多模態理解領域最權威排行榜之一 VCR 任務中榮登榜首。該團隊提出的 BLENDer(BimodaL ENcoDer) 模型超越百度、谷歌、微軟、Facebook 等多家研究機構的模型效果,一舉成為單、多模型的三項指標第一,值得注意的是,BLENDer 僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,並深度應用到短視頻領域。
  • 2020年中國AI算力報告發布:超大算法模型挑戰之下,公共AI算力基建...
    目前,如AlphaFold、GPT-3等模型已經逼近人工智慧的算力極限,GPT-3的模型尺寸增大到了1750億,數據量也達到了驚人的45TB。 一方面,這種進化對於新任務,不需要重新收集大量帶標籤的數據,數據利用效率進一步提升;另一方面,可以避免算法微調出現過擬合,導致模型泛化能力下降。
  • 170 億參數加持,微軟發布史上最大 Transformer 模型 T-NLG!
    【CSDN編者按】Turing Natural Language Generation(T-NLG)是微軟提供的一個有170億參數的語言模型,在許多NLP任務上均優於目前的SOTA技術。那麼,它就有哪些優勢?在誕生過程中,又有哪些突破?趕快往下看!
  • 騰訊微視憑BLENDer模型斬獲VCR競賽榜第一
    近日,騰訊微視視頻理解團隊在多模態理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微軟、Facebook等多家研究機構的模型效果,一舉成為單、多模型的三項指標第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機器更強大的理解和認知能力,並深度應用到短視頻領域。
  • 新型蝙蝠病毒或致考拉滅絕;微軟麻將AI將教人類打牌;斯坦福研發...
    (快科技)微軟麻將AI超越人類,有意出教材提升人類牌技#計算機微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將
  • Steam周銷量排行榜:《Temtem》完成兩連冠 《GTA5》位居第二名
    類寶可夢遊戲新作《Temtem》成功完成兩連冠,《GTA5》繼續發力位居排行榜第二名,《荒野大鏢客:救贖2》則位居排行榜第三名。冰原》的熱度稍減,排名下滑了兩位,位居排行榜的第四名。,位居排行榜的第七名。
  • 強化學習走出研究實驗室,微軟如何落地新型AI解決方案?
    微軟的其他客戶和合作夥伴正在使用強化學習技術來檢測生產異常,因為該模型能夠從環境線索、專家反饋或客戶行為中學習,所以依據此可以開發出能夠適應不可預測的現實環境的機器人。微軟在其主頁上使用Personalizer來根據上下文對每個訪問者展示的產品進行個性化處理後,發現Personalizer所選擇的產品的參與度增加了19倍。
  • Steam周銷量排行榜:黑曜石新作《Grounded》成功登頂 《死亡擱淺...
    本期排行榜中黑曜石新作《Grounded》成功登頂,經典遊戲重製版《毀滅全人類:重製版》位居排行榜第三名。《死亡擱淺》熱度急速下降,跌至排行榜第十名。不過獨特的玩法依舊吸引了大批玩家,本期排行榜成功進榜,位居排行榜的第一名。《Grounded》是一款求生沙盒類型遊戲,玩家變成縮小後的人類,在自家後院進行環境探索和基地建設。在搶先體驗版中,玩家能體驗完整劇情的20%,包含三大類環境地貌、前兩個等級的盔甲和武器、單人和多人模式,另外還有「蜘蛛恐懼」的硬核挑戰模式。