谷歌大腦組合模型霸榜 SuperGLUE

2021-01-07 騰訊網

【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果)

作者 | 八寶粥 責編 | 張文

頭圖 | CSDN 下載自東方 IC

出品 | CSDN(ID:CSDNnews)

「哦我親愛的老夥計,感謝 ZiruiWang 先生,他及時的提交讓 Google Brain 在 2020 年還能在 SuperGLUE 榜首霸佔大約 12 個小時.」

12 月 30 日,他向大家介紹了來自微軟 DeBERTa 團隊取得了明顯進展,並在評論當中對 T5 模型進行簡單的評價。

12 月 31 日,Zirui Wang 的 T5 和 Meena 結合的模型總得分 90.0 分,以 0.1 分的優勢擊敗了 DeBERTa 團隊的組合模型佔據榜首。0.1 的差距看起來很小,但事實上,微軟比 SuperGLUE 人類基線也之只多了 0.1 分。

SuperGLUE 是什麼?

SuperGLUE 到底是什麼呢?

SuperGLUE 是 Facebook 人工智慧研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的,用於衡量現在高性能語義理解 AI 的基準測試。它的前身是紐約大學、華盛頓大學和 Google DeepMInd 在 2018 年 4 月共同組建的基準測試 GLUE (General Language Understanding Evaluation) benchmark。

兩個網站頁面基本相似,他們的區別在於研究單位和評價指標不同。

SuperGLUE 的參與研究單位多了 Facebook 人工智慧研究中心和三星研究院。

評價指標方面,GLUE 基準測試包含了 9 個語句理解任務。分別是

單句任務(CoLA 語言可接受語料庫;SST-2 斯坦福情緒樹庫)

相似性和外派任務(MRPC 微軟研究釋義語料庫;QQP Quora 問答;STS-B 語義文本相似性基準)

推理任務(MNLI 多體自然語言推理語料庫;QNLI 斯坦福問答數據集;RTE 識別文字蘊含;WNLI 威諾格拉德自然語言推理)

在榜單當中, 由 GLUE 提供,目前排名 14 的人類性能基準 (GLUE Human baselines) 曾一度成為各大模型的頭號目標。

該榜單名氣之大,吸引了很多高校和名企前來挑戰,不斷刷新紀錄,包括阿里、平安、華為等。

後來,GLUE 難度不夠了,SuperGLUE 也就應運而生。

SuperGLUE 在 GLUE 的基礎上增加了 Facebook 人工智慧和三星研究院的支持,與此同時,它的基準測試的難度也大大提高。

兩個 GLUE 的網頁對比

兩個基準測試在網頁上並無太大差別,區別就是測試任務。

通俗來說,如果 GLUE 的難度是語言理解的「十八銅人陣」,打敗 GLUE baselines 就印上青龍白虎,那 SuperGLUE 就得是「八大派圍攻光明頂」,沒有三五年年內功別想活著下山,SuperGLUE human baseline 89.8 分在那邊守著,Google 自己家 T5 都還有差距,這個英雄榜,真的不是誰都能上的。

這些可能不太直觀,舉點更直接的例子,GPT-3 評分 71.8分,BERT 評分 69分。對比起來,90 分是不是就是獨一檔的存在?

人們一度懷疑,SuperGLUE Human Baselines 還能被超越嗎?

誰佔了榜首?

此前一直是 SuperGLUE Human baselines 佔據榜首。

但 2020 年12 月 30 日,Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜,位列前二,得分分別是 90.0,89.9。

這也意味著,SuperGLUE Human baselines 不再是不可逾越的高峰。

仔細對比就會發現,不是挑戰者太弱,是 SuperGLUE Human baselines 太強!COPA(選擇合理的替代方案)滿分,WSC(威諾格拉德模式挑戰)滿分,CB(一個短文本語料庫,包含從句)98.9 分。真的很難超越。

不過,一切都很難說。2019 年,埃魯德·基普喬格不也是跑進 2 小時,突破了人類馬拉松的極限了嘛~

有興趣的同學可以查看官方網站進行探索,也許下一個得此成就的就是你!

參考資料:

微軟 DeBERTa 模型論文:https://arxiv.org/abs/2006.03654

supergluebenchmark 官網:https://super.gluebenchmark.com/

SuperGLUE 論文連結:https://arxiv.org/abs/1905.00537

gluebenchmark 官網:https://gluebenchmark.com/

GLUE 論文連結:https://arxiv.org/abs/1804.07461

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「22 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。超越人類的兩大NLU模型對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的代碼,並提供預訓練模型下載。最近,最近微軟訓練了更大規模的模型,該版本由15億參數的48個Transformer層組成。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。
  • 超越Mask-RCNN:這是谷歌大腦的AI,自己寫的目標檢測模型
    谷歌大腦的Quoc Le團隊,用神經網絡架構搜索 (NAS) ,發現了一個目標檢測模型。長這樣:它的準確率和速度都超過了大前輩Mask-RCNN;也超過了另外兩隻行業精英:FPN和SSD。模型叫做NAS-FPN。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    儘管如此,2011 年以來,谷歌大腦已經證實深度學習方法可以解決傳統手段無法解決的難題。語音識別之前並不理想,直到谷歌大腦更新了這一技術;機器學習的應用在谷歌移動平臺安卓上的表現堪比人類。同樣,圖像識別也是碩果纍纍。不到一年前,谷歌大腦首次開始充滿熱情地更新整個產品線。
  • 蘋果在臺灣地區市場銷售額霸榜
    打開APP 蘋果在臺灣地區市場銷售額霸榜 田哲 發表於 2020-12-21 16:28:17 據ePrice報導,中國臺灣地區11月份手機銷量為62萬臺,各大手機品牌在臺灣地區的市場佔有率前10名分別為蘋果、三星、OPPO、vivo、realme、HTC、索尼、華碩、INHON、谷歌。
  • 微軟語言訓練模型DeBERTa在SuperGlue閱讀測試中超過人類基線
    微軟近日更新了 DeBERTa (Decoding-enhanced BERT with disentangled attention)模型,訓練了一個由 48 個 Transformer 層組成,擁有 15 億個參數的模型。
  • 對話Quoc Le: 我相信谷歌大腦正在走進第四代機器學習Learning-to...
    2014 年,他利用深度學習技術和自動轉換單詞的端到端系統推動了機器翻譯性能,為谷歌隨後在神經機器翻譯方面的突破奠定了基礎。自 2014 年以來,Le 將目光投向自動化機器學習(AutoML)。最近我做了一個演講,回顧了計算機視覺領域的一些最新技術,結果發現 ImageNet 數據集中最好的三個或四個模型實際上是由 AutoML 生成的,而 ImageNet 可能是目前計算機視覺領域最難的競賽之一。我們自動生成的模型已經比人工設計的模型更好了。
  • 谷歌研發8小時降水預報神經天氣模型
    目前很多氣象機構的預報是基於大氣物理模型,雖然幾十年來預報技術取得了很大的進展,但是仍受物理定律和計算需求的限制。有一種能夠突破這些限制的天氣預報方法是使用深度神經網絡,其可在強大的專用硬體上使用並行計算發現數據中的模式,並學習從輸入到輸出的複雜轉換。  近日,在以往對降水量預報的研究基礎上,谷歌提出了一種用於降水預報的神經天氣模型——MetNet。
  • 谷歌大腦科學家:大腦是AI研究的靈感來源 AI沒有邊界
    選自:Gigaom 編譯:網易智能 參與:nariiy本期對話嘉賓是谷歌大腦的研究科學家、機器學習專家、副教授Hugo LaRochelle,他專攻計算機視覺和自然語言處理領域的深度神經網絡。在機器學習中,有一種基於人工神經網絡的方法,這種方法更接近於我們的大腦,趨近真正的神經網絡和真正的神經元,人工神經網絡是受動物中樞神經系統啟發的計算模型,某種意義上說,這些算法可能與真正的生物神經元工作機制尚存有差距,但我想,很多機器學習研究者,尤其是深度學習領域的研究者從中獲得了啟發,即大腦是真正的生物機器,它正在執行一些算法,並且想要知道這個算法是什麼,因此,大腦在我們設計自己的人工神經網絡中的功能機制是什麼的時候
  • 谷歌TensorFlow成為最受歡迎Python項目
    TensorFlow眾所周知,最初是2015年11月由谷歌開源的人工智慧系統,屬於谷歌大腦第二代機器學習系統。TensorFlow是一個開源軟體庫,用於各種感知和語言理解人物的機器學習,在谷歌的語音識別、Gmail、谷歌相冊和搜索等多款產品中都有應用。
  • 谷歌開源深度學習街景文字識別模型:讓地圖隨世界實時更新
    谷歌的算法在「French Street Name Signs(FSNS)」數據集中達到了 84.2% 的準確率,表現大大超過了此前表現最好的系統。更重要的是,新系統除了可以讀取街道名稱,還可以自動讀取圖片中的商戶名,以及其他信息。谷歌近日已將這一模型開源。
  • 谷歌大腦程式設計師教你撩妹神技
    一個來自谷歌大腦的程序猿說,他和他妹子都很喜歡這隻胖子。於是,他有了用AI幫妹子生出很多很多小吉 (的圖片) 的想法。 △ 「其實就是有了眼睛和耳朵的水滴」當然,並不只是想想而已。一切從這裡BEGAN生成對抗網絡 (GAN) 是精分的AI,由兩個神經網絡組成,一是生成模型 (Generator) ,即畫師,二是判別模型 (Discriminator) ,即鑑賞家。縮略為G和D。人類要用大量的圖像來餵養GAN,培養兩個神經網絡的藝術細菌。
  • 水中漫步,空霸強襲高達模型場景作品
    喜歡高達模型的模友都有著一顆製作場景的心,優秀的高達模型場景動感十足。場景製作中水面場景的製作是比較難的,涉及到波紋、水花的製作。接下來為大家帶來的是AZA高達的水中漫步,空霸強襲高達模型場景作品,模友用高達模型還原了這一場景。
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    谷歌地圖也有一套預測算法。但畢竟世界是動態的,每天的狀況都有可能不同,特別是疫情期間。例如,儘管上下班尖峰時間都會發生在早上、晚上,但具體的確切時間可能每天、每月都有很大差異;一條小巷的擁堵,就會蔓延到下一個大路——這一點,地圖往往無法實時監控;另外,道路質量、限速、事故和封路等因素,都會給預測模型帶來麻煩。
  • 2021放假安排出爐 西安妥妥霸榜春節人氣城市榜
    西安妥妥霸榜春節人氣城市榜11月25日,國務院辦公廳發布關於2021年部分節假日安排的通知。元旦、春節、清明節、勞動節、端午節、中秋節和國慶節分別可以休3天、7天、3天、5天、3天、3天、7天。放假安排落定,一夜之間,旅遊平臺的搜索預訂人氣大漲。記者從攜程獲悉,25日-26日,春節國內跟團遊預訂人氣比之前上漲150%,元旦自由行產品人氣漲120%。
  • 谷歌2017年度熱搜詞:泰國榜&印尼榜&越南榜
    本期將分享谷歌「Yeah in search 2017」泰國榜&印尼榜&越南榜的情況,一起來看看泰國、印尼和越南的用戶2017年都在關注些什麼吧~ 泰國 十大熱搜詞 1、เพลิงบุญ(泰劇《道德的火焰(Plerng Boon)》2017新版)
  • Ian Goodfellow撰文總結:谷歌的 ICLR 2017 碩果纍纍
    雷鋒網消息,谷歌大腦團隊的 Ian Goodfellow 今日在研究院官網上撰文,總結了谷歌在 ICLR 2017 上所做的學術貢獻。雷鋒網編譯全文如下,未經許可不得轉載。ICLR 包括 conference track 及 workshop track 兩個項目,邀請了獲得 oral 及 poster 的研究者們進行分享,涵蓋深度學習、度量學習、核學習、組合模型、非線性結構化預測,及非凸優化問題。站在神經網絡及深度學習領域浪潮之巔,谷歌關注理論與實踐,並致力於開發理解與總結的學習方法。
  • F1義大利站車手實力榜更新,年輕人霸榜
    F1義大利站車手實力榜更新,年輕人霸榜 2020-09-10 00:34  FormulaFans
  • 性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型
    在過去的十年中,深度神經網絡從根本上變革了自然語言處理(NLP)領域的發展,但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小,但性能不打折扣。去年,谷歌發布了一種被稱為 PRADO 的神經架構,該架構當時在許多文本分類問題上都實現了 SOTA 性能,並且參數量少於 200K。
  • 歐美谷歌一週遊戲榜:《流浪狗模擬器》付費榜第一
    [摘要]本周谷歌Play商店總榜前九名沒發生變化,《漫威格鬥冠軍》升至第十五, 《流浪狗模擬器》與《疾行轉彎》分別是新遊戲付費榜和免費榜冠軍。本周(2月22日至2月28日)谷歌Play商店總排行榜的前九名與上周保持完全的一致,《部落戰爭》仍然還是總排行榜的第一名,《戰爭遊戲:火力時代》緊隨其後名列第二,《糖果粉碎蘇打傳奇》與《糖果粉碎傳奇》分別排在第三與第四位,《海島奇兵》名列第五。