谷歌大腦組合模型霸榜 SuperGLUE

2021-01-08 騰訊網

【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果)

作者 | 八寶粥 責編 | 張文

頭圖 | CSDN 下載自東方 IC

出品 | CSDN(ID:CSDNnews)

「哦我親愛的老夥計,感謝 ZiruiWang 先生,他及時的提交讓 Google Brain 在 2020 年還能在 SuperGLUE 榜首霸佔大約 12 個小時.」

12 月 30 日,他向大家介紹了來自微軟 DeBERTa 團隊取得了明顯進展,並在評論當中對 T5 模型進行簡單的評價。

12 月 31 日,Zirui Wang 的 T5 和 Meena 結合的模型總得分 90.0 分,以 0.1 分的優勢擊敗了 DeBERTa 團隊的組合模型佔據榜首。0.1 的差距看起來很小,但事實上,微軟比 SuperGLUE 人類基線也之只多了 0.1 分。

SuperGLUE 是什麼?

SuperGLUE 到底是什麼呢?

SuperGLUE 是 Facebook 人工智慧研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的,用於衡量現在高性能語義理解 AI 的基準測試。它的前身是紐約大學、華盛頓大學和 Google DeepMInd 在 2018 年 4 月共同組建的基準測試 GLUE (General Language Understanding Evaluation) benchmark。

兩個網站頁面基本相似,他們的區別在於研究單位和評價指標不同。

SuperGLUE 的參與研究單位多了 Facebook 人工智慧研究中心和三星研究院。

評價指標方面,GLUE 基準測試包含了 9 個語句理解任務。分別是

單句任務(CoLA 語言可接受語料庫;SST-2 斯坦福情緒樹庫)

相似性和外派任務(MRPC 微軟研究釋義語料庫;QQP Quora 問答;STS-B 語義文本相似性基準)

推理任務(MNLI 多體自然語言推理語料庫;QNLI 斯坦福問答數據集;RTE 識別文字蘊含;WNLI 威諾格拉德自然語言推理)

在榜單當中, 由 GLUE 提供,目前排名 14 的人類性能基準 (GLUE Human baselines) 曾一度成為各大模型的頭號目標。

該榜單名氣之大,吸引了很多高校和名企前來挑戰,不斷刷新紀錄,包括阿里、平安、華為等。

後來,GLUE 難度不夠了,SuperGLUE 也就應運而生。

SuperGLUE 在 GLUE 的基礎上增加了 Facebook 人工智慧和三星研究院的支持,與此同時,它的基準測試的難度也大大提高。

兩個 GLUE 的網頁對比

兩個基準測試在網頁上並無太大差別,區別就是測試任務。

通俗來說,如果 GLUE 的難度是語言理解的「十八銅人陣」,打敗 GLUE baselines 就印上青龍白虎,那 SuperGLUE 就得是「八大派圍攻光明頂」,沒有三五年年內功別想活著下山,SuperGLUE human baseline 89.8 分在那邊守著,Google 自己家 T5 都還有差距,這個英雄榜,真的不是誰都能上的。

這些可能不太直觀,舉點更直接的例子,GPT-3 評分 71.8分,BERT 評分 69分。對比起來,90 分是不是就是獨一檔的存在?

人們一度懷疑,SuperGLUE Human Baselines 還能被超越嗎?

誰佔了榜首?

此前一直是 SuperGLUE Human baselines 佔據榜首。

但 2020 年12 月 30 日,Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜,位列前二,得分分別是 90.0,89.9。

這也意味著,SuperGLUE Human baselines 不再是不可逾越的高峰。

仔細對比就會發現,不是挑戰者太弱,是 SuperGLUE Human baselines 太強!COPA(選擇合理的替代方案)滿分,WSC(威諾格拉德模式挑戰)滿分,CB(一個短文本語料庫,包含從句)98.9 分。真的很難超越。

不過,一切都很難說。2019 年,埃魯德·基普喬格不也是跑進 2 小時,突破了人類馬拉松的極限了嘛~

有興趣的同學可以查看官方網站進行探索,也許下一個得此成就的就是你!

參考資料:

微軟 DeBERTa 模型論文:https://arxiv.org/abs/2006.03654

supergluebenchmark 官網:https://super.gluebenchmark.com/

SuperGLUE 論文連結:https://arxiv.org/abs/1905.00537

gluebenchmark 官網:https://gluebenchmark.com/

GLUE 論文連結:https://arxiv.org/abs/1804.07461

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「22 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。超越人類的兩大NLU模型對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的代碼,並提供預訓練模型下載。最近,最近微軟訓練了更大規模的模型,該版本由15億參數的48個Transformer層組成。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?今年10月,谷歌在「Search On」活動中介紹了數千項AI領域的新應用,其中就包括BERT模型的新進展:已應用於谷歌上近乎所有的英文查詢,適用範圍也拓展至70多種語言,而去年這個時候,BERT在英文查詢中的使用比例不超過10%。
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!兩年不止步,BERT的進階史要在網頁搜索屆呼風喚雨,谷歌的真本事當然不止BERT一個,用於搜尋引擎優化的Panda、Penguin、Payday,打擊垃圾郵件的Pigeon以及名聲在外的網頁排名算法Pagerank……每一塊小模組都各司其職,組成了谷歌搜索的「最強大腦」。
  • 兩年回顧|谷歌大腦靈魂Jeff斯坦福呼喚更好AI工具
    多年以前,莫愁和谷歌google Glass團隊吃飯時告訴他們,谷歌眼鏡無論做多好都是必敗因為就是挑戰了生理學。人類是從採集社會進化過來的,我們的手指不僅具有可以每天活動幾千幾萬次的生理學基礎,而且大腦皮層中又相關的硬體,上圖就是大腦皮層管理運動區域物理硬體神經元相對的面積。管理一個手指的區域遠遠超過人的眼球和整個人的軀幹包括胳膊和大腿,無論他們有多大。
  • 硬剛無限寬神經網絡後,谷歌大腦有了12個新發現
    對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。 但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。作者聲稱,他們在該研究中解決了與無限寬神經網絡研究相關的各種開放性問題。
  • 谷歌發布最大語言模型:等於9個GPT-3,訓練成本卻低得多
    楊淨 發自 凹非寺量子位 報導 | 公眾號 QbitAI今天,谷歌大腦聲稱,他們新技術能訓練萬億級參數的語言模型。這一語言模型正是Switch Transformer,自稱是迄今為止最大的模型,其預訓練速度是谷歌以前開發的最大語言模型(T5-XXL)的4倍。
  • 蘋果在臺灣地區市場銷售額霸榜
    打開APP 蘋果在臺灣地區市場銷售額霸榜 田哲 發表於 2020-12-21 16:28:17 據ePrice報導,中國臺灣地區11月份手機銷量為62萬臺,各大手機品牌在臺灣地區的市場佔有率前10名分別為蘋果、三星、OPPO、vivo、realme、HTC、索尼、華碩、INHON、谷歌。
  • 谷歌大腦發布神經網絡的「核磁共振」,並公開相關代碼
    2015 年上半年的時候,谷歌大腦的人員就嘗試將神經網絡理解圖像並生成圖像的過程進行可視化。隨後他們開源了他們的代碼 DeepDream。這個方法出乎他們意料的是,竟然促成了一個小小的藝術運動,很多人通過可視化神經網絡的技術生成了各種魔幻的作品。
  • 數十億次數學運算只消耗幾毫瓦電力,谷歌開源Pixel4背後視覺模型
    同時,MobileNet 之類的算法為移動視覺應用程式提供了緊湊而高效的神經網絡模型,是基於終端的機器學習成功的重要因素。去年 11 月,谷歌發布了 MobileNetV3 和進行了 Pixel 4 Edge TPU 優化後的 MobileNetEdgeTPU 模型的原始碼及檢查點(checkpoint)。
  • 谷歌搜索新增恐龍 3D 模型:可放在現實環境中觀看
    IT之家6月30日消息之前使用谷歌搜索能找到動物、行星、太空人,甚至細胞的3D模型,並可以將這些虛擬模型放在現實環境中查看。現在,谷歌宣布已上線恐龍模型。用戶在手機使用谷歌搜索相應的恐龍名字,搜索結果中就會出現3D模型,然後可以點擊「在3D中觀看」按鍵觀看3D模型。谷歌和Ludia的《侏羅紀世界》手機遊戲合作,帶來了10個恐龍模型。谷歌表示,Ludia試圖讓模型儘可能地逼真。
  • 骨朵數據新推演員【霸屏榜】,快來看誰是螢屏之王
    更全面,更及時霸屏榜主要選取演員的新劇在榜期間(新劇更新期+完結後二周)的作品播映效果,通過用戶關注、互動、熱議,媒體曝光,粉絲貢獻等多維度脫水數據建立指數模型,每日中午更新前一天榜單因此骨朵數據此次推出的霸屏榜專注演員作品表現,以演員基礎工作為考核,展現演員真正的專業價值。上榜霸屏榜的演員需要靠作品說話。縱觀霸屏榜排名,上榜藝人都是最近熱播劇中表現亮眼的演員。在6月24日的霸屏榜單裡,領銜主演的總榜上《帶著爸爸去留學》中的三位演員孫紅雷、辛芷蕾位居一二名,朱一龍則是憑著《我的真朋友》中溫柔精英的男二井然一角各列第三位。
  • 谷歌開放Fuchsia作業系統開源模型 方便公眾共同開發
    鴻蒙作業系統被認為是物聯網時代的作業系統,無獨有偶,谷歌在4年前就被發現了其也在布局物聯網時代的作業系統,該系統名為Fuchsia.12月8日,一直在git代碼庫中默默開發的Fuchsia作業系統,公開了原始碼模型,以便於公眾共同參與搭建Fuchsia作業系統。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。 2019年,biobert,roberta,albert等各種BERT變體開始層出不窮,給傳統的NLP任務帶來了革命性的進展。 而谷歌作為BERT的本家,更是將它的優勢發揮的淋漓盡致。
  • 霸榜全球手機市場的中國品牌 為什麼會被扼制咽喉?
    霸榜全球市場的「亞洲怪物房」在這個品牌或者品牌體系中,好像除了蘋果,其他品牌都歸屬於亞洲。不得不感嘆,「亞洲怪物房」這個梗,不僅適用在軍備建設領域,同時,放到全球手機市場中,也非常適用。說到這裡,好像又和鋼鐵行業的一個梗非常相似,據說全球鋼產量第一是中國(不包括河北省),第二名是中國河北(不包括唐山)……中國手機品牌之所以霸榜,除了輕工業產業鏈,比國外更加完善之外,同時還擁有數以億計的龐大消費群體。
  • 谷歌搜索AR動物園又叒更新動物模型了,短吻鱷、鴨子和刺蝟……
    最近谷歌搜索AR動物園又叒叕更新動物模型了,P君已經迫不及待的要去體驗一下啦!動物園裡有什麼?小腦斧、大西幾(好好說話!)AR動物還有很多,最近谷歌又更新了,其中包括犀牛甲蟲、大力神甲蟲、瓢蟲、螢火蟲、燕尾蝶、螳螂、蜻蜓和大黃蜂等23隻昆蟲,以及短吻鱷、鴨子和刺蝟等50種動物模型。P君在這裡就不一一舉列了,感興趣的小夥伴們可以衝一波了。兒童?青少年?
  • 利用谷歌3D模型和AR技術 你可以邀請尤達寶寶來家做客
    利用谷歌的 3D 模型和增強現實技術,你現在可以邀請 Grogu/Baby Yoda 來家中做客。從現在開始,用戶在谷歌上搜索 Baby Yoda、Grogu 和 The Child 關鍵詞,就會跳出這個小巧可愛的外星人 3D 模型,你可以在手機端進行觀看。
  • 【谷歌公布2020年度熱搜榜:拜登成谷歌今年搜索次數最多的人】全球...
    2020-12-11 07:34:39來源:FX168 【谷歌公布2020年度熱搜榜:拜登成谷歌今年搜索次數最多的人】全球最大搜尋引擎谷歌9日公布了2020年度熱搜榜,美國當選總統拜登成為本年度谷歌搜索次數最多的人。
  • 綠幕通通扔掉 ੧ᐛ੭ | 谷歌AI實時「摳」背景
    所以,在構建和訓練的過程中,谷歌給自己定了一些原則:這個摳背景的模型,幀數的處理得很講究。幀數不能太多,不然費算力,也無法及時出圖;但也不能太少,否則看起來卡頓。數據集為了訓練這個模型,谷歌標註了成千上萬個圖像。前景標出頭髮、眉毛、皮膚、眼鏡、鼻孔、嘴唇等。
  • 百度大腦UNIT升級,五步完成對話模型私有化部署
    對話系統的搭建從大的階段上分為三個步驟,第一階段要進行業務梳理,設計對話邏輯,並整理業務數據;第二個階段就是配置對話或問答技能,訓練出一個可用的對話模型;第三階段就是模型的部署和調用。而在每一個階段,百度大腦智能對話定製與服務平臺UNIT都有相應豐富的能力來滿足不同的業務訴求。