谷歌大腦組合模型霸榜 SuperGLUE

2021-01-08 騰訊網

【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果)

作者 | 八寶粥 責編 | 張文

頭圖 | CSDN 下載自東方 IC

出品 | CSDN(ID:CSDNnews)

「哦我親愛的老夥計,感謝 ZiruiWang 先生,他及時的提交讓 Google Brain 在 2020 年還能在 SuperGLUE 榜首霸佔大約 12 個小時.」

12 月 30 日,他向大家介紹了來自微軟 DeBERTa 團隊取得了明顯進展,並在評論當中對 T5 模型進行簡單的評價。

12 月 31 日,Zirui Wang 的 T5 和 Meena 結合的模型總得分 90.0 分,以 0.1 分的優勢擊敗了 DeBERTa 團隊的組合模型佔據榜首。0.1 的差距看起來很小,但事實上,微軟比 SuperGLUE 人類基線也之只多了 0.1 分。

SuperGLUE 是什麼?

SuperGLUE 到底是什麼呢?

SuperGLUE 是 Facebook 人工智慧研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的,用於衡量現在高性能語義理解 AI 的基準測試。它的前身是紐約大學、華盛頓大學和 Google DeepMInd 在 2018 年 4 月共同組建的基準測試 GLUE (General Language Understanding Evaluation) benchmark。

兩個網站頁面基本相似,他們的區別在於研究單位和評價指標不同。

SuperGLUE 的參與研究單位多了 Facebook 人工智慧研究中心和三星研究院。

評價指標方面,GLUE 基準測試包含了 9 個語句理解任務。分別是

單句任務(CoLA 語言可接受語料庫;SST-2 斯坦福情緒樹庫)

相似性和外派任務(MRPC 微軟研究釋義語料庫;QQP Quora 問答;STS-B 語義文本相似性基準)

推理任務(MNLI 多體自然語言推理語料庫;QNLI 斯坦福問答數據集;RTE 識別文字蘊含;WNLI 威諾格拉德自然語言推理)

在榜單當中, 由 GLUE 提供,目前排名 14 的人類性能基準 (GLUE Human baselines) 曾一度成為各大模型的頭號目標。

該榜單名氣之大,吸引了很多高校和名企前來挑戰,不斷刷新紀錄,包括阿里、平安、華為等。

後來,GLUE 難度不夠了,SuperGLUE 也就應運而生。

SuperGLUE 在 GLUE 的基礎上增加了 Facebook 人工智慧和三星研究院的支持,與此同時,它的基準測試的難度也大大提高。

兩個 GLUE 的網頁對比

兩個基準測試在網頁上並無太大差別,區別就是測試任務。

通俗來說,如果 GLUE 的難度是語言理解的「十八銅人陣」,打敗 GLUE baselines 就印上青龍白虎,那 SuperGLUE 就得是「八大派圍攻光明頂」,沒有三五年年內功別想活著下山,SuperGLUE human baseline 89.8 分在那邊守著,Google 自己家 T5 都還有差距,這個英雄榜,真的不是誰都能上的。

這些可能不太直觀,舉點更直接的例子,GPT-3 評分 71.8分,BERT 評分 69分。對比起來,90 分是不是就是獨一檔的存在?

人們一度懷疑,SuperGLUE Human Baselines 還能被超越嗎?

誰佔了榜首?

此前一直是 SuperGLUE Human baselines 佔據榜首。

但 2020 年12 月 30 日,Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜,位列前二,得分分別是 90.0,89.9。

這也意味著,SuperGLUE Human baselines 不再是不可逾越的高峰。

仔細對比就會發現,不是挑戰者太弱,是 SuperGLUE Human baselines 太強!COPA(選擇合理的替代方案)滿分,WSC(威諾格拉德模式挑戰)滿分,CB(一個短文本語料庫,包含從句)98.9 分。真的很難超越。

不過,一切都很難說。2019 年,埃魯德·基普喬格不也是跑進 2 小時,突破了人類馬拉松的極限了嘛~

有興趣的同學可以查看官方網站進行探索,也許下一個得此成就的就是你!

參考資料:

微軟 DeBERTa 模型論文:https://arxiv.org/abs/2006.03654

supergluebenchmark 官網:https://super.gluebenchmark.com/

SuperGLUE 論文連結:https://arxiv.org/abs/1905.00537

gluebenchmark 官網:https://gluebenchmark.com/

GLUE 論文連結:https://arxiv.org/abs/1804.07461

程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「22 中國開發者大調查」,更有豐富獎品送不停!

相關焦點

  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。超越人類的兩大NLU模型對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的代碼,並提供預訓練模型下載。最近,最近微軟訓練了更大規模的模型,該版本由15億參數的48個Transformer層組成。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。
  • 谷歌搜索的靈魂!BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!作者 | 子佩編輯 | Panken如果你在谷歌上搜索「如何在沒有馬路的山上停車」,谷歌會告訴你什麼?今年10月,谷歌在「Search On」活動中介紹了數千項AI領域的新應用,其中就包括BERT模型的新進展:已應用於谷歌上近乎所有的英文查詢,適用範圍也拓展至70多種語言,而去年這個時候,BERT在英文查詢中的使用比例不超過10%。
  • 谷歌搜索的靈魂:BERT模型的崛起與榮耀
    刷榜各NLP任務、超70種語言搜索,起底搜索帝國谷歌的「引擎工程師」BERT!兩年不止步,BERT的進階史要在網頁搜索屆呼風喚雨,谷歌的真本事當然不止BERT一個,用於搜尋引擎優化的Panda、Penguin、Payday,打擊垃圾郵件的Pigeon以及名聲在外的網頁排名算法Pagerank……每一塊小模組都各司其職,組成了谷歌搜索的「最強大腦」。
  • 谷歌ALBERT模型V2+中文版來了,GitHub熱榜第二
    十三 發自 凹非寺量子位 報導 | 公眾號 QbitAI比BERT模型參數小18倍,性能還超越了它。這就是谷歌前不久發布的輕量級BERT模型——ALBERT。不僅如此,還橫掃各大「性能榜」,在SQuAD和RACE測試上創造了新的SOTA。而最近,谷歌開源了中文版本和Version 2,項目還登上了GitHub熱榜第二。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    儘管如此,2011 年以來,谷歌大腦已經證實深度學習方法可以解決傳統手段無法解決的難題。語音識別之前並不理想,直到谷歌大腦更新了這一技術;機器學習的應用在谷歌移動平臺安卓上的表現堪比人類。同樣,圖像識別也是碩果纍纍。不到一年前,谷歌大腦首次開始充滿熱情地更新整個產品線。
  • 霸榜馬裡奧賽車,谷歌強化學習訓練參數銳減1000倍
    選擇性關注使我們能夠專注於信息的重要部分,而不會將精力分散到無關緊要的細節,而谷歌的這篇強化學習論文正是受此啟發。受神經科學啟示,發現高效編碼方法關於大型神經網絡的泛化性能討論很多,雖然較大的神經網絡比較小的神經網絡具有更好的泛化能力,但原因並不在於它們有更多的權重參數。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    與這些想法不同,谷歌大腦這項研究採用簡化策略,只將 token 表徵發送給單個專家。研究表明,這種簡化策略保持了模型質量,降低了路由計算,並且性能更好。研究者將這種 k=1 的策略稱為 Switch 層。下圖 3 展示了具有不同專家容量因子(expert capacity factor)的路由示例:
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer
    與這些想法不同,谷歌大腦這項研究採用簡化策略,只將 token 表徵發送給單個專家。研究表明,這種簡化策略保持了模型質量,降低了路由計算,並且性能更好。研究者將這種 k=1 的策略稱為 Switch 層。
  • 微軟AI模型在SuperGLUE基準超越人類位居排行榜第一
    紐約大學、華盛頓大學和DeepMind在2018年的時候,發布通用語言理解評估(GLUE)基準,來評估模型的語言理解程度,但是有不少自然語言處理模型,在GLUE特定任務的表現,已經遠遠超過人類,但是即便這些模型可以在GLUE超越人類,但是卻無法良好處理某些人類可以輕鬆且完美解決的問題,因此研究人員設計出SuperGLUE,來更好地評估模型能力。
  • DXOMARK 上線美國排名榜:蘋果霸榜,iPhone 12 Pro Max 排第一
    IT之家獲悉,在 DXOMARK 美國榜單中,蘋果 iPhone 手機霸榜,前十名有 5 款上榜,iPhone 12 Pro Max 排名成為第一。前十名分別是蘋果 iPhone 12 Pro Max、iPhone 12 Pro、iPhone 11 Pro Max、iPhone 12、谷歌 Pixel 5、蘋果 iPhone 11、一加 8 Pro、三星 Galaxy Note20 Ultra 5G (驍龍)、一加 7T Pro、一加 7。
  • 硬剛無限寬神經網絡後,谷歌大腦有了12個新發現
    對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。也許會有人說相比寬度而言,神經網絡更需要深度來支持表達性,從一些經典神經網絡的發展歷程即可看出。但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。
  • 2020全球最賺錢手遊出爐,騰訊強勢霸榜,劍與遠徵直線上升
    近日,國外統計機構Sensor Tower發布了全球手遊收入排行榜,這次排行榜統計了全球各個地區的手遊,真實性非常高,國內的騰訊毫無意外地霸佔了榜首,分別是第一的和平精英以及第二的王者榮耀在列表最左邊的是全球收入的總排行榜,右邊分別是蘋果和谷歌的商店
  • 谷歌AI模型在即時預報降水的使用
    打開APP 谷歌AI模型在即時預報降水的使用 cnBeta 發表於 2020-01-15 15:40:26 據外媒報導,幾周前,谷歌人工智慧(AI)使用了一個機器學習模型來改進對乳腺癌的篩查工作。
  • 霸榜新作:純潔滴小龍、滾開大神作品上榜,另有三本輕小說霸榜
    本期介紹霸榜作品五本,有純潔滴小龍、滾開大神作品,也有三本輕小說在上個月霸榜前十,讓我們來看看吧!霸榜第六:《太太請自重》標準的二次元風書名《太太請自重》,作者利用輕小說的幻想世界構建了一個現代社會中的實際問題,從而小說內容在解決這個問題。這本小說即使放在都市文也是絕佳作品,小說內容很帶感。
  • 目前「正霸屏」的4部劇:《棋魂》排第2,榜首連續霸榜15天
    其實這可以從電視劇的熱度看出來,根據數據顯示目前「正霸屏」的4部劇:《棋魂》排第2,榜首連續霸榜15天! 第4:《半是蜜糖半是傷》 對於這部劇,各位小夥伴們應該都很滿意,因為該劇的男女主都是高顏值,而且co感超強,羅雲熙與白鹿這對組合真的是讓人淪陷了
  • 谷歌小姐姐開源姿勢動畫師項目,組合現有TF模型,只需一張SVG圖片便...
    作者主要使用兩個模型,由PoseNet和FaceMesh組合而來,前者負責姿態識別,後者負責人臉3D建模。1、 FaceMesh面部建模FaceMesh可以識別486個人臉標記點,從而擬合出人臉的幾何形狀,用於識別人臉實時姿態。
  • 谷歌親兒子BERT的王者榮耀,僅用一年雄霸谷歌搜索頭牌!
    【新智元導讀】谷歌在近期召開的Search On2020大會上,宣布BERT已經佔領了谷歌搜索的高地,幾乎每一個英語查詢背後都有BERT的影子,而BERT竟然只是谷歌「蜂鳥」系統的冰山一角。2018年BERT橫空出世,帶著碾壓級的成績刷榜各種NLP任務。
  • 谷歌同志是位好「翻譯」!|翻譯|谷歌|谷歌翻譯|google translate
    在谷歌即將發表的一篇博文中,詳細介紹了一些新的創新,這些創新可以讓包括約魯巴語(Yoruba)和馬來亞拉姆語(Malayalam)這樣十分冷門的語言翻譯變得更加準確到位,改善使用這些語言的用戶的體驗。谷歌表示,其翻譯突破並非由單一技術驅動,而是針對少文本資源語言、富文本資源語言、總體質量、延遲和整體推理速度的技術組合。
  • 谷歌發布TensorFlow,用於測試人工智慧模型的隱私保護
    >近日,谷歌發布了隱私保護TensorFlow工具包,可以評估各種機器學習分類器的隱私屬性。當前,各種人工智慧隱私技術仍然是社區內爭論的話題,但還沒有一個規範的指南來建立一個私有模型。而越來越多的研究表明人工智慧模型可以洩露訓練數據集的敏感信息,從而產生隱私風險。