【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果)
作者 | 八寶粥 責編 | 張文
頭圖 | CSDN 下載自東方 IC
出品 | CSDN(ID:CSDNnews)
「哦我親愛的老夥計,感謝 ZiruiWang 先生,他及時的提交讓 Google Brain 在 2020 年還能在 SuperGLUE 榜首霸佔大約 12 個小時.」
12 月 30 日,他向大家介紹了來自微軟 DeBERTa 團隊取得了明顯進展,並在評論當中對 T5 模型進行簡單的評價。
12 月 31 日,Zirui Wang 的 T5 和 Meena 結合的模型總得分 90.0 分,以 0.1 分的優勢擊敗了 DeBERTa 團隊的組合模型佔據榜首。0.1 的差距看起來很小,但事實上,微軟比 SuperGLUE 人類基線也之只多了 0.1 分。
SuperGLUE 是什麼?
SuperGLUE 到底是什麼呢?
SuperGLUE 是 Facebook 人工智慧研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的,用於衡量現在高性能語義理解 AI 的基準測試。它的前身是紐約大學、華盛頓大學和 Google DeepMInd 在 2018 年 4 月共同組建的基準測試 GLUE (General Language Understanding Evaluation) benchmark。
兩個網站頁面基本相似,他們的區別在於研究單位和評價指標不同。
SuperGLUE 的參與研究單位多了 Facebook 人工智慧研究中心和三星研究院。
評價指標方面,GLUE 基準測試包含了 9 個語句理解任務。分別是
單句任務(CoLA 語言可接受語料庫;SST-2 斯坦福情緒樹庫)
相似性和外派任務(MRPC 微軟研究釋義語料庫;QQP Quora 問答;STS-B 語義文本相似性基準)
推理任務(MNLI 多體自然語言推理語料庫;QNLI 斯坦福問答數據集;RTE 識別文字蘊含;WNLI 威諾格拉德自然語言推理)
在榜單當中, 由 GLUE 提供,目前排名 14 的人類性能基準 (GLUE Human baselines) 曾一度成為各大模型的頭號目標。
該榜單名氣之大,吸引了很多高校和名企前來挑戰,不斷刷新紀錄,包括阿里、平安、華為等。
後來,GLUE 難度不夠了,SuperGLUE 也就應運而生。
SuperGLUE 在 GLUE 的基礎上增加了 Facebook 人工智慧和三星研究院的支持,與此同時,它的基準測試的難度也大大提高。
兩個 GLUE 的網頁對比
兩個基準測試在網頁上並無太大差別,區別就是測試任務。
通俗來說,如果 GLUE 的難度是語言理解的「十八銅人陣」,打敗 GLUE baselines 就印上青龍白虎,那 SuperGLUE 就得是「八大派圍攻光明頂」,沒有三五年年內功別想活著下山,SuperGLUE human baseline 89.8 分在那邊守著,Google 自己家 T5 都還有差距,這個英雄榜,真的不是誰都能上的。
這些可能不太直觀,舉點更直接的例子,GPT-3 評分 71.8分,BERT 評分 69分。對比起來,90 分是不是就是獨一檔的存在?
人們一度懷疑,SuperGLUE Human Baselines 還能被超越嗎?
誰佔了榜首?
此前一直是 SuperGLUE Human baselines 佔據榜首。
但 2020 年12 月 30 日,Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜,位列前二,得分分別是 90.0,89.9。
這也意味著,SuperGLUE Human baselines 不再是不可逾越的高峰。
仔細對比就會發現,不是挑戰者太弱,是 SuperGLUE Human baselines 太強!COPA(選擇合理的替代方案)滿分,WSC(威諾格拉德模式挑戰)滿分,CB(一個短文本語料庫,包含從句)98.9 分。真的很難超越。
不過,一切都很難說。2019 年,埃魯德·基普喬格不也是跑進 2 小時,突破了人類馬拉松的極限了嘛~
有興趣的同學可以查看官方網站進行探索,也許下一個得此成就的就是你!
參考資料:
微軟 DeBERTa 模型論文:https://arxiv.org/abs/2006.03654
supergluebenchmark 官網:https://super.gluebenchmark.com/
SuperGLUE 論文連結:https://arxiv.org/abs/1905.00537
gluebenchmark 官網:https://gluebenchmark.com/
GLUE 論文連結:https://arxiv.org/abs/1804.07461
程式設計師如何避免陷入「內卷」、選擇什麼技術最有前景,中國開發者現狀與技術趨勢究竟是什麼樣?快來參與「22 中國開發者大調查」,更有豐富獎品送不停!