AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」

2021-01-09 量子位

曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI

自然語言理解(NLU)迎來新的裡程碑。

在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。

SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。

現如今,人類一下子被兩家AI超越。

一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。

超越人類的兩大NLU模型

對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的代碼,並提供預訓練模型下載。

最近,最近微軟訓練了更大規模的模型,該版本由15億參數的48個Transformer層組成。增大規模帶來的性能提升,使單個DeBERTa模型SuperGLUE上的得分(90.3)首次超過了人類(89.8),居於榜單首位。

DeBERTa(注意力分離的解碼增強BERT)是一種基於Transformer的神經語言模型,使用自監督學習對大量原始文本語料庫進行預訓練。

和其他預訓練語言模型(PLM)一樣,DeBERTa旨在學習通用語言表示形式,適應各種下遊NLU任務。DeBERTa使用三種新技術——分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。改進了以前的最新PLM(如BERT、RoBERTa、UniLM)。

這項研究是由微軟研究團隊的4位華人學者完成。

另一超越人類的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項技術均來自谷歌。

其中,Meena是一個26億參數端到端訓練的神經對話模型,它具有一個演進Transformer編碼器塊和13個演進Transformer解碼器塊。

編碼器負責處理對話上下文,幫助Meena理解對話中已經說過的內容。然後,解碼器使用該信息來制定實際響應。

T5是谷歌去年提出的「文本到文本遷移Transformer」,也就是用遷移學習讓不同的NLP任務可以使用相同的模型、損失函數和超參數,一個框架在機器翻譯、文檔摘要、問答和情感分析上都能使用。

T5最大的模型具有110億個參數,早在推出之時就取得了SuperGLUE上的最高水平,至今仍僅次於榜單前二模型和人類。

關於SuperGLUE

SuperGLUE是由Facebook、紐約大學、華盛頓大學和DeepMind四家機構於2019年8月提出的新NLU測試基準,以取代過去的GLUE。

由於之前微軟、谷歌和Facebook的模型連續刷新GLUE基準測試得分,已有不少AI模型超越了人類的表現。因此GLUE已不能順應NLU技術的發展,SuperGLUE應運而生。

我們從最初的GLUE基準測試中吸取的經驗教訓,並推出了SuperGLUE,這是一個採用了GLUE的新基準測試,具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。

四家機構在SuperGLUE的官方文檔中如是說。

SuperGLUE總共包含10項任務,用於測試系統因果推理、識別因果關係、閱讀短文後回答是非問題等等方面的能力。SuperGLUE還包含Winogender,一種性別偏見檢測工具。

這些問題用當前最先進的算法還不能很好地解決,卻很容易被人類理解。

尤其是「選擇合理的替代方案」(COPA)這一項因果推理任務。它要求系統能根據給出的句子,在兩個選項中找出可能的原因或結果。比如:

那個男人的腳趾斷了。這是什麼原因造出的?備選答案1:他的襪子上有一個洞。備選答案2:他把錘子掉在腳上了。

人類可以在COPA上獲得了100%的準確率,而BERT只有74%,這表明了NLU還存在巨大的進步空間。

現在SuperGLUE上超越了人類表現,微軟的研究人員認為:「這是通向通用AI的重要裡程碑」。

微軟DeBERTa原始碼與預訓練模型:https://github.com/microsoft/DeBERTa

谷歌T5和Meena:https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.htmlhttps://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

參考資料https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

相關焦點

  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?AI全方面完勝人類,是時間問題,還是技術問題?話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。
  • 微軟AI模型在SuperGLUE基準超越人類位居排行榜第一
    紐約大學、華盛頓大學和DeepMind在2018年的時候,發布通用語言理解評估(GLUE)基準,來評估模型的語言理解程度,但是有不少自然語言處理模型,在GLUE特定任務的表現,已經遠遠超過人類,但是即便這些模型可以在GLUE超越人類,但是卻無法良好處理某些人類可以輕鬆且完美解決的問題,因此研究人員設計出SuperGLUE,來更好地評估模型能力。
  • 谷歌大腦組合模型霸榜 SuperGLUE
    【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果) 作者 | 八寶粥 責編 | 張文 頭圖 | CSDN
  • 超越99.9%人類玩家,微軟專業十段麻將AI論文細節首次公布
    在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx 」。近日,關於 Suphx 的所有技術細節已經正式公布。微軟亞洲研究院副院長劉鐵巖曾表示:「可以說 Dota 這類遊戲更「遊戲」,而麻將這類棋牌遊戲更「AI」。」Suphx 代表著 AI 系統在麻將領域取得的最好成績,它也是首個在國際知名專業麻將平臺「天鳳」上榮升十段的 AI 系統,其實力超越了該平臺與之對戰過的 99.9% 的人類選手。
  • 『AI翻車』事件已超1000+,特斯拉,微軟、谷歌、蘋果等全部...
    https://incidentdatabase.ai/在這些事故中,有的可能只是鬧了個笑話,但有的已經對人類造成了實質性的傷害,或者為國家完全埋下了隱患。此外還可以看到,特斯拉、谷歌、微軟、亞馬遜、蘋果等頗具影響力的科技巨頭在這份「翻車」列表中也頻頻出現。「自動駕駛」頻翻車從列表來看,自動駕駛是AI「翻車」事故較為頻繁且影響惡劣的領域。包括特斯拉、Uber等大型車企均發生過多起受傷,或致死等交通事故。就在上個月,特斯拉還因險些造成事故登上了微博熱搜。
  • 微軟麻將AI超越人類後,研究團隊稱有意出教材提升人類牌技
    微軟亞洲研究院研發的麻將AI系統Suphx在國際知名專業麻將平臺「天鳳」上榮升十段,且超越99.99%的人類後,研究團隊在接受澎湃新聞(www.thepaper.cn)採訪時稱,有日本出版社有意聯繫,準備把Suphx打的牌譜出一本書,如果對麻將感興趣的,大家可以通過這本書來學怎麼打麻將。
  • 微軟重生:4年市值U型大逆轉,超越谷歌重返巔峰!
    在這期間,蘋果、谷歌、Facebook、Twitter等新興巨頭開始不斷崛起,微軟智慧型手機業務被蘋果和谷歌絞殺,雲計算行業亞馬遜主導天下,Bing搜索繼續燒錢,Windows 8詬病不斷,Office仍與Windows綁定······此時的微軟,正處在前所未有的低谷期。
  • 谷歌與微軟,勇士與惡龍的身份互換?
    2019 年 5 月,在由 CNCF 主辦的 KubeCon 2019 峰會上,微軟聯合 CNCF 推出運行於 K8s 之上的服務網格規範 Service Mesh Interface (簡稱 SMI),定義了一組描述能力很有限的對象,用於進行服務網格的控制,旨在為現有和未來不同廠商的服務網格產品提供統一的接口標準。
  • 直播丨微軟超級麻將AI Suphx 如何榮升十段?研發團隊深度揭秘技術...
    以國際知名專業麻將平臺天鳳(http://tenhou.net)為例,平臺上超過35萬的活躍玩家中,只有不到1%的玩家達到了專業7段及以上的高手水平。2019年8月,由微軟亞洲研究院研發的麻將AI系統Suphx成為首個在國際知名專業麻將平臺「天鳳」上榮升十段的 AI 系統,其實力超越該平臺公開房間頂級人類選手的平均水平 。麻將AI 到底有哪些難點?
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 微軟發調查問卷 疑似將為Xbox手柄追加PS5新功能
    在新世代的主機手柄設計上,微軟採用了在上代手柄基礎上優化調整的策略,而索尼則選擇在DualSense4的基礎上進行了大刀闊斧的修改,為DualSense5手柄增添了自適應扳機,線性馬達等新技術,這使得雖然新一代的Xbox手柄雖然依舊優秀但難免顯得有些不盡如人意。
  • 馬斯克再放AI威脅論:人工智慧五年內超越人類
    一眾科技公司紛紛押寶人工智慧,像國外的谷歌蘋果微軟、國內的阿里百度騰訊等,都投入了大量人力物力發展人工智慧。   時至今日,人工智慧早已存在於我們生活的方方面面,手機地圖導航,規劃最優路線,避開擁擠路段用到了AI;電商平臺、資訊軟體根據用戶的行為習慣,喜好性格等,推送你想看的想買的,用到了AI大數據計算;甚至幫你定鬧鐘,回簡訊的手機語音助手也是人工智慧的體現。
  • 支持108種語言的谷歌翻譯如何用AI讓翻譯質量越來越好?
    自谷歌翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然後解碼器將其用於生成所需語言的文本。谷歌相關研究人員於2017年首次提出的基於Transformer模型在此方面比RNN更為有效,但谷歌表示其工作表明大部分質量提升僅來自於Transformer的一個組成部分:編碼器。
  • 『AI助理』入耳了……三星·蘋果·谷歌·微軟,無線耳機角逐戰
    無線耳機廠商們最近開始接連在無線耳機產品上搭載AI助理功能。預計無線耳機將成為用戶和AI助理進行連接的重要媒介,未來可能會支持更多功能和服務。 28日,根據三星電子消息,三星正在考慮在下一代Galaxy Buds產品上搭載呼出自家AI平臺'Bixby'的功能。雖然2月份上市的Galaxy Buds上有激活Bixby的功能,但不是語音呼出,而是需要用手長按耳機才能激活。
  • AI四大神之吳恩達:離開谷歌和百度,我要做的事太多了
    提到人工智慧就無法不提「機器學習」這一相伴而生的概念了。早在多年前,谷歌工程主管雷·庫茲韋爾就在進行「如何複製人類大腦的研究」。但是,在人工智慧與機器學習方向上走得更加前沿的,是時任史丹福大學人工智慧實驗室主任的吳恩達。
  • 谷歌員工又發聯名信起義了:Jeff Dean道歉,AI倫理學家回歸
    過去幾年中,超大規模的語言機器學習模型出現,在回答問題或通過機器學習算法,消化從網絡上搜集的數十億字的任務上取得了重大進展。這些系統以語言的統計模式運作,不像人類那樣理解這個世界,他們會犯一些對人類來說顯而易見的錯誤。但是在回答問題或生成流暢的新文本方面,他們可以用數字處理的方式取得令人印象深刻的成果。
  • 瀏覽器黃昏之戰:微軟退場火狐裁員,谷歌成了惡龍
    這引發的地震超乎想像:火狐在桌面端份額只有7%,卻使用自己的Gecko內核,是Chromium和微軟之外僅存的「獨苗」。值得一提的是,蘋果Safari的內核WebKit與谷歌Chromium同源。這意味著,谷歌Chrome可能一統天下,變回微軟IE 6時期一家獨大的情況。「曾經的屠龍者成了龍」,人們在網上評論說。
  • 擊敗谷歌AI拿下「最強」稱號?Facebook AI開源聊天機器人Blender
    該基準給人類真實對話的評分是 86 分,而 Meena 獲得了 79 分,位居第二名,並且遠勝於 Mitsuku 和微軟小冰等同類聊天機器人。「最先進聊天機器人」由此得名。為了讓對比更公平,Facebook 使用的是擁有 27 億參數的 Blender 版本,因為谷歌 Meena 只有 26 億參數。論文稱其對比了人類測試者對兩個模型生成的對話的看法,最終有近四分之三的人認為 Blender 的對話更有吸引力和互動性,可以視為是「擊敗了 Meena」。
  • 谷歌同志是位好「翻譯」!|翻譯|谷歌|谷歌翻譯|google translate
    既然GNMT是通過應用基於實例的的機器翻譯方法來改進翻譯質量,那麼系統就需要會從數百萬個乃至更多的示例中學習,從這些來源中推斷出最相關的翻譯,然後將結果重新排列並組成基於符合人類語言的語法翻譯。這也就意味著,當GNMT進行學習時,需要目標語言有大量文本數據。
  • 微軟Surface Duo預裝35款應用程式 含谷歌GMS Core與Outlook
    微軟已經宣布 Surface Duo 將在 9 月 10 日開始發貨,售價 1399 美元起。這也是微軟正式回歸行動裝置市場。  在 Surface Duo 的渲染圖中,我們可以看到左手屏幕上的谷歌搜索欄,以及其他谷歌應用,包括 Chrome 瀏覽器。