AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」

2021-01-08 量子位

曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI

自然語言理解(NLU)迎來新的裡程碑。

在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。

SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。

現如今,人類一下子被兩家AI超越。

一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。

超越人類的兩大NLU模型

對NLP領域的人來說,微軟DeBERTa模型並不陌生,早在去年8月微軟就開源了該模型的代碼,並提供預訓練模型下載。

最近,最近微軟訓練了更大規模的模型,該版本由15億參數的48個Transformer層組成。增大規模帶來的性能提升,使單個DeBERTa模型SuperGLUE上的得分(90.3)首次超過了人類(89.8),居於榜單首位。

DeBERTa(注意力分離的解碼增強BERT)是一種基於Transformer的神經語言模型,使用自監督學習對大量原始文本語料庫進行預訓練。

和其他預訓練語言模型(PLM)一樣,DeBERTa旨在學習通用語言表示形式,適應各種下遊NLU任務。DeBERTa使用三種新技術——分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。改進了以前的最新PLM(如BERT、RoBERTa、UniLM)。

這項研究是由微軟研究團隊的4位華人學者完成。

另一超越人類的AI是由CMU博士生王子瑞提交的T5+Meena。這兩項技術均來自谷歌。

其中,Meena是一個26億參數端到端訓練的神經對話模型,它具有一個演進Transformer編碼器塊和13個演進Transformer解碼器塊。

編碼器負責處理對話上下文,幫助Meena理解對話中已經說過的內容。然後,解碼器使用該信息來制定實際響應。

T5是谷歌去年提出的「文本到文本遷移Transformer」,也就是用遷移學習讓不同的NLP任務可以使用相同的模型、損失函數和超參數,一個框架在機器翻譯、文檔摘要、問答和情感分析上都能使用。

T5最大的模型具有110億個參數,早在推出之時就取得了SuperGLUE上的最高水平,至今仍僅次於榜單前二模型和人類。

關於SuperGLUE

SuperGLUE是由Facebook、紐約大學、華盛頓大學和DeepMind四家機構於2019年8月提出的新NLU測試基準,以取代過去的GLUE。

由於之前微軟、谷歌和Facebook的模型連續刷新GLUE基準測試得分,已有不少AI模型超越了人類的表現。因此GLUE已不能順應NLU技術的發展,SuperGLUE應運而生。

我們從最初的GLUE基準測試中吸取的經驗教訓,並推出了SuperGLUE,這是一個採用了GLUE的新基準測試,具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。

四家機構在SuperGLUE的官方文檔中如是說。

SuperGLUE總共包含10項任務,用於測試系統因果推理、識別因果關係、閱讀短文後回答是非問題等等方面的能力。SuperGLUE還包含Winogender,一種性別偏見檢測工具。

這些問題用當前最先進的算法還不能很好地解決,卻很容易被人類理解。

尤其是「選擇合理的替代方案」(COPA)這一項因果推理任務。它要求系統能根據給出的句子,在兩個選項中找出可能的原因或結果。比如:

那個男人的腳趾斷了。這是什麼原因造出的?備選答案1:他的襪子上有一個洞。備選答案2:他把錘子掉在腳上了。

人類可以在COPA上獲得了100%的準確率,而BERT只有74%,這表明了NLU還存在巨大的進步空間。

現在SuperGLUE上超越了人類表現,微軟的研究人員認為:「這是通向通用AI的重要裡程碑」。

微軟DeBERTa原始碼與預訓練模型:https://github.com/microsoft/DeBERTa

谷歌T5和Meena:https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.htmlhttps://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

參考資料https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/https://www.microsoft.com/en-us/research/blog/microsoft-deberta-surpasses-human-performance-on-the-superglue-benchmark/

相關焦點

  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?AI全方面完勝人類,是時間問題,還是技術問題?話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。
  • 『AI翻車』事件已超1000+,特斯拉,微軟、谷歌、蘋果等全部...
    https://incidentdatabase.ai/在這些事故中,有的可能只是鬧了個笑話,但有的已經對人類造成了實質性的傷害,或者為國家完全埋下了隱患。此外還可以看到,特斯拉、谷歌、微軟、亞馬遜、蘋果等頗具影響力的科技巨頭在這份「翻車」列表中也頻頻出現。「自動駕駛」頻翻車從列表來看,自動駕駛是AI「翻車」事故較為頻繁且影響惡劣的領域。包括特斯拉、Uber等大型車企均發生過多起受傷,或致死等交通事故。就在上個月,特斯拉還因險些造成事故登上了微博熱搜。
  • 谷歌大腦組合模型霸榜 SuperGLUE
    【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果) 作者 | 八寶粥 責編 | 張文 頭圖 | CSDN
  • 百度、谷歌、微軟的「雲+AI」新故事
    今年的Build大會對微軟來說更具時代意義,在過去這一年裡,微軟股價曾突破萬億美元、重新登頂全球市值第一。尤其在雲服務領域表現亮眼,據微軟2019年Q3財報,Q3包括Azure在內的微軟智能雲業務增長41%,營收96億美元,其中,公有雲Azure收入飆升73%。雲服務逐漸成為微軟的主要營收來源。
  • 我們讓AI聊天機器人做了套普魯斯特問卷
    Kuki的設計者Steve Worswick名不見經傳,是名來自英國的業餘程式設計師,他的整套設備就是一臺4MB內存的家用電腦,當他發現谷歌的Meena居然在30天的「學習」當中花掉了一百多萬美金的硬體費用時,感到不可思議。「這還只是訓練,我的伺服器還能讓好幾百個人一起跟它聊天呢。」
  • 谷歌AI通過圖靈測試:人類的進步還是人性的倒退?
    文/水哥谷歌人工智慧新應用Duplex通過圖靈測試的消息引發了業界廣泛熱議。有人說此次事件是AI領域的新裡程碑,因為從AlphaGo到Duplex兩次證實了現行人工智慧技術進程的線路是正確的,業界確實找到了AI向人類智能演進的方法;也有人認為這次Duplex更加注重擬人化的表現,讓一些人有了細思極恐的體驗,這或許將「AI倫理論」推向一個高潮。
  • 谷歌首次公布YouTube和雲計算收入:未來不止搜索
    谷歌母公司Alphabet於今日公布了在2019年第四季度財報,在財報中,谷歌首次公布了YouTube和雲計算業務的數據。但由於經營利潤及營收均不及預期,其中營收增長為2015年來最差,股價盤後一度跌近5%。
  • ai什麼時候能夠超越我們人類智力水平?
    那麼,ai到底什麼時候能夠超越我們人類智力水平?其實,人工智慧,從業者們分為三個類型:真正的ai民工(發源於中國,總部大中華地區);展望ai發展的背景民工(發源於美國,總部美國);及其他純ai民工(發源於歐洲,美國和國內一線城市的高校、企業、科研機構)。
  • 『AI助理』入耳了……三星·蘋果·谷歌·微軟,無線耳機角逐戰
    無線耳機廠商們最近開始接連在無線耳機產品上搭載AI助理功能。預計無線耳機將成為用戶和AI助理進行連接的重要媒介,未來可能會支持更多功能和服務。 28日,根據三星電子消息,三星正在考慮在下一代Galaxy Buds產品上搭載呼出自家AI平臺'Bixby'的功能。
  • 麻將AI超越99%人類玩家:專業十段,學習能力堪比阿法狗
    近日,微軟發布了一份關於麻將AI「Suphx(意為Super Phoenix,超級鳳凰)」的修訂版預印本文件,介紹說Suphx是一個專業十段水平的「選手」,超越了99%人類玩家,這是電腦程式首次超過麻將中大多數頂級人類玩家。
  • 谷歌微軟認定WebAPP才是未來
    在太平洋另一端,谷歌、微軟也在蠢蠢欲動,不過他們瞄準的並不是小程序,而是基於瀏覽器的Web APP(網頁應用)。Web APP,它的原理與小程序類似,不用下載安裝APP,直接在網頁上就可以體驗到本地APP類似的功能。具體方法就是給Web網頁打個包、加個殼,看起來像是一個APP,可以上傳到應用商店中,只不過用戶打開之後看到的實際上還是個網頁。
  • 打破霍金預言,AI真的會是人類的終結者嗎
    MIT的教授以及幾名來自美國三大網際網路巨頭谷歌、IBM和微軟的企業員工等,也曾聯名寫過公開信,表達AI未來會影響人類安全問題和社會福利問題的憂慮。2 關鍵的「技術奇點」按照霍金的說法,AI在初級發展階段的確可以為人類生活帶來極大的便利,但是,機器將可能以不斷加快的速度重新設計自己,「如果人類能夠寫出計算機病毒,那麼也能夠設計出能夠自我複製的AI」,而人類則受制於生物進化速度,在智能的演進速度上根本無法與之競爭,使得人類最終被AI超越。
  • 擊敗谷歌AI拿下「最強」稱號?Facebook AI開源聊天機器人Blender
    該基準給人類真實對話的評分是 86 分,而 Meena 獲得了 79 分,位居第二名,並且遠勝於 Mitsuku 和微軟小冰等同類聊天機器人。「最先進聊天機器人」由此得名。為了讓對比更公平,Facebook 使用的是擁有 27 億參數的 Blender 版本,因為谷歌 Meena 只有 26 億參數。論文稱其對比了人類測試者對兩個模型生成的對話的看法,最終有近四分之三的人認為 Blender 的對話更有吸引力和互動性,可以視為是「擊敗了 Meena」。
  • 郭臺銘炮轟微軟:不敢告谷歌,惹不起華為,來搞他
    但如果起訴華為,微軟勢必會面對華為強烈的訴訟反擊以及廣大中國用戶的抵制,故而逼迫臺灣地區代工廠,代為「收取轉付」,既可以不得罪大陸客戶,又可以收到他們不合理的專利保護費。 來源:騰訊視頻「這應該是美國公司和美國公司的戰爭,是微軟和谷歌的戰爭,不應該找代工廠。」
  • ...微軟麻將AI將教人類打牌;斯坦福研發肛門識別馬桶 | 聞周周
    據外媒報導,由澳大利亞伯內特研究院(Burnet Institute)和澳大利亞聯邦科學與工業研究組織(CSIRO)的科學家領導並發表在《美國國家科學院院刊》(PNAS)上的一項新研究表明,蝙蝠是一種致命病毒家族的宿主,這種病毒會導致考拉患上類似愛滋病(AIDS)的疾病,這一發現對保護標誌性的有袋動物具有重要意義。
  • 擊敗谷歌搜圖!微軟圖像識別系統準確率世界第一
    12月11日,在日前舉辦的第六屆「ImageNet圖像識別大賽」(ImageNet image recognition competition)中,微軟研究院的計算機圖像識別系統成功在幾個類別的測試中取得了第一名的好成績,同時也擊敗了包括谷歌、英特爾、高通以及其他一些初創企業和學術實驗室的產品
  • 谷歌員工又發聯名信起義了:Jeff Dean道歉,AI倫理學家Timnit Gebru...
    過去幾年中,超大規模的語言機器學習模型出現,在回答問題或通過機器學習算法,消化從網絡上搜集的數十億字的任務上取得了重大進展。這些系統以語言的統計模式運作,不像人類那樣理解這個世界,他們會犯一些對人類來說顯而易見的錯誤。但是在回答問題或生成流暢的新文本方面,他們可以用數字處理的方式取得令人印象深刻的成果。
  • 繞過微軟亞馬遜谷歌三巨頭,Zoom聯手甲骨文擴展其雲計算服務
    美國當地時間周二,Zoom繞過了亞馬遜AWS、Alphabet谷歌雲以及微軟Azure等雲計算領域三巨頭,反而選擇了規模更小的甲骨文幫助擴展其雲計算服務。目前交易條款沒有披露。 Zoom執行長袁徵稱:「我們最近經歷了公司有史以來最顯著的增長,這要求我們大幅提高服務能力。
  • 這幾個進清華、谷歌、微軟的孩兒 都是咱成都的娃
    每輪面試官要問一些行為性問題和一些代碼算法題經過四輪的考試拿到了微軟的offer正式成為了一名微軟工程師。優秀畢業生合影,前排左四為青青碩士研究生就讀於全球計算機排名前三的美國卡內基梅隆大學計算機視覺識別專業畢業後青青同時拿到微軟、谷歌、亞馬遜
  • 谷歌發布最大語言模型:等於9個GPT-3,訓練成本卻低得多
    燒了微軟10000張顯卡的GPT-3,也不過1750億參數。現在,他們將這參數量擴大到9倍——16000億參數。這一語言模型正是Switch Transformer,自稱是迄今為止最大的模型,其預訓練速度是谷歌以前開發的最大語言模型(T5-XXL)的4倍。