微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜

2021-01-09 新智元

【新智元導讀】還在為OpenAI的DALL-E 和 CLIP所驚豔?在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?

AI全方面完勝人類,是時間問題,還是技術問題?

話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。

你只要來段文字命令:給我來個「穿著藍色襯衫和黑色打褶褲的男模特。」

叮咚!請查收:

數十張對應圖片便出現眼前。

想起去年GPT-3橫空出世時,就有人預測AI正逐漸取代文字工作者,小編也自覺飯碗不保。現在,又輪到插畫師出來哭訴了。

就在這幾天網際網路人哭聲中,自己加班加點製造出來的AI,已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說,「AI是人類的最大威脅」。

如果說畫畫寫字都是小兒科,那看看NLP新基準SuperGLUE的刷新榜單,人類已經一再退步到無地自容了。

GLUE的後輩:SuperGLUE

近幾年,用於預訓練和遷移學習的新模型和方法推動了一系列語言理解任務的性能顯著提高。曾經的GLUE(General Language Understanding Evaluation )基準提供了一個單一的數字指標,總結了在一系列不同的此類任務上取得的進展,但該基準的表現最近已接近非專家人類的水平,進一步研究的空間有限。

2019年末,Facebook、紐約大學、華盛頓大學和 DeepMind 的研究人員提出了SuperGLUE,這是一種人工智慧的新基準(Benchmark),旨在總結各種語言任務的研究進展。基於一年前引入的 GLUE 基準,SuperGLUE 包括一系列更難理解的語言挑戰、改進的資源和一個公開的排行榜。

當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。

但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。

正如研究人員在介紹SuperGLUE的論文中所寫的那樣,他們的基準旨在成為一個簡單的、難以遊戲(hard-to-game)的衡量標準,以衡量英語通用語言理解技術的進展。它包括8個從現有數據中抽取的語言理解任務,並附有一個性能指標以及一個分析工具包。

SuperGLUE任務包括以下幾項:

Boolean Questions (BoolQ) 要求模型對維基百科文章中包含答案的短文進行提問。這些問題來自谷歌用戶,他們是通過谷歌搜索提交的這些問題。

CommitmentBank (CB) 的任務是讓模型識別出一段文字節選中包含的假設,並判斷該假設是否成立。

Choice of plausible alternatives (COPA)提供了一個關於博客和攝影相關的百科的主題的前提句,模型必須從兩個可能的選擇中確定原因或結果。

Multi-Sentence Reading Comprehension (MultiRC)是一個問答任務,每個例子由一個上下文段落、一個關於該段落的問題和一個可能的答案列表組成。模型必須預測哪些答案是真的,哪些是假的。

Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD) 模型從CNN和每日郵報的段落中的選擇列表中預測被掩蓋的單詞和短語,其中相同的單詞或短語可能會使用多種不同的形式來表達,所有這些都被認為是正確的。

Recognizing Textual Entailment (RTE) 任務用來挑戰模型識別一個文本節選是否符合另一個文本節選的含義的能力。

Word-in-Context(WiC)為模型提供了兩個文本片段和一個多義詞,並要求他們判斷該詞在兩個句子中是否具有相同的意義。

Winograd Schema Challenge (WSC)的任務中,給定小說書中的段落,模型必須回答關於模稜兩可的代詞前項的多項選擇題。它被設計為圖靈測試的改進。

有網友表示,這是就是咱們國活生生的行測啊!

不過,SuperGLUE並不是一個完美的或完整的自然語言能力的測試。就連DeBERTa背後的微軟團隊自己也指出,他們的模型 "絕非 "達到自然語言理解的人類級智能。他們同時表示,需要研究上的突破,以及新的基準來衡量其模型效果。

SuperGLUE 還嘗試使用 Winogender Schemas 來衡量模型中的性別偏見,這些模型中的句子僅僅因為一個代詞在句子中的性別而有所不同。然而,研究人員也指出,這種測量方法有其局限性,因為它只能提供積極的預測值: 儘管一個不好的偏見得分清楚地證明一個模型表現出性別偏見,但是一個好的得分並不意味著這個模型是沒有偏見的。

15億參數,更大版的DeBERTa

谷歌團隊尚未詳細說明導致其模型在SuperGLUE上創紀錄的性能的原因,但DeBERTa背後的微軟研究人員在今天早上早些時候發表的一篇博客文章中詳細介紹了他們的工作。

DeBERTa並不是算是一個新模型,它是去年開源的。但研究人員表示,他們訓練了一個15億個參數的更大版本。它將以開源的方式發布,併集成到微軟圖靈自然語言表示模型的下一個版本中,該模型支持Bing、Office、Dynamics和Azure等產品。

DeBERTa 是通過masked language modeling (MLM)進行預訓練,即mask掉中心詞後通過上下文來預測被mask掉的單詞是什麼。DeBERTa 在MLM中同時使用了上下文詞的內容和位置信息,例如,它能夠識別「a new store opened beside the new mall」句子中的「 store」和「 mall」 ,這兩個詞在句子中發揮不同的語法作用。

與其他一些模型不同,DeBERTa 解釋了詞語在語言建模過程中的絕對位置。此外,它計算模型中的參數,轉換輸入數據和測量基於相對位置的詞與詞之間依賴的強度。例如,DeBERTa能夠理解「深度」和「學習」這兩個詞之間的依存關係,當它們同時出現時,比它們出現在不同的句子中時要強烈得多。

圖:DeBERTa在MNLI和SQuAD2.0上的表現

DeBERTa 也受益於對抗訓練,這種技術利用了從訓練數據的細微變化中衍生出來的對抗樣本。在訓練過程中,將這些樣本輸入模型,以提高模型的泛化能力。

微軟的研究人員希望下一步探索如何使 DeBERTa 能夠應用到新的子任務或基本的問題解決技能上去,這是一個被稱為compositional generalization的概念。更進一步則可能是更明確地納入所謂的組合結構,這可能需要將人工智慧與符號推理結合起來。換句話說,根據數學和邏輯規則來操縱符號和表達式。

微軟的研究人員寫道: 「DeBERTa在SuperGLUE上超越人類的表現,標誌著通向人工智慧的一個重要裡程碑,但與DeBERTa不同的是,人類非常善於利用從不同任務中學到的知識,在沒有或很少有具體任務演示的情況下解決新任務。」

比強更強,T5+Meena

雖然谷歌沒有解釋T5+Meena是如何達到超越人類的效果的,但從這兩者之前的介紹中可窺一斑。

谷歌提出的T5是一個預訓練的編碼器-解碼器模型,混合無監督和監督學習的任務,並為每個任務轉換成文本到文本的格式。T5通過在每個任務的輸入前加上不同的前綴,可以很好地完成各種現成的任務。

Meena是一個擁有26億個參數的對話式神經網絡,能夠比任何人工智慧生成器更好地與人交流。研究小組使用 seq2seq 模型對模型進行了訓練,模型中包含了400億個單詞、341GB的文本數據,其中包括社交媒體上的對話。

Meena有一個Transformer編碼器和13個Transformer解碼器。雖然編碼器塊幫助它理解會話的上下文,但解碼器幫助它形成響應。谷歌聲稱 Meena 的模型容量是 OpenAI GTP-2的1.7倍,並且接受了8.5倍以上的訓練數據。

下一代BENCHMARK

雖然在短期內,SuperGLUE的繼任者還沒有出現。但是,人工智慧研究界越來越一致認為,未來的基準,尤其是語言領域的基準,必須考慮到更廣泛的道德、技術和社會挑戰,才能有用。

許多研究表明,現在流行的基準測試在評估真實世界的人工智慧性能方面表現不佳。

最近的一份報告發現,模型給出的答案中,有60%-70% 嵌入到了基準訓練集的某個地方,這表明這些模型通常只是簡單地記憶答案。另一項研究對3000多篇人工智慧論文進行元分析後發現,用於評估人工智慧和機器學習模型的度量標準往往不一致,而且信息量不大。

這些問題的出現是有原因的,因為語言模型,如 OpenAI 的 GPT-3、谷歌的 T5 + Meena和微軟的DeBERTa通過內化來自公共網絡的例子來學習編寫類似人類的文本。他們利用電子書、維基百科和 Reddit 等社交媒體平臺,對完整的句子甚至整個段落進行推理。

因此,語言模型通常會放大這些公共數據中的偏見。英特爾、麻省理工學院和 CIFAR 的研究人員在四月份發表的一篇論文中已經從一些最流行的模型中發現了強烈的刻板偏見,包括谷歌的 BERT 和 XLNet、 OpenAI 的 GPT-2和 Facebook 的 RoBERTa。這種偏見可能會被惡意行為者利用,通過傳播錯誤信息、虛假信息和謊言來進行煽動某些行為。

而目前大多數現有的語言基準測試都無法捕捉到這一點。自從SuperGLUE推出以來的兩年裡,研究結果激發了科研人員的動力,也許未來的研究結果會對此有所幫助。

參考連結:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

相關焦點

  • 微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
    機器之心報導參與:小舟、陳萍在最新的 NLU 測試基準 SuperGLUE 中,微軟提出的 DeBERTa 登頂榜單,並超越人類。去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。
  • 凝結微軟黑科技!「微軟小蜜」微信小程序正式發布!
    接下來的半年時間裡,「微軟小蜜」不斷更新功能,如生成長圖,表格識別等。我們也受邀參加了微信公開課,收穫了各界的好評。經過三個月的調研和研發,今天,我很高興宣布,「微軟小蜜」正式版來了!重新歸來的「微軟小蜜」,除了優化了使用體驗,加快了處理速度外,最重要的是把功能整合為三個,傳圖識字,表格還原,智能創作。
  • 「愛情就像脂肪,是點點滴滴的積累」,微軟小冰造句天馬行空,三大...
    作為一款主業為「陪聊」的對話機器人,微軟小冰近幾年來不斷解鎖其他副業的進階之路,受到了不少關注。然而為什麼要讓微軟小冰唱歌、寫詩、作畫以及現在為什麼還讓她開啟了「造 比喻句」技能?微軟小冰這些技能的背後又有哪些技術支撐?伴隨著前不久第七代微軟小冰的誕生,各位心中的這些疑問想必又被放大了不止一倍。
  • 微軟重回瀏覽器賽道,新版 Edge 能顛覆 Chrome 嗎?
    當地時間 5 月 6 日,微軟在谷歌的前一天舉辦了年度 Build 2019 開發者大會,除了微軟最最重視的雲服務 Azure 以外,外界關注度最高的就是微軟翻新的瀏覽器:Edge。發布會上主要宣傳了新版 Edge 中的三大新功能,其中最值得關注的,就是微軟曾經最重要的產品——IE 瀏覽器,將通過在 Edge 上增加 IE 模式來被間接「復活」。IE 模式的加入,使得從 2018 年底宣布基於開源的 Chromium 開發的 Edge 融合了原本微軟在 IE 軟體上幾十年來的技術積累,轉型為開源,也打破了其開發和兼容上的封閉性。
  • 谷歌發布安卓 8.1;AlphaZero 問世;王老吉回應「喝涼茶延長壽命...
    在 Pixel 2 和 Pixel 2 XL 等設備上,Android 8.1 更新允許開發人員利用谷歌定製設計的圖像處理和機器學習協處理器 Pixel Visual Core。一旦啟用,使用 Android Camera API 的應用程式就可以通過 Pixel Visual Core 捕獲 HDR +圖像。
  • 實測谷歌衛星影像與高德微軟ArcGIS影像精度對比,差距驚人!
    目前網際網路上應用最廣泛的衛星影像包括:谷歌影像、天地圖影像、百度影像、高德影像、微軟影像、ArcGIS影像等,我們將從多個方面為大家逐一分析,方便大家日常使用和學習。谷歌地球用的影像來源複雜,大城市和主要區域用的是DG衛星,原始解析度0.3m,但谷歌多數提供解析度是0.5m。我們表格裡只是體現了最高解析度。無圖無真相,下面我們用圖片來感受下不同影像之間的對比。
  • 谷歌微軟正面撞車!老將少帥殊途同歸
    谷歌正式宣布,旗下第一款帶屏幕的智能音箱將於7月推出。不僅意味著Google Assistant將增加視覺能力,還說明它和亞馬遜又將展開正面競爭——此前亞馬遜曾推出帶屏智能音箱Echo Show。谷歌在會上演示用最新的智能音箱播放YouTube,而這個能力是亞馬遜不具備的。   微軟倒沒有推出任何消費級電子產品,但它在物聯網方面取得了不小的進展。
  • 瀏覽器黃昏之戰:微軟退場,火狐裁員,谷歌成了惡龍
    微軟希望Edge成為IE的繼任者,但並未成功引導用戶從IE到Edge遷移。「依然有數千萬用戶以IE作為網際網路的入口」,有分析文章指出,對他們來說,Edge與第三方瀏覽器沒有任何區別。而IE本身又不再好用,開始被戰略放棄。 到2018年,IE和Edge的市場份額都僅超過1%。微軟決定放棄對瀏覽器內核的投入,宣布Edge採用谷歌Chrome的Chromium內核。
  • 渾水摸「YY」、「俠盜」蘋果和辛巴的「麥乳精」|極客一周
    此次蘋果將降稅定位在 100 萬美元以下的中小開發者,被認為是生態領域的「劫富濟貧」。雖然 Epic 帶頭支起了「反蘋果」聯盟看似來勢洶洶,但其實真正的目的還是為逼蘋果降低抽成積攢砝碼,並不敢真的棄蘋果而去,因為在移動生態領域,蘋果用戶依然是「氪金大戶」,付費能力吊打 Android 用戶,更何況在降低分成這件事上,谷歌堅定的和蘋果站在一個戰壕。
  • 在線約會改變了人類的擇偶方式嗎;我們需要「慢下來」而不是「趕著...
    最初想到用網絡來不只是交朋友,而是用於尋偶的是 1995 年建立的網站 match.com,就像 Facebook 開始只想搞個大學生社交,match.com 起初也只有同性戀和矽谷極客在用,之後才快速普及開來,而這種註冊會員,上傳資料,網站牽線搭橋的「網際網路紅娘」也成為在線約會的初代形式。直到 2013 年,乘著移動網際網路之風的 Tinder 出現。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    在 20 世紀 90 年代前,計算機象棋方面取得了一些進展,但我們離強人工智慧還很遠。谷歌大腦是首個投資人工智慧所能呈現的可能的重大商業機構。Dean、Corrado 和吳恩達用兼職時間工作,協作實驗,但他們很快就取得了進展。
  • 谷歌瀏覽器正在走微軟的老路
    根據國家網絡應急中心另一份報告,谷歌Chrome瀏覽器,中國市場份額2018年一度搶佔到38.15%,追上並甩開了微軟的IE。微軟只好又花了幾年,直到最近幾天,徹底把自家最新的「IE edge」瀏覽器,改名為「微軟 Edge",也就是說,再也跟自家老舊IE瀏覽器沒關係了,現在是速度飛快的「微軟Edge」瀏覽器!再也不是那個速度笑話了(原來微軟自己也知道自家IE瀏覽器有多遭人嫌棄)!
  • 微軟Excel 改寫了人類基因的……
    人類基因組中有成千上萬的基因:DNA和RNA扭曲結合在一起,使我們每個人都具有獨一無二的特徵和特性。每個基因都有一個名稱和字母數字代碼。為了遷就Excel的自動格式,人類基因及其代碼將有新的名稱,比如「MARCH1」現在已變為「MARCHF1」,而「SEPT1」已變為「SEPTIN1」,依此類推。並且HGNC 將存儲舊代碼和名稱的記錄,以避免將來造成混亂。
  • 你覺得目前蘋果、谷歌和微軟,中國對於那家公司依賴最高?
    中國對蘋果、谷歌、微軟哪一家公司的產品依賴度最高?我覺得都比較高吧,如果一定要給劃分一個等級的話,我認為是谷歌排名第一,微軟排名第二,蘋果排名第三!第一名:谷歌(因為明智的收購安卓佔據榜首)至於為啥第一名是谷歌,因為谷歌不僅僅是有谷歌搜索,這個市場佔據數量很小,畢竟除了做國際貿易的一些企業會使用谷歌搜索,而之所以谷歌會排名在第一位,是因為谷歌的移動服務和安卓系統,畢竟除了蘋果的IOS系統之外,目前其他的手機廠商都是採用安卓系統,而在中國安卓手機的用戶絕對是首屈一指的
  • 谷歌微軟大戰:WP 用戶為何不能訪問谷歌地圖?
    1月5日消息,不少Windows Phone(包含WP7.5和WP8)用戶發現自己突然不能訪問谷歌地圖了,即訪問maps.google.com時會被自動跳轉到移動版谷歌搜索頁面。這一事件究竟是何原因導致的呢?谷歌和微軟已經分別發布聲明。
  • ...微軟小冰造句天馬行空,三大首席科學家萬字解密背後技術原理
    然而為什麼要讓微軟小冰唱歌、寫詩、作畫以及現在為什麼還讓她開啟了「造 比喻句」技能?微軟小冰這些技能的背後又有哪些技術支撐?伴隨著前不久第七代微軟小冰的誕生,各位心中的這些疑問想必又被放大了不止一倍。如果讓 AI 作為連接人類與世界的中間載體,就可以讓人類通過更自然的 、多感官的交互與世界建立聯繫。」進一步,宋睿華指出,除了構建知識圖譜和提供服務以幫助人類與世界更加自然地「打交道」外,還希望能夠讓 AI 創造內容,小冰在兩年前發布了人類歷史上第一本人工智慧創作的詩集,在今年舉辦了人類史上的第一個 AI 畫展,便都是人工智慧創造的一部分。
  • 「谷歌2028」斯坦福前校長掛帥,體系結構宗師聚首啟幕TPU新時代
    Hennessy作為計算機體系結構宗師,他在硬體方面的背景也意味著谷歌從傳統的網際網路/軟體公司進一步升級,以TPU為核心,在AI雲上與亞馬遜、微軟展開角逐。Hennessy從斯坦福校長的位置上退下來,Patterson也從伯克利退休,然後兩人再次在谷歌聚首,這也不由令人推測谷歌/Alphabet將在晶片或者說計算機硬體方面有更多的投入和產出。
  • 谷歌新人李飛飛:擊碎玻璃天花板的華裔女科學家
    博士期間母親接連患上了癌症與中風,那是一段艱苦的日子,李飛飛說,「我們經歷了很多困難,然後一起挺過來了。既要擔起生活的責任,又要對得起自己的夢想」。改變圖像識別方向的人是什麼吸引谷歌一次性將李飛飛和她的門生李佳一齊請進公司,並委以重任的?顯然是她的學術成就和影響力。
  • 這款比谷歌地圖還準的地圖你用過嗎?
    捷克斯洛伐克未獨立前,政經中心在首都布拉格所在的地區,城鄉差異讓許多斯洛伐克人都是到布拉格上大學及工作。大學時,昂多斯卡也是選擇赴布拉格的查理大學念資訊工程。「我到布拉格讀大學,因為不需要用到英文,」昂多斯卡靦腆的笑說。
  • 谷歌AR搜索來了:上Chrome不僅能「雲吸貓」,更有50種動物可「餵養」
    如果你喜歡和朋友和家人分享動物AR,谷歌剛剛在其搜尋引擎上增加了50個新的動物。 要查看這些3D動物,只需要在谷歌應用程式或大多數手機上的 Chrome 瀏覽器上搜索它們的名字,然後在搜索結果中找到 AR 卡,上面寫著「Meet a life-sized [animal name] up close.」