微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜

2021-01-07 新智元

【新智元導讀】還在為OpenAI的DALL-E 和 CLIP所驚豔?在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?

AI全方面完勝人類,是時間問題,還是技術問題?

話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。

你只要來段文字命令:給我來個「穿著藍色襯衫和黑色打褶褲的男模特。」

叮咚!請查收:

數十張對應圖片便出現眼前。

想起去年GPT-3橫空出世時,就有人預測AI正逐漸取代文字工作者,小編也自覺飯碗不保。現在,又輪到插畫師出來哭訴了。

就在這幾天網際網路人哭聲中,自己加班加點製造出來的AI,已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說,「AI是人類的最大威脅」。

如果說畫畫寫字都是小兒科,那看看NLP新基準SuperGLUE的刷新榜單,人類已經一再退步到無地自容了。

GLUE的後輩:SuperGLUE

近幾年,用於預訓練和遷移學習的新模型和方法推動了一系列語言理解任務的性能顯著提高。曾經的GLUE(General Language Understanding Evaluation )基準提供了一個單一的數字指標,總結了在一系列不同的此類任務上取得的進展,但該基準的表現最近已接近非專家人類的水平,進一步研究的空間有限。

2019年末,Facebook、紐約大學、華盛頓大學和 DeepMind 的研究人員提出了SuperGLUE,這是一種人工智慧的新基準(Benchmark),旨在總結各種語言任務的研究進展。基於一年前引入的 GLUE 基準,SuperGLUE 包括一系列更難理解的語言挑戰、改進的資源和一個公開的排行榜。

當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。

但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。

正如研究人員在介紹SuperGLUE的論文中所寫的那樣,他們的基準旨在成為一個簡單的、難以遊戲(hard-to-game)的衡量標準,以衡量英語通用語言理解技術的進展。它包括8個從現有數據中抽取的語言理解任務,並附有一個性能指標以及一個分析工具包。

SuperGLUE任務包括以下幾項:

Boolean Questions (BoolQ) 要求模型對維基百科文章中包含答案的短文進行提問。這些問題來自谷歌用戶,他們是通過谷歌搜索提交的這些問題。

CommitmentBank (CB) 的任務是讓模型識別出一段文字節選中包含的假設,並判斷該假設是否成立。

Choice of plausible alternatives (COPA)提供了一個關於博客和攝影相關的百科的主題的前提句,模型必須從兩個可能的選擇中確定原因或結果。

Multi-Sentence Reading Comprehension (MultiRC)是一個問答任務,每個例子由一個上下文段落、一個關於該段落的問題和一個可能的答案列表組成。模型必須預測哪些答案是真的,哪些是假的。

Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD) 模型從CNN和每日郵報的段落中的選擇列表中預測被掩蓋的單詞和短語,其中相同的單詞或短語可能會使用多種不同的形式來表達,所有這些都被認為是正確的。

Recognizing Textual Entailment (RTE) 任務用來挑戰模型識別一個文本節選是否符合另一個文本節選的含義的能力。

Word-in-Context(WiC)為模型提供了兩個文本片段和一個多義詞,並要求他們判斷該詞在兩個句子中是否具有相同的意義。

Winograd Schema Challenge (WSC)的任務中,給定小說書中的段落,模型必須回答關於模稜兩可的代詞前項的多項選擇題。它被設計為圖靈測試的改進。

有網友表示,這是就是咱們國活生生的行測啊!

不過,SuperGLUE並不是一個完美的或完整的自然語言能力的測試。就連DeBERTa背後的微軟團隊自己也指出,他們的模型 "絕非 "達到自然語言理解的人類級智能。他們同時表示,需要研究上的突破,以及新的基準來衡量其模型效果。

SuperGLUE 還嘗試使用 Winogender Schemas 來衡量模型中的性別偏見,這些模型中的句子僅僅因為一個代詞在句子中的性別而有所不同。然而,研究人員也指出,這種測量方法有其局限性,因為它只能提供積極的預測值: 儘管一個不好的偏見得分清楚地證明一個模型表現出性別偏見,但是一個好的得分並不意味著這個模型是沒有偏見的。

15億參數,更大版的DeBERTa

谷歌團隊尚未詳細說明導致其模型在SuperGLUE上創紀錄的性能的原因,但DeBERTa背後的微軟研究人員在今天早上早些時候發表的一篇博客文章中詳細介紹了他們的工作。

DeBERTa並不是算是一個新模型,它是去年開源的。但研究人員表示,他們訓練了一個15億個參數的更大版本。它將以開源的方式發布,併集成到微軟圖靈自然語言表示模型的下一個版本中,該模型支持Bing、Office、Dynamics和Azure等產品。

DeBERTa 是通過masked language modeling (MLM)進行預訓練,即mask掉中心詞後通過上下文來預測被mask掉的單詞是什麼。DeBERTa 在MLM中同時使用了上下文詞的內容和位置信息,例如,它能夠識別「a new store opened beside the new mall」句子中的「 store」和「 mall」 ,這兩個詞在句子中發揮不同的語法作用。

與其他一些模型不同,DeBERTa 解釋了詞語在語言建模過程中的絕對位置。此外,它計算模型中的參數,轉換輸入數據和測量基於相對位置的詞與詞之間依賴的強度。例如,DeBERTa能夠理解「深度」和「學習」這兩個詞之間的依存關係,當它們同時出現時,比它們出現在不同的句子中時要強烈得多。

圖:DeBERTa在MNLI和SQuAD2.0上的表現

DeBERTa 也受益於對抗訓練,這種技術利用了從訓練數據的細微變化中衍生出來的對抗樣本。在訓練過程中,將這些樣本輸入模型,以提高模型的泛化能力。

微軟的研究人員希望下一步探索如何使 DeBERTa 能夠應用到新的子任務或基本的問題解決技能上去,這是一個被稱為compositional generalization的概念。更進一步則可能是更明確地納入所謂的組合結構,這可能需要將人工智慧與符號推理結合起來。換句話說,根據數學和邏輯規則來操縱符號和表達式。

微軟的研究人員寫道: 「DeBERTa在SuperGLUE上超越人類的表現,標誌著通向人工智慧的一個重要裡程碑,但與DeBERTa不同的是,人類非常善於利用從不同任務中學到的知識,在沒有或很少有具體任務演示的情況下解決新任務。」

比強更強,T5+Meena

雖然谷歌沒有解釋T5+Meena是如何達到超越人類的效果的,但從這兩者之前的介紹中可窺一斑。

谷歌提出的T5是一個預訓練的編碼器-解碼器模型,混合無監督和監督學習的任務,並為每個任務轉換成文本到文本的格式。T5通過在每個任務的輸入前加上不同的前綴,可以很好地完成各種現成的任務。

Meena是一個擁有26億個參數的對話式神經網絡,能夠比任何人工智慧生成器更好地與人交流。研究小組使用 seq2seq 模型對模型進行了訓練,模型中包含了400億個單詞、341GB的文本數據,其中包括社交媒體上的對話。

Meena有一個Transformer編碼器和13個Transformer解碼器。雖然編碼器塊幫助它理解會話的上下文,但解碼器幫助它形成響應。谷歌聲稱 Meena 的模型容量是 OpenAI GTP-2的1.7倍,並且接受了8.5倍以上的訓練數據。

下一代BENCHMARK

雖然在短期內,SuperGLUE的繼任者還沒有出現。但是,人工智慧研究界越來越一致認為,未來的基準,尤其是語言領域的基準,必須考慮到更廣泛的道德、技術和社會挑戰,才能有用。

許多研究表明,現在流行的基準測試在評估真實世界的人工智慧性能方面表現不佳。

最近的一份報告發現,模型給出的答案中,有60%-70% 嵌入到了基準訓練集的某個地方,這表明這些模型通常只是簡單地記憶答案。另一項研究對3000多篇人工智慧論文進行元分析後發現,用於評估人工智慧和機器學習模型的度量標準往往不一致,而且信息量不大。

這些問題的出現是有原因的,因為語言模型,如 OpenAI 的 GPT-3、谷歌的 T5 + Meena和微軟的DeBERTa通過內化來自公共網絡的例子來學習編寫類似人類的文本。他們利用電子書、維基百科和 Reddit 等社交媒體平臺,對完整的句子甚至整個段落進行推理。

因此,語言模型通常會放大這些公共數據中的偏見。英特爾、麻省理工學院和 CIFAR 的研究人員在四月份發表的一篇論文中已經從一些最流行的模型中發現了強烈的刻板偏見,包括谷歌的 BERT 和 XLNet、 OpenAI 的 GPT-2和 Facebook 的 RoBERTa。這種偏見可能會被惡意行為者利用,通過傳播錯誤信息、虛假信息和謊言來進行煽動某些行為。

而目前大多數現有的語言基準測試都無法捕捉到這一點。自從SuperGLUE推出以來的兩年裡,研究結果激發了科研人員的動力,也許未來的研究結果會對此有所幫助。

參考連結:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

相關焦點

  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    在最新的NLU測試基準SuperGLUE中,人類首次被AI超越了。SuperGLUE相比「前輩」GLUE大大提升了問題的難度,提出一年多以來,人類一直處於第一位。現如今,人類一下子被兩家AI超越。一個是來自微軟的DeBERTa,一個是來自谷歌的T5+Meena。
  • 谷歌大腦組合模型霸榜 SuperGLUE
    【CSDN 編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布消息,宣布實現了新的 SOTA(state of the art 即實現該領域已知的最好效果) 作者 | 八寶粥 責編 | 張文 頭圖 | CSDN
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    他們認為,5年後(甚至不到5年的時間內),人們就可以用電子翻譯器在若干種語言之間進行翻譯。結果,事實證明,這個進步非常緩慢。60多年後,實時的通用翻譯器(如《星球大戰》中的C-3PO和《銀河系漫遊指南》中的巴別魚(Babel Fish))依然只是科幻作品的產物。但今天,當我們站在此處回顧歷史,我們才發現我們真的已經將科幻變成了現實。
  • 微軟語言訓練模型DeBERTa在SuperGlue閱讀測試中超過人類基線
    微軟近日更新了 DeBERTa (Decoding-enhanced BERT with disentangled attention)模型,訓練了一個由 48 個 Transformer 層組成,擁有 15 億個參數的模型。
  • 微軟小冰「全面開花」,辦起了個人畫展,還模仿李玉剛唱歌
    小冰在藝術家的道路上越走越遠了。2019 年 5 月 16 日,微軟宣布了人工智慧小冰的一項全新能力——繪畫。多才多藝的小冰這次化名為「夏語冰」,參加了中央美院的畢業展。和其它的 AI 作畫不同,小冰的畫作完全是在穩定創作質量下的獨立新作,不是隨機創作,也不是模擬濾鏡風格。為了紀念「少女畫家」的誕生,微軟把必應首頁換成了小冰的作品。
  • 「愛情就像脂肪,是點點滴滴的積累」,微軟小冰造句天馬行空,三大...
    作為一款主業為「陪聊」的對話機器人,微軟小冰近幾年來不斷解鎖其他副業的進階之路,受到了不少關注。然而為什麼要讓微軟小冰唱歌、寫詩、作畫以及現在為什麼還讓她開啟了「造 比喻句」技能?微軟小冰這些技能的背後又有哪些技術支撐?伴隨著前不久第七代微軟小冰的誕生,各位心中的這些疑問想必又被放大了不止一倍。
  • 不只說日語這麼簡單,微軟小冰要變「國際冰」
    -「夜ならどこへ行きたいの?」(晚上你喜歡去哪裡?)-「高みへ?」(高的地方吧?)-「バカと煙こそ高みが好きよ。」(只有傻瓜和煙才喜歡高處。)-「深いわ~」(好深刻啊~)夜晚 10 點,藉助一位在日本留學朋友的幫助,我和小冰用日語聊了聊天。她說晚上喜歡去很高的地方,還很喜歡夏威夷,因為「ハワイっ♡海だぁ〜.
  • 谷歌公布2020年度搜索熱榜,「新冠病毒」高居榜首
    【新智元導讀】谷歌更新2020年的搜索熱榜啦!快來看看今年大家都在關心什麼?2020年無疑對全世界人民來講都是最特殊的一年。「新冠病毒」席捲全球,帶走了無數人的生命和無數的工作,無疑是全球搜索量最高的關鍵詞。而今年的其他熱點也都在熱榜中一一反映了出來,如「科比去世」、「美國大選」等。
  • 盤點蘋果、微軟、谷歌的那些改名歷史
    微軟神秘組織——「改名部」雖然坊間一直流傳微軟「改名部」,但其實這只是軟粉們日常開玩笑的一個梗。因為這些年以來,微軟的確對改名一直很熱衷,從系統到軟體都無一倖免,所以大家對於微軟的改名早已經習以為常。不過相對來說,微軟的更名似乎沒有真能讓產品火起來。
  • 推出5 年後,微軟想用設計「全面復興」Windows 10
    風格,用微軟的話說就是更為現代化的界面。 這不微軟就在 1 月初推出了一個新的「天氣和新聞」任務欄小插件。 從 office 進入 iPadOS 開始,微軟就一直是蘋果生態中積極的開發者之一,前段時間蘋果舉辦的 WWDC 開發者大會上,微軟同樣也作為開發者登上了舞臺,並展示了 office 軟體。 而 Mac 轉向 ARM 架構後,微軟同樣也是首批積極適配軟體的開發者之一,也難怪不少用戶調侃微軟才是「最佳蘋果生態開發者」。
  • 谷歌發布地圖「時光機」:100年前,你家街道長啥樣?
    △大谷Spitzer現在,除了用AI修復老影像資料,谷歌還發布了新的「時光旅行」方案。就像這樣,用3D視角,一覽1890年到1970年曼哈頓切爾西區的建築變化。這樣一臺「時光機器」的引擎,是谷歌推出的基於瀏覽器的工具集rǝ(音return),主要由3部分組成:一個眾包平臺。用戶可以上傳城市歷史地圖,將其與現實世界的坐標進行匹配,完成地理修正,並將其矢量化。 一個時空地圖伺服器。能顯示城市地圖是如何隨時間變化的。 一個3D體驗平臺。運行在rǝ地圖伺服器之上,利用深度學習,根據有限的歷史圖片和地圖數據重建3D建築,創造3D體驗。
  • 超越99.9%人類玩家,微軟專業十段麻將AI論文細節首次公布
    機器之心報導機器之心編輯部在去年 8 月底的世界人工智慧大會上,時任微軟全球執行副總裁的沈向洋正式對外宣布了微軟亞洲研究院研發的麻將 AI「Suphx 」。近日,關於 Suphx 的所有技術細節已經正式公布。
  • 雅虎穩坐美國網站流量冠軍 谷歌微軟靠邊站!
    據市場研究公司ComScore稱,在2013年12月,雅虎來自桌上型電腦的美國獨立訪客數量已超過了1.95億,超過了谷歌、微軟和Facebook。本周一,ComScore公司推出了在桌上型電腦上擁有最大流量的美國50大網站排行榜,該榜單顯示搜尋引擎、新聞網站和社交媒體均吸引了大量的獨立訪客。在美國,全部桌面網際網路用戶數量超過了2.24億。ComScore公司的流量排行榜並未計入移動流量。
  • 實測谷歌衛星影像與高德微軟ArcGIS影像精度對比,差距驚人!
    目前網際網路上應用最廣泛的衛星影像包括:谷歌影像、天地圖影像、百度影像、高德影像、微軟影像、ArcGIS影像等,我們將從多個方面為大家逐一分析,方便大家日常使用和學習。谷歌地球用的影像來源複雜,大城市和主要區域用的是DG衛星,原始解析度0.3m,但谷歌多數提供解析度是0.5m。我們表格裡只是體現了最高解析度。無圖無真相,下面我們用圖片來感受下不同影像之間的對比。
  • 微軟的「斷舍離」之道:與蘋果較勁了11年,卻甘心虧4.5億收場
    2017年第二季度的業績報告出爐後,微軟表示正式拋棄Windows Phone,當時,手機業務的全球市場佔有率還不到0.1%。  事實上,對於一心希望在移動端複製PC端的商業模式的微軟來說,當蘋果和谷歌搶佔先機並將軟體降低到免費,吸引大批開發者時,微軟手機就已經輸在了生態上。  至於 Xbox One 的硬體銷量,微軟後來也沒有公布過。
  • 神經翻譯系統水平遠超谷歌、微軟,德國創業公司發布翻譯器DeepL
    本文由機器之心編輯,「機器之心」專注生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。近日,一家名為 DeepL 的創業公司發布了自己的神經翻譯工具,引起了業內關注。據稱在盲測與 BELU 分數測試中,這款全新翻譯系統的性能遠超來自谷歌、微軟和 Facebook 三家巨頭的同類產品。
  • 從秘魯到波多黎各,曾被質疑為「科幻」的谷歌氣球如何在四年內走進...
    幾天以後,《阿巴拉契亞新聞快報》以「高空神秘物體」為題寫了一篇文章。之後,地方電視臺和 CNN 也推出了類似報導,更有 UFO 愛好者網站把它作為天外來客的證據。2013 年 6 月,謎底揭曉。谷歌公布 Project Loon(谷歌熱氣球網絡計劃)。肯塔基州派克縣人民看到的,是該計劃公開前的一次測試。
  • 單模型史上最佳成績,騰訊微視BLENDer模型登頂權威榜單VCR
    2020 年 11 月 19 日,騰訊微視「BLENDer」模型憑藉「81.6,86.4,70.8」的成績,登上了多模態領域權威榜單 VCR 的榜首。這項最新成果來自騰訊微視視頻理解團隊。在這個之前,榜單的紀錄保持者是百度、微軟、Facebook 等知名機構。
  • 馬化騰:基本不玩王者榮耀,「吃雞」是重點;蘋果向愛爾蘭補繳 130...
    有關遊戲方面的布局,馬化騰在 12 月 4 日接受媒體採訪時表示,自己玩《王者榮耀》比較少,「吃雞」是當前騰訊的重點。同時,馬化騰提到,遊戲存在弊端,騰訊也主動在防沉迷和未成年保護上進行規範,對遊戲進行可持續性管理。
  • 重磅| 谷歌大腦養成記:從識別貓到突破性機器翻譯
    在 20 世紀 90 年代前,計算機象棋方面取得了一些進展,但我們離強人工智慧還很遠。谷歌大腦是首個投資人工智慧所能呈現的可能的重大商業機構。Dean、Corrado 和吳恩達用兼職時間工作,協作實驗,但他們很快就取得了進展。