微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類

2021-01-14 澎湃新聞

大數據文摘出品

來源:venturebeat

編譯:千雪

2019年底,Facebook、紐約大學、華盛頓大學和DeepMind的研究人員聯合提出了SuperGLUE,這是人工智慧的一個新基準,旨在總結多種語言任務的研究進展。

基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。

當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成為第一個超越人類基線的模型。

紐約大學數據科學中心(center for data science)助理教授Sam Bowman表示,這一成就反映了機器學習領域的創新,其中包括自我監督學習,也就是讓模型從未標記的數據集中學習,並將其應用於目標任務。「這些數據集反映了一些兩年前就免費提供的最難監督的語言理解任務,」他說。

「我們沒有理由相信SuperGLUE能夠檢測到自然語言處理的進一步進展,至少不能完全相信。」

但SuperGLUE測試並不是完美的,也不是一種完整的人類語言能力測試。

在一篇博客文章中,DeBERTa背後的微軟團隊自己指出,他們的模型「絕不可能」達到人類的自然語言理解智能水平。他們說,這都需要繼續研究突破,以及用新的基準來衡量它們及其影響。

SuperGLUE

正如研究人員在介紹SuperGLUE的論文中寫的那樣,他們的基準是一種簡單的、難以博弈的衡量標準,用來衡量通用英語理解技術的進步。它包括八個語言理解任務,這些任務來自於現有的數據,並附有一個性能指標和一個分析工具包。

這些任務是:

布爾問題(BoolQ)要求模型對一篇包含問題答案的維基百科短文作出回應。這些問題來自谷歌用戶,他們通過谷歌搜索提交問題。

承諾銀行(CommitmentBank,CB)任務,是識別來自《華爾街日報》等文本摘錄中包含的假設,並確定該假設是否成立。

似是而非的選擇(COPA),提供了一個關於博客和攝影相關百科全書主題的前提語句,模型必須從兩個可能的選擇中確定因果關係。

多句閱讀理解(MultiRC)是一個問答任務,每個例子由一個上下文段落、一個關於該段落的問題和一系列可能的答案組成。模型必須預測哪些答案是正確的,哪些是錯誤的。

利用常識進行閱讀理解推理(ReCoRD),模型可以從CNN和每日郵報的文章選擇列表中預測出隱藏的單詞和短語。在那些選項中,相同的單詞或短語可能會以多種不同的形式表達出來,所有這些都被認為是正確的。

識別文本(RTE)對自然語言模型提出了一個挑戰,即鑑定一個文本摘錄來自於另一個文本摘錄的真實性。

上下文中的詞 (WiC)為模型提供了兩個文本片段和一個多義詞(具有多種含義的詞),並要求模型確定在兩個句子中該詞是否具有相同的意思。

Winograd Schema Challenge (WSC),在這個任務中,會給定一些小說中的段落,模型必須回答關於歧義代詞的先行詞的多項選擇題,它是為了改進圖靈測試而設計的。

SuperGLUE還試圖用帶有Winogender的模型來衡量性別偏見。Winogender是指僅因句子中一個代詞的性別而內容不同的句子對。然而,研究人員注意到這種方法有局限性,因為它只提供了積極的預測價值:雖然偏差分數低是模型表現出性別偏見的明顯證據,但好的分數並不意味著模型沒有偏見。此外,它並不包括所有形式的性別或社會偏見,這導致它只是一個粗糙的偏見衡量標準。

為了建立人類表現基線,研究人員借鑑了WiC、MultiRC、RTE和ReCoRD的現有文獻,並通過亞馬遜的Mechanical Turk平臺聘請了crowdwork注釋員。每個工人的平均工資是每小時23.75美元,他們先進行了一個簡短的培訓,然後用說明書和FAQ(常見問題)頁面對選定的測試集注釋了多達30個樣本。

實施改進

谷歌團隊沒有詳細說明是什麼改進導致了他們的模型在SuperGLUE上創紀錄的表現,但DeBERTa的微軟研究人員在今天早上發表的一篇博客文章中詳細說明了他們的工作。DeBERTa並不是全新的——它去年開源過——但是研究人員說他們訓練了一個包含15億個參數(模型用來做預測的內部變量)的更大版本。它將以開源的形式發布,併集成到下一個版本的微軟圖靈自然語言表示模型中,該模型支持Bing、Office、Dynamics和Azure認知服務等產品。

DeBERTa通過蒙面語言建模(MLM)進行預訓練,這是一項填空任務,在這項任務中,會教導模型使用蒙面「標記」周圍的單詞來預測蒙面單詞應該是什麼。DeBERTa同時使用了上下文詞的內容和位置信息,因此它能夠識別句子中的「商店」和「商場」。例如「在新商場旁邊開了一家新商店」,它能夠識別出「商場」和「商店」這兩個扮演的不同句法角色。

與其他一些模型不同,DeBERTa解釋了單詞在語言建模過程中的絕對位置。此外,它還計算模型中轉換輸入數據的參數,並根據單詞的相對位置來度量單詞依賴性的強度。例如,DeBERTa會理解「deep」和「learning」兩個詞相鄰出現時的依賴性要比出現在不同的句子中時強得多。

DeBERTa還受益於對抗性訓練,這是一種利用對抗性例子的技術,這些例子來源於訓練數據的微小變化。在訓練過程中,將具有對抗性的例子輸入到模型中,提高了模型的可推廣性。

微軟的研究人員希望下一步繼續探索如何使DeBERTa能夠概括出新的子任務或基本的解決問題技能,這一概念被稱為組合泛化。其中一種方法可能是更明確地結合所謂的組合結構,這就可能需要將人工智慧與符號推理結合起來——換句話說,根據數學和邏輯規則來操縱符號和表達式。

微軟研究人員寫道:「DeBERTa在SuperGLUE上超越人類的表現,標誌著通用人工智慧的一個重要裡程碑。但與DeBERTa不同的是,人類非常善於利用從不同任務中學到的知識來解決一項新任務,而不需要或很少需要特定任務的演示。」

新基準

Bowman說,目前還沒有能接替SuperGLUE的新基準。但人工智慧研究領域的共識是,未來的基準,特別是語言領域的基準,如果要有用,就必須考慮更廣泛的道德、技術和社會挑戰。

例如,許多研究表明,流行的基準在評估現實世界的AI性能方面表現不佳。最近一份報告發現,自然語言處理模型給出的答案中有60%-70%嵌入到基準訓練集中,這表明模型通常只是簡單地記憶答案。另一項對3000多篇人工智慧論文的元分析研究發現,用于衡量人工智慧和機器學習模型的指標往往不一致,跟蹤不規則,信息量也不是特別大。

問題的部分原因在於,OpenAI的GPT-3、谷歌的T5 + Meena和微軟的DeBERTa等語言模型,都通過內化公共網絡上的例子來學習編寫類似人類的文本。而藉助電子書、維基百科(Wikipedia)和Reddit等社交媒體平臺,他們可以推斷出完整的句子,甚至整個段落。

因此,語言模型往往會放大這些公共數據中的偏見;部分培訓數據通常來自普遍存在性別、種族和宗教偏見的社區。人工智慧研究公司OpenAI指出,這可能導致一些露骨下流的詞被放在女性代詞附近,「伊斯蘭教」被放在「恐怖主義」的附近。其他研究,如英特爾、麻省理工學院和加拿大人工智慧倡議CIFAR研究人員在今年4月發表的一項研究,已經發現來自一些最流行模型的高度刻板偏見,包括谷歌的BERT和XLNet、OpenAI的GPT-2,還有Facebook的RoBERTa。米德爾伯裡國際問題研究所(Middlebury Institute of International Studies)認為,這種偏見可能會被惡意行為者利用,通過傳播錯誤信息和徹頭徹尾的謊言來煽動不和諧,從而使個人變得激進,形成暴力的極右極端主義意識形態和行為。

大多數現有的語言基準測試都無法捕捉到這一點。在SuperGLUE問世兩年來的研究結果的推動下,也許未來的研究會更進一步。

相關報導:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

原標題:《微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類》

閱讀原文 

相關焦點

  • NLU新裡程碑,微軟DeBERTa登頂SuperGLUE排行榜,顯著超越人類
    機器之心報導參與:小舟、陳萍在最新的 NLU 測試基準 SuperGLUE 中,微軟提出的 DeBERTa 登頂榜單,並超越人類。去年 6 月,來自微軟的研究者提出一種新型預訓練語言模型 DeBERTa,該模型使用兩種新技術改進了 BERT 和 RoBERTa 模型。8 月,該研究開源了模型代碼,並提供預訓練模型下載。最近這項研究又取得了新的進展。
  • 動態基準測試Dynabench已發布,Facebook想用人類來「審問」人工智慧
    Facebook已經建立並正在共享Dynabench,這是第一個用於人工智慧領域的動態數據收集和基準測試平臺。它使用人類測試和模型一起循環迭代,目的是為了創造具有挑戰性的新數據並且更優化的人工智慧模型。
  • 谷歌高管談人工智慧:2029年超越人類
    據外媒報導,谷歌工程總監、著名未來學家雷伊·庫茲韋爾近日在奧斯汀舉行的SXSW大會上大膽預測:技術奇點時刻將在2029年到來,而那時人工智慧的智慧將超過人類。庫茲韋爾向來以精準地預測未來聞名於世,不知道這一次是否還會預測準確。
  • 谷歌AlphaGO挑戰賽:人工智慧的邊界在人類
    而傳統計算機儘管在一些運算能力方面早已遠超人類,但與人類之間有個非常重要的區別就是對事物的邏輯思考與判斷能力。可以說在計算機出現的很長一段時間內,圍繞著摩爾定律都是在計算能力這一垂直能力維度上進行拓展,而谷歌AlphaGO超越了傳統計算機計算能力這一邊界,參考人類的神經網絡模式進行設計,希望以此來構建類人的可思考能力。
  • 美國西北大學新系統在智力測試中超越75%民眾,人類的推理能力也不...
    那麼問題來了,你知道圖中這道題的答案麼?如果不知道,也用不著沮喪,因為有75%的美國人大概也不知道。但壞消息是:計算機可能知道。近日,美國西北大學的科研團隊研發了一個全新的計算模型,在瑞文氏標準推理測試中達到或超越了75%美國普通大眾的表現。被媒體譽為人工智慧史上的又一裡程碑。
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    能看圖會說話的AI,表現還超過了人類?最近,Azure悄然上線了一個新的人工智慧服務,能精準的說出圖片中的內容。而背後的視覺詞表技術,更是超越了基於Transformer的前輩們,拿到nocaps挑戰賽冠軍。有沒有發現,搜索出來的圖片有時相關性很差?
  • AI性能基準測試從此有了「中國標準」!英偉達、谷歌可以試試這套算力卷
    對此,谷歌AI掌門人Jeff Dean還在社交平臺發文表示:很高興看到MLPerf 0.7的結果,谷歌TPU在八項基準測試中,創造了六項紀錄。要達到理想的AI或者高性能計算(HPC)基準測試,具有三方面的挑戰:首先,基準工作負載(workload)需要表示關於硬體利用率、設置成本和計算模式等的實際問題。其次,基準測試工作負載最好能夠自動適應不同規模的機器。最後,使用簡單、較少的指標,就可以衡量AI應用上的整個系統性能。
  • 微軟技術院士黃學東:以人為師,機器翻譯達人類專業水平
    今年是黃學東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智慧領域科學研究的前線。2018年3月份,他帶領的團隊在機器翻譯領域拿下一項裡程碑式的成就:其研發的機器翻譯系統在通用新聞報導的newstest2017中譯英測試集上,達到了人工翻譯水平。這是首個在新聞報導的翻譯質量和準確率上媲美人工翻譯的翻譯系統。
  • 人工智慧 | 從智能家電到機器人,從谷歌大腦到人類 | 網際網路數據...
    ,也是一個重要的人工智慧領域課題,畢竟智能冰箱,工業機器人,谷歌百度大腦這些人工智慧系統之間存在的鴻溝。人工智慧系統智能分級導語:我們在以前的研究文章中提到,定期對人工智慧系統和人類進行智商測試並進行比較,是解決機器能否超越人類智慧難題的基礎,而這中間最為關鍵的是需要建立統一人工智慧系統和人類的」標準智能模型「。
  • 松鼠AI慄浩洋:人工智慧將在創造力上超越人類
    在虎嗅2018F&M創新節上,乂學教育松鼠AI智適應教育的創始人慄浩洋表達了他的觀點:長則十年,短則五年,人工智慧將在創造力方面超越人類。他表示,在包括知識廣博程度、好奇心,發散思維、邏輯歸納能力在內的四個方面裡,AI都將超越人類的水平。當AI擁有了比人類更強的想像力與創造力,AI老師一對一輔導學生才能達到更好的效果。
  • AI會話能力超越人類!CoQA挑戰賽微軟創新紀錄
    也就是說,人類與這個模型互動更像是與真人之間的交流。CoQA挑戰賽通過理解文本段落,並回答對話中出現的一系列相互關聯的問題,來衡量機器的性能。此次,微軟亞研院NLP團隊和微軟Redmond語音對話團隊聯手組成黃金搭檔參賽。在CoQA挑戰賽歷史上,他們是唯一一個在模型性能方面達到人類水平的團隊!
  • 人工智慧正在一步步接近並超越人類?難道真被霍金說中了?
    機器人真的可以超越並打敗人類嗎?這個問題在科學家早有爭論,有不少人認為,或許人工智慧正在打敗人類。不知各位是否還記得,轟動一時的人類與機器人象棋大賽。谷歌創造出來的智慧機器人AlphaGo,對戰韓國棋手李世石,在比賽進行到三個半小時之後,棋手李世石宣布認輸,可以說這是人工智慧戰勝人類的一個重大裡程碑。
  • 人工智慧意識的定義,測試和分級
    在所有的人工智慧測試系統中做得最好的是「ConsScale」,這是2008年西班牙的人工智慧研究員Raúl Arrabales Moreno和他的同事們開發出的評估程序。基於類人類意識只會出現在正確的組件中的假設,你只需要填寫一個從結構特徵開始的檢查表。這個系統有沒有身體?記憶?注意力控制能力?然後再去測試行為和交流:它能不能在鏡子中認出它自己?有沒有同情心?
  • 沈向洋揮別微軟,但微軟人的中國故事沒有劇終
    在組織架構優化方面,2016年9月,微軟將「技術與研發部門」和「人工智慧研究部門」兩部門合併,組建了擁有超過5000名科學家的「微軟人工智慧與研究事業部」,該事業部由時任微軟全球執行副總裁、技術與研發部門主管的沈向洋領導。
  • 二十一世紀的計算 | 微軟亞洲研究院洪小文54頁PPT講述人工智慧和...
    他今天和大家分享的是Co-Evolution of Artificial Intelligence and Human Intelligence(人工智慧和人類智能的「共進化」)。在這次演講中,洪小文博士描述了諸如計算機視覺和數據挖掘等人工智慧已經證明超過人類能力的領域的研究進展。 他還將談論人類如何在創造力和判斷力方面做得更好。由於
  • 量子計算獲得突破性進展,人工智慧「奇點」提前?
    儘管如此,谷歌的這項成果依然值得稱道,它不管是對谷歌自身還是一些熱門的領域都是有著重要意義的。而谷歌自己顯然也是這麼認為的,谷歌CEO桑達爾·皮查伊甚至將此次量子計算研究成果的意義與萊特兄弟發明飛機相提並論。相對於傳統計算,量子計算優勢明顯。就拿谷歌看重的人工智慧領域來說,其源動力分別為大數據、算法和計算能力。大數據靠積累,而計算能力則由摩爾定律衍生而來。
  • 40種語言、9項推理任務,谷歌發布新的NLP基準測試XTREME
    XTREME設計原則正如谷歌論文的標題,XTREME是一個基準,用來評估跨語言遷移學習的好壞,在多樣化和具有代表性的任務和語言上,其選擇構成基準的任務和語言主要考慮的原則包括:任務的難度、任務的多樣性、以及訓練的效率、多語言性、充足的單語數據等等。
  • 人工智慧再下一城:機器翻譯提前7年達到人類專業翻譯水平
    由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布,其研發的機器翻譯系統在通用新聞報導的中譯英測試集上,達到了人類專業譯者水平。這是首個在新聞報導的翻譯質量和準確率上媲美人類專業譯者的翻譯系統。
  • 微軟與谷歌合作,為Android設備開發更多Web應用
    網易科技訊7月13日消息,據國外媒體報導,日前有報導稱微軟正在與谷歌合作,通過谷歌應用商店為Android設備提供更多更好的Web應用程式。由此看出,微軟對Android作業系統的支持已經超越了原生應用程式和Surface等設備。
  • 業界| 微軟宣布投資人工智慧孵化器Element AI,機器之心獨家對話...
    Element AI 的這種模式相對 Open AI,更有前景和可持續性。Microsoft Ventures 成立於今年一月,曾致力於向雲服務初創公司提供投資。這家風投公司與 Element AI 的合作表明它正在改變其投資策略,開始進入人工智慧領域,但目前還無法得知微軟會向人工智慧投入資金的數量。