【新智元導讀】還在為OpenAI的DALL-E 和 CLIP所驚豔?在剛剛刷新的SuperGLUE上,微軟的DeBERTa和谷歌的T5+Meena分列第一第二,超越人類基準線,這是SuperGLUE引入以來,AI首次得分超過了人類的表現。難道說2021,AI正在加快縮小與人類的差距?
AI全方面完勝人類,是時間問題,還是技術問題?
話說昨天,人類受到了來自AI的2021第一波挑釁:OpenAI的DALL-E 和 CLIP。
你只要來段文字命令:給我來個「穿著藍色襯衫和黑色打褶褲的男模特。」
叮咚!請查收:
數十張對應圖片便出現眼前。
想起去年GPT-3橫空出世時,就有人預測AI正逐漸取代文字工作者,小編也自覺飯碗不保。現在,又輪到插畫師出來哭訴了。
就在這幾天網際網路人哭聲中,自己加班加點製造出來的AI,已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說,「AI是人類的最大威脅」。
如果說畫畫寫字都是小兒科,那看看NLP新基準SuperGLUE的刷新榜單,人類已經一再退步到無地自容了。
GLUE的後輩:SuperGLUE
近幾年,用於預訓練和遷移學習的新模型和方法推動了一系列語言理解任務的性能顯著提高。曾經的GLUE(General Language Understanding Evaluation )基準提供了一個單一的數字指標,總結了在一系列不同的此類任務上取得的進展,但該基準的表現最近已接近非專家人類的水平,進一步研究的空間有限。
2019年末,Facebook、紐約大學、華盛頓大學和 DeepMind 的研究人員提出了SuperGLUE,這是一種人工智慧的新基準(Benchmark),旨在總結各種語言任務的研究進展。基於一年前引入的 GLUE 基準,SuperGLUE 包括一系列更難理解的語言挑戰、改進的資源和一個公開的排行榜。
當 SuperGLUE 被引入時,表現最好的模型和排行榜上的人類表現之間有將近20分的差距。
但截至1月初,微軟的「DeBERTa」和谷歌的「T5 + Meena」超越了人類基線,成為首次超越人類基線的模型。
正如研究人員在介紹SuperGLUE的論文中所寫的那樣,他們的基準旨在成為一個簡單的、難以遊戲(hard-to-game)的衡量標準,以衡量英語通用語言理解技術的進展。它包括8個從現有數據中抽取的語言理解任務,並附有一個性能指標以及一個分析工具包。
SuperGLUE任務包括以下幾項:
Boolean Questions (BoolQ) 要求模型對維基百科文章中包含答案的短文進行提問。這些問題來自谷歌用戶,他們是通過谷歌搜索提交的這些問題。
CommitmentBank (CB) 的任務是讓模型識別出一段文字節選中包含的假設,並判斷該假設是否成立。
Choice of plausible alternatives (COPA)提供了一個關於博客和攝影相關的百科的主題的前提句,模型必須從兩個可能的選擇中確定原因或結果。
Multi-Sentence Reading Comprehension (MultiRC)是一個問答任務,每個例子由一個上下文段落、一個關於該段落的問題和一個可能的答案列表組成。模型必須預測哪些答案是真的,哪些是假的。
Reading Comprehension with Commonsense Reasoning Dataset (ReCoRD) 模型從CNN和每日郵報的段落中的選擇列表中預測被掩蓋的單詞和短語,其中相同的單詞或短語可能會使用多種不同的形式來表達,所有這些都被認為是正確的。
Recognizing Textual Entailment (RTE) 任務用來挑戰模型識別一個文本節選是否符合另一個文本節選的含義的能力。
Word-in-Context(WiC)為模型提供了兩個文本片段和一個多義詞,並要求他們判斷該詞在兩個句子中是否具有相同的意義。
Winograd Schema Challenge (WSC)的任務中,給定小說書中的段落,模型必須回答關於模稜兩可的代詞前項的多項選擇題。它被設計為圖靈測試的改進。
有網友表示,這是就是咱們國活生生的行測啊!
不過,SuperGLUE並不是一個完美的或完整的自然語言能力的測試。就連DeBERTa背後的微軟團隊自己也指出,他們的模型 "絕非 "達到自然語言理解的人類級智能。他們同時表示,需要研究上的突破,以及新的基準來衡量其模型效果。
SuperGLUE 還嘗試使用 Winogender Schemas 來衡量模型中的性別偏見,這些模型中的句子僅僅因為一個代詞在句子中的性別而有所不同。然而,研究人員也指出,這種測量方法有其局限性,因為它只能提供積極的預測值: 儘管一個不好的偏見得分清楚地證明一個模型表現出性別偏見,但是一個好的得分並不意味著這個模型是沒有偏見的。
15億參數,更大版的DeBERTa
谷歌團隊尚未詳細說明導致其模型在SuperGLUE上創紀錄的性能的原因,但DeBERTa背後的微軟研究人員在今天早上早些時候發表的一篇博客文章中詳細介紹了他們的工作。
DeBERTa並不是算是一個新模型,它是去年開源的。但研究人員表示,他們訓練了一個15億個參數的更大版本。它將以開源的方式發布,併集成到微軟圖靈自然語言表示模型的下一個版本中,該模型支持Bing、Office、Dynamics和Azure等產品。
DeBERTa 是通過masked language modeling (MLM)進行預訓練,即mask掉中心詞後通過上下文來預測被mask掉的單詞是什麼。DeBERTa 在MLM中同時使用了上下文詞的內容和位置信息,例如,它能夠識別「a new store opened beside the new mall」句子中的「 store」和「 mall」 ,這兩個詞在句子中發揮不同的語法作用。
與其他一些模型不同,DeBERTa 解釋了詞語在語言建模過程中的絕對位置。此外,它計算模型中的參數,轉換輸入數據和測量基於相對位置的詞與詞之間依賴的強度。例如,DeBERTa能夠理解「深度」和「學習」這兩個詞之間的依存關係,當它們同時出現時,比它們出現在不同的句子中時要強烈得多。
圖:DeBERTa在MNLI和SQuAD2.0上的表現
DeBERTa 也受益於對抗訓練,這種技術利用了從訓練數據的細微變化中衍生出來的對抗樣本。在訓練過程中,將這些樣本輸入模型,以提高模型的泛化能力。
微軟的研究人員希望下一步探索如何使 DeBERTa 能夠應用到新的子任務或基本的問題解決技能上去,這是一個被稱為compositional generalization的概念。更進一步則可能是更明確地納入所謂的組合結構,這可能需要將人工智慧與符號推理結合起來。換句話說,根據數學和邏輯規則來操縱符號和表達式。
微軟的研究人員寫道: 「DeBERTa在SuperGLUE上超越人類的表現,標誌著通向人工智慧的一個重要裡程碑,但與DeBERTa不同的是,人類非常善於利用從不同任務中學到的知識,在沒有或很少有具體任務演示的情況下解決新任務。」
比強更強,T5+Meena
雖然谷歌沒有解釋T5+Meena是如何達到超越人類的效果的,但從這兩者之前的介紹中可窺一斑。
谷歌提出的T5是一個預訓練的編碼器-解碼器模型,混合無監督和監督學習的任務,並為每個任務轉換成文本到文本的格式。T5通過在每個任務的輸入前加上不同的前綴,可以很好地完成各種現成的任務。
Meena是一個擁有26億個參數的對話式神經網絡,能夠比任何人工智慧生成器更好地與人交流。研究小組使用 seq2seq 模型對模型進行了訓練,模型中包含了400億個單詞、341GB的文本數據,其中包括社交媒體上的對話。
Meena有一個Transformer編碼器和13個Transformer解碼器。雖然編碼器塊幫助它理解會話的上下文,但解碼器幫助它形成響應。谷歌聲稱 Meena 的模型容量是 OpenAI GTP-2的1.7倍,並且接受了8.5倍以上的訓練數據。
下一代BENCHMARK
雖然在短期內,SuperGLUE的繼任者還沒有出現。但是,人工智慧研究界越來越一致認為,未來的基準,尤其是語言領域的基準,必須考慮到更廣泛的道德、技術和社會挑戰,才能有用。
許多研究表明,現在流行的基準測試在評估真實世界的人工智慧性能方面表現不佳。
最近的一份報告發現,模型給出的答案中,有60%-70% 嵌入到了基準訓練集的某個地方,這表明這些模型通常只是簡單地記憶答案。另一項研究對3000多篇人工智慧論文進行元分析後發現,用於評估人工智慧和機器學習模型的度量標準往往不一致,而且信息量不大。
這些問題的出現是有原因的,因為語言模型,如 OpenAI 的 GPT-3、谷歌的 T5 + Meena和微軟的DeBERTa通過內化來自公共網絡的例子來學習編寫類似人類的文本。他們利用電子書、維基百科和 Reddit 等社交媒體平臺,對完整的句子甚至整個段落進行推理。
因此,語言模型通常會放大這些公共數據中的偏見。英特爾、麻省理工學院和 CIFAR 的研究人員在四月份發表的一篇論文中已經從一些最流行的模型中發現了強烈的刻板偏見,包括谷歌的 BERT 和 XLNet、 OpenAI 的 GPT-2和 Facebook 的 RoBERTa。這種偏見可能會被惡意行為者利用,通過傳播錯誤信息、虛假信息和謊言來進行煽動某些行為。
而目前大多數現有的語言基準測試都無法捕捉到這一點。自從SuperGLUE推出以來的兩年裡,研究結果激發了科研人員的動力,也許未來的研究結果會對此有所幫助。
參考連結:
https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/