Facebook已經建立並正在共享Dynabench,這是第一個用於人工智慧領域的動態數據收集和基準測試平臺。它使用人類測試和模型一起循環迭代,目的是為了創造具有挑戰性的新數據並且更優化的人工智慧模型。
人工智慧在過去十年左右的巨大成功通常歸功於大量的數據和計算能力,但是「基準測試」在推動進步方面也發揮著至關重要的作用。
為了提高SOTA結果,研究人員需要一種方法來比較他們的模型與同行開發的模型的效果差異。準確的比較是驗證新模型確實優於該領域現有模型的先決條件這個過程被稱為「基準測試」,即Benchmark。
研究人員可以利用人工智慧進行對比測試,看看它到底有多先進。例如,ImageNet,一個由1400萬張圖像組成的公共數據集,為圖像識別設定了目標。MNIST 在自然語言處理方面對手寫數字識別和 GLUE (通用語言理解評估)做了同樣的工作,導致了諸如 GPT-3這樣的突破性語言模型的出現。
基準測試已經越來越快地達到飽和,尤其是在自然語言處理(NLP)領域。雖然研究團隊花了大約18年時間才在 MNIST 上取得了人類水平的表現,並在 ImageNet 上花了大約6年時間才超過人類,但在 GLUE 語言理解基準上只花了大約一年時間就超過了人類。
固定的目標很快就會被超越。ImageNet 在更新中,GLUE 也已經被 SuperGLUE 取代,後者是一系列更困難的語言任務。
儘管如此,研究人員遲早會報告說,他們的人工智慧已經達到了超越人類的水平,在這個或那個挑戰中勝過人類。如果我們希望「基準」繼續推動算法和模型進步,這就是一個亟待解決的問題。
Dynabench:新的動態對抗性benchmark
Facebook 正在發布一種新的測試方法,讓人工智慧與竭盡全力幹擾它們的人類進行比較,希望輔助研究人員開發出更強大的NLP模型。這項測試基準名為「 Dynabench」,它將根據人們的選擇來進行變化,解決目前基準測試方法的不足,並促進更健壯的人工智慧軟體的開發。
Dynabench的解決方案是通過將人工測試帶入這個流程來部分地實現基準測試過程。這個想法就是基於人類可以更準確地評估一個模型的準確性,而不是一組預先包裝好的測試問題,可以為神經網絡提出更難,更有創造性的挑戰。
這是一個比當前靜態基準更好的模型測量指標,將更好地反映人工智慧模型在最重要的情況下的表現: 當與人交流時,他們的行為和反應都是複雜的,不斷變化的方式,而這些方式無法在一組固定的數據點中反映出來。
「現有的Benchmarks可能非常具有誤導性」,Facebook 人工智慧研究所的 Douwe Kiela 說,他領導了這個工具的開發團隊,「過分關注基準可能意味著忽視更廣泛的目標」,從而導致「the test become the task」
靜態基準測試-忽略了與人交互的體驗
靜態的基準測試迫使模型過多地關注一個特定的東西,而我們最終關心的不是某個特定的度量或任務,而是人工智慧系統在與人交互時能做到多好。
人工智慧的真正衡量標準不應該是準確度或困惑度,而應該是直接或者間接建立與人交流時的模型誤差率。
Kiela認為這是NLP目前面臨的一個特殊問題。GPT-3這樣的語言模型之所以具有智能性,是因為它非常擅長模仿語言,但是很難說這些系統到底能理解多少。
就像做智力測試一樣,可以給人們做智商測試,但是這並不能告訴你他們是否真的掌握了一個主題。為了做到這一點,你需要和他們進行交談,問問題。
就像一個學生只記住了一大堆事實,這種策略也許在筆試中可以取得優異的成績,但是在面試中提出的創造性和意料之外的問題,這種策略就不那麼有效了。
Dynabench 做了類似的事情,「用人來審問人工智慧」。
Facebook也已經發布了一個網頁,邀請感興趣的人去網站來測試背後它的模型。例如,你可以給語言模型一個 Wikipedia 頁面,然後問它問題,給它的答案打分。
在某些方面,這個想法類似於人們已經在使用GPT-3的方式,來測試它的極限。或者是聊天機器人評估 Loebner Prize的方式,又或者是類似圖靈測試的方式。
當人工智慧完成一輪測試後,Dynabench 識別出那些愚弄模型的問題,並將它們編譯成一個新的測試集。
研究人員可以利用這個測試集來幫助他們建立更新、更複雜的模型。然後,一旦開發出一個模型,就可以回答第一個人工智慧無法回答的問題,Dynabench不斷重複這個過程,並編譯另一個測試數據集與更難的問題。
目前 Dynabench 將專注於語言模型,因為它是人類最容易理解的AI模型之一。「每個人都會說一種語言」,Kiela說,「你不需要任何關於如何妨礙這些模型的真正知識。」
該方法也適用於其他類型的神經網絡,如語音或圖像識別系統。Kiela 說,你只需要找到一種方法,讓人們上傳自己的圖片,或者讓他們畫些東西來測試它。Facebook的長期的願景是開放Dynabench,這樣任何人都可以開發自己的模型,收集自己的數據。
Facebook希望讓AI界相信,會有一種更好的方法來測試NLP模型,這會使得模型和算法能夠更快的進步,並且真正的提升與人類交互時的體驗和真正的理解交互內容。