動態基準測試Dynabench已發布,Facebook想用人類來「審問」人工智慧

2020-11-22 TechWeb

Facebook已經建立並正在共享Dynabench,這是第一個用於人工智慧領域的動態數據收集和基準測試平臺。它使用人類測試和模型一起循環迭代,目的是為了創造具有挑戰性的新數據並且更優化的人工智慧模型。

人工智慧在過去十年左右的巨大成功通常歸功於大量的數據和計算能力,但是「基準測試」在推動進步方面也發揮著至關重要的作用。

為了提高SOTA結果,研究人員需要一種方法來比較他們的模型與同行開發的模型的效果差異。準確的比較是驗證新模型確實優於該領域現有模型的先決條件這個過程被稱為「基準測試」,即Benchmark。

研究人員可以利用人工智慧進行對比測試,看看它到底有多先進。例如,ImageNet,一個由1400萬張圖像組成的公共數據集,為圖像識別設定了目標。MNIST 在自然語言處理方面對手寫數字識別和 GLUE (通用語言理解評估)做了同樣的工作,導致了諸如 GPT-3這樣的突破性語言模型的出現。

基準測試已經越來越快地達到飽和,尤其是在自然語言處理(NLP)領域。雖然研究團隊花了大約18年時間才在 MNIST 上取得了人類水平的表現,並在 ImageNet 上花了大約6年時間才超過人類,但在 GLUE 語言理解基準上只花了大約一年時間就超過了人類。

固定的目標很快就會被超越。ImageNet 在更新中,GLUE 也已經被 SuperGLUE 取代,後者是一系列更困難的語言任務。

儘管如此,研究人員遲早會報告說,他們的人工智慧已經達到了超越人類的水平,在這個或那個挑戰中勝過人類。如果我們希望「基準」繼續推動算法和模型進步,這就是一個亟待解決的問題。

Dynabench:新的動態對抗性benchmark

Facebook 正在發布一種新的測試方法,讓人工智慧與竭盡全力幹擾它們的人類進行比較,希望輔助研究人員開發出更強大的NLP模型。這項測試基準名為「 Dynabench」,它將根據人們的選擇來進行變化,解決目前基準測試方法的不足,並促進更健壯的人工智慧軟體的開發。

Dynabench的解決方案是通過將人工測試帶入這個流程來部分地實現基準測試過程。這個想法就是基於人類可以更準確地評估一個模型的準確性,而不是一組預先包裝好的測試問題,可以為神經網絡提出更難,更有創造性的挑戰。

這是一個比當前靜態基準更好的模型測量指標,將更好地反映人工智慧模型在最重要的情況下的表現: 當與人交流時,他們的行為和反應都是複雜的,不斷變化的方式,而這些方式無法在一組固定的數據點中反映出來。

「現有的Benchmarks可能非常具有誤導性」,Facebook 人工智慧研究所的 Douwe Kiela 說,他領導了這個工具的開發團隊,「過分關注基準可能意味著忽視更廣泛的目標」,從而導致「the test become the task」

靜態基準測試-忽略了與人交互的體驗

靜態的基準測試迫使模型過多地關注一個特定的東西,而我們最終關心的不是某個特定的度量或任務,而是人工智慧系統在與人交互時能做到多好。

人工智慧的真正衡量標準不應該是準確度或困惑度,而應該是直接或者間接建立與人交流時的模型誤差率。

Kiela認為這是NLP目前面臨的一個特殊問題。GPT-3這樣的語言模型之所以具有智能性,是因為它非常擅長模仿語言,但是很難說這些系統到底能理解多少。

就像做智力測試一樣,可以給人們做智商測試,但是這並不能告訴你他們是否真的掌握了一個主題。為了做到這一點,你需要和他們進行交談,問問題。

就像一個學生只記住了一大堆事實,這種策略也許在筆試中可以取得優異的成績,但是在面試中提出的創造性和意料之外的問題,這種策略就不那麼有效了。

Dynabench 做了類似的事情,「用人來審問人工智慧」。

Facebook也已經發布了一個網頁,邀請感興趣的人去網站來測試背後它的模型。例如,你可以給語言模型一個 Wikipedia 頁面,然後問它問題,給它的答案打分。

在某些方面,這個想法類似於人們已經在使用GPT-3的方式,來測試它的極限。或者是聊天機器人評估 Loebner Prize的方式,又或者是類似圖靈測試的方式。

當人工智慧完成一輪測試後,Dynabench 識別出那些愚弄模型的問題,並將它們編譯成一個新的測試集。

研究人員可以利用這個測試集來幫助他們建立更新、更複雜的模型。然後,一旦開發出一個模型,就可以回答第一個人工智慧無法回答的問題,Dynabench不斷重複這個過程,並編譯另一個測試數據集與更難的問題。

目前 Dynabench 將專注於語言模型,因為它是人類最容易理解的AI模型之一。「每個人都會說一種語言」,Kiela說,「你不需要任何關於如何妨礙這些模型的真正知識。」

該方法也適用於其他類型的神經網絡,如語音或圖像識別系統。Kiela 說,你只需要找到一種方法,讓人們上傳自己的圖片,或者讓他們畫些東西來測試它。Facebook的長期的願景是開放Dynabench,這樣任何人都可以開發自己的模型,收集自己的數據。

Facebook希望讓AI界相信,會有一種更好的方法來測試NLP模型,這會使得模型和算法能夠更快的進步,並且真正的提升與人類交互時的體驗和真正的理解交互內容。

 

相關焦點

  • AI性能基準測試從此有了「中國標準」!英偉達、谷歌可以試試這套算力卷
    那麼問題來了,令這些「算力」大廠們競相追逐的MLPerf這套「考題」,真的是「AI性能基準測試的唯一標準」嗎?不見得。做完這套「AI試卷」,得到的分數又該如何來衡量和排名呢?我們知道,FLOPS是當前最常用來反映高性能計算整體計算能力的性能指標。在這套「試卷」中,研究人員還是用FLOPS作為主要的指標,直接描述AI加速器的計算能力。
  • 2018 年度人工智慧熱門事件大盤點:「悲喜交加」
    AI 科技評論的讀者們又與我們度過了相伴相隨的一年,與我們一起見證了人工智慧在這一年所面臨的發展與挑戰。以下 AI 科技評論就帶領讀者們回顧一下 2018 人工智慧領域的發展情況以及熱點事件。如果用「高歌猛進」來作為人工智慧 2017 年發展的形容詞,那它在 2018 年的發展則可稱得上是「悲喜交加」了。
  • 微軟和谷歌的人工智慧,在SuperGLUE基準測試中超越了人類
    但SuperGLUE測試並不是完美的,也不是一種完整的人類語言能力測試。在一篇博客文章中,DeBERTa背後的微軟團隊自己指出,他們的模型「絕不可能」達到人類的自然語言理解智能水平。他們說,這都需要繼續研究突破,以及用新的基準來衡量它們及其影響。
  • Facebook在人工智慧的道路上走了多遠?
    此前,Facebook 已在加州門洛帕克、紐約和巴黎等地建有三所人工智慧研究室,共計擁有 100 多位科學家。為了「籠絡」加拿大的算法人才,Facebook 還宣布在將投資七百萬美元用於支持加拿大高級研究所(CIFAR)、蒙特婁學習算法學院、麥吉爾大學以及蒙特婁大學的 AI 研究。
  • 人工智慧的突破需要顛覆圖靈機嗎?
    這種盲目已經成為人工智慧歷史上種種「無法兌現的承諾」的罪魁禍首。而對這種盲目的無視正在將人工智慧和腦科學置於另外一場本末倒置的危機中。歐盟腦計劃和美國腦計劃這類項目建立了開放式的合作機制來收集海量全面的大腦數據,但缺乏對等的合作機制來探究統一基本的大腦理論。
  • 成立5 周年:一文覽盡 Facebook 人工智慧研究院歷年重要成果
    如果想讓人工智慧的潛力在未來最大化為我們所用,這些長期的研究探索是需要一直堅持下去的。在成立五周年之際,他們將從過去已完成的項目中挑選出了一些具有代表性的項目,通過它們向大家展示 FAIR 是如何成功達成使命,為人工智慧領域做出貢獻,進而對世界產生影響的。
  • 用正確方法對度量學習算法進行基準測試
    這樣,我們可以確定是新算法提高了性能,而不是一個無關的參數提高了性能。但是在基準度量學習論文中並非如此:1.網絡架構並沒有保持不變。有些論文用 GoogleNet,而最近的許多論文都在使用 BN-Inception,有時被稱為 batch 標準化的開端「Inception with Batch Normalization」。
  • Facebook人工智慧副總裁:AI 這一領域很快就會「碰壁」
    一些公司,比如 DeepMind 和 OpenAI,聲稱他們的目標是開發「人工通用智能,AGI」,Facebook 也在做這件事嗎?Jerome Pesenti:作為一個實驗室,我們的目標是讓技術匹配人類的智力。雖然還有很長的路要走,但我們認為這是一個偉大的目標。
  • 將科幻變成現實,谷歌百度用神經機器翻譯踐行人類的「巴別塔之夢」
    1954年,計算機科學家第一次公開發布了一款可以翻譯人類語言的機器。後來這被稱為喬治城-IBM實驗:一個能將句子從俄語翻譯成英語的「電子大腦」(electronic brain)。 當時,科學家相信,一旦通用翻譯器被開發出來,不僅可以讓美國在國家安全上領先蘇聯,還能消除語言障礙,從而促進世界和平。
  • Facebook 發布無梯度優化開源工具 Nevergrad,可應用於各類機器...
    為了使得參數/超參數的調整更快、更簡單,Facebook 創建了一個名叫 Nevergrad(https://github.com/facebookresearch/nevergrad)的 Python 3 庫,並將它開源發布。Nevergrad 提供了許多不依賴梯度計算的優化算法,並將其呈現在標準的問答 Python 框架中。此外,Nevergrad 還包括了測試和評估工具。
  • Facebook、微軟、谷歌三大研究巨頭齊聚首,共同探討人工智慧發展...
    可以用預測模型計劃和學習新的任務,這一過程中只需與世界進行極少的交互。目前的「無模型」RL 系統,像 AlphaGo Zero,需要與「世界」進行大量的交互來學習 (儘管他們確實學得很好)。這種系統在圍棋和象棋上都做得很好,因為這裡的「世界」很簡單,是確定的,而且可以在多個電腦上同時高速運行。與這種「世界」進行互動是可行的,成本極低。
  • 機器之心GMIS 2017嘉賓揭秘:人工智慧「標準教科書」作者——Stuart Russell
    在獲得博士學位後,Russell 加入了加州大學伯克利分校,並成為了一名計算機科學教授;他所研究的人工智慧領域主題範圍非常廣,包括機器學習、概率推理、知識表徵、規劃、實時決策、多目標追蹤、計算機視覺、計算生理學、全球地震監測和哲學基礎。此外,他也為聯合國工作,為「禁止核試驗條約」開發新型的全球地震監測系統。他當前的研究課題也包括自動武器的威脅以及人工智慧的長期影響及其與人類的關係。
  • 周伯文對話斯坦福教授曼寧:人機對話智能新進展需要新"圖靈測試"
    在智源大會上,京東集團技術委員會主席、京東智聯雲總裁、京東人工智慧研究院院長、IEEE Fellow 周伯文與史丹福大學教授、人工智慧實驗室負責人克里斯多福 · 曼寧(Christopher Manning)展開了一次精彩的交流。他們討論了自然語言處理領域近期的進展,預訓練模型興起之後的未來發展方向,甚至還為人工智慧的標杆評測基準——圖靈測試找到了一個「替代方案」。
  • 從AlphaGo 到具有人類智慧的 AI 究竟有多遠?François Chollet...
    Chollet 指出,如果研究人員想在通用人工智慧方面取得進展,他們需要回顧過去流行的基準,如電子遊戲和棋類遊戲,並開始思考讓人類變得聰明的技能,比如我們所具有的概括和適應的能力。問:在您的論文中,您還提出,人工智慧需要更好地定義「智慧」才能進步。您提到,現在研究人員專注於在靜態測試(例如在電子遊戲和棋類遊戲中獲勝)中對性能進行基準測試。為什麼您覺得這種測量「智慧」的方式是不足夠的呢?
  • 訪談| Jürgen Schmidhuber:人工智慧在1991年就已經獲得了「意識」
    當你行走在這個世界中時,你會遇到很多張人臉,這意味著你做的一些處理工作,在大腦中構建某種循環子網絡來壓縮觀測歷史(稱之為 compactify)確實有效。「面部編碼器」(face encoder)會與原型人臉相對應。所以當一個新面孔出現的時候,你需要做的就是要將這張面孔與原型的差異進行編碼。即便如此,我仍然不確定為什麼我們能說這就是有意識。
  • 變態「三角戀」?世界知識、大腦和計算是AGI的新「三駕馬車」
    【新智元導讀】「冰鎮椅子」和「彩虹蕉」見過沒?反正神經網絡要淚奔了。近年來,吃數據的人工智慧狹隘性日益凸顯,而來自舊金山的科學家們,認為智能來源於歸納偏差,他們試圖通過已知的世界屬性、大腦的物理結構和算法來構建一種新的世界模型。看到下面這個場景,你會想到啥?
  • 「2020中國AI算力報告」重磅出爐:中國怎麼解決GPT-3的算力難題?
    12月15日,IDC與浪潮聯合發布了《2020-2021中國人工智慧計算力發展評估報告》。報告從AI算力產業發展趨勢、市場規模、區域算力分布和行業AI算力保有程度等多個角度進行全面綜合評估,旨在評估中國人工智慧發展的現狀,為推動產業AI化發展提供極具價值的參考依據和行動建議。這是該報告自2018年發布以來,連續第三年發布。
  • 人工智慧利用神經網絡來控制機器
    人工智慧利用神經網絡來控制機器,或者是人工智慧根據預定的規則來控制機器.人工智慧可以用於搜索,診斷,預測,監控和機器人等諸多方面.人工智慧為人類提供了創造性解決方案,這個解決方案不僅能創造出改變,同時還能控制它們.世界對於人工智慧抱有非常樂觀的態度,因為它們讓人類工作變得更加高效.然而,智能的出現時間還很短暫,遠沒有到大眾普遍接受的階段.那麼,人工智慧未來的發展方向到底是什麼
  • 他們可能走在了製造「超級人類」的路上
    《黑客帝國》構成了人們對腦機接口的最初想像,電影中主角們通過腦後的接口與計算機相連,進入虛擬世界 生活在今天的人們會說,如果人工智慧的核心是讓計算機擁有像人一樣,看得懂和聽得懂的能力,那麼「腦機接口」可能會讓人類本身變得更強。這種「更強」可能是讓殘障人士恢復正常,可能是超級人類,甚至可能是永生。
  • 扎克伯格稱修復 Facebook 要花三年;如何對待隱私悖論;人工智慧能...
    儘管 Levy 決定放過這個問題,但沒多久小扎又主動把話題拉回到了 Dating 服務上,他對 Levy 說「顯然,你提出了這個問題,但你不覺得這不是個聊這事兒的好時機嗎?」對此,Levy 指出了這次 F8 大會和 Facebook 表裡矛盾之處:Facebook 稱要修覆信任,卻不想通過發布各種新產品來給用戶「我們要向前看」的印象。