學界 斯坦福聯合Facebook創建CLEVR:用於組合式語言和初級視覺推理的診斷數據集

2021-02-15 機器之心


論文:CLEVR:一個用於組合式語言和初級視覺推理的診斷數據集(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning)

摘要:當開發能夠推理和回答關於視覺數據的問題的人工智慧系統時,我們需要診斷測試來分析我們的進展和發現缺陷。現有的一些視覺問答基準可以提供幫助,但它們有很強的偏置(bias)——模型可以利用這些偏置從而無需推理就能給出問題的正確答案。它們還混有多個誤差源,這會讓我們難以定位模型的弱點。我們提出了一個診斷數據集,其可以測試許多視覺推理能力。它包含了最小的偏置,並且有詳細的標註描述了每個問題所需的推理的類型。我們使用這個數據集分析了各種現代的視覺推理系統,為它們的能力和局限性提供了全新的見解。

導言

人工智慧研究的一個長期目標是開發能夠推理和回答關於視覺信息的問題的系統。為了研究這個問題,研究者在近段時間已經提出了多個數據集 [4, 10, 21, 26, 32, 46, 49]。這些每一個視覺問答(VQA:Visual Question Answering)數據集都包含了關於圖像的自然語言難題。正確回答這些問題既需要識別物體、屬性和空間關係等感知能力,也需要計數、執行邏輯推理、做比較或利用世界知識常識等更高級的能力 [31]。研究者為解決這些問題提出了很多方法 [2, 3, 9, 24, 44],但其中許多都只是在強基線上的一點點改進 [4, 16, 48]。不幸的是,我們理解這些方法的局限性的能力受到了 VQA 任務的固有複雜性的阻礙。這些方法的問題到底是識別失敗、推理能力差、缺乏常識知識還是其它什麼呢?

在這篇論文中,我們提出了一個用於研究 VQA 系統執行視覺推理的能力的診斷數據集(diagnostic dataset)。我們將這個數據集稱為 Compositional Language and Elementary Visual Reasoning(組合式語言和初級視覺推理)診斷數據集,簡稱 CLEVR。CLEVR 包含 10 萬張經過渲染的圖像和大約 100 萬個自動生成的問題,其中有 85.3 萬個問題是互不相同的。其中包含了測試計數、比較、邏輯推理和在記憶中存儲信息等視覺推理能力的圖像和問題,如圖 1 所示。


圖 1:一個來自 CLEVR 的圖像與問題樣本。這些問題測試的是視覺推理中的屬性識別(棕色文本)、計數(紅色)、比較(藍色)、多注意(綠色)和邏輯運算(紫色)等方面。

我們設計 CLEVR 的目標很明確——實現詳細的視覺推理分析。我們的圖像描繪了簡單的 3D 形狀;這簡化了識別,讓我們可以將重點放到推理能力上。我們確保每張圖像中的信息都是完整的和獨有的,這樣使得常識知識等外部信息源無法增加正確回答問題的機率。我們通過在相關問題族內的拒絕採樣(rejection sampling)而最小化了問題-條件偏差(question-conditional bias),我們還避免了退化問題(degenerate questions)——即那些看似複雜,實際上卻有獲得正確答案的簡單捷徑的問題。最後,我們為圖像和問題都使用了結構化的 ground-truth 表徵:圖像使用 ground-truth 物體位置和屬性進行了標註,問題則被表徵為可以被執行來回答該問題的功能程序(functional programs)(詳見第 3 節)。這些表徵能夠幫助實現使用傳統的 VQA 數據集無法實現的深入分析。

這些設計選擇也意味著:儘管 CLEVR 中的圖像可能看起來很簡單,但它的問題卻很複雜,需要一系列的推理能力。比如說,歸納未見過的物體和屬性的組合可能需要分解表徵(factorized representations);計數或比較這樣的任務可能需要短期記憶 [15] 或關注特定的物體 [24, 44];以多種方式結合多個子任務的問題可能需要組合式系統來回答 [2,3]。

我們使用 CLEVR 分析了一套 VQA 模型,並且發現了並不為人所知的缺陷。比如說,我們發現當前表現最佳的 VQA 模型在需要短期記憶(比如比較物體的屬性)或組合式推理(比如識別全新的屬性組合)的任務上表現並不好。這些觀察為進一步的研究指出了全新的方向。

最後,我們強調的在 CLEVR 上的準確度本身並不是一個最終目標:一個使用 CLEVR 宇宙的明確知識的人工設計的系統可能會表現很好,但卻無法泛化到真實世界環境中。因此 CLEVR 應該與其它 VQA 數據集結合使用,以研究通用 VQA 系統的推理能力。

本 CLEVR 數據集以及用於生成新圖像和問題的代碼將會公開開放。


圖 2:一個 CLEVR 宇宙的現場指導。左側:形狀、屬性和空間關係;中部:問題樣本與它們的相關功能程序;右側:用於構建問題的基本函數的目錄。


圖 3:上部:CLEVR 的統計數據;大多數問題是獨一無二的,少數來自驗證和測試集的問題會出現在訓練集中。下左側:對於不同 VQA 數據集的問題長度比較;CLEVR 的問題通常長得多。下右側:CLEVR 中的問題類型分布。


圖 4:在 CLEVR 數據集上,6 種 VQA 方法按問題類型分類的準確度比較(更高的更好)。

點擊閱讀原文查看論文



©本文由機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

相關焦點

  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    機器之心發布機器之心編輯部大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。然而,大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。儘管這些數據集涵蓋了視覺的複雜性和多樣性,但推理過程背後的基本邏輯、時間和因果結構卻很少被探索。在這篇論文中,麻省理工和 DeepMind 的研究者從互補的角度研究了視頻中的時間和因果推理問題。
  • 學界| 斯坦福Nature論文宣布新突破:深度學習皮膚癌診斷達專家水平
    斯坦福的計算機科學家創造了一個可以進行皮膚癌診斷的人工智慧診斷算法,表現可媲美通過職業認證的皮膚科醫生。在計劃創造皮膚癌人工智慧診斷算法的時候,斯坦福的計算機科學家想的是能讓治療普遍可及。他們做了一個包含近 13 萬張皮膚疾病圖像的數據集,然後訓練算法能在視覺上診斷潛在的癌症。在首次測試中,它就展現出了驚人的準確率。
  • Facebook AI研究院文章:自然語言對話系統成果
    Facebook的研究人員們近期就沿著兩個研究方向做出了自己的努力:1,對視覺內容做顯式的推理;2,模仿人類的視覺對話。視覺內容的顯式推理連接到視覺數據的一個核心語言界面就是問一個自然語言的問題,比如:「圖中有什麼動物?」或者「有多少人坐在長椅上?」
  • 124頁,UC伯克利大學胡戎航博士論文公布:視覺與語言推理的結構化模型
    視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。 視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?UC 伯克利胡戎航的博士論文就是關於這個主題:
  • UC伯克利大學胡戎航博士論文公布:視覺與語言推理的結構化模型
    視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?
  • Facebook向視覺對話進發
    視覺內容的顯式推理連接到視覺數據的一個核心語言界面就是問一個自然語言的問題,比如:「圖中有什麼動物?」或者「有多少人坐在長椅上?」每個問題中需要解決的都是不同的任務,然而目前具有頂尖表現的系統裡多數都還運用的是整體性的方法,用同一個計算圖或者計算網絡給出所有問題的答案。
  • NIPS 2018 | MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答
    第二,這樣的模型在數據和內存上更加高效:在少量訓練數據上學習之後能取得優良的表現;它還能將圖像編碼成緊湊的表徵,所需的存儲空間會比現有的離線問答方法更少。第三,符號程序執行能為推理過程提供完整的透明度;因此我們能夠實現對每個執行步驟的解讀和診斷。
  • .| 讓機器幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理...
    為了突破當前視覺推理能力的極限,UCLA 朱松純團隊基於一項更難的人類視覺推理任務——瑞文測試(RPM,例如《行測》中的圖形推理題)構建了關係和類比視覺推理數據集 RAVEN。與之前使用 RPM 評估抽象推理能力的工作不同,他們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。
  • 機器推理文本+視覺,跨模態預訓練新進展
    但由於這兩個領域中的基礎模型大都針對純 NLP 或 CV 任務單獨設計和訓練(例如 NLP 中針對語言模型設計的 BERT 和 CV 中針對圖片分類設計的 ResNet),這些模型無法很好地刻畫語言和視覺內容之間的關聯。從下遊任務對應的標註數據中學習這類關聯是解決方案之一,但由於標註開銷大,該方案依然缺點明顯。
  • CLUE發布第一個原生中文自然語言推理數據集
    ,是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。英語數據集如SICK, SNLI, MNLI, SciTail, alphaNLI, ANLI等層出不窮,然而中文幾乎沒有這方面的大型數據集。唯一例外可能要算將MNLI翻譯成多種語言(包括中文)的XNLI數據集了。但是翻譯的數據集質量堪憂,也缺少中文語境和中國文化背景下的推理。因此,我們參考並改進了MNLI的數據收集方法,收集建立了原生(原創)中文自然語言推理數據集,即OCNLI。
  • 引燃AI社區,OpenAI新模型打破自然語言與視覺次元壁
    那麼,大佬打算購入幾件其他「藍色」的襯衫嗎OpenAI 聯合創始人、首席科學家 Ilya Sutskever 表示:人工智慧的長期目標是構建「多模態」神經網絡,即 AI 系統能夠學習多個不同模態的概念(主要是文本和視覺領域),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近「多模態 AI 系統」這一目標。
  • ...不用跨界也能從文本生成圖像,OpenAI新模型打破自然語言與視覺...
    零次視覺推理只需給出文本描述或提示,GPT-3 就能執行多種任務,且無需額外訓練。這種能力叫做「零次推理」(zero-shot reasoning)。而 DALL·E 將該能力擴展到視覺領域,在給出恰當提示的情況下,它能夠執行多種圖像翻譯任務。例如給出文本「為上方貓圖提供簡筆畫版本」,你會得到:
  • 模型聽人講幾句就能學得更好?斯坦福提出用語言解釋輔助學習
    這兩項研究立足於近段時間 BERT 等神經語言模型的突破性成果,指出了一個頗具潛力的新方向:使用語言解釋來輔助學習 NLP 乃至計算機視覺領域的任務。想像一下:如果你是一位機器學習從業者並想要解決某個分類問題,比如將彩色方塊群分類為 1 或 0。你通常會這樣做:收集一個包含大量樣本的數據集,標註數據,然後訓練一個分類器。
  • 百度飛槳視覺能力再攀高峰,刷新史丹福大學DAWNBench四大世界紀錄
    2019開年以來,百度大腦視覺技術團隊在國際賽事上屢屢奪冠。繼ICME人臉106關鍵點檢測比賽奪冠、多目標追蹤挑戰MOT榜單第一等多項賽事傳來喜報後,百度大腦視覺技術團隊再露鋒芒,飛槳視覺能力再攀高峰,一舉刷新四項世界紀錄。  近日,百度大腦視覺技術團隊聯合百度智能雲,在史丹福大學舉辦的DAWNBench榜單中,刷新了四項世界紀錄。
  • 機器學習和計算機視覺的前20個圖像數據集
    計算機視覺的目標是使人類視覺系統可以實現任務自動化。計算機視覺任務包括圖像採集、圖像處理和圖像分析。圖像數據可以採用不同的形式,例如視頻序列,從多個角度的不同的攝像機查看圖像或來自醫療掃描儀的多維數據。
  • Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新...
    簡而言之,這些新工具將幫助人類創建更強大的內容理解系統,而且能夠翻譯數百種語言,理解諸如含糊不清、共同引用和常識性推理等複雜的問題,從而減少現有的這些系統對大量標記訓練數據的依賴性。翻譯準確性的突破對於神經機器翻譯(NMT)模型,有監督式訓練通常需要大量附有參考翻譯的句子。
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    具體而言,我們通過解耦鑑別器從三個標準方面進行評估:(1)視頻的視覺相關性;(2)語言的多樣性和流暢性(3)語句之間的連貫性。我們的方法在通常使用的 ActivityNet Captions 數據集進行自動和人工評估的結果都顯示,可以得到更準確、更多樣、更連貫的多語句視頻描述。
  • R語言實戰(2)——創建數據集【學習分享】
    2.1 數據結構數據集通常是由數據構成的一個矩形數組,行表示觀測,列表示變量(但不同行業對行和列叫法不同,在R中用觀測和變量代表行和列)。R可以處理的數據類型(模式)包括數值型、字符型、邏輯型(TRUE/FALSE)、複數型(虛數)和原生型(字節)。R擁有許多用於存儲數據的對象類型,包括標量、向量、矩陣、數組、數據框和列表。
  • 史丹福大學教授提出全可微神經網絡架構MAC:可用於機器推理
    為解決這一問題,本文提出了一種新的全可微神經網絡架構 MAC,可使網絡具有結構化推理和迭代思考的能力, 提升其推理的明確性和表現力;在通過 CLEVR 數據集解決視覺推理的任務中,MAC 實現了 98.9% 的當前最優準確率,同時所需數據量減少 5 倍。
  • 全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括格靈深瞳等機構開源的全球最大人臉數據集,以及類 Transformer 模型跨界在視覺任務上取得了新 SOTA。