論文:CLEVR:一個用於組合式語言和初級視覺推理的診斷數據集(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning)
摘要:當開發能夠推理和回答關於視覺數據的問題的人工智慧系統時,我們需要診斷測試來分析我們的進展和發現缺陷。現有的一些視覺問答基準可以提供幫助,但它們有很強的偏置(bias)——模型可以利用這些偏置從而無需推理就能給出問題的正確答案。它們還混有多個誤差源,這會讓我們難以定位模型的弱點。我們提出了一個診斷數據集,其可以測試許多視覺推理能力。它包含了最小的偏置,並且有詳細的標註描述了每個問題所需的推理的類型。我們使用這個數據集分析了各種現代的視覺推理系統,為它們的能力和局限性提供了全新的見解。
導言
人工智慧研究的一個長期目標是開發能夠推理和回答關於視覺信息的問題的系統。為了研究這個問題,研究者在近段時間已經提出了多個數據集 [4, 10, 21, 26, 32, 46, 49]。這些每一個視覺問答(VQA:Visual Question Answering)數據集都包含了關於圖像的自然語言難題。正確回答這些問題既需要識別物體、屬性和空間關係等感知能力,也需要計數、執行邏輯推理、做比較或利用世界知識常識等更高級的能力 [31]。研究者為解決這些問題提出了很多方法 [2, 3, 9, 24, 44],但其中許多都只是在強基線上的一點點改進 [4, 16, 48]。不幸的是,我們理解這些方法的局限性的能力受到了 VQA 任務的固有複雜性的阻礙。這些方法的問題到底是識別失敗、推理能力差、缺乏常識知識還是其它什麼呢?
在這篇論文中,我們提出了一個用於研究 VQA 系統執行視覺推理的能力的診斷數據集(diagnostic dataset)。我們將這個數據集稱為 Compositional Language and Elementary Visual Reasoning(組合式語言和初級視覺推理)診斷數據集,簡稱 CLEVR。CLEVR 包含 10 萬張經過渲染的圖像和大約 100 萬個自動生成的問題,其中有 85.3 萬個問題是互不相同的。其中包含了測試計數、比較、邏輯推理和在記憶中存儲信息等視覺推理能力的圖像和問題,如圖 1 所示。
圖 1:一個來自 CLEVR 的圖像與問題樣本。這些問題測試的是視覺推理中的屬性識別(棕色文本)、計數(紅色)、比較(藍色)、多注意(綠色)和邏輯運算(紫色)等方面。
我們設計 CLEVR 的目標很明確——實現詳細的視覺推理分析。我們的圖像描繪了簡單的 3D 形狀;這簡化了識別,讓我們可以將重點放到推理能力上。我們確保每張圖像中的信息都是完整的和獨有的,這樣使得常識知識等外部信息源無法增加正確回答問題的機率。我們通過在相關問題族內的拒絕採樣(rejection sampling)而最小化了問題-條件偏差(question-conditional bias),我們還避免了退化問題(degenerate questions)——即那些看似複雜,實際上卻有獲得正確答案的簡單捷徑的問題。最後,我們為圖像和問題都使用了結構化的 ground-truth 表徵:圖像使用 ground-truth 物體位置和屬性進行了標註,問題則被表徵為可以被執行來回答該問題的功能程序(functional programs)(詳見第 3 節)。這些表徵能夠幫助實現使用傳統的 VQA 數據集無法實現的深入分析。
這些設計選擇也意味著:儘管 CLEVR 中的圖像可能看起來很簡單,但它的問題卻很複雜,需要一系列的推理能力。比如說,歸納未見過的物體和屬性的組合可能需要分解表徵(factorized representations);計數或比較這樣的任務可能需要短期記憶 [15] 或關注特定的物體 [24, 44];以多種方式結合多個子任務的問題可能需要組合式系統來回答 [2,3]。
我們使用 CLEVR 分析了一套 VQA 模型,並且發現了並不為人所知的缺陷。比如說,我們發現當前表現最佳的 VQA 模型在需要短期記憶(比如比較物體的屬性)或組合式推理(比如識別全新的屬性組合)的任務上表現並不好。這些觀察為進一步的研究指出了全新的方向。
最後,我們強調的在 CLEVR 上的準確度本身並不是一個最終目標:一個使用 CLEVR 宇宙的明確知識的人工設計的系統可能會表現很好,但卻無法泛化到真實世界環境中。因此 CLEVR 應該與其它 VQA 數據集結合使用,以研究通用 VQA 系統的推理能力。
本 CLEVR 數據集以及用於生成新圖像和問題的代碼將會公開開放。
圖 2:一個 CLEVR 宇宙的現場指導。左側:形狀、屬性和空間關係;中部:問題樣本與它們的相關功能程序;右側:用於構建問題的基本函數的目錄。
圖 3:上部:CLEVR 的統計數據;大多數問題是獨一無二的,少數來自驗證和測試集的問題會出現在訓練集中。下左側:對於不同 VQA 數據集的問題長度比較;CLEVR 的問題通常長得多。下右側:CLEVR 中的問題類型分布。
圖 4:在 CLEVR 數據集上,6 種 VQA 方法按問題類型分類的準確度比較(更高的更好)。
點擊閱讀原文查看論文
©本文由機器之心編譯,轉載請聯繫本公眾號獲得授權。
✄---
加入機器之心(全職記者/實習生):hr@almosthuman.cn
投稿或尋求報導:editor@almosthuman.cn
廣告&商務合作:bd@almosthuman.cn