選自arXiv
作者:Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu
機器之心編譯
參與:高璇、張倩
早期為機器加入高級推理的工作一直圍繞著視覺問答(VQA)展開,但 VQA 所需的推理能力只處於認知能力測試圈的邊緣。為了突破當前視覺推理能力的極限,UCLA 朱松純團隊基於一項更難的人類視覺推理任務——瑞文測試(RPM,例如《行測》中的圖形推理題)構建了關係和類比視覺推理數據集 RAVEN。與之前使用 RPM 評估抽象推理能力的工作不同,他們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。
項目地址:http://wellyzhang.github.io/project/raven.html
視覺研究不僅必須包括如何從圖像中提取信息,同時也是對信息的內部表徵本質的探究,從而將其作為決定我們想法和行動的基礎。(David Marr,1982 年 [35])
計算機視覺應用範圍非常廣泛。一些計算機視覺問題明顯是純粹從視覺上「捕獲」視覺信息的過程;例如,早期視覺過濾器 [5] 以 primal sketch[13] 作為中間表徵,以格式塔法則(Gestalt law)[24] 作為感知組織。相比之下,其他一些視覺問題對於感知圖像的要求比較瑣碎,但是在關係或類比視覺推理方面能解決更普遍的問題 [16]。在這種情況下,視覺組成成為「決定我們想法和行動的基礎」。
目前,大多數計算機視覺任務都聚焦於「捕獲」視覺信息的過程;很少有工作重點放在後面的部分——關係或類比的視覺推理。在為人工系統配備推理能力方面,現有的一項工作圍繞著視覺問答(VQA)展開 [2,22,48,58,62]。然而,VQA 所需的推理能力只處於認知能力測試圈的邊緣 [7]。為了突破計算機視覺的極限,甚至人工智慧(AI)的極限,在認知能力測試圈的中心,我們需要設計一個用於測量人類智能的測試來挑戰、調試和改進現有的人工系統。
一個非常有效的人類視覺推理能力測試已經開發出來,被稱為瑞文測試(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文測試(RPM)是一項廣泛應用的非文字推理能力測試,屬於漸近性矩陣圖。測試者需要在漸進矩陣圖中根據直接觀察結果進行間接抽象推理。這一測試已得到廣泛認可,並被認為與真實智能高度相關 [7]。與 VQA 不同,RPM 直接位於人類智能中心 [7],是對抽象和結構推理能力的判斷 [9],並且描述了高級智能的定義特徵,即流體智能 [21]。
圖 1:(a) RPM 示例。其中一項任務是根據結構和類比關係,選擇出最符合邏輯的圖像。每個圖像都有一個底層結構。(b) 具體地說,在該問題中,這是一個由內而外的架構,外部組成是一個只有一個中心的目標分布,內部組成是一個 2×2 的網格布局。圖 2.(c) 中的細節列出了 (a) 中的規則。規則的各種性質組合起來使這個問題變得難解。正確答案是 7。
圖 1 顯示了 RPM 問題及其結構表徵。提供了由視覺上簡單的元素組成的兩行圖形,一個必須有效地導出正確的圖像結構(圖 1(b))和基本規則(圖 1(c)),從而共同推理出最佳的候選圖像。就所需的推理水平而言,RPM 可能比 RPM 更難:
在 VQA 中,自然語言指出了圖像中需要注意的東西,但 RPM 與之不同,它僅依賴於矩陣中提供的視覺線索和對應問題本身,即找到正確的編碼屬性級,這已經是區分不同智力人群的一個主要因素了 [7]。VQA 只需要空間和語義理解,但 RPM 需要在問題矩陣和答案集中進行時空聯合推理。短期記憶的限制、類比能力以及結構的發現也必須考慮在內。RPM 中的結構使規則的組合更加複雜。VQA 的問題僅編碼相對簡單的一階推理,但 RPM 通常包括更複雜的邏輯,甚至使用遞歸。通過在不同級別編寫不同的規則,推理過程可能會非常困難。
為了突破當前視覺系統推理能力的極限,UCLA 朱松純團隊生成了一個新的數據集,以促進該領域的進一步研究。他們將這個數據集稱為關係和類比視覺推理數據集(RAVEN),以紀念 John Raven 開創 RPM 的工作 [47]。綜上所述:
RAVEN 由 1,120,000 個圖像和 70,000 個 RPM 問題組成,均勻分布在 7 種不同的圖形配置中。每個問題都有 16 個樹結構注釋,在整個數據集中共計 1,120,000 個結構標籤。研究者設計了 5 個規則管理屬性和 2 個噪聲屬性。每個規則管理屬性至少包含 4 個規則之一,同一組中的對象共享同一組規則,共計 440,000 個規則注釋,每個問題平均有 6.29 個規則。
RAVEN 數據集本身設計為輕視覺識別、重推理的形式。每個圖像僅包含一組簡單灰度物體,邊界清晰沒有遮擋。與此同時,規則是逐行應用的,每個屬性可有一個規則,以應對視覺系統在短期記憶和組成成分推理中的主要弱點 [22]。
一個明顯的悖論是:在這個組合和結構化的 RPM 問題中,以前的工作沒有提供結構注釋(如[3,55])。因此,研究者開始在 RPM 中建立視覺推理和結構推理之間的語義聯繫。他們將每個問題實例與屬性隨機圖像語法(A-SIG)[12,30,43,56,60,61] 的句子相對應,並將數據生成過程分解為兩個階段:第一階段從預定義的 A-SIG 中對句子進行採樣,第二階段基於句子渲染圖像。這種結構化設計使數據集非常多樣化,且易於擴展,從而可以在不同的圖形配置中進行泛化測試。更重要的是,數據生成流程為他們提供了豐富的密集注釋,尤其是圖像空間中的結構。視覺和結構表徵之間的這種語義聯繫,將問題分解為圖像理解和樹或圖級推理,從而有了新的可能 [26,53]。實驗證明,採用簡單的結構推理模塊,將視覺層級的理解和結構層級的推理結合起來,可以顯著提高模型在 RPM 中的性能。
圖 2:RAVEN 創建過程。(b) 說明了 A-SIG 中使用的語法生成規則。(c) 顯示布局和實體具有關聯的屬性。(a) 給定隨機採樣的規則組合,首先修剪語法樹(修剪透明分支)。然後將圖像結構與來自 (b) 的屬性值一起採樣,用黑色表示,並應用規則集 (a) 生成單個行。重複該過程三次得到 (d) 中的整個問題矩陣。(e) 最後對約束屬性進行抽樣,並在正確的答案中改變它們以打破規則並獲得候選答案集。
圖 4:推薦的 RAVEN 數據集中 7 種不同圖形配置的示例。
表 2:人類受試者和計算機中每個模型的測試準確度。Acc 表示每個模型的平均精度,其他列顯示不同圖形配置下的模型精度。L-R 表示左-右,U-D 表示上-下,O-IC 表示圓外-圓內,O-IG 表示網外-網內。注意,完美的解決方案可以訪問規則運算並搜索符號問題表徵。
論文:RAVEN: A Dataset for Relational and Analogical Visual rEasoNing
論文連結:https://arxiv.org/abs/1903.02741
涉及低級感知的基本視覺任務(例如物體識別、檢測和追蹤)已經取得了顯著的進展。不幸的是,就更高級別的視覺問題而言,人工視覺系統與人類智能之間仍存在巨大的性能差距,尤其是推理問題。早期為機器配備高級推理的工作一直圍繞著視覺問答(VQA)展開,這是一項將視覺和語言理解聯繫起來的典型任務。在此項工作中,我們提出了一個新的數據集,它基於瑞文測試(RPM),旨在通過將視覺與結構、關係和類比推理在層級表徵中相關聯來提升機器智能。與之前使用 RPM 測量抽象推理的工作不同,我們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。在這個新提出的數據集中,我們評估了使用現代計算機視覺的機器的推理能力。此外,我們還提供人類表現作為參考。最後,我們通過合併一個結合視覺理解和結構推理的簡單神經模塊,在所有模型上都實現了改進。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。