...| 讓機器幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理...

2020-12-25 機器之心Pro

選自arXiv

作者：Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu

機器之心編譯

參與：高璇、張倩

早期為機器加入高級推理的工作一直圍繞著視覺問答（VQA）展開，但 VQA 所需的推理能力只處於認知能力測試圈的邊緣。為了突破當前視覺推理能力的極限，UCLA 朱松純團隊基於一項更難的人類視覺推理任務——瑞文測試（RPM，例如《行測》中的圖形推理題）構建了關係和類比視覺推理數據集 RAVEN。與之前使用 RPM 評估抽象推理能力的工作不同，他們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作，可以實現新型的抽象推理。

項目地址：http://wellyzhang.github.io/project/raven.html

視覺研究不僅必須包括如何從圖像中提取信息，同時也是對信息的內部表徵本質的探究，從而將其作為決定我們想法和行動的基礎。（David Marr，1982 年 [35]）

計算機視覺應用範圍非常廣泛。一些計算機視覺問題明顯是純粹從視覺上「捕獲」視覺信息的過程；例如，早期視覺過濾器 [5] 以 primal sketch[13] 作為中間表徵，以格式塔法則（Gestalt law）[24] 作為感知組織。相比之下，其他一些視覺問題對於感知圖像的要求比較瑣碎，但是在關係或類比視覺推理方面能解決更普遍的問題 [16]。在這種情況下，視覺組成成為「決定我們想法和行動的基礎」。

目前，大多數計算機視覺任務都聚焦於「捕獲」視覺信息的過程；很少有工作重點放在後面的部分——關係或類比的視覺推理。在為人工系統配備推理能力方面，現有的一項工作圍繞著視覺問答（VQA）展開 [2,22,48,58,62]。然而，VQA 所需的推理能力只處於認知能力測試圈的邊緣 [7]。為了突破計算機視覺的極限，甚至人工智慧（AI）的極限，在認知能力測試圈的中心，我們需要設計一個用於測量人類智能的測試來挑戰、調試和改進現有的人工系統。

一個非常有效的人類視覺推理能力測試已經開發出來，被稱為瑞文測試（Raven's Progressive Matrices，RPM）[28,47,52]。瑞文測試（RPM）是一項廣泛應用的非文字推理能力測試，屬於漸近性矩陣圖。測試者需要在漸進矩陣圖中根據直接觀察結果進行間接抽象推理。這一測試已得到廣泛認可，並被認為與真實智能高度相關 [7]。與 VQA 不同，RPM 直接位於人類智能中心 [7]，是對抽象和結構推理能力的判斷 [9]，並且描述了高級智能的定義特徵，即流體智能 [21]。

圖 1：(a) RPM 示例。其中一項任務是根據結構和類比關係，選擇出最符合邏輯的圖像。每個圖像都有一個底層結構。(b) 具體地說，在該問題中，這是一個由內而外的架構，外部組成是一個只有一個中心的目標分布，內部組成是一個 2×2 的網格布局。圖 2.(c) 中的細節列出了 (a) 中的規則。規則的各種性質組合起來使這個問題變得難解。正確答案是 7。

圖 1 顯示了 RPM 問題及其結構表徵。提供了由視覺上簡單的元素組成的兩行圖形，一個必須有效地導出正確的圖像結構（圖 1(b)）和基本規則（圖 1(c)），從而共同推理出最佳的候選圖像。就所需的推理水平而言，RPM 可能比 RPM 更難：

在 VQA 中，自然語言指出了圖像中需要注意的東西，但 RPM 與之不同，它僅依賴於矩陣中提供的視覺線索和對應問題本身，即找到正確的編碼屬性級，這已經是區分不同智力人群的一個主要因素了 [7]。VQA 只需要空間和語義理解，但 RPM 需要在問題矩陣和答案集中進行時空聯合推理。短期記憶的限制、類比能力以及結構的發現也必須考慮在內。RPM 中的結構使規則的組合更加複雜。VQA 的問題僅編碼相對簡單的一階推理，但 RPM 通常包括更複雜的邏輯，甚至使用遞歸。通過在不同級別編寫不同的規則，推理過程可能會非常困難。

為了突破當前視覺系統推理能力的極限，UCLA 朱松純團隊生成了一個新的數據集，以促進該領域的進一步研究。他們將這個數據集稱為關係和類比視覺推理數據集（RAVEN），以紀念 John Raven 開創 RPM 的工作 [47]。綜上所述：

RAVEN 由 1,120,000 個圖像和 70,000 個 RPM 問題組成，均勻分布在 7 種不同的圖形配置中。每個問題都有 16 個樹結構注釋，在整個數據集中共計 1,120,000 個結構標籤。研究者設計了 5 個規則管理屬性和 2 個噪聲屬性。每個規則管理屬性至少包含 4 個規則之一，同一組中的對象共享同一組規則，共計 440,000 個規則注釋，每個問題平均有 6.29 個規則。

RAVEN 數據集本身設計為輕視覺識別、重推理的形式。每個圖像僅包含一組簡單灰度物體，邊界清晰沒有遮擋。與此同時，規則是逐行應用的，每個屬性可有一個規則，以應對視覺系統在短期記憶和組成成分推理中的主要弱點 [22]。

一個明顯的悖論是：在這個組合和結構化的 RPM 問題中，以前的工作沒有提供結構注釋（如[3,55]）。因此，研究者開始在 RPM 中建立視覺推理和結構推理之間的語義聯繫。他們將每個問題實例與屬性隨機圖像語法（A-SIG）[12,30,43,56,60,61] 的句子相對應，並將數據生成過程分解為兩個階段：第一階段從預定義的 A-SIG 中對句子進行採樣，第二階段基於句子渲染圖像。這種結構化設計使數據集非常多樣化，且易於擴展，從而可以在不同的圖形配置中進行泛化測試。更重要的是，數據生成流程為他們提供了豐富的密集注釋，尤其是圖像空間中的結構。視覺和結構表徵之間的這種語義聯繫，將問題分解為圖像理解和樹或圖級推理，從而有了新的可能 [26,53]。實驗證明，採用簡單的結構推理模塊，將視覺層級的理解和結構層級的推理結合起來，可以顯著提高模型在 RPM 中的性能。

圖 2：RAVEN 創建過程。(b) 說明了 A-SIG 中使用的語法生成規則。(c) 顯示布局和實體具有關聯的屬性。(a) 給定隨機採樣的規則組合，首先修剪語法樹（修剪透明分支）。然後將圖像結構與來自 (b) 的屬性值一起採樣，用黑色表示，並應用規則集 (a) 生成單個行。重複該過程三次得到 (d) 中的整個問題矩陣。(e) 最後對約束屬性進行抽樣，並在正確的答案中改變它們以打破規則並獲得候選答案集。

圖 4：推薦的 RAVEN 數據集中 7 種不同圖形配置的示例。

表 2：人類受試者和計算機中每個模型的測試準確度。Acc 表示每個模型的平均精度，其他列顯示不同圖形配置下的模型精度。L-R 表示左-右，U-D 表示上-下，O-IC 表示圓外-圓內，O-IG 表示網外-網內。注意，完美的解決方案可以訪問規則運算並搜索符號問題表徵。

論文：RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

論文連結：https://arxiv.org/abs/1903.02741

涉及低級感知的基本視覺任務（例如物體識別、檢測和追蹤）已經取得了顯著的進展。不幸的是，就更高級別的視覺問題而言，人工視覺系統與人類智能之間仍存在巨大的性能差距，尤其是推理問題。早期為機器配備高級推理的工作一直圍繞著視覺問答（VQA）展開，這是一項將視覺和語言理解聯繫起來的典型任務。在此項工作中，我們提出了一個新的數據集，它基於瑞文測試（RPM），旨在通過將視覺與結構、關係和類比推理在層級表徵中相關聯來提升機器智能。與之前使用 RPM 測量抽象推理的工作不同，我們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作，可以實現新型的抽象推理。在這個新提出的數據集中，我們評估了使用現代計算機視覺的機器的推理能力。此外，我們還提供人類表現作為參考。最後，我們通過合併一個結合視覺理解和結構推理的簡單神經模塊，在所有模型上都實現了改進。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

...| 讓機器幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理...

相關焦點

行測篇5:類比推理題定位解題法

2020國考行測題庫:行測類比推理模擬題

行測技巧:類比推理中的條件關係

行測類比推理備考之全異關係

行測類比推理成語題如何解答

2020甘肅省考行測判斷推理答題技巧:類比推理中的條件關係

2020國家公務員考試行測備考技巧-類比推理題的三種形式

2020國考行測題庫:行測類比推理模擬題及答案解析5.26

行測類比推理反對關係與矛盾關係辨析

2022國考行測類比推理之語法關係

2022國家公務員考試行測類比推理五類言語關係講解

公務員考試行測技巧:類比推理之邏輯關係

2019國家公務員考試行測類比推理模擬題及答案

2017甘肅省公務員考試行測備考:類比推理言語關係考點講解

2020甘肅省考行測判斷推理備考技巧:類比推理之常見詞項間關係的...

國家公務員行測類比推理基礎知識

省考行測類比推理中的語法關係

2021國考行測判斷推理備考技巧:類比推理當中的「名詞:動詞」

類比推理題怎麼做_2020安徽省考行測備考(判斷)

行測備考:類比推理的解題思路