...幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理數據集RAVEN

2021-01-11 機器之心Pro

選自arXiv

作者:Chi Zhang, Feng Gao, Baoxiong Jia, Yixin Zhu, Song-Chun Zhu

機器之心編譯

參與:高璇、張倩

早期為機器加入高級推理的工作一直圍繞著視覺問答(VQA)展開,但 VQA 所需的推理能力只處於認知能力測試圈的邊緣。為了突破當前視覺推理能力的極限,UCLA 朱松純團隊基於一項更難的人類視覺推理任務——瑞文測試(RPM,例如《行測》中的圖形推理題)構建了關係和類比視覺推理數據集 RAVEN。與之前使用 RPM 評估抽象推理能力的工作不同,他們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。

項目地址:http://wellyzhang.github.io/project/raven.html

視覺研究不僅必須包括如何從圖像中提取信息,同時也是對信息的內部表徵本質的探究,從而將其作為決定我們想法和行動的基礎。(David Marr,1982 年 [35])

計算機視覺應用範圍非常廣泛。一些計算機視覺問題明顯是純粹從視覺上「捕獲」視覺信息的過程;例如,早期視覺過濾器 [5] 以 primal sketch[13] 作為中間表徵,以格式塔法則(Gestalt law)[24] 作為感知組織。相比之下,其他一些視覺問題對於感知圖像的要求比較瑣碎,但是在關係或類比視覺推理方面能解決更普遍的問題 [16]。在這種情況下,視覺組成成為「決定我們想法和行動的基礎」。

目前,大多數計算機視覺任務都聚焦於「捕獲」視覺信息的過程;很少有工作重點放在後面的部分——關係或類比的視覺推理。在為人工系統配備推理能力方面,現有的一項工作圍繞著視覺問答(VQA)展開 [2,22,48,58,62]。然而,VQA 所需的推理能力只處於認知能力測試圈的邊緣 [7]。為了突破計算機視覺的極限,甚至人工智慧(AI)的極限,在認知能力測試圈的中心,我們需要設計一個用於測量人類智能的測試來挑戰、調試和改進現有的人工系統。

一個非常有效的人類視覺推理能力測試已經開發出來,被稱為瑞文測試(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文測試(RPM)是一項廣泛應用的非文字推理能力測試,屬於漸近性矩陣圖。測試者需要在漸進矩陣圖中根據直接觀察結果進行間接抽象推理。這一測試已得到廣泛認可,並被認為與真實智能高度相關 [7]。與 VQA 不同,RPM 直接位於人類智能中心 [7],是對抽象和結構推理能力的判斷 [9],並且描述了高級智能的定義特徵,即流體智能 [21]。

圖 1:(a) RPM 示例。其中一項任務是根據結構和類比關係,選擇出最符合邏輯的圖像。每個圖像都有一個底層結構。(b) 具體地說,在該問題中,這是一個由內而外的架構,外部組成是一個只有一個中心的目標分布,內部組成是一個 2×2 的網格布局。圖 2.(c) 中的細節列出了 (a) 中的規則。規則的各種性質組合起來使這個問題變得難解。正確答案是 7。

圖 1 顯示了 RPM 問題及其結構表徵。提供了由視覺上簡單的元素組成的兩行圖形,一個必須有效地導出正確的圖像結構(圖 1(b))和基本規則(圖 1(c)),從而共同推理出最佳的候選圖像。就所需的推理水平而言,RPM 可能比 RPM 更難:

在 VQA 中,自然語言指出了圖像中需要注意的東西,但 RPM 與之不同,它僅依賴於矩陣中提供的視覺線索和對應問題本身,即找到正確的編碼屬性級,這已經是區分不同智力人群的一個主要因素了 [7]。VQA 只需要空間和語義理解,但 RPM 需要在問題矩陣和答案集中進行時空聯合推理。短期記憶的限制、類比能力以及結構的發現也必須考慮在內。RPM 中的結構使規則的組合更加複雜。VQA 的問題僅編碼相對簡單的一階推理,但 RPM 通常包括更複雜的邏輯,甚至使用遞歸。通過在不同級別編寫不同的規則,推理過程可能會非常困難。

為了突破當前視覺系統推理能力的極限,UCLA 朱松純團隊生成了一個新的數據集,以促進該領域的進一步研究。他們將這個數據集稱為關係和類比視覺推理數據集(RAVEN),以紀念 John Raven 開創 RPM 的工作 [47]。綜上所述:

RAVEN 由 1,120,000 個圖像和 70,000 個 RPM 問題組成,均勻分布在 7 種不同的圖形配置中。每個問題都有 16 個樹結構注釋,在整個數據集中共計 1,120,000 個結構標籤。研究者設計了 5 個規則管理屬性和 2 個噪聲屬性。每個規則管理屬性至少包含 4 個規則之一,同一組中的對象共享同一組規則,共計 440,000 個規則注釋,每個問題平均有 6.29 個規則。

RAVEN 數據集本身設計為輕視覺識別、重推理的形式。每個圖像僅包含一組簡單灰度物體,邊界清晰沒有遮擋。與此同時,規則是逐行應用的,每個屬性可有一個規則,以應對視覺系統在短期記憶和組成成分推理中的主要弱點 [22]。

一個明顯的悖論是:在這個組合和結構化的 RPM 問題中,以前的工作沒有提供結構注釋(如[3,55])。因此,研究者開始在 RPM 中建立視覺推理和結構推理之間的語義聯繫。他們將每個問題實例與屬性隨機圖像語法(A-SIG)[12,30,43,56,60,61] 的句子相對應,並將數據生成過程分解為兩個階段:第一階段從預定義的 A-SIG 中對句子進行採樣,第二階段基於句子渲染圖像。這種結構化設計使數據集非常多樣化,且易於擴展,從而可以在不同的圖形配置中進行泛化測試。更重要的是,數據生成流程為他們提供了豐富的密集注釋,尤其是圖像空間中的結構。視覺和結構表徵之間的這種語義聯繫,將問題分解為圖像理解和樹或圖級推理,從而有了新的可能 [26,53]。實驗證明,採用簡單的結構推理模塊,將視覺層級的理解和結構層級的推理結合起來,可以顯著提高模型在 RPM 中的性能。

圖 2:RAVEN 創建過程。(b) 說明了 A-SIG 中使用的語法生成規則。(c) 顯示布局和實體具有關聯的屬性。(a) 給定隨機採樣的規則組合,首先修剪語法樹(修剪透明分支)。然後將圖像結構與來自 (b) 的屬性值一起採樣,用黑色表示,並應用規則集 (a) 生成單個行。重複該過程三次得到 (d) 中的整個問題矩陣。(e) 最後對約束屬性進行抽樣,並在正確的答案中改變它們以打破規則並獲得候選答案集。

圖 4:推薦的 RAVEN 數據集中 7 種不同圖形配置的示例。

表 2:人類受試者和計算機中每個模型的測試準確度。Acc 表示每個模型的平均精度,其他列顯示不同圖形配置下的模型精度。L-R 表示左-右,U-D 表示上-下,O-IC 表示圓外-圓內,O-IG 表示網外-網內。注意,完美的解決方案可以訪問規則運算並搜索符號問題表徵。

論文:RAVEN: A Dataset for Relational and Analogical Visual rEasoNing

論文連結:https://arxiv.org/abs/1903.02741

涉及低級感知的基本視覺任務(例如物體識別、檢測和追蹤)已經取得了顯著的進展。不幸的是,就更高級別的視覺問題而言,人工視覺系統與人類智能之間仍存在巨大的性能差距,尤其是推理問題。早期為機器配備高級推理的工作一直圍繞著視覺問答(VQA)展開,這是一項將視覺和語言理解聯繫起來的典型任務。在此項工作中,我們提出了一個新的數據集,它基於瑞文測試(RPM),旨在通過將視覺與結構、關係和類比推理在層級表徵中相關聯來提升機器智能。與之前使用 RPM 測量抽象推理的工作不同,我們通過提供結構表徵來建立視覺和推理之間的語義聯繫。通過對結構表徵進行聯合操作,可以實現新型的抽象推理。在這個新提出的數據集中,我們評估了使用現代計算機視覺的機器的推理能力。此外,我們還提供人類表現作為參考。最後,我們通過合併一個結合視覺理解和結構推理的簡單神經模塊,在所有模型上都實現了改進。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 2015年黑龍江公務員考試行測指導:類比推理之成語結構辨析
    在公務員考試行測類比推理的題目中,言語關係是其中的一個不可忽視的知識點,主要考察的是詞義(近反義、褒貶)、詞性(名動形)和詞語的結構。邏輯關係的知識點很多人都能夠根據生活經驗比較順利地拿下,而言語關係雖然很熟悉,每天都在使用,但是卻很少有人去仔細考慮其中的關係和區別。在此,黑龍江省公務員考試網就言語關係中的詞語結構進行小結,以期為備考中的廣大學子提供一些借鑑。
  • 朱松純將回國加入清華,曾對李飛飛創建ImageNet有啟示
    2005年,朱松純在其故鄉湖北鄂州創辦蓮花山研究院,籌建了世界上最早的大數據標註團隊,發布了精細化程度最高、語義信息最豐富的大規模資料庫 LHI Dataset。朱松純上世紀九十年代開始把概率模型引入視覺問題,二十一世紀初就開始做圖像識別,後來又很早就開始做圖像識別的數據集構建工作(LHI dataset,標註詳細,不過收費閉源),並在SVM非常流行的時候堅持探索層級表徵(走的是層次概率圖模型的路線)。朱松純提過的大方向,不一定都成為現實,但是正確的概率很高。
  • 30秒巧解類比推理
    今天為大家帶來事業單位判斷推理:30秒巧解類比推理。在各類公職類考試中,類比推理題目可以說是非常常考的題型了。但是縱觀各類考試,這部分題目考生的準確率甚至比邏輯判斷更低一些。這部分題目看似簡單,閱讀量小,導致很多考生的重視度也不是很高,甚至有些考生在做這類題目時完全憑感覺,不去總結出題人常考的角度,不能做到有的放矢,自認也就不能做到30秒之內快速作答。
  • 2021年甘肅公務員行測模擬題:數量關係(12.3)
    2021年甘肅公務員行測模擬題:數量關係(12.3) 甘肅省公務員考試通常有筆試和面試,其中筆試內容包括:行政職業能力測試以及申論,其中《行政職業能力測驗》主要測查與公務員職業密切相關的、適合客觀化紙筆測驗方式進行考查的基本素質和能力要素,包括言語理解與表達
  • 2021北京公務員考試行測言語理解練習題(661)
    北京公務員考試行測題庫:北京人事考試網提供2021北京公務員考試行測判斷推理試題及答案、圖形推理、邏輯判斷、定義判斷、類比推理等模擬練習題庫。【行測練習題】1、依據原文提供的信息,下列推斷不正確的一項是:A.文中「我對傳統的看法是沒有疑義的」中的「傳統的看法」暗指《涉江》的寫作時間與《離騷》大致相同B.郭沫若的「餘昔以《涉江》作於《哀郢》之後,今知其非是」一語,說明《涉江》之作殆與《離騷》相去很遠C.
  • 2020寧夏事業單位行測題庫:判斷推理考試練習題(1)
    【導讀】寧夏華圖事業單位考試網同步未知發布:2020寧夏事業單位行測題庫:判斷推理考試練習題(1),詳細信息請閱讀下文!下面寧夏事業單位考試網為大家帶來判斷推理題庫之判斷推理考試練習題(1)。可以幫助各位考生順利備考!
  • 事業單位考試職測技巧:類比推理中你應該知道的事兒
    類比推理題型的特點是篇幅短,閱讀量小,常識覆蓋面廣,這種題型看上去簡單,稍有不慎極容易選錯。那我們在考試的過程中如何應對類比推理這種題型。首先面對類比推理,我們應該整理清楚題幹中的項間關係,然後依據題幹中的項間關係進行選擇,如銀杏:公孫樹,銀杏和公孫樹是同一事物的不同稱呼,即為全同的關係,接下來我們要選擇的選項也應該為全同關係。
  • 一個菜鳥,離奇上岸,花兩天時間 為大家總結的 行測蒙題技巧,請認真看完
    全是乾貨,不看後悔哦~行測部分佔比較大,題量多,掌握這些答題&蒙題小技巧,讓你一分鐘一道題不成問題↓↓言語理解1、先讀問題,再讀題幹。1、表格、圖形、混合、文字順序,一定做不完,由簡入難。時間不夠可以從簡單的圖表入手;題目時間不夠,可以從簡單入手,不做最後判斷題目;最後判斷題目時間不夠,可以從簡單入手,看簡單的選項的對錯。2、先看問題,閱讀時勾畫關鍵詞。3、判斷、組合題先從容易的入手。4、中心詞閱讀,數據略過就好。
  • 國省公務員考試類比推理解題技巧例子,綜合華圖中公粉筆知識
    今天給大家分享類比推理的答題技巧,分享技巧之前先給大家公布上一期課後練習的答案與猜題思路。 上期課後題答案:第一題B,第二題A。標準解析大家都留言說了,在這就不多說直接給大家說怎麼猜答案,第一題猜題思路:題目1.2.3前三個圖形分別是魚、貓、不倒翁很具體,4.5圖形像什麼具體叫不出來。
  • 2019福建省考行測判斷推理:「再社會化」與「繼續社會化」
    2019福建省考行測判斷推理:「再社會化」與「繼續社會化」 福建公務員考試網為您提供福建省公務員考試行測輔導資料,包含2019福建省考行測答題技巧/行測常識/分值分布。公務員考試當中有幾類題型會涉及到對常識的考查,其中就有這麼一類比較重要的題型——定義判斷。
  • 2019北京公務員考試行測數量關係/數學運算/數字推理解題技巧匯總
    行測數量關係答題技巧:北京人事考試網提供2019北京公務員考試行測數量關係解題技巧,包括數學運算、數字推理、數學公式等數量關係模塊寶典。北京中公教育為廣大考生整理2018北京公務員考試行測數量關係一系列備考方法匯總。更多北京公務員考試信息,請點擊北京公務員考試網。
  • 公考類比推理高分必知:少年,作為「後浪」,我想對你說
    我是華智公考張老師02今天繼續講類比推理-括號式,何為括號式,簡單來講就是兩個詞進行類比。所以我們在解題的時候,只要關注題幹中這兩個詞的關係,然後選擇關係與題幹一樣的就可以了這次我們以後浪開始1. 前浪對於( )相當於( )對於後浪A. 中年人:年輕人B. 花開:花敗C.
  • 2015國家公務員考試行測技巧:翻譯推理思路點撥
    2015國家公務員考試行測技巧:翻譯推理思路點撥由國家公務員考試網高分經驗欄目由提供,更多關於2015國家公務員考試,行測技巧,國家公務員考試高分經驗的內容,請關注國家公務員考試網/廣東公務員考試網!
  • 2021年甘肅公務員行測言語理解:承接敘述題之親密的話題
    2021年甘肅公務員行測言語理解:承接敘述題之親密的話題 甘肅省公務員考試筆試內容包括:行政職業能力測試以及申論,其中《行政職業能力測驗》主要包括言語理解與表達、判斷推理、數量關係、資料分析和綜合知識等部分。
  • 2022國家公務員考試行測題庫:行測數學運算模擬題
    2021-01-14 10:04:59 來源: 青海海南州中公教育 舉報   行測題庫
  • 2014國家公務員考試行測數量關係典型題:等比數列
    2014國家公務員考試行測數量關係典型題:等比數列由國家公務員考試網高分經驗欄目由提供,更多關於2014國家公務員考試,行測,公務員考試,,國家公務員考試高分經驗的內容,請關注國家公務員考試網/廣東公務員考試網!
  • 2021福建公務員考試行測數量關係:特值法該怎麼用?
    2021福建公務員考試行測數量關係:特值法該怎麼用? 福建公務員考試網為您提供福建省公務員考試行測輔導資料,提供數量關係資料,包括數量關係解題技巧、數量關係題庫、數量關係答題技巧、數量關係模塊寶典。
  • 北理工&阿里文娛:結合常識與推理,更好地理解視頻並生成描述
    而這個推斷的依據就是「人群圍觀」和「比賽」之間的關聯常識。受此啟發,本文作者提出利用常識引導推斷圖像視頻中的語義關係,進而生成文字語句的描述方法。該方法聯合關係與常識推理,不依賴任何物體或關係檢測器,並且在訓練時也不需要場景圖的標註,這樣的好處是:(1) 通過額外知識的引導,探索獲得難以從視覺信息中學到的物體或關係;(2) 通過端到端的學習,可以保持圖像視頻和文字描述的語義一致性。
  • 2020國考行測備考:片段閱讀細節題注意「節奏感」
    【導讀】華圖國家公務員考試網同步未知發布:2020國考行測備考:片段閱讀細節題注意「節奏感」,詳細信息請閱讀下文!下面寧夏華圖告訴你做到以下幾點也能提升解題效率,。   一、慢   片段閱讀的題目要求我們在閱讀題幹的時候要快,並且能夠在快速閱讀中概括出主旨觀點,從宏觀能夠很快速的把握文段的中心。而細節題的考查以微觀為主,在一個句子中挖出一些條件或者語詞進行選項的設置。