NIPS 2018 | MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答

2020-12-13 機器之心Pro

選自arXiv

作者:Kexin Yi、Jiajun Wu、Chuang Gan、Antonio Torralba、Pushmeet Kohli、Joshua B. Tenenbaum

機器之心編譯

參與:panda

視覺問答是人工智慧領域的一大重要研究問題,可幫助開發能遵照人類口語指令執行任務的程序或機器人等應用。MIT、哈佛等機構合作的一項研究提出了一種神經符號視覺問答(NS-VQA)系統,將深度表徵學習與符號程序執行結合到了一起。該研究的論文已被 NIPS 2018 接收。

論文地址:https://arxiv.org/pdf/1810.02338.pdf

我們將兩種強大的技術思想結合到了一起:用於視覺識別和語言理解的深度表徵學習,以及用於推理的符號程序執行。我們的神經符號視覺問答(NS-VQA)系統首先會根據圖像恢復一個結構化的場景表徵,並會根據問題恢復一個程序軌跡。然後它會在這個場景表徵上執行該程序以得到答案。將符號結構整合成先驗知識具有三大獨特的好處。第一,在符號空間上執行程序對長程序軌跡而言更加穩健;我們的模型可以更好地解決複雜的推理任務,能在 CLEVR 數據集上達到 99.8% 的準確度。第二,這樣的模型在數據和內存上更加高效:在少量訓練數據上學習之後能取得優良的表現;它還能將圖像編碼成緊湊的表徵,所需的存儲空間會比現有的離線問答方法更少。第三,符號程序執行能為推理過程提供完整的透明度;因此我們能夠實現對每個執行步驟的解讀和診斷。

引言

對於圖 1 中的圖像和問題,我們可以立即識別出其中的物體和它們的屬性,解析複雜的問題,並利用這樣的知識來推理和回答這些問題。我們也能清楚地解釋我們推理得到這些答案的方式。現在請想像你正站在這些場景前,閉著眼睛,只能通過觸摸的方式構建你的場景表徵。毫不意外,沒有視覺的推理依然毫不費力。對於人類而言,推理是完全可解釋的,而且並不一定涉及視覺感知。

圖 1:人類推理是可解讀和可解耦的:我們首先會通過視覺感知獲取抽象的場景知識,然後會在此之上執行邏輯推理。這能夠在豐富的視覺背景中實現組分式的、準確的和可泛化的推理。

深度表徵學習的進步和大規模數據集的發展 [Malinowski and Fritz, 2014, Antol et al., 2015] 催生了很多用於視覺問答(VQA)的開創性方法,這些方法大都是以端到端的方式訓練的 [Yang et al., 2016]。但是,創新的完全基於神經網絡的方法往往在高難度的推理任務上表現不佳。尤其值得一提的是,一項近期研究 [Johnson et al., 2017a] 設計了一個新的 VQA 數據集 CLEVR,其中每張圖像都帶有由程序生成的複雜多變的組分式問題,該研究也表明之前最佳的 VQA 模型的表現並不好。

之後,Johnson et al. [2017b] 表明可以通過將預先的人類語言知識連接進來作為程序,從而幫助機器學習推理。具體而言,他們的模型集成了一個程序生成器,其可推理一個問題的底層程序和一個學習後的基於注意的執行器,該執行器可在輸入圖像上運行這個程序。

這樣的組合能在 CLEVR 數據集上實現非常好的表現,而且能夠足夠好地泛化用於 CLEVR-Humans——這個數據集包含與 CLEVR 一樣的圖像但搭配的問題是人類提出的。但是,他們的模型仍然有兩個局限:第一,訓練程序生成器需要很多有標註的示例;第二,基於注意的神經執行器的行為難以解釋。相對而言,即使僅有少量有標籤的實例,我們人類也可以在 CLEVR 和 CLEVR-Humans 上執行推理,而且我們也能清楚地解釋我們的推理方式。

在這篇論文中,我們在學習 vs. 建模方面更進了一步,提出了一種用於視覺問答的神經符號方法(NS-VQA),該方法完全將視覺及語言的理解和推理分開了。我們使用神經網絡作為解析工具——根據圖像推斷結構化的基於目標的場景表徵,根據問題生成程序。然後我們集成一個符號程序執行器作為神經解析器的補充,這個執行器可在場景表徵上運行生成的程序以得到答案。

深度認知模塊和符號程序執行器的組合具有三大獨特的優勢。第一,符號表徵的使用能提供對長的複雜程序軌跡的穩健性。它還能減少對訓練數據的需求。在 CLEVR 數據集上,我們的方法在有 270 個程序標註加 4000 張圖像的問題上進行了訓練,能夠實現高達 99.8% 的接近完美的準確度。

第二,我們的推理模塊和視覺場景表徵都是輕量級的,僅需要最少量的計算和內存成本。尤其值得一提的是,我們的緊湊型結構化圖像表徵在推理過程中所需的存儲空間要少得多,相比於其它當前最佳的算法,內存成本能降低 99%。

第三,符號場景表徵和程序軌跡的使用能迫使模型準確地基於問題恢復底層的程序。結合完全透明且可解讀的符號表徵的本質,可以對推理過程進行一步步地分析和診斷。

方法

我們的 NS-VQA 模型有三個組件:場景解析器(去渲染器/de-renderer)、問題解析器(程序生成器)和程序執行器。給定一個圖像-問題對,場景解析器會去除圖像的渲染效果,得到結構化的場景表徵(圖 2-I),問題解析器會基於問題生成層次化的程序(圖 2-II),程序執行器會在結構化的表徵上運行程序從而得到答案(圖 2-III)。

圖 2:我們的模型有三個組件:一是場景解析器(去渲染器),它的功能是分割輸入圖像(a-b)並將其恢復成一個結構化的場景表徵(c);二是問題解析器(程序生成器),其可將自然語言的問題(d)轉換成程序(e);三是在結構化場景表徵上運行程序以得到答案的程序執行器。

我們的場景解析器能夠恢復圖像中場景的結構化的和解耦的表徵(圖 2a),基於此我們可以執行完全可解釋的符號推理。這個解析器採用了一種兩步式的基於分割的方法來進行去渲染:它首先會生成一些分割提議(圖 2b);對於每個分割,都會對物體及其屬性進行分類。最終得到的結構化的場景表徵是解耦的、緊湊的和豐富的(圖 2c)。

問題解析器將自然語言的輸入問題(圖 2d)映射成一個隱含程序(圖 2e)。這個程序有層次化的函數模塊,其中每個模塊都能在場景表徵上實現獨立操作。使用層次化的程序作為我們的推理骨幹能夠自然地提供組合性和泛化能力。

程序執行器能夠基於問題解析器的輸出序列,將這些函數模塊應用到輸入圖像的抽象式場景表徵上,從而生成最終答案(圖 2-III)。在整個執行過程中,這個可執行的程序會在其輸入上執行單純的符號運算,而且其在程序序列方面是完全確定性的、解耦的和可解釋的。

評估

研究表明我們的解耦的結構化場景表徵和符號執行引擎具有以下優勢。首先,我們的模型可以基於少量訓練數據進行學習,並且其表現也優於當前最佳的方法,同時還能準確地恢復隱含程序。第二,我們的模型能夠很好地泛化用於其它問題類型、屬性組合和視覺環境。

表 1:我們的模型(NS-VQA)在 CLEVR 上的表現優於當前最佳的方法並且達到了接近完美的問答準確度。用於預訓練我們的模型的問題-程序對是從該數據集的 90 個問題系列中均勻選取的:90、180、270 programs 分別對應於從每個問題系列取 1、2、3 個樣本。(*):在所有程序標註上訓練得到(700K)。

圖 3:在 CLEVR 上的定性分析結果。藍色表示正確的程序模塊和答案;紅色表示錯誤的。相比於 IEP 基準,我們的模型能夠穩健地恢復正確的程序。

圖 4:我們的模型表現出了很高的數據效率,同時也實現了當前最佳的表現並保持了可解釋性。(a)問答準確度隨預訓練所用程序數的變化情況;不同的曲線表示 REINFORCE 階段使用了不同數量的問答對。(c)問答準確度隨訓練的問答對的總數量的變化情況;我們的模型是在 270 個程序上預訓練的。

表 2:泛化到未曾見過的屬性組合和問題類型。(a)我們的圖像解析器在來自分割 A 的 4000 張合成圖像上進行了訓練,然後在 B 的 1000 張圖像上進行了微調。問題解析器僅在 A 上從 500 個程序開始進行了訓練。基準方法在來自 B 的 3000 張圖像加 30000 個問題上進行了微調。NS-VQA+Gray 在圖像解析器中採用了一個灰度通道來進行形狀識別,NS-VQA+Ori 使用了一個在來自 CLEVR 的原始圖像上訓練的圖像解析器。(b)在不同的訓練條件下,我們的模型在 CLEVR-Humans 上都優於 IEP。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

相關焦點

  • NIPS2018深度學習(18)|亮點: 貝葉斯深度學習;圖卷積(論文及代碼)
    這篇文章針對上述問題,提出了一種解決方案,提出了一種新的隨機低秩近似自然梯度(SLANG,stochastic, low-rank, approximate natural-gradient)方法,進而解決大型深層模型中的變分推理問題。這種方法利用對數似然度並且基於網絡中的梯度反向傳播來估計對角並且低秩的結構。
  • NIPS 2017 深度學習論文集錦 (2)
    本文是NIPS 2017 深度學習論文集錦第二篇,第一篇是NIPS 2017 深度學習論文集錦 (1)本文是對上文的續
  • NIPS2018深度學習(24)|亮點: 可複製特徵選擇;隨意InfoGAN;快速融合(論文及代碼)
    這篇文章提出了一種通過結合具有受控錯誤率的特徵選擇的方法,用來增加DNN的可解釋性和再現性。作者們設計了新的DNN架構並將其與最近提出的仿冒框架集成,以可控的錯誤率進行特徵選擇。這種新方法DeepPINK(使用配對輸入非線性Knockoff的深度特徵選擇)在模擬和實際數據集上都取得了較好的效果。
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    這種區別對我們來說很有意思,因為這兩類思維對應著兩種不同的機器學習方法:深度學習和符號程序合成(symbolic program synthesis)。   深度學習專注於直觀的感性思維,而符號程序合成專注於概念性的、基於規則的思考。
  • 「神經+符號」:從知識圖譜角度看認知推理的發展
    作者 | 王昊奮、王萌編輯 | 陳彩嫻在過去十年的人工智慧浪潮中,以深度學習為代表的人工智慧技術已基本實現了視覺、聽覺等感知智能,但依然無法很好地做到思考、推理等認知智能。因此,具有推理、可解釋性等能力的認知智能研究毫無疑問將越來越受到重視,成為未來人工智慧領域重要的發展方向之一。
  • 從神經轉化到符號:從知識圖譜的角度看認知推理的發展
    在過去十年的人工智慧浪潮中,以深度學習為代表的人工智慧技術已基本實現了視覺、聽覺等感知智能,但依然無法很好地做到思考、推理等認知智能。因此,具有推理、可解釋性等能力的認知智能研究毫無疑問將越來越受到重視,成為未來人工智慧領域重要的發展方向之一。 研究人員的嗅覺無疑是最敏銳的。
  • 一文概述 2018 年深度學習 NLP 十大創新思路
    代表性論文:《視覺常識推理》(arXiv 2018)這是第一個包含了每個答案所對應的基本原理(解釋)的視覺 QA 數據集。此外,問題要求複雜的推理。特別地,將多語種遷移學習(例如多語種 BERT,https://github.com/google-research/bert/blob/master/multilingual.md)、無監督學習和元學習結合起來是一個有前景的研究方向。
  • 讓神經網絡給符號AI打工,MIT和IBM聯合解決深度學習痛點
    憑藉其知識庫和命題,符號AI採用推理引擎的邏輯規則來回答問題。但符號AI缺點在於,要實現更複雜的推理需要龐大的知識庫(人工構建),如果AI遇到知識庫中沒有的形狀將無法處理。連接主義利用知識進行訓練,讓神經網絡具有學習能力,但容易受到對抗攻擊。於是將符號主義和連接主義結合起來的混合式神經-符號AI(neurosymbolic AI)應運而生。
  • 計算機視覺與模式識別論文摘要:神經常規微分方程、推理視覺問答
    這些連續深度模型具有恆定不變的儲存成本,可以根據輸入調整其評估策略,並且可以明顯地以精度換取速度(這裡只指數值的精度)。我們證明了非連續深度(continuous-depth)殘差網絡和連續時間潛在變量模型的性質。我們還構建了連續正則化流,這是一個可以通過最大似然進行訓練的生成模型,而無需對數據維度進行分區或排序的生成模型。
  • NIPS2018深度學習(26)|亮點:代表樣本選擇;上下文卷積網絡;反饋編碼(論文及代碼)
    Yen, Pradeep RavikumarCarnegie Mellon Universityhttps://papers.nips.cc/paper/8141-representer-point-selection-for-explaining-deep-neural-networks.pdf這篇文章提出如何解釋深度神經網絡的預測, 即通過指向訓練集中的一組稱為代表樣本
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    在靜態圖像和視頻上提出的各種數據集的推動下,複雜視覺推理問題已經在人工智慧和計算機視覺領域得到了廣泛研究。然而,大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。儘管這些數據集涵蓋了視覺的複雜性和多樣性,但推理過程背後的基本邏輯、時間和因果結構卻很少被探索。
  • 無需數學就能寫AI,MIT提出AI專用程式語言Gen
    在論文中,研究人員展示了簡短的 Gen 程序如何推理 3-D 人體姿態。看起來十分簡單,但在後臺,該程序包括執行圖形渲染、深度學習和概率模擬類型的組件。與一些研究人員所開發的早期系統相比,這些不同技術的結合可以提高這項任務的準確性和速度。論文圖 6:人體姿態推理任務的建模、推理代碼以及評估結果。
  • ACL 2018 首日:8 大 tutorial,深度強化學習最受關注 | ACL2018
    上午的四個議題分別為:100 件你總想知道但卻害怕去問的語義學&語用學知識對話 AI 系統的神經網絡方法變分推理和深度生成模型將語言和視覺與行動聯繫起來下午的四個議題分別為:超越多詞表達的方法:處理習語和隱喻神經語義分析NLP 中的深度強化學習多語言實體發現和連結相較於去年深度學習佔據絕大多數議題,今年的內容則更加多樣化,
  • 機器推理文本+視覺,跨模態預訓練新進展
    針對上述問題,我們提出跨模態預訓練模型 Unicoder-VL。藉助通用領域跨模態預訓練,該模型能夠學習到語言和視覺間的內在關聯,並用於生成語言和視覺的聯合向量表示。實驗證明,這種考慮了跨模態信息的聯合向量表示能夠很好地遷移到下遊任務中,並取得很好的效果。
  • .| 讓機器幫你做行測題,UCLA朱松純團隊提出關係和類比視覺推理...
    目前,大多數計算機視覺任務都聚焦於「捕獲」視覺信息的過程;很少有工作重點放在後面的部分——關係或類比的視覺推理。在為人工系統配備推理能力方面,現有的一項工作圍繞著視覺問答(VQA)展開 [2,22,48,58,62]。然而,VQA 所需的推理能力只處於認知能力測試圈的邊緣 [7]。
  • 今日Paper|人臉數據隱私;神經符號推理;深度學習聊天機器人等
    Facebook:通過將數學表達式重組為一種語言,用神經網絡符號推理求解複雜數學方程StyleGAN:一個基於風格的生成器架構,用於生成對抗網絡edBB:評估遠程教育的生物識別和行為深度學習聊天機器人綜述2020
  • 結合符號主義和DL:DeepMind提出端到端神經網絡架構PrediNet
    DeepMind 最近的一項研究將符號人工智慧和深度學習結合起來,提出了一種新型端到端神經網絡架構 PrediNet。符號主義和連接主義是人工智慧領域中的兩大流派。符號主義(Symbolism)是一種基於邏輯推理的智能模擬方法,又稱為邏輯主義 (Logicism)、心理學派 (Psychlogism) 或計算機學派 (Computerism),其原理主要為物理符號系統(即符號作業系統)假設和有限合理性原理。符號主義認為人工智慧起源於數理邏輯,人類認知(智能)的基本元素是符號(symbol),認知過程是符號表示上的一種運算。
  • NIPS2018深度學習(20)|亮點: 雙向RNN時間序列;對抗自編碼異常檢測;脈衝神經網絡(論文及代碼)
    這篇文章提出一種新的適用於時間序列的缺失值填補方法,簡稱BRITS,該方法基於循環神經網絡。這種方法利用雙向循環動力系統直接學習缺失值,不需要任何特定的假設。填補值可以看做RNN圖的變量,利用反向傳播可以高效更新。
  • 既要深度學習又要符號化推理,DeepMind 新 JAIR 論文小試牛刀
    雷鋒網 AI 科技評論按:深度學習的研究者們一直希望給神經網絡加上顯式的泛化能力,以便讓它完成更困難的任務。這兩種思維之間的區別讓 DeepMind 的研究人員們感到非常有趣,因為這兩種不同的思維剛好對應了兩種不同的機器學習方法,那就是深度學習和符號程序生成(symbolic program synthesis)。深度學習的核心是直覺式的認知思維,而符號程序生成關注的是概念式的、基於規則的思維。
  • 神經網絡的性能竟然優於神經符號模型
    按照之前的常識,結合了算法和符號推理技術的神經符號模型(Neurosymbolic Models),會比神經網絡更適合於預測和解釋任務,此外,神經符號模型在反事實方面表現更好。  而Neural-Symbolic,本質上其實是將現代數學中的分析學和代數學結合的產物。