MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理

2020-12-13 機器之心Pro

機器之心發布

機器之心編輯部

大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。

論文連結:https://arxiv.org/abs/1910.01442

項目連結:http://clevrer.csail.mit.edu/

從視頻的物理事件中識別物體並推斷其運動軌跡的能力是人類認知發展的核心。人類,即使是幼兒,也能夠通過運動將圖片區域劃分為多個物體,並使用物體的永久性、實體性和連貫性的概念來解釋發生了什麼,推斷將發生什麼以及想像在反事實情況下會發生什麼。

在靜態圖像和視頻上提出的各種數據集的推動下,複雜視覺推理問題已經在人工智慧和計算機視覺領域得到了廣泛研究。然而,大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。儘管這些數據集涵蓋了視覺的複雜性和多樣性,但推理過程背後的基本邏輯、時間和因果結構卻很少被探索。

在這篇論文中,麻省理工和 DeepMind 的研究者從互補的角度研究了視頻中的時間和因果推理問題。受視覺推理數據集 CLEVR 的啟發,他們簡化了視覺識別問題,但增強了交互對象背後的時間和因果結構的複雜度。結合從發展心理學中汲取的靈感,他們提出了一種針對時間和因果推理問題的數據集。

CLEVRER

研究者將這個數據集稱為基於碰撞事件的視頻推理(CLEVRER)。CLEVRER 的設計遵循兩個準則:首先,發布的任務應側重於在時間和因果上的邏輯推理,同時,保持簡單以及在視覺場景和語言上出現的偏差最小;其次,數據集應完全可控並正確標註,以承載複雜的視覺推理任務並為模型提供有效的評估。

CLEVRER 包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案。問題的類型包括以下四種,如下圖所示:

描述性(「什麼顏色」)

解釋性(「什麼原因」)

預測性(「將發生什麼」)

反事實(「如果…會發生什麼」)

CLEVRER 附帶有視頻中每個對象的真實運動軌跡和事件歷史記錄。每個問題都與代表其基本邏輯的程序匹配。如下表所示,CLEVRER 在多個方面補充了現有的視覺推理數據集,並引入了一些新穎的任務。

研究者對各種最新的視覺推理模型在 CLEVRER 上進行了評估,結果如下表所示。儘管這些模型在描述性問題上表現良好,但它們缺乏因果推理的能力,在解釋性,預測性和反事實問題上表現不佳。

他們認為視覺推理任務包含三個關鍵要素:視頻中的物體和事件的識別;物體與事件之間動力學和因果關係的建模;理解問題背後的符號邏輯。作為對此原理的初步探索,他們提出了一種新的預測模型——結合神經網絡和符號表徵的動態推理(NS-DR),通過視頻符號表徵將這些要素明確地聯結在一起。

NS-DR 模型

NS-DR 模型結合了用於模式識別和動力學預測的神經網絡,以及用於因果推理的符號邏輯。如下圖所示,NS-DR 模型由視頻解析器(Ⅰ)、動態預測器(Ⅱ)、問題解析器(Ⅲ)和程序執行器組成(Ⅳ)。

視頻解析器

研究者使用 ResNet-50 FPN 作為主幹網絡,通過 Mask R-CNN 在每幀視頻上執行物體檢測和場景去渲染。對於輸入的每幀視頻,網絡輸出物體的固有屬性(顏色、材料、形狀)標籤、物體的 mask proposals 以及 proposal 的置信度,由此獲得以物體為中心的視頻表徵。

動態預測器

他們將 PropNet 應用到動態建模中,將物體的 proposals 作為輸入,預測其運動軌跡和碰撞事件。

PropNet 將動態系統表示為有向圖 G=O,R,其中頂點 O={o_i } 表示物體,邊 R={r_k } 表示關係。每個物體 o_i 和關係 r_k 可以進一步寫成

,其中 s_i 表示物體的狀態;

表示物體的固有屬性;u_k 和 v_k 表示由邊 r_k 連接的接收方和發送方頂點的索引;

表示邊的狀態,即兩個物體之間是否存在碰撞。PropNet 通過多步信息傳遞來處理物體之間的狀態轉移。

問題解析器

使用基於注意力機制的 Seq2Seq 模型將輸入的問題解析為相應的程序,模型由雙向 LSTM 編碼器和注意力 LSTM 解碼器組成。給定輸入單詞序列,編碼器首先在每個步驟生成雙向潛在編碼

然後,解碼器使用注意力機制從潛在編碼中生成一系列程序 token:

其中,編碼器和解碼器均使用兩層隱藏層和 300 維度單詞嵌入向量。

程序執行器

程序執行器在動態預測器提取的運動軌跡和碰撞事件上執行程序,並輸出問題的答案。它包含多個通過 Python 實現的程序模塊,其中共有三種類型:輸入模塊,過濾器模塊和輸出模塊。輸入模塊是程序樹的入口點;過濾器模塊基於固有屬性、運動狀態、時間順序或因果關係對輸入物體/事件執行邏輯運算;輸出模塊返回答案標籤。

NS-DR 性能評估

研究者在 CLEVRER 上評估了 NS-DR 的性能,結果如下表所示。對於描述性問題,他們的模型可達到 88.1%的準確率,顯著優於其他基準方法。在解釋性、預測性和反事實問題上,他們的模型獲得了更大的提升。

NS-DR 將動態規劃納入視覺推理任務中,能夠直接對未觀察到的運動和事件進行預測,並能夠對預測性和反事實性任務進行建模。這表明動態規劃對基於語言的視覺推理任務具有很大的潛力,NS-DR 朝著這個方向邁出了初步探索。此外,符號表徵為視覺、語言、動力學和因果關係提供了強大的共同基礎。通過設計,它使模型能夠明確地捕獲視頻因果結構和問題邏輯。

總結

視頻中時間和因果推理,這個深刻且具有挑戰性的問題已深深植根於人工智慧的基礎之上,最近才開始使用「現代」人工智慧方法進行研究。他們引入了一系列基準任務,以更好地促進這一領域的研究,新提出的 CLEVRER 數據集和 NS-DR 模型是朝著這個方向邁出的初步嘗試。

研究者希望隨著圖網絡、視覺預測模型和結合神經網絡和符號表徵算法的最新發展,深度學習領域可以在將來更加現實的設置中重新審視這一經典問題,從而獲得超越模式識別的真正智能。

相關焦點

  • DeepMind最新發現!神經網絡的性能竟然優於神經符號模型
    在實驗部分,研究人員將他們的神經網絡與視頻表示和推理的CoLlision事件(也就是CLEVRER數據集)進行了基準比較。  其中,CLEVRER數據集包含由機器生成的20,000多個5秒鐘的物體碰撞視頻(這幾種物體是三種形狀,擁有八種顏色的兩種材料),以及300,000多個問題和答案。
  • DeepMind AI 關係推理超越人類:深度神經網絡模塊即插即用
    新智元編譯來源:deepmind.com;arXiv.org譯者:文強   【新智元導讀】DeepMind 今天發表官博介紹了他們的兩篇最新論文,稱其都在理解「關係推理」這一挑戰方面展示出了令人可喜的結果。
  • DeepMind推出更難的機器閱讀理解數據集,要讓AI讀懂整本書
    這句話是量子位現編的,不過現有的這些閱讀理解數據集,的確和現實有一些距離。用DeepMind最近一篇論文裡的話來說,它們「不能測試出閱讀理解必要的綜合方面」。為了給算法準備一套不那麼小兒科的試題,DeepMind今天發布了一個難度更高的閱讀理解任務和數據集: NarrativeQA 。
  • Deepmind 最新閱讀理解數據集 NarrativeQA ,讓機器挑戰更複雜閱讀...
    而最近, Deepmind 發布了一個新的閱讀理解數據集 NarrativeQA,那麼這個數據集有什麼特點呢?一起來和雷鋒網了解一下。在最近一篇論文《The NarrativeQA Reading Comprehension Challenge》中,Deepmind 解釋了這個推出這個數據集的初衷:自然語言理解試圖創建閱讀和理解文本的模型。評估理解模型語言理解能力的一個常用策略是證明他們能回答他們所閱讀的文檔的問題,類似於兒童在學習閱讀時如何理解閱讀內容的能力。
  • 【因果推理】李文釗丨因果推理中的潛在結果模型:起源、邏輯與意蘊
    考慮到這一理論主要是由魯賓開創並持續推動這一研究,我們在介紹該理論時,也使用了潛在結果模型的概念。潛在結果模型推動了因果推理研究的復興,也促進了統計學與經濟學、社會學、生物醫藥學等各學科之間廣泛爭論、相互交流和共同進步,正成為一個跨學科研究的理論模型,並為其他各學科的因果研究提供基礎性理論和方法論貢獻。
  • 這篇文章會告訴你DeepMind關係推理網絡的真實面貌
    什麼是關係推理(Relational Reasoning)?從最簡單的角度來說,關係推理就是學著去理解不同物體之間的關係(思想)。這種能力被認為是智能的一個基本特徵。作者使用了一個圖來解釋什麼是關係推理:
  • DeepMind提出可微分邏輯編程,結合深度學習與符號程序優點
    夏乙 編譯自 DeepMind Blog   神經網絡的強大功能有目共睹,但它往往需要大量與目標測試領域數據分布相似的訓練數據;而用於符號領域的歸納邏輯編程只需少量數據,卻無法對抗噪聲,   DeepMind在最近發表的一篇論文中,提出了可微分歸納邏輯編程方法?ILP,既能解決傳統歸納邏輯編程擅長的符號類任務,也對噪聲數據、訓練集中的誤差有一定容忍度,還可以通過梯度下降來訓練。   怎麼樣?我們來看看DeepMind在官方博客上對這種方法的解讀:
  • Moments in Time:IBM-MIT聯合提出最新百萬規模視頻動作理解數據集
    在過去一年中,視頻理解相關的領域湧現了大量的新模型、新方法,與之相伴的,今年也出現了多個新的大規模的視頻理解數據集。近期,MIT-IBM Watson AI Lab 就推出了一個全新的百萬規模視頻理解數據集Moments-in-Time[1]。雖然沒有之前的YouTube-8M數據集大,但應該是目前多樣性,差異性最高的數據集了。
  • 今日論文|DeepMind:模塊化持續學習處理未知任務、離散概率樹因果推理&半自回歸自底向上解析器&通用命名實體識別&MORE
    文章提出的模型從一組新聞報導數據語料庫中學習到一個更高水平的潛在變量分布,分別對每個輸入的新聞進行抽取,從而為之前學習到的潛在變量分布提供背景知識。然後,文章利用師生網絡來蒸餾知識,提煉解碼器組件的輸出。為了評價其所提方法的模型性能,文章在一個公共數據集上進行了大量的實驗,並在實驗中選擇了兩個廣泛採用的評價標準,即BLEU和ROUGE。實驗結果表明,該方法優於其他比較方法。
  • 與假視頻死磕到底!谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    去年 1 月,谷歌宣布發布一個合成語音數據集,以支持開發高性能合成音頻檢測器的國際挑戰賽。作為該挑戰賽的一部分,該數據集只供給共計有超過 150 個研究機構和工業組織進行下載;而從此刻刻起,數據集開始免費向公眾開發。
  • 【源頭活水】通過對抗性訓練和數據增強改進常識因果推理
    >01確定子句之間因果關係的合理性是常識性的推理任務,需要複雜的推理能力。這項任務的一般方法是在特定的數據集上訓練大型的預訓練語言模型,但是,該任務的可用訓練數據通常很少,這會導致模型訓練的不穩定或依賴於數據集的淺層特徵。本文介紹了多種因果推理領域中使模型更健壯的技術。首先,我們通過同義詞替換產生擾動的輸入來執行對抗訓練。其次,基於話語連接詞的語言理論,我們使用話語解析器檢測大文本中的因果關係從句,並使用生成語言模型生成幹擾詞來進行數據擴充。
  • 「因果推理」李文釗|因果推理中的科學模型
    這種將選擇與結果分別建立模型,並且強調他們之間內在邏輯關係構成了因果推理的結構計量經濟學路徑,也即因果推理中科學模型的核心思想。赫克曼的科學模型不僅對於社會科學研究有非常重要意義,而且對於政策評估有突出的價值。更多的因果模型不應該是非此即彼的選擇,而應該是在相互競爭中共同學習、共同成長和共同演化。
  • DeepMind解讀,最新長程記憶模型和建基模型
    去年底,為了讓計算機有更長程的記憶和推理,Deepmind發布了一個新的模型和數據集。近日,DeepMind官方博客發表了最新的文章,對此進一步解讀。文章既回顧了計算機處理「記憶「的歷史,也解讀了新的模型和數據集獲得的進展。
  • 谷歌DeepMind 的可微分神經計算機 DNC 怎麼樣?看 Facebook AI...
    那麼我們究竟該如何看待谷歌 Deepmind 團隊最新發布的可微分神經計算機 DNC 呢?果然,已經有人在知乎上提出這個問題。編者註:該知乎提問中「谷歌deeplearning團隊」實際上應該指的是「谷歌Deepmind團隊」。
  • 關係推理水平超越人類:DeepMind展示全新神經網絡推理預測技術
    人類將這個世界理解為事物之間的關係。我們了解世界運行的方式,因為我們能對不同事物之間的聯繫做出邏輯推理——物理對象、語句,甚至抽象的想法。這種能力被稱為關係推理,它是人類智能的核心。我們以每天所有感官接收到的非結構化信息為基礎構建這種關係。我們的眼睛會接收到大量光線,而我們的大腦會將這些「巨量嘈雜的混亂」組織到我們需要關聯的特定實體之中。
  • CLUE發布第一個原生中文自然語言推理數據集
    ,是第一個非翻譯的、使用原生漢語的大型中文自然語言推理數據集。OCNLI包含5萬餘訓練數據,3千驗證數據及3千測試數據。我們將提供訓練與驗證集的數據及標籤。測試數據僅提供數據,不提供標籤。OCNLI為中文語言理解基準測評(CLUE benchmark)的一部分。
  • IBM美國研究院首席研究員淦創:多模態視頻理解的研究與應用:公開課...
    視頻理解是目前計算機領域中非常熱門、且極具挑戰力的一個方向。視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解與建模不同模態之間的交互式視頻分析任務的關鍵,如分類、目標檢測、活動識別等。目前關於視頻理解的研究主要集中在視頻的視覺模態上,而視頻數據本身是多模態的,包括視頻,聲音,文本等。
  • DeepMind可微分神經計算機-論文中文解讀
    又是一篇deepmind發表在nature上的文章,還記得前面2篇嗎?一篇是DQN,一篇講AlphaGo。
  • 2020省考行測邏輯推理技巧之因果分析知多少
    今天中公教育跟大家一起來分享一下邏輯判斷可能性推理的一些推理技巧。可能性推理,大部分都屬於因果關係推理。學好可能性推理,掌握因果分析才能高屋建瓴,深入理解可能性推理中那些「無窮變化的可能性」。中公教育在此藉助幾個題目跟大家一起來感受一下。
  • 2020電力電網行測邏輯推理技巧之因果分析知多少
    今天中公教育跟大家一起來分享一下邏輯判斷可能性推理的一些推理技巧。可能性推理,大部分都屬於因果關係推理。學好可能性推理,掌握因果分析才能高屋建瓴,深入理解可能性推理中那些「無窮變化的可能性」。中公教育在此藉助幾個題目跟大家一起來感受一下。