124頁,UC伯克利大學胡戎航博士論文公布:視覺與語言推理的結構化模型

2021-01-10 騰訊網

來源:機器之心

本文約1500字,建議閱讀5分鐘

UC 伯克利大學計算機科學博士胡戎航(Ronghang Hu)的博士論文新鮮出爐,內容涉及視覺與語言推理的結構化模型。

視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。

視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?UC 伯克利胡戎航的博士論文就是關於這個主題:

論文連結:

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf

論文概述

這篇論文通過視覺 - 語言推理的結構化模型為上述問題提供了答案,該模型考慮了人類語言、視覺場景、智能體技能中的模式和規律。

指示表達定位

這篇論文從指示表達定位(referring expression grounding)任務開始,使用 Compositional Modular Network (CMN) 來考慮這些表達中的組合結構,進而顯著提高準確率和泛化性。

具體而言,該論文提出使用聯合方法顯式地對指示表達及其定位的組合語言結構建模,同時也支持對任意語言的解釋。這裡提出的 CMN 網絡是一種端到端訓練模型,可以聯合學習語言表徵和圖像區域定位,如圖 2.1 所示。

視覺問答

視覺問答(VQA)需要同時理解圖像和文本。這種理解通常取決於組合推理( compositional reasoning),如定位一個場景中的多個對象,檢查其屬性或將其相互比較。儘管傳統的深度網絡在 VQA 任務中的性能不錯,但是表明其能夠進行顯式組合推理的證據有限。針對這一問題,該論文提出了端到端模塊網絡(N2NMN),該模型能夠直接基於文本輸入預測新型模塊化網絡架構,並將其應用於圖像,來解決問答任務。該方法學習將語言解析為語言結構,再將其組合成合適的布局。

神經模型可解釋性

第四章中,研究者擴展了關於模塊推理的工作,提出了堆棧神經模塊網絡(SNMN)。該模型使用顯式的模塊化推理過程,它可以通過反向傳播進行完全可微的訓練,而無需對推理步驟進行專家監督。與現有的模塊化方法相比,該方法提高準確率和可解釋性。

此外,該模型還可以進行擴展,在一個模型中無縫處理視覺問答 (VQA) 和指示表達定位。這通過下圖所示的一般程序完成相關任務之間的知識共享:

語言條件圖網絡

除了模塊推理,研究者還提出了使用語言條件圖網絡(LCGN)構造視覺場景的語境感知表示,以進行關係推理。該模型是基於場景中的視覺實體構建的圖網絡,並通過實體之間消息傳遞的多次迭代來收集關係信息。LCGN 通過對圖中的邊進行加權,動態地確定每一輪從哪些對象收集信息,並通過圖發送消息以傳播適量的關係信息。其關鍵思想是根據輸入文本的特定語境關係來調整消息傳遞。

圖 5.1 說明了這一過程:

TextVQA 任務

在第六章中,該研究使用迭代式指針增強多模態 Transformer,來解決從圖像中讀取文本並回答問題的任務(即 TextVQA 任務)。

對於 TextVQA 任務,該研究提出新型 Multimodal Multi-Copy Mesh (M4C)。該模型基於 transformer 架構,並通過動態指針進行迭代式答案解碼,如圖 6.1 所示:

導航指令跟隨

針對導航指令跟隨任務,該研究提出了 Speaker-Follower 模型,其中 Speaker 模型和 Follower 模型相互補充。

該研究把導航指令跟隨任務視為一個軌跡搜索問題,智能體需要根據指令找到環境中的最佳軌跡,從起始位置導航到目標位置。Speaker-Follower 模型包括一個指令理解模塊(follower),將指令映射到動作序列;一個指令生成模塊(speaker),將動作序列映射到指令(圖 7.1),這兩個模塊均通過標準的序列到序列架構實現。speaker 模塊學習為視覺路線提供文本指令,follower 模塊則根據提供的文本指令執行路線(預測導航動作)。

以下為論文章節目錄:

作者介紹

胡戎航是 Facebook 人工智慧研究院 (FAIR) 的研究科學家,研究興趣包括視覺與語言推理、視覺感知。他於 2020 年在 Trevor Darrell 教授和 Kate Saenko 教授的指導下獲得 UC Berkeley 的計算機科學博士學位。

編輯:文婧

相關焦點

  • UC伯克利大學胡戎航博士論文公布:視覺與語言推理的結構化模型
    機器之心報導機器之心編輯部UC 伯克利大學計算機科學博士胡戎航(Ronghang Hu)的博士論文新鮮出爐,內容涉及視覺與語言推理的結構化模型。視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?
  • 2018ACM博士論文獎公布:伯克利博士獲獎,清華姚班馬騰宇榮譽提名
    今日,2018 ACM 最佳博士論文獎公布,UC 伯克利博士生 Chelsea Finn 憑藉論文《Learning to Learn with Gradients》榮獲此獎。來自微軟的 Ryan Beckett、本科畢業於清華姚班的馬騰宇獲得榮譽提名。
  • 聚焦快速機器學習訓練算法,UC伯克利尤洋189頁博士論文公布
    機器之心報導編輯:蛋醬、小舟這份 189 頁的博士學位論文,凝結了尤洋在快速機器學習訓練算法領域的研究心血。過去十年,深度學習應用領域的數據量迅速增長,使得深度神經網絡(DNN)的訓練時間拉長。而這已經成為機器學習開發者和研究者面臨的瓶頸問題。
  • 首屆AAAI/ACM SIGAI博士論文獎公布, 清華姚班畢業生、MIT學霸...
    runners-Up 博士論文獎則授予了畢業於喬治亞理工學院的 Aishwarya Agrawal 和畢業於愛丁堡大學的 Li Dong(董力)。吳佳俊博士論文的主題是物理場景理解,即如何構建能夠學習觀察和推理物理世界並與之交互的高效通用機器。其核心思路是:將計算機圖形學、物理學和語言學中的模擬引擎,與深度學習進行集成,進而充分挖掘物理世界的因果結構。這篇博士論文涵蓋感知、物理和推理多個領域的內容,旨在培養像人類一樣觀察和推理物理世界的人工智慧。
  • 打開深度學習黑箱,牛津大學博士小姐姐分享134頁畢業論文
    作者 | 青暮 深度神經網絡在計算機視覺、自然語言處理和語音識別等領域讀取得了革命性成功。但是,這些模型的決策過程通常無法解釋。 不可解釋性制約著深度學習方法的結構化和研究創新性,在實際應用中調參往往佔據了很大的工作量,讓人不明其創新所在的調參型研究論文充斥著深度學習社區。此外在模型失效或出現偏見等問題時,不可解釋性也會導致高成本的修復工作。 深度學習模型通常只能將多個變量進行關聯,而無法理解背後的機制,這會導致因果關係的模糊性。
  • 首屆AAAI/ACM SIGAI博士論文獎公布,姚班學霸吳佳俊獲獎
    麻省理工學院博士吳佳俊獲得了2019年AAAI / ACM SIGAI博士論文獎。另外還有兩位博士獲得了runners-Up獎項,分別是畢業於喬治亞理工學院的Aishwarya Agrawal和畢業於愛丁堡大學的董力。
  • 伯克利&清華從GPT等預訓練語言模型中無監督構建出知識圖譜!
    那麼預訓練語言模型和知識圖譜之間到底有什麼關係?這兩者是完全分離的嗎?近日,AI科技評論發現了一篇伯克利和清華的團隊的研究「從預訓練語言模型生成知識圖譜」的論文。論文連結:https://arxiv.org/abs/2010.11967這篇論文有以下三點貢獻:1、展示了如何從預訓練語言模型中構建知識圖譜。
  • 科研進階 | 加州大學伯克利分校 | 人工智慧、計算機科學:數據科學與AI深度學習:應用計算機視覺(2021.4.24開課)
    計算機視覺背後的深度學習知識有哪些?如何將這些知識與實踐相結合?項目將使用Jupyter Notebook和Python,幫助學生從頭開始創建計算機視覺模型。項目涵蓋計算機視覺領域的常用深度學習方法和前沿技術,比如生成模型、計算機視覺API、AutoML Vision。
  • NIPS 2018 | MIT等提出NS-VQA:結合深度學習與符號推理的視覺問答
    MIT、哈佛等機構合作的一項研究提出了一種神經符號視覺問答(NS-VQA)系統,將深度表徵學習與符號程序執行結合到了一起。該研究的論文已被 NIPS 2018 接收。:用於視覺識別和語言理解的深度表徵學習,以及用於推理的符號程序執行。
  • UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想像力的多任務強化...
    來自加州大學伯克利分校人工智慧實驗室(BAIR)的研究人員分享了他們獲得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他們提出了一種只需要圖片即可進行視覺監督的強化學習方法,使得機器人能夠自主設定目標,並學習達到該目標。下面是雷鋒網對該博客的部分編譯。
  • 一種應用於視覺對話的視覺-文本自適應推理的知識橋圖網絡
    ,集成視覺和語言來構建一個綜合的人工智慧系統得到了廣泛的關注,其中包括視覺對話(Visual Dialogue)、圖像描述生成(Image Captioning)以及視覺問答(VQA)任務等。本文介紹的是ACM MM 2020論文《KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue》。該論文提出在細粒度上刻畫跨模態語義鴻溝的模型 KBGN,希望在視覺與文本之間搭建有效橋梁。
  • 加州伯克利博士:基於隱模型的圖神經網絡設計|NeurIPS 2020論文分享
    圖神經網絡在計算機視覺、基於圖的推薦系統、交通路線規劃、化學分子的圖結構等等領域有著廣泛的應用前景。但是現有的圖神經網絡發展也存在著諸多不足,仍需要這一領域的專家學者們進行深入探索。本周六上午11點,我們特別邀請到遠在加州大學伯克利分校的顧方達博士,作客AI研習社NeurIPS 2020系列論文解讀直播間,為大家詳細介紹他被收錄的論文情況。嘉賓分享完還有問答環節,歡迎大家積極參與討論,一起探討《基於隱模型的圖神經網絡設計》。
  • UC伯克利拿下EMNLP最佳論文,復旦黃萱菁當選下一屆程序主席
    其中最佳論文獎由加州大學伯克利分校的David Gaddy、Dan Klein兩人獲得,愛丁堡大學華人博士生 Yanpeng Zhao 獲得了最佳論文榮譽提名獎(共4篇)。另外,本屆大會的最佳 Demo 獎由大家所熟知的 Hugging Face 團隊摘得。
  • 常識知識圖譜如何用在計算機視覺?華盛頓大學Yejin Choi最新86頁PPT及論文講解
    常識知識圖譜如何在計算機視覺中發揮作用,從識別跨越到認知?華盛頓大學Yejin Choi博士一直研究視覺常識推理的研究,讓我們來學習如何用常識圖譜在CV建模提升認知。她是2013年ICCV的Marr獎(最佳論文獎)的共同接受者,2018年Borg Early Career award (BECA)的接受者,並被提名為2016年IEEE AI的10大看點之一。她在康奈爾大學獲得了計算機科學博士學位(導師:Claire Cardie教授),並在韓國首爾國立大學獲得了計算機科學與工程學士學位。 什麼是常識?
  • 學界 斯坦福聯合Facebook創建CLEVR:用於組合式語言和初級視覺推理的診斷數據集
    論文:CLEVR:一個用於組合式語言和初級視覺推理的診斷數據集
  • 事後解釋VS自解釋,牛津CS博士小姐姐134頁畢業論文探索神經網絡...
    在這篇長達 134 頁的博士論文中,一位來自牛津大學的計算機科學博士生對這一課題進行了深入的探討,帶我們走進深度神經網絡的世界。近年來,深度神經網絡正在計算機視覺、自然語言處理和語音識別等多種領域發揮著重要作用,推動了人工智慧的發展。但是,深度神經網絡仍存在一些局限性,例如這些模型的決策過程通常無法向用戶解釋。
  • 計算機視覺與模式識別論文摘要:神經常規微分方程、推理視覺問答
    神經常規微分方程論文摘要:介紹了一種新的深度神經網絡模型。我們使用神經網絡參數化隱藏狀態的導數,而不是一個具體指定的離散隱藏層的序列。這些連續深度模型具有恆定不變的儲存成本,可以根據輸入調整其評估策略,並且可以明顯地以精度換取速度(這裡只指數值的精度)。我們證明了非連續深度(continuous-depth)殘差網絡和連續時間潛在變量模型的性質。我們還構建了連續正則化流,這是一個可以通過最大似然進行訓練的生成模型,而無需對數據維度進行分區或排序的生成模型。
  • 2840 頁的計算機畢業論文,這位華人小哥的博士論文究竟寫了啥?
    轉自 | 機器之心一篇長達 2840 頁的博士論文,都是關於矩陣理論的,可以當教材了。一篇論文的篇幅竟然多達數千頁,比很多教材都要厚,這簡直無法想像。不過,學術界的「能人異士」層出不窮,德州大學奧斯汀分校的 CS 博士生 Zhao Song 就做到了。這是一篇 2019 年 8 月提交的博士論文,總篇幅達到了 2840 頁,其中目錄就佔了 31 頁。此外在致謝部分,論文作者還以整整 5 頁的篇幅感謝了合作者、提供寶貴意見以及讀博期間幫助過他的人。
  • 每章都能當做一篇博士論文:閆令琪獲SIGGRAPH 2019最佳博士論文獎
    昨天,頂級計算圖形學機構 ACM SIGGRAPH 頒發了 2019 年最佳博士論文獎。獲獎者閆令琪博士畢業於加州大學伯克利分校(UC Berkeley),目前已是加州大學聖巴巴拉分校(UCSB)的一名助理教授。他的博士論文頒獎詞是這麼說的:「他的論文每章都可以自成一篇博士論文。」
  • 阿爾伯塔大學博士畢業論文:基於圖結構的自然語言處理
    阿爾伯塔大學(Universityof Alberta)劉邦博士在他的畢業論文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,對基於圖結構(graph-structured representations)的自然語言處理和文本挖掘進行了深入研究。