來源:機器之心
本文約1500字,建議閱讀5分鐘
UC 伯克利大學計算機科學博士胡戎航(Ronghang Hu)的博士論文新鮮出爐,內容涉及視覺與語言推理的結構化模型。
視覺 - 語言任務(如基於圖像回答問題或按照自然語言指令在視覺環境中導航)需要對圖像和文本兩種模態的數據進行聯合建模和推理。視覺和語言聯合推理方面已經取得了很大進步,但通常使用的是在更大的數據集和更多計算資源幫助下訓練的神經方法。
視覺 - 語言任務的解決是否只是堆參數堆數據那麼簡單?如果不是,如何構建更好的推理模型,既能提高數據效率又具備不錯的泛化性能呢?UC 伯克利胡戎航的博士論文就是關於這個主題:
論文連結:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-50.pdf
論文概述
這篇論文通過視覺 - 語言推理的結構化模型為上述問題提供了答案,該模型考慮了人類語言、視覺場景、智能體技能中的模式和規律。
指示表達定位
這篇論文從指示表達定位(referring expression grounding)任務開始,使用 Compositional Modular Network (CMN) 來考慮這些表達中的組合結構,進而顯著提高準確率和泛化性。
具體而言,該論文提出使用聯合方法顯式地對指示表達及其定位的組合語言結構建模,同時也支持對任意語言的解釋。這裡提出的 CMN 網絡是一種端到端訓練模型,可以聯合學習語言表徵和圖像區域定位,如圖 2.1 所示。
視覺問答
視覺問答(VQA)需要同時理解圖像和文本。這種理解通常取決於組合推理( compositional reasoning),如定位一個場景中的多個對象,檢查其屬性或將其相互比較。儘管傳統的深度網絡在 VQA 任務中的性能不錯,但是表明其能夠進行顯式組合推理的證據有限。針對這一問題,該論文提出了端到端模塊網絡(N2NMN),該模型能夠直接基於文本輸入預測新型模塊化網絡架構,並將其應用於圖像,來解決問答任務。該方法學習將語言解析為語言結構,再將其組合成合適的布局。
神經模型可解釋性
第四章中,研究者擴展了關於模塊推理的工作,提出了堆棧神經模塊網絡(SNMN)。該模型使用顯式的模塊化推理過程,它可以通過反向傳播進行完全可微的訓練,而無需對推理步驟進行專家監督。與現有的模塊化方法相比,該方法提高準確率和可解釋性。
此外,該模型還可以進行擴展,在一個模型中無縫處理視覺問答 (VQA) 和指示表達定位。這通過下圖所示的一般程序完成相關任務之間的知識共享:
語言條件圖網絡
除了模塊推理,研究者還提出了使用語言條件圖網絡(LCGN)構造視覺場景的語境感知表示,以進行關係推理。該模型是基於場景中的視覺實體構建的圖網絡,並通過實體之間消息傳遞的多次迭代來收集關係信息。LCGN 通過對圖中的邊進行加權,動態地確定每一輪從哪些對象收集信息,並通過圖發送消息以傳播適量的關係信息。其關鍵思想是根據輸入文本的特定語境關係來調整消息傳遞。
圖 5.1 說明了這一過程:
TextVQA 任務
在第六章中,該研究使用迭代式指針增強多模態 Transformer,來解決從圖像中讀取文本並回答問題的任務(即 TextVQA 任務)。
對於 TextVQA 任務,該研究提出新型 Multimodal Multi-Copy Mesh (M4C)。該模型基於 transformer 架構,並通過動態指針進行迭代式答案解碼,如圖 6.1 所示:
導航指令跟隨
針對導航指令跟隨任務,該研究提出了 Speaker-Follower 模型,其中 Speaker 模型和 Follower 模型相互補充。
該研究把導航指令跟隨任務視為一個軌跡搜索問題,智能體需要根據指令找到環境中的最佳軌跡,從起始位置導航到目標位置。Speaker-Follower 模型包括一個指令理解模塊(follower),將指令映射到動作序列;一個指令生成模塊(speaker),將動作序列映射到指令(圖 7.1),這兩個模塊均通過標準的序列到序列架構實現。speaker 模塊學習為視覺路線提供文本指令,follower 模塊則根據提供的文本指令執行路線(預測導航動作)。
以下為論文章節目錄:
作者介紹
胡戎航是 Facebook 人工智慧研究院 (FAIR) 的研究科學家,研究興趣包括視覺與語言推理、視覺感知。他於 2020 年在 Trevor Darrell 教授和 Kate Saenko 教授的指導下獲得 UC Berkeley 的計算機科學博士學位。
編輯:文婧