論文標題:
VD-BERT: A Unified Vision and Dialog Transformer with BERT
論文作者:
Yue Wang, Shafiq Joty, Michael R. Lyu, Irwin King, Caiming Xiong, Steven C.H. Hoi
論文連結:
https://arxiv.org/abs/2004.13278
視覺對話(Visual Dialog)指的是給定一張圖、它的標題和問題,我們需要給出這個問題的答案,在VD中,對話往往有多輪,而後面的問題會和前面的對話相關。
本文提出統一的視覺對話VD-BERT模型,聯合編碼視覺信息和文本信息,既適用於判別式方法,也適用於生成式方法。VD-BERT在視覺對話數據集VisDial實現了單個模型和集成模型上的最佳效果。
人類感知世界是「多模態」的而非「單模態」,學習知識也是在多模態的條件下進行的。
在所有的感知模態中,視覺和文本(語言),是其中最為重要的兩類,而文本又是人類所獨有的能力。
通過將視覺感知到的內容轉換為文本信息,是我們了解世界的重要途徑。視覺對話任務就是在模擬這個過程。
給定一副圖片(或視頻等視覺內容)和一個問題,我們可以根據圖片內容去回答這個問題。
之後,我們還可以連續問若干問題,每個問題都有回答,如此根據圖片和之前的對話進行下一輪對話,就是視覺對話,而找到每個問題的答案,就是視覺對話的目標。
這可以形式化為:
其中是視覺信息,是視覺信息的說明(如標題),是第輪的問題,是第輪的回答。
有兩種方法可以找到,一是「判別式」——從給定的一些回答候選中選一個,二是「生成式」——直接生成回答。
從上式可以看到,視覺對話實際上有四個部分:視覺信息V,對話歷史H,當前問題Q和當前回答A。
過去對視覺對話的研究大都採用注意力的方法,讓回答A去關注Q,V和H。然而,這種方法不能直接讓V和H之間建立聯繫,從而可能忽略過去的對話內容。
基於此,本文提出VD-BERT,用BERT去建模多個部分的聯繫,任意兩個部分之間就可以通過自注意力完成交互,從而不丟失歷史對話信息,如下圖所示:
和BERT一樣,本文使用MLM和NSP兩個訓練任務去訓練VD-BERT,然後再通過Rank的方法微調VD-BERT,從而可以使用一個模型同時完成判別式和生成式兩種生成方法。
總的來說,本文貢獻如下:
VD-BERT的結構和流程十分簡單。下圖是VD-BERT的模型結構:
模型流程分為幾步:得到視覺表徵,得到文本表徵,模型訓練,模型微調。
視覺表徵
本文使用Faster R-CNN得到36個對象視覺表徵,用於編碼圖片的視覺信息,記為。這些特徵將作為BERT的輸入的一部分。
文本表徵
為了編碼文本信息並讓其和視覺信息充分結合,本文按照BERT,把歷史對話以[EOT]為分隔符拼接起來,作為VD-BERT的文本部分,從而得到,其中是一個候選回答。
模型訓練
在得到視覺輸入和文本輸入後,把這兩個再拼接起來作為VD-BERT整個的輸入,得到。注意到,我們使用了預訓練的BERT去初始化VD-BERT,讓它得到一些文本的先驗知識。
為了訓練VD-BERT,本文提出兩個,也是BERT所提出的訓練任務:MLM和NSP。MLM和BERT一致,隨機掩碼文本部分15%的詞,讓模型去預測它。
NSP有所不同,VD-BERT所做的是,讓模型的[CLS]去預測當前的候選回答是不是真正的回答,即輸出一個0-1之間的概率。
對於判別式方法,只需要從候選回答集中採樣一些回答,然後再用NSP去預測是否正確即可;對於生成式方法,只需要一步一步預測即可,類似自回歸模型。
模型微調
除了一個回答是否是正確答案之外(0或1),VisDial v1.0還為每個候選答案給出了相關性得分,用於評判每個答案和正確答案之間的語義相關性,得分範圍為0-1之間。於是,VD-BERT就可以使用NSP在此基礎上進一步微調,而在推理的時候,只需要選擇得分最大的那個答案即可。
本文在視覺對話數據集VisDial v0.9和VisDial v1.0上實驗,使用BERT-base作為VD-BERT骨幹,使用Recall@K、MRR、Mean Rank和NDCG作為測評指標,其他實驗細節詳見原文。
下表是在VisDial v1.0上的結果,可以看到,VD-BERT在幾乎所有指標上都超越了之前的模型。
特別注意到,微調的VD-BERT(*)只在NDCG上表現更好,而在其他指標上表現更差,這是因為NDCG衡量的回答的相關度,微調可以提高其表現,但是反而降低了在其他指標上的效果。
下表是在VisDial v0.9上的結果,可以看到,無論是判別式方法還是生成式方法,VD-BERT都能取得一致更好的效果。
下面來看看視覺信息和文本信息的交互情況。從下圖可以看到,文本和圖片中的對象是對應的。motorcycle關注了5和8(都是motorcycle),而he關注了4(人),helmet關注了4和8。
本文提出VD-BERT,使用預訓練的BERT作為統一的視覺對話模型,通過MLM和NSP的訓練,VD-BERT能夠很好建模視覺信息和文本信息及其之間的相互聯繫。
VD-BERT簡單有效,不需要任何模型結構設計,也不需要多餘的損失函數優化,更不需要額外的標註數據,就能實現SOTA表現。
多模態是近些年發展很快的一個領域,因為和人類獲取信息的過程更接近,多模態能夠更大地推動CV和NLP在現實的應用和落地。更好、更快的多模態模型是未來的一個持續性研究方向。
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報導人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。