機器之心發布
機器之心編輯部
人工智慧頂級會議 AAAI 2020 將於 2 月 7 日-2 月 12 日在美國紐約舉辦,不久之前,AAAI 2020 公布論文介紹結果:今年最終收到 8800 篇提交論文,評審了 7737 篇,接收 1591 篇,接收率 20.6%。本文對北京理工大學、阿里文娛摩酷實驗室合作的論文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》進行解讀。
論文連結:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf
在此論文中,作者們提出了一種聯合常識和關係推理的圖像視頻文本描述生成方法。該方法通過迭代學習算法實現,交替執行以下兩種推理方式:(1) 常識推理,將視覺區域根據常識推理,嵌入到語義空間中從而構成語義圖;(2) 關係推理,將語義圖通過圖神經網絡編碼,生成圖像視頻文字描述。
一、研究動機
圖像視頻的文字描述本質上是視覺到語言 (Vision-to-Language,即 V2L) 的問題。作為視覺理解 (Visual Understanding) 的一個研究方向,連接著視覺與語言,模型需要在理解圖像視頻的基礎上給出描述視覺內容的自然語言語句。該任務在人機互動或者素材檢索中有著重要的應用前景。比如在圖 1(a) 中,老師要求幼兒園或者低年級的小朋友們看圖說故事,具備圖像視頻的文字描述技術的機器可以輔助教學,與小朋友形成互動。在圖 1(b) 中,一個視頻網站的編輯運營人員試圖搜索「易烊千璽跳舞」或者「在海邊散步的戀人」的視頻片段。
圖 1(a)
圖 1(b)
推理視覺關係有助於提高圖像視頻文字描述模型的性能。現有方法 [1-3] 通常使用預訓練的物體或關係檢測器來提取場景圖,再推理圖中各物體之間的關係。該類模型依賴魯棒的物體或關係檢測器,遇到遮擋、小物體等情況會導致檢測結果不準確,進而影響文字描述的生成。在現實生活中,人們可以通過常識(先驗知識)來聯想推理一些不易識別或不可見的事物。如圖 2 所示,人們通常會用「Several people waiting at a race holding umbrellas(一些打著雨傘的人在等一場比賽)」來描述圖中內容,但實際上並不能從圖像中直接觀測到「race(比賽)」這個語義。然而可以通過觀測到的「人群圍在馬路兩旁」來推斷出這是一場比賽。而這個推斷的依據就是「人群圍觀」和「比賽」之間的關聯常識。受此啟發,本文作者提出利用常識引導推斷圖像視頻中的語義關係,進而生成文字語句的描述方法。該方法聯合關係與常識推理,不依賴任何物體或關係檢測器,並且在訓練時也不需要場景圖的標註,這樣的好處是:(1) 通過額外知識的引導,探索獲得難以從視覺信息中學到的物體或關係;(2) 通過端到端的學習,可以保持圖像視頻和文字描述的語義一致性。
圖 2 基於常識推理的圖像視頻文字描述生成示例圖
二、方法
本文提出的聯合推理方法,結合以下兩種推理方式:(1) 常識推理,將圖像視頻區域根據常識推理,嵌入到語義空間中從而構成語義圖;(2) 關係推理,將語義圖通過圖神經網絡(graph convolutional network, GCN)編碼,生成圖像視頻的文字描述。如圖 3 所示,該方法包含三個模塊:視覺映射與知識映射、常識推理、關係推理。在視覺映射與知識映射模塊中,首先稠密採樣圖像或視頻的局部區域,將這些區域根據表觀特徵聚類得到候選語義(即物體、屬性和關係)。然後分別使用視覺映射與知識映射學習候選語義的視覺特徵向量和知識向量。在常識推理模塊中,根據知識圖譜來挑選候選語義組成語義圖。在關係推理模塊中,使用圖卷積網絡和基於序列的語言模型將給定的語義圖經過關係推理得到圖像或視頻的文字描述。
圖 3 聯合常識和關係推理方法示意圖
2.1 視覺映射與知識映射
視覺映射是提取圖像或視頻的局部特徵。首先稠密採樣每個圖像(視頻)的 2D 圖像塊(3D 視頻塊),然後使用預訓練的 CNN 提取特徵,最後將這些特徵聚類,用聚類中心表示候選語義的視覺特徵向量。
知識映射是將圖像(視頻)的候選語義映射到知識空間上。首先,將每個圖像(視頻)的視覺特徵通過多頭注意力機制(multi-head attention mechanism)映射到語義概念空間(每個圖像視頻的真值語義是直接由其真值句子通過詞類標註工具自動得到),得到語義概念;然後學習這些語義概念的知識嵌入(knowledge embedding);最後將知識嵌入向量作為基,語義概念的概率作為權重係數,加權相加後得到圖像(視頻)候選語義的知識向量。
2.2 聯合常識和關係推理
給定圖像(視頻)候選語義的視覺特徵向量和知識向量,迭代執行常識和關係推理訓練視頻(圖像)文字描述模型,如圖 4 所示。
圖 4 迭代執行常識和關係推理示意圖
具體地,常識推理包含語義映射(semantic mapping)和準則(criterion)模塊,語義映射將圖像視頻的視覺特徵和知識向量表達為語義特徵,而常識推理的準則根據 [4] 設置為:
其中 s^h,s^r 和 s^t 分別為頭實體(物體語義),關係(關係語義)和尾實體(物體或屬性語義)的語義特徵,W 為權重矩陣,Re(·) 和 Im(·) 分別表示取實部和虛部。根據該準則來選取三元組構成圖像(視頻)的語義圖。
關係推理由 GCN+LSTM 模塊實現,使用 [5] 提出的 GCN 得到關係敏感(relation-aware)的三元組特徵,將三元組的語義特徵級聯,輸入到 top-down attention LSTM [6] 中得到文字描述。
通過過端到端的方式聯合訓練本文模型,設置目標函數為
,
其中,
為交叉熵損失,用於學習生成句子;
,指導學習三元組的語義特徵,由常識推理中的準則來度量。
由於使用常識推理準則來構建語義圖是一個「硬分配」任務,直接反向求導優化效果不佳。本文提出迭代推理算法,交替執行基於常識推理的語義圖生成以及利用常識和關係推理的文字描述生成來優化模型,從而使模型的端到端訓練更加穩定,如算法 1 所示。
算法 1
三、實驗
在 MSVD 視頻數據集和 MSCOCO 圖像數據集上進行了實驗。結果如表 1 和表 2 所示。在 MSVD 數據集上的結果表明,即便與使用了檢測器的方法比較,本文方法的性能也十分優越。在 MSCOCO 數據集上,由於檢測器在 MSCOCO 目標檢測集上預訓練,所以檢測結果比較準確。為了公平起見,本文加入了直接使用檢測器提取局部圖像塊的實驗,結果明顯高於所有 state-of-the-art 方法。
表 1 MSVD 數據集上各方法的對比結果
表 2 MSCOCO 數據集上各方法的對比結果
本文還在 MSVD 數據集上進行了消融實驗,結果如表 3 所示。其中「Anderson et al. (2019)」是 baseline 方法,相當於本文方法去掉了常識和關係推理;「Ours w/o CR」方法直接使用預訓練檢測器,來代替常識推理生成語義圖;「Ours w/o RR」方法是去掉了關係推理,即 GCN。實驗結果表明了本方法各個模塊的有效性,值得注意的是,「Ours w/o CR」方法的性能甚至低於「Anderson et al. (2019)」,可見在視頻上使在圖像域預訓練的檢測器得到的語義圖直接進行關係推理會導致性能下降。
表 3 MSVD 數據集上消融實驗的結果
本文還展示了 MSVD 數據集和 Youku-VC 視頻中文描述數據集的定性實驗結果,如圖 5 所,其中「o-r-o」和「o-r-a」分別表示語義圖中的「物體-關係-物體」和「物體-關係-屬性」。由圖可見,本文方法可以推斷識別出一些不易檢測(遮擋,小尺寸)的物體,如圖 (b) 中的「makeup」,(d) 中的「woman」,和 (f) 中的「話筒」。
圖 5 MSVD 和 Youku-VC 數據集上的定性實驗結果
四、總結
本文提出了一種聯合常識和關係推理的方法用於圖像視頻的文字描述生成。該方法利用先驗知識交替迭代執行常識推理和關係推理,生成語義圖來學習物體之間的語義關係,從而準確描述圖像視頻的內容。在圖像和視頻數據集上的實驗表明,該方法優於其他最新方法。
參考文獻[1]Li, X.; and Jiang, S. Know more say less: Image captioning based on scene graphs. IEEE TMM, 2019.[2]Yao, T.; Pan, Y.; Li, Y.; and Mei, T. Exploring visual relationship for image captioning. ECCV, 2018.
[3]Yang, X.; Tang, K.; Zhang, H,; and Cai, J. Auto-encoding scene graphs for image captioning. CVPR, 2019.[4]Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, .; and Bouchard, G. Complex embeddings for simple link prediction. In ICML, 2018.
[5]Johnson, J.; Gupta, A.; and Fei-Fei, L. Image generation from scene graphs. CVPR, 2018.
[6]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; and Zhang, L. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2019.