本文由汽車之家 王磊向雷鋒網(公眾號:雷鋒網)AI科技評論投稿,未經允許禁止轉載。
作者 | 王磊
本文介紹了汽車之家團隊在ICCV 2019一篇關於視頻理解論文相關的工作。針對視頻多標籤分類的問題,論文提出了將視頻多標籤之間相關性特徵加入到網絡之中,結果證明該方法可以顯著的提高視頻多標籤分類效果。
隨著視頻應用的不斷普及,視頻內容理解與分析成為計算機視覺領域的一個熱門研究方向。2017年,Google開源了其大規模視頻內容數據集Youtube8M,鼓勵研究者通過該數據集利用深度學習技術進行視頻理解的研究。
最新的Youtube-8M數據集包括兩部分,第一部分為video-level(視頻層級)的標註,該部分總計包含610萬個已標註的視頻,3862個分類,平均每個視頻標註了3個標籤;第二部分為segment-level(視頻片段標註),該部分挑選了1000個分類,對視頻中隨機抽取的5秒片段進行標註,該部分總共有23.7萬個標註數據;值得注意的是,segment-level的數據標註僅標註了抽取的5秒視頻片段是否屬於某一特定標籤,並沒有標識該視頻片段的所有標籤。
近年來,視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內容,視頻內容更為複雜多樣,因此對於視頻內容而言,單個標籤很難完整的表徵視頻的內容,對於視頻內容理解分析大多為多標籤的分類問題。
在視頻標籤中,很多標籤之間會有一定的相關性並成對出現;如圖一所示(標籤從Youtube8M數據集中選取),當寶馬(BMW)、發動機(Engine)的標籤出現時,汽車(Car)的標籤大概率也會出現;但是當汽車的標籤出現時,寶馬標籤出現的可能性則非常低。
圖1.標籤有向圖示例
通過對Youtube8M數據集的部分標籤數據進行分析,可以得到一個圖來表徵各個標籤之間的關係,如圖二所示。圖二中每個不同顏色的節點代表一個獨立的標籤類別,不同節點之間的連線代表著兩個節點之間是否有相關性,節點之間連線上的數值則代表了不同的標籤之間聯繫的緊密程度,數值越大,則聯繫越高;沒有聯繫的節點之間則不會有線連接。
通過對視頻的多標籤之間的相關性進行建模分析,並通過圖神經網絡將標籤類別映射為對應類別分類器加入到最終的視頻多標籤分類網絡之中,可以提升整體模型的學習分類能力。
圖2.標籤相關性Wighted-Graph表示
如何有效獲取目標標籤之間的相關性?如何利用這些標籤相關性提升網絡的特徵學習以及分類表現?這是視頻多標籤分類的兩個重要問題。由於圖的特點可以很好的表徵各個標籤之間的相互依賴性,因此我們選擇基於圖神經網絡進行建模學習,並用於最終視頻分類網絡中。一個圖神經網絡的基本結構如圖三所示:
圖3.圖神經網絡基本結構
Input輸入有兩個,一個為特徵描述矩陣H(n*d),另一個為相關係數矩陣A(n*n),其中n為節點個數,即所有標籤的個數,d為特徵的維度,特徵維度根據採用的CNN結構決定。
相關係數矩陣是GCN網絡中表徵標籤關係的一個矩陣,因此如何構建相關係數矩陣 A 就成了GCN 模型中一個非常重要的問題。由於Youtube8M數據集有超過600萬的video-level的視頻標註數據,因此我們可以通過挖掘標籤在數據集中的共現情況來初始化相關係數矩陣A。 為標籤i在數據中出現的次數, 為標籤i和標籤j兩個標籤一起出現的概率,兩者相除便可以得到不同標籤之間的條件概率矩陣P。
考慮到標註數據中可能存在不準確的情況以及標籤在訓練和測試集中共現的次數可能會相差比較大,因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對於上面得到的矩陣P,只有其值大於某特定值(論文中為0.5)的時候才會考慮,否則矩陣中這兩個標籤的相關度會設置為0,因此優化後的條件概率矩陣如下所示:
Hidden Layer用來學習節點之間的相關信息並更新節點表示,每一個Hidden Layer都可以用一個非線性函數表示:
Hidden Layer可以有多層,堆疊多個 GCN 層來對節點之間交織的複雜關係進行建模。在本論文中Hidden Layer為兩層,通過訓練學習便可以得到優化後的表徵標籤相關性的矩陣Output,並用於幫助視頻標籤分類。
最終的完整網絡結構如圖四所示,我們使用InceptionV3來提取輸入視頻的特徵;NeXtVLAD網絡是第二屆Youtube8M比賽單模型冠軍網絡,該網絡可以很好的視頻的多維度特徵進行聚合,並且在降低特徵維度的同時還能很好的保證模型性能;在網絡的下半部分,我們用一個雙層的GCN網絡來幫助進行最後的視頻標籤分類。最終的對比實驗中,加入GCN後的視頻多標籤分類網絡MAP(Mean-Average-Precision)提高了接近一個百分點,GCN網絡的加入顯著性顯著的提高了視頻多標籤的分類能力;也證明了對於多標籤分類任務,通過研究多標籤之間的相關依賴關係提升網絡分類能力是一個很好的方向。
圖四.整體網絡結構
視頻理解與分析是計算機視覺領域的一個熱門問題,針對視頻的特徵提取以及特徵聚合全世界的研究已經做了大量的工作。本文提出了從多標籤相關性的視角來提升視頻的多標籤分類能力並進行了有效的實驗驗證。通過對視頻的圖像特徵、時序特徵、標籤相關性特徵進行融合的分類網絡可以很好的增強神經網絡的視頻理解能力。
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。