ICCV 2019 論文解讀:用圖神經網絡改善視頻的多標籤分類

2020-12-06 雷鋒網
您的瀏覽器不支持 audio 元素。

本文由汽車之家 王磊向雷鋒網(公眾號:雷鋒網)AI科技評論投稿,未經允許禁止轉載。

作者 | 王磊

本文介紹了汽車之家團隊在ICCV 2019一篇關於視頻理解論文相關的工作。針對視頻多標籤分類的問題,論文提出了將視頻多標籤之間相關性特徵加入到網絡之中,結果證明該方法可以顯著的提高視頻多標籤分類效果。

一、背景介紹

隨著視頻應用的不斷普及,視頻內容理解與分析成為計算機視覺領域的一個熱門研究方向。2017年,Google開源了其大規模視頻內容數據集Youtube8M,鼓勵研究者通過該數據集利用深度學習技術進行視頻理解的研究。

最新的Youtube-8M數據集包括兩部分,第一部分為video-level(視頻層級)的標註,該部分總計包含610萬個已標註的視頻,3862個分類,平均每個視頻標註了3個標籤;第二部分為segment-level(視頻片段標註),該部分挑選了1000個分類,對視頻中隨機抽取的5秒片段進行標註,該部分總共有23.7萬個標註數據;值得注意的是,segment-level的數據標註僅標註了抽取的5秒視頻片段是否屬於某一特定標籤,並沒有標識該視頻片段的所有標籤。


二、標籤相關性

近年來,視頻理解成為計算機視覺領域的一個熱點方向。相比較圖像內容,視頻內容更為複雜多樣,因此對於視頻內容而言,單個標籤很難完整的表徵視頻的內容,對於視頻內容理解分析大多為多標籤的分類問題。

在視頻標籤中,很多標籤之間會有一定的相關性並成對出現;如圖一所示(標籤從Youtube8M數據集中選取),當寶馬(BMW)、發動機(Engine)的標籤出現時,汽車(Car)的標籤大概率也會出現;但是當汽車的標籤出現時,寶馬標籤出現的可能性則非常低。

圖1.標籤有向圖示例

通過對Youtube8M數據集的部分標籤數據進行分析,可以得到一個圖來表徵各個標籤之間的關係,如圖二所示。圖二中每個不同顏色的節點代表一個獨立的標籤類別,不同節點之間的連線代表著兩個節點之間是否有相關性,節點之間連線上的數值則代表了不同的標籤之間聯繫的緊密程度,數值越大,則聯繫越高;沒有聯繫的節點之間則不會有線連接。

通過對視頻的多標籤之間的相關性進行建模分析,並通過圖神經網絡將標籤類別映射為對應類別分類器加入到最終的視頻多標籤分類網絡之中,可以提升整體模型的學習分類能力。


圖2.標籤相關性Wighted-Graph表示


三、圖卷積神經網絡

如何有效獲取目標標籤之間的相關性?如何利用這些標籤相關性提升網絡的特徵學習以及分類表現?這是視頻多標籤分類的兩個重要問題。由於圖的特點可以很好的表徵各個標籤之間的相互依賴性,因此我們選擇基於圖神經網絡進行建模學習,並用於最終視頻分類網絡中。一個圖神經網絡的基本結構如圖三所示:

圖3.圖神經網絡基本結構

Input輸入有兩個,一個為特徵描述矩陣H(n*d),另一個為相關係數矩陣A(n*n),其中n為節點個數,即所有標籤的個數,d為特徵的維度,特徵維度根據採用的CNN結構決定。

相關係數矩陣是GCN網絡中表徵標籤關係的一個矩陣,因此如何構建相關係數矩陣 A 就成了GCN 模型中一個非常重要的問題。由於Youtube8M數據集有超過600萬的video-level的視頻標註數據,因此我們可以通過挖掘標籤在數據集中的共現情況來初始化相關係數矩陣A。 為標籤i在數據中出現的次數,  為標籤i和標籤j兩個標籤一起出現的概率,兩者相除便可以得到不同標籤之間的條件概率矩陣P。

考慮到標註數據中可能存在不準確的情況以及標籤在訓練和測試集中共現的次數可能會相差比較大,因此我們設置了一個閾值剔除相關性比較弱的噪聲的影響。對於上面得到的矩陣P,只有其值大於某特定值(論文中為0.5)的時候才會考慮,否則矩陣中這兩個標籤的相關度會設置為0,因此優化後的條件概率矩陣如下所示:

Hidden Layer用來學習節點之間的相關信息並更新節點表示,每一個Hidden Layer都可以用一個非線性函數表示:

Hidden Layer可以有多層,堆疊多個 GCN 層來對節點之間交織的複雜關係進行建模。在本論文中Hidden Layer為兩層,通過訓練學習便可以得到優化後的表徵標籤相關性的矩陣Output,並用於幫助視頻標籤分類。


四、整體網絡

最終的完整網絡結構如圖四所示,我們使用InceptionV3來提取輸入視頻的特徵;NeXtVLAD網絡是第二屆Youtube8M比賽單模型冠軍網絡,該網絡可以很好的視頻的多維度特徵進行聚合,並且在降低特徵維度的同時還能很好的保證模型性能;在網絡的下半部分,我們用一個雙層的GCN網絡來幫助進行最後的視頻標籤分類。最終的對比實驗中,加入GCN後的視頻多標籤分類網絡MAP(Mean-Average-Precision)提高了接近一個百分點,GCN網絡的加入顯著性顯著的提高了視頻多標籤的分類能力;也證明了對於多標籤分類任務,通過研究多標籤之間的相關依賴關係提升網絡分類能力是一個很好的方向。


圖四.整體網絡結構


五、結論

視頻理解與分析是計算機視覺領域的一個熱門問題,針對視頻的特徵提取以及特徵聚合全世界的研究已經做了大量的工作。本文提出了從多標籤相關性的視角來提升視頻的多標籤分類能力並進行了有效的實驗驗證。通過對視頻的圖像特徵、時序特徵、標籤相關性特徵進行融合的分類網絡可以很好的增強神經網絡的視頻理解能力。



雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。神經網絡壓縮方向是目前深度學習研究的一個熱門的方向,其主要的研究方向是壓縮,蒸餾,網絡架構搜索,量化等。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    :無監督的學習下圖分類(代碼已經公開)深度解讀:圖系列|三篇圖層次化表示學習(Hierarchical GNN):圖分類以及節點分類深度解讀:團隊新作 | 多尺度圖卷積神經網絡:有效統一三維形狀離散化特徵表示深度解讀:ICLR20|CUHK及NUS提出兩個指標度量與提升圖網絡消息傳遞論文解讀:KDD'18異質信息網絡嵌入學習—HEER模型結構,
  • 記: 多標籤分類問題
    最近遇到給個標籤問題,就是給一個 object 打個多個標籤,網上查了很多資料。發現百度沒搜索出什麼,後來是到知網上找到一些靠譜的資料,然後在 Google 一下。現在總結下多標籤問題。多標籤方法大致可以分為兩類,分別是問題轉換和算法改造。先描述下問題:先介紹問題轉換方法.
  • 今日Paper|點雲分類框架;多模式Transformer;神經網絡;有序神經元等
    目錄用於行人重識別的三元組在線實例匹配丟失用於DSTC8 AVSD挑戰的帶指針網絡的多模式TransformerPointAugment:一種自動增強的點雲分類框架尋找稀疏、可訓練的神經網絡這是一項具有挑戰的任務,因為其包含多模態視頻功能,例如包括文本、視覺和音頻特徵。對話代理還需要學習用戶話語和系統響應之間的語義依賴,以便與人類進行連貫對話。
  • 斯坦福ICLR2019圖網絡最新論文:圖神經網絡的表徵能力有多強?
    Networks,GNN)的研究熱情日益高漲,圖網絡已經成為2019年各大深度學習頂會的研究熱點。本文介紹ICLR2019的一篇論文,提出基於WL圖同構測試的理論框架,為眾多的GNN框架給出了精彩的理論分析,並提出了一個簡單但是強大的圖網絡框架 GIN(Graph Isomorphism Networks),並驗證了GIN在圖分類任務上的卓越性能。
  • 「合併」樣本和標籤?IBM 為多標籤小樣本圖像分類帶來新進展!|CVPR...
    IBM 的研究人員對多標籤小樣本的圖像分類進行了研究,並在 CVPR 2019 大會上進行了論文分享,相關成果發表在 IBM 官網博客上,雷鋒網 AI 科技評論編譯如下。當我們將人工智慧和機器學習擴展到面向企業和工業界應用的更廣泛的任務集時,從更少的數據集中學到更多是必要的。數據增強是一個重要的工具,特別是在沒有足夠的訓練數據的情況下,它通過自動合成新的訓練樣本來改進學習。
  • 7篇必讀ACM MM 2019論文:圖神經網絡+多媒體
    圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。來新智元 AI 朋友圈和AI大咖們一起討論吧。
  • 解讀| 如何用進化方法優化大規模圖像分類神經網絡?
    研究發布之後,機器之心的技術分析師又對這項重要研究進行了更加深度細緻的解讀。論文:圖像分類器的大規模進化(Large-Scale Evolution of Image Classifiers)https://arxiv.org/pdf/1703.01041.pdf摘要:神經網絡已被證明可以有效地解決難題,但它們的架構設計起來頗具挑戰性,即便只是圖像分類問題也如此。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    本文將就「為什麼圖有用」、「為什麼很難在圖上定義卷積」、「是什麼使神經網絡成為了圖神經網絡」這些問題進行討論。首先,讓我們簡單回顧一下什麼是圖?圖 G 是由有向或無向邊連接的一組節點(頂點)。節點和邊通常是由專家依據知識經驗或是對問題的直覺進行設置的。
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    圖神經網絡成為最大趨勢這屆 CIKM 的主題是「賦能未來生活的人工智慧」,可見以深度學習為主要動力的人工智慧技術在信息提取、數據挖掘領域中已經成為了主流技術。「當前,全世界各個國家都在制定自己的人工智慧戰略。
  • 手把手教你用Keras進行多標籤分類(附代碼)
    之後我們將簡要討論SmallerVGGNet,它是我們將要實現的一個用於多標籤分類的Keras神經網絡結構。 緊接著我們將構建SmallerVGGNet並應用我們的多標籤分類數據集來訓練他。最後,我們將基於樣例圖片測試我們的神經網絡,並討論何時使用多標籤分類問題最為合適,包括您需要注意的一些注意事項。我們的多標籤分類數據集
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,居業界實驗室前列,其中3篇被選做口頭報告我們提出了一種新的深度網絡結構,成分回歸網絡,來對美化圖像進行盲復原。即使在不知道美化系統具體參數的情況下,該網絡結構亦能更好地將美化後的圖像映射為原始圖像。實驗表明,該網絡在不同尺度上均可以得到較高的還原度。*本文入選ICCV 2017 口頭報告(Oral),該類論文僅佔總投稿數的2.1%。2.
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    ICCV作為計算機視覺領域最高級別的會議之一,其論文集代表了計算機視覺領域最新的發展方向和水平。此次騰訊優圖入選的論文提出了諸多亮點:全球首個AI卸妝效果的算法;現今最準確的單張圖像深度估計算法;完美解決多幀信息融合困難的多幀超解析度視頻結果;史無前例的手機雙攝圖像匹配和分割研究成果。這些論文呈現了有趣且可擴展應用的技術,讓視覺AI成為了一個工業界和學術界的交叉熱點。
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。CVPR官網顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇。
  • 圖神經網絡迎來快速爆發期 GNN的原理、變體及拓展
    01 GNN:從嘗鮮進入快速爆發期 今年以來,圖神經網絡技術(Graph Neural Network, GNN)得到了學術界極大的關注與響應。_2019_paper.pdf [6]: Learning Discrete Structures for Graph Neural Networks https://arxiv.org/abs/1903.11960 在圖數據相關的任務上,圖的分類是一個重要而又未完全解決好的問題,其難處在於如何在圖數據上實現層次化的池化操作從而獲得圖的全局表示,「Graph
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • 知深行遠:關於圖神經網絡層數加深的探索
    圖 (Graph) 由結點和連邊組成,我們把應用於圖上的神經網絡算法稱為圖神經網絡 (Graph Neural Network, 簡稱GNN)。圖表示學習 [18]為什麼需要GNN?對於圖像、視頻、音頻等數據,經典的神經網絡 (如CNN和RNN) 已經能夠較好地處理,並且目前也已經取得了不錯的效果,為什麼我們還會需要GNN呢?
  • 全球計算機視覺頂會 CVPR 連續三年收錄騰訊優圖論文 2019 收錄 25...
    中國團隊表現不俗,此次,騰訊公司有超過 58 篇論文被本屆 CVPR 大會接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab33 篇,相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議,CVPR2019 錄取論文代表了計算機視覺領域在 2019 年最新和最高的科技水平以及未來發展潮流。CVPR 官網顯示,今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。
  • 基於神經網絡算法 羊毛_基於pso算法和bp算法訓練神經網絡 - CSDN
    圖神經網絡是用於圖結構數據的深度學習架構,將端到端學習與歸納推理相結合,業界普遍認為其有望解決深度學習無法處理的因果推理、可解釋性等一系列瓶頸問題,是未來 3 到 5 年的重點方向。2019 年圖神經網絡有哪些研究成果值得關注?2020 年它又將朝什麼方向發展?讓我們一起來一探究竟。
  • ICCV 2019接收論文提前看,曠視11篇入選文章放出
    > 論文連結:暫無 關鍵詞:半監督學習、視頻檢測 摘要: 基於深度學習的視頻重點區域檢測已經超過了大量無監督的方法。