CVPR 2018 | 騰訊AI Lab、MIT等提出可端到端學習視頻的運動表徵

2021-01-07 機器之心Pro

儘管端到端的特徵學習已經取得了重要的進展,但是人工設計的光流特徵仍然被廣泛用於各類視頻分析任務中。為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。另外,該研究成果的 TensorFlow 實現已經發布在 GitHub 上。

論文地址:https://arxiv.org/abs/1804.00413代碼地址:https://github.com/LijieFan/tvnet

圖像分類和目標檢測等基於圖像的任務已經在深度學習(尤其是卷積神經網絡(CNN))的推動下實現了革命性的發展。但是,視頻分析方面的進展卻並不盡如人意,這說明學習時空數據的表徵是非常困難的。我們認為其中主要的難點是:尋找視頻中明顯的運動信息(motion cue)需要某種新型網絡設計,而這些設計尚未被找到和測試。

儘管已經有些研究在嘗試通過在空間和時間維度上同時執行卷積運算來學習特徵,但是人工設計的光流(optical flow)特徵在視頻分析上仍有廣泛和有效的應用。光流,顧名思義,是指兩個連續幀之間的像素位移。因此,將光流應用到視頻理解任務上可以明確而方便地實現運動線索的建模。然而,這種方法很低效,估計光流的計算和存儲成本往往很高。目前成功將光流應用於視頻理解的重要方法之一是 two-stream model [33],其在光流數據上訓練了一個用於學習動作模式的卷積網絡。研究者們已經提出了一些不同的 two-stream model 的擴展,並在動作識別和動作檢測等多種任務上實現了當前最佳水平。

儘管表現出色,但當前的基於光流的方法存在一些顯著缺陷:

訓練是一種雙階段過程。第一個階段是通過基於優化的方法(比如 TVL1 [42])提取每兩個連續幀的光流。第二個階段是基於提取出的光流數據上訓練一個 CNN。這兩個階段是分開的,而且來自第二個階段的信息(比如梯度)無法被用於調節第一個階段的過程。光流提取的空間和時間成本很高。提取出的光流必須寫入到磁碟上,以便訓練和測試。對於包含大約 1 萬段視頻的 UCF101 數據集而言,通過 TVL1 方法提取所有數據的光流需要消耗一個 GPU 一整天時間,而將原來的場作為浮點數來存儲這些光流需要至少 1TB 的存儲空間(為了節省存儲成本,通常需要線性歸一化成 JPEG)。

為了解決上述問題,我們提出了一種全新的神經網絡設計,可以端到端的方式學習類光流的特徵。這個名叫 TVNet 的網絡是通過模仿和展開 TV-L1 的迭代優化過程而獲得的。尤其值得一提的是,我們將 TV-L1 方法中的迭代形式化為了神經網絡的自定義層。因此,我們的 TVNet 的設定基礎良好,無需任何額外訓練就能直接被使用。

此外,我們的 TVNet 是可以端到端地訓練的,因此可以自然地連接到特定任務的網絡上(比如動作分類網絡),進而實現「更深度」的可端到端訓練的架構。因此,無需再預計算或存儲光流特徵。

最後,通過執行端到端學習,被初始化為標準的光流特徵提取器的 TVNet 的權重可以得到進一步的調節。這讓我們可以發現更豐富且更針對任務的特徵(相比於原始的光流),從而實現更優的表現。

為了驗證我們提出的架構的有效性,我們在兩個動作識別基準(HMDB51 和 UCF101)上執行了實驗,比較了我們提出的 TVNet 和幾種互相競爭的方法。

總體而言,本論文有以下貢獻:

我們通過將 TV-L1 方法的迭代展開成自定義的神經層,開發了一種學習視頻中的運動的全新神經網絡。這個網絡名叫 TVNet,具有良好的初始化。儘管我們提出的 TVNet 是以特定的 TV-L1 架構初始化的,但相比於標準的光流,它可以在進一步微調之後學習到更豐富和更面向任務的特徵。相比於其它動作表徵學習的方法(比如 TV-L1、FlowNet2.0 和 3D Convnets),我們的 TVNet 在兩個動作識別基準上實現了更優的準確度,即在 HMDB51 上實現了 72.6% 的準確度、在 UCF101 上實現了 95.4% 的準確度。

算法 1:用於光流提取的 TV-L1 方法

圖 1:由 TV-L1、TVNet(無訓練)、TVNet(有訓練)得到的類光流運動特徵的可視化結果

圖 2:(a)將 TV-L1 展開成 TVNet 的過程示意圖。對於 TV-L1,我們只描述了算法 1 中的單次迭代。我們將 TV-L1 中的雙三次翹曲(bicubic warping)、梯度和散度計算重新形式化為了 TVNet 中的雙線性翹曲(bilinear warping)和卷積運算。(b)用於動作識別的端到端模型。

圖 3:TV-L1 和 TVNet-50 在 MiddleBurry 上估計得到的光流示例。經過訓練後,TVNet-50 可以提取出比 TV-L1 更精細的特徵。

表 3:在 HMDB51 和 UCF101 上的各種運動描述器的分類準確度。上面一部分是之前最佳的動作表徵方法的結果;中間一部分給出了 4 種基準方法的準確度;下面的結果表明我們的 TVNet-50 模型在這兩個數據集上都得到了最佳表現。

表 4:在 HMDB51 和 UCF101 上的平均分類準確度

圖 4:TV-L1 和 TVNet-50 在 UCF101 數據集上得到的運動特徵。從第一列到最後一列,我們分別展示了輸入圖像對(僅第一張圖像)、TV-L1 得到的運動特徵、無訓練和有訓練的 TVNet-50 得到的運動特徵。有意思的是,使用訓練後,TVNet-50 可以得到比 TV-L1 及 TVNet-50 的非訓練版本更抽象的運動特徵。這些特徵不僅自動移除了背景的運動(參見「punch」示例),而且還捕捉到了運動物體的輪廓。

論文:用於視頻理解的運動表徵的端到端學習(End-to-End Learning of Motion Representation for Video Understanding)

儘管端到端學習的表徵近來取得了成功,但視頻分析任務廣泛使用的仍然還是人工設計的光流特徵。為了彌補這一不足,我們提出了一種全新的可端到端訓練的神經網絡 TVNet,可從數據中學習類光流特徵。TVNet 是一種特定的光流求解器 TV-L1 方法,並且通過將 TV-L1 中的優化迭代展開成神經層而進行了初始化。因此,TVNet 無需任何額外訓練就能直接使用。此外,它還可以自然地嫁接到其它特定任務的網絡上,從而得到端到端的架構;因此,這種方法無需預計算和在磁碟上預存儲特徵,比之前的多階段方法更加高效。最後,TVNet 的參數可以通過端到端訓練進一步優化。這讓 TVNet 不僅可以學習光流,而且還可以學習到更豐富的且更針對任務的動作模式。我們在兩個動作識別基準上進行了廣泛的實驗,結果表明了我們提出的方法的有效性。我們的 TVNet 實現了比所有同類方法更優的準確度,同時在特徵提取時間方面也能與最快的同類方法媲美。

相關焦點

  • CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet:可端到端學習視頻的運動表徵
    為了彌補這個不足,由來自騰訊 AI Lab、MIT、清華、史丹福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。機器之心對本論文進行了摘要介紹,詳情請參閱原論文。另外,該研究成果的 TensorFlow 實現已經發布在 GitHub 上。
  • 騰訊AI Lab 21 篇 CVPR 2018 錄用論文詳解
    在論文中,利用自然語言描述視頻序列的視覺內容使這個問題得到解決。不同於以前的視頻生成描述工作,主要利用視頻內容中的線索生成語言描述,本文提出一個重構網絡(RecNet)和編碼器-解碼器-重構器結構,該結構可同時利用前向信息流(從視頻到語句)和後向信息流(從語句到視頻)生成視頻描述。具體來說,編碼器 - 解碼器利用前向信息流產生基於被編碼視頻語義特徵的句子描述。
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    片段動作生產器以粗粒度的方式,通過特徵金字塔的形式感知整個視頻並產生長度各異的動作提名;幀動作生成器則對每一個視頻幀採取細粒度的分析。雖然多粒度生成器涉及多個模塊,在訓練過程中卻能以端到端的形式進行。基於幀動作生成器細粒度的分析,片段動作生產器產生的動作提名可以被進一步位置微調,從而實現更精準的定位。
  • 詳解AI Lab 21篇CVPR 2018論文(附論文)
    儘管端到端的特徵學習已經取得了重要的進展,但是人工設計的光流特徵仍然被廣泛用於各類視頻分析任務中。為了彌補這個不足,作者創造性地提出了一個能從數據中學習出類光流特徵並且能進行端到端訓練的神經網絡:TVNet。當前,TV-L1方法通過優化方法來求解光流,是最常用的方法之一。作者發現,把TV-L1的每一步迭代通過特定設計翻譯成神經網絡的某一層,就能得到TVNet的初始版本。
  • 騰訊AI Lab 2020 年度回顧
    在結合多任務學習方面,騰訊 AI Lab 採用了基於任務的結構控制器,來針對不同的任務產生針對性的網絡結構,並採用元學習的方式,使得網絡參數可以快速適應到新的任務上。 此外,騰訊 AI Lab 還在相關理論分析方面做出了一些貢獻,包括一項評估神經機器翻譯的可解釋性方法,可幫助我們打開深度學習黑箱。
  • 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統
    最近,谷歌提出的 Translatotron 模型創造性地實現了單一模型端到端(End-to-End)的直接語音翻譯。不僅如此,它還可以保留說話人的聲音特徵輸出語音,實現最直接的翻譯。可能是職業習慣,《流浪地球》中有一幕讓小編印象非常深刻:劉培強戴著耳機和俄羅斯太空人交流,兩人各自說著母語,然後被實時同步翻譯,毫無障礙不說,甚至拉家常開玩笑都沒問題。
  • INTERSPEECH 2020 | 騰訊AI Lab解讀語音識別與合成方向及入選論文
    1.通過更強的幹擾來學習更好的表徵Learning Better Speech Representations by Worsening Interference本文由騰訊 AI Lab 獨立完成,提出了一個學習魯棒的語音表徵的新思路,即不使用清晰明確的語音數據,而是使用帶強幹擾的聲源數據來進行學習。
  • EMNLP 2018 | 騰訊AI Lab解讀16篇入選論文
    本文為自注意力網絡建立局部性模型,以增強其學習局部上下文的能力。具體而言,我們將局部模型設計為一種可學習的高斯偏差,這種高斯偏差表示了所強化的局部範圍。隨後,所得到的高斯偏差被用於修正原始注意力分布以得到局部強化的權重分布。此外,我們發現在多層自注意網絡中,較低層趨向於關注於尺寸較小的局部範圍,而較高層則更注重全局信息的捕獲。
  • 谷歌提出首個端到端的直接語音翻譯模型
    谷歌的研究人員們做了一次大膽的試驗,嘗試把語音轉文、文本到文本翻譯、文本轉語音這三個步驟合併到同一個端到端模型中完成!此後,領域內提出了越來越多的改進方案,不斷提升了端到端語音到文本序列轉換模型的表現,包括谷歌自己也在近期又提出了利用弱監督數據繼續提升表現的方案(https://arxiv.org/abs/1811.02050)。Translatotron 則是全新的一步,直接把一個語言的語音轉換為另一種語言的語音,不需要經過文本形式的中間表示環節。
  • 騰訊AI Lab全解讀:3大核心領導人物
    摘要:我們提出一個深度學習框架,能夠對視覺表徵進行深度特徵學習,同時進行時空背景建模。高度有效的視覺表徵和深度背景模型,確保我們的框架對場景和運動模式進行深度語義理解。對於一個查詢語句,系統對其文本描述進行分層,這通常可以在維基百科獲得,然後通過分析視頻信息調整分層結構,來反映出搜索結果的話題結構。之後,這就形成了一個優化問題,根據三個重要的指標建立視頻到點(video-to-node)的關聯。此外,挖掘跟多的話題面以補充現有的語義層次機構中的內容。
  • 結合符號主義和DL:DeepMind提出端到端神經網絡架構PrediNet
    DeepMind 最近的一項研究將符號人工智慧和深度學習結合起來,提出了一種新型端到端神經網絡架構 PrediNet。符號主義和連接主義是人工智慧領域中的兩大流派。然而 DeepMind 最近的一項研究將符號人工智慧和深度學習結合起來,取二者之長,提出了一種新型端到端神經網絡架構 PrediNet。PrediNet 可以通過學習形成命題表徵(propositional representation),該表徵具備來自原始像素數據的顯式關係結構。
  • 騰訊AI Lab主任張潼離職,或將返回學界
    和全球最前沿的研究機構一樣,騰訊 AI Lab 在遊戲 AI 場景中取得了不少成績,他們推出的 AI 圍棋程序「絕藝」曾在第 10 屆 UEC 杯計算機圍棋大賽中奪得冠軍。2018 年 12 月 22 日,騰訊 AI Lab 提出的策略協作型 AI「絕悟」首次露面,並在 KPL 秋季決賽戰勝了前職業 KPL 選手組成的人類戰隊(平均水平超過 99% 玩家)。
  • 一個端到端的深度學習系統,可以將足球比賽的YouTube視頻轉換為...
    一個端到端的深度學習系統,可以將足球比賽的YouTube視頻轉換為運動的3D全息圖 李倩 發表於 2018-07-03 10:30:39 你有沒有想過讓 C羅、梅西或者內馬爾在你家桌子上踢一場比賽會是什麼樣子
  • 騰訊AI Lab主任張潼離職,或將返回學界
    和全球最前沿的研究機構一樣,騰訊 AI Lab 在遊戲 AI 場景中取得了不少成績,他們推出的 AI 圍棋程序「絕藝」曾在第 10 屆 UEC 杯計算機圍棋大賽中奪得冠軍。2018 年 12 月 22 日,騰訊 AI Lab 提出的策略協作型 AI「絕悟」首次露面,並在 KPL 秋季決賽戰勝了前職業 KPL 選手組成的人類戰隊(平均水平超過 99% 玩家)。
  • ACL 2018 | 騰訊AI Lab五篇入選論文
    2018 將於當地時間 7 月 15-20 日在澳大利亞墨爾本舉辦。不同於大多數已有方法,hyperdoc2vec 會為每個超文檔學習兩個向量,以表徵其引用其它文檔的情況和被引用的情況。因此,hyperdoc2vec 可以直接建模超連結或引用情況,而不損失其中包含的信息。下面給出了 hyperdoc2vec 模型示意圖:
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    在訓練過程中,模型可使用視頻及其所有的事件描述。首先語句定位器會使用視頻和其中一個事件描述來獲得一個時間片段預測,然後描述生成器會使用這個時間片段來生成一個描述語句。8.(CMU)與騰訊 AI Lab 合作完成,提出了一種新的聲明式列舉規則的半監督學習的方法,可用於定製化半監督學習。
  • NIPS 2018 | 騰訊 AI Lab 入選 20 篇論文,含 2 篇 Spotlight
    在訓練過程中,模型可使用視頻及其所有的事件描述。首先語句定位器會使用視頻和其中一個事件描述來獲得一個時間片段預測,然後描述生成器會使用這個時間片段來生成一個描述語句。8.(CMU)與騰訊 AI Lab 合作完成,提出了一種新的聲明式列舉規則的半監督學習的方法,可用於定製化半監督學習。
  • 稱霸《王者榮耀》、電競虛擬人問世:萬字長文盤點騰訊AI Lab 的...
    在模型訓練過程中,我們還使用了遷移學習方法,可以在只有少量目標說話人數據的情況下提升語音合成以及歌唱合成的效果。  DurIAN 在自然度、魯棒性、可控性、泛化能力以及實時性都取得了顯著進步,能夠在保證端到端語音合成模型高自然度的同時又完全杜絕漏字、重複等問題,解決了一直困擾業界的端到端系統的穩定性和可控性問題。
  • Bengio等人提出 Char2Wav:實現端到端的語音合成
    讀者可點擊閱讀原文下載此論文。GitHub 開源地址:http://github.com/sotelo/parrot合成語音樣本地址:http://josesotelo.com/speechsynthesis摘要我們提出一種端到端的用於語音合成的模型 Char2Wav,其有兩個組成部分:一個讀取器(reader)和一個神經聲碼器(nerual vocoder)。
  • AAAI 2018,騰訊AI Lab 11篇錄用論文全解讀
    在本論文中,我們提出了一種編碼器-解碼器框架的擴展——增加了一個名叫引導網絡(guiding network)的組件。這種引導網絡會建模輸入圖像的屬性特性,其輸出會被用於組成解碼器在每個時間步驟的輸入。這種引導網絡可以插入到當前的編碼器-解碼器框架中,並且可以以一種端到端的方式訓練。因此,該引導向量可以根據來自解碼器的信號而自適應地學習得到,使其自身中嵌入來自圖像和語言兩方面的信息。