MSRA視頻理解新突破,實現199層三維卷積神經網絡

2021-01-09 雷鋒網

雷鋒網 AI 科技評論按:本文轉載自「微軟研究院 AI 頭條」,雷鋒網(公眾號:雷鋒網) AI 科技評論獲授權轉載。

隨著網際網路的不斷發展,可處理視頻的深度神經網絡遠比普通神經網絡更難訓練,如何減輕訓練負擔成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜索與挖掘組的研究成果「Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks」,在正在舉辦的 International Conference on Computer Vision(ICCV)2017 會議上發布,它專注於如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網絡,提出一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網絡的設計思路,並實現了迄今為止最深的 199 層三維卷積神經網絡。通過該網絡學習到的視頻表達,在多個不同的視頻理解任務上取得了穩定的性能提升。

1993 年 9 月,一款名為 NCSA Mosaic 的瀏覽器正式支持在網頁內嵌入圖片,這標誌著網際網路從純文本時代邁入了「無圖無真相」的多媒體時代。如今,隨著網際網路帶寬的提升和高速行動裝置的普及,信息的獲取途徑和傳播途徑也在與日增加,視頻逐漸成為網際網路多媒體消費的重要組成部分。

從傳統的視頻分享網站到電視電影節目的網絡化,再到現在新興的視頻直播網站和小視頻分享網站,網際網路視頻已經進入了爆炸式發展的新階段。據統計,僅僅以視頻分享網站 YouTube 為例,平均每分鐘就有約 300 小時的視頻上傳到 YouTube 上,每天的視頻觀看次數更是高達 50 億次。數量如此巨大的視頻內容與觀看次數對視頻處理、分類、推薦等常見視頻相關技術提出了更高的要求,也提供了更廣闊的應用場景。

在視頻處理相關技術中,視頻特徵描述學習(Representation Learning)是一個最基本的問題。學習視頻的特徵表達是幾乎所有視頻處理和分析的基礎,其中包括視頻標註、動作識別、視頻監控、視頻檢索、視頻場景識別、視頻分割、視頻自然語言描述和基於視頻的人機互動等等。

然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。

在 International Conference on Computer Vision(ICCV)2017 會議上,微軟亞洲研究院發布了多媒體搜索與挖掘組最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。這項工作主要集中在如何利用大量視頻數據來訓練視頻專用的深度三維卷積神經網絡,它提出了一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網絡的設計思路,並實現了迄今為止最深的 199 層三維卷積神經網絡。通過該網絡學習到的視頻表達,在多個不同的視頻理解任務上取得了穩定的性能提升。

基於三維卷積神經網絡的視頻特徵提取

為了使用深度神經網絡來提取視頻中時間和空間維度上的信息,一種直接的思路就是將用於圖像特徵學習的二維卷積拓展為三維卷積(3D Convolution),同時在時間和空間維度上進行卷積操作。如此一來,由三維卷積操作構成的三維卷積神經網絡可以在獲取每一幀視覺特徵的同時,也能表達相鄰幀隨時間推移的關聯與變化,如下圖所示。

然而這樣的設計在實踐中卻存在一定的困難。首先,時間維度的引入使得整個神經網絡的參數數量、運行時間和訓練所需的 GPU 內存都將大幅增長;其次,隨機初始化的三維卷積核需要大量精細標註的視頻數據來進行訓練。受困於以上兩點,近些年關於三維卷積神經網絡的發展十分緩慢,其中最著名的 C3D[2] 網絡只有 11 層,模型大小卻達到 321MB,甚至大於 152 層 ResNet[3] 的 235MB 模型。

深度偽三維卷積神經網絡設計

為了解決以上的局限性,我們提出了一系列基於偽三維卷積和殘差學習(Residual Learning)的神經網絡模塊,用以同時在時間和空間上進行卷積操作。其中,偽三維卷積是這個網絡結構的核心操作,基本思想是利用一個 1*3*3 的二維空間卷積和 3*1*1 的一維時域卷積來模擬常用的 3*3*3 三維卷積。通過簡化,偽三維卷積神經網絡相比於同樣深度的二維卷積神經網絡僅僅增添了一定數量的一維卷積,在參數數量、運行速度等方面並不會產生過度的增長。與此同時,由於其中的二維卷積核可以使用圖像數據進行預訓練,對於已標註視頻數據的需求也會大大減少。結合殘差學習的思想,該論文提出三種不同的偽三維卷積殘差單元(P3D-A,P3D-B,P3D-C)分別使用串行、並行和帶捷徑(shortcut)的串行三種方式來確定空間卷積和時域卷積之間的關係。

通過使用以上三種偽三維殘差單元替代 152 層 ResNet 中的二維殘差單元,該工作得到了目前最深的 199 層三維卷積網絡結構。最終經過 ImageNet 數據集中的圖片數據和 Sports-1M(包含了 487 個類別的百萬級視頻片段)[4] 視頻數據的訓練,該網絡在視頻動作識別(Action Recognition)、視頻相似度分析(Video Similarity)和視頻場景識別(Scene Recognition)三個不同的視頻理解任務上均獲得了穩定的性能提升,並且在 CVPR 2017 的 Activity Net Challenge 的 Dense-Captioning 任務中獲得第一名。

除了利用偽三維卷積網絡提取特徵外,該網絡還可以作為其它方法的基本網絡結構,從而提升其它基於神經網絡方法的視頻識別性能。以雙流(Two-stream)方法為例,在 UCF101 的視頻動作識別任務上,如果使用偽三維卷積網絡作為基本網絡結構,實現的 Two-stream 框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合併的結果,都超過了其它網絡結構。

以上的實驗結果驗證了偽三維卷積殘差網絡可以有效學習來自大量圖像和視頻訓練數據中的類別信息。在與二維卷積殘差網絡和傳統三維卷積網絡的對比中,該結構成功地提升了在不同視頻識別任務上的性能。關於偽三維殘差網絡相關的代碼和模型詳見 https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。

神經專用神經網絡的發展方向

該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網絡的可能性,然而本文中提到的神經網絡目前主要針對視頻分類問題。面對紛繁複雜的視頻內容與視頻應用需求,單一的神經網絡很難滿足。針對不同的應用,視頻專用神經網絡有以下三個具有潛力的發展方向:

第一,視頻檢索(Video Search)專用神經網絡。視頻檢索、視頻推薦是大型視頻分享網站所要面對的首要問題,給予用戶良好的檢索體驗,並適當地推薦用戶需要的視頻內容,幫助用戶快速地找到自己感興趣的視頻。

第二,視頻分割(Semantic Video Segmentation)專用神經網絡。視頻分割的目標在於像素級別地分割出視頻中的人、車等常見物體。而隨著 AR/VR 技術的發展,像素級別的目標識別可以輔助許多不同的 AR/VR 相關應用,這也促進了視頻分割的發展。

第三,視頻生成(Video Generation)專用神經網絡。隨著用戶越來越容易地在不同設備上進行視頻拍攝,非專業用戶對視頻的自動/半自動編輯、美化也逐漸有了更多的需求。因此,視頻生成神經網絡便可以幫助用戶編輯創作自己的視頻作品。

隨著卷積神經網絡的發展,人工智慧在很多圖像相關任務上的性能都產生了飛躍,也有大量相關技術從學術圈慢慢地走進了我們的生活。但是由於視頻包含信息太過複雜,大數據的獲取、存儲、處理均存在一定困難,導致視頻相關技術在很多方面仍然進步緩慢,相信隨著視頻專用卷積神經網絡的發展,這部分的不足也會逐漸被彌補。

無論是文本、圖像還是視頻,人工智慧的發展在滿足網際網路用戶需求的同時也始終推動著用戶習慣的變遷。有了合理的算法對視頻進行分析、推薦,可以幫助網際網路用戶獲得更好的瀏覽體驗;有了用戶更好的反饋及更大的點擊量,可以讓視頻產業規模進一步擴大;更大規模的視頻數據會進一步對視頻相關算法提出更高的要求。在這樣的循環之下,視頻產業本身必將伴隨著視頻相關算法快速地發展,迎接更美好的未來。

參考文獻

[1] Z. Qiu, T. Yao, T. Mei.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. InICCV, 2017.

[2] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M.Paluri. Learning spatiotemporal features with 3d convolutional networks. InICCV, 2015.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[4] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R.Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.

作者介紹

邱釗凡,微軟亞洲研究院和中國科學技術大學聯合培養博士生,導師為梅濤研究員和田新梅副教授。主要研究方向包括視頻特徵學習、視頻動作識別和多媒體內容分析。他曾於 2015 年在中國科學技術大學獲得學士學位,並於 2017 年獲得微軟學者獎學金。

姚霆博士,微軟亞洲研究院多媒體搜索與挖掘組研究員,主要研究興趣為視頻理解、大規模多媒體搜索和深度學習。他帶領研究團隊在 COCO 圖像描述自動生成、2017 年 VISDA 視覺領域自適應語義分割任務、2016&2017 年 ActivityNet 視頻行為識別等多個國際級比賽中取得了世界領先的成績。他於 2014 年在香港城市大學獲得計算機科學博士學位並於 2015 年榮獲 SIGMM Outstanding Ph.D. Thesis Award。

梅濤博士,微軟亞洲研究院資深研究員,主要研究興趣為多媒體分析、計算機視覺和機器學習。他的研究團隊目前致力於視頻和圖像的深度理解、分析和應用。他同時擔任 IEEE 和 ACM 多媒體彙刊(IEEE TMM 和 ACM TOMM)以及模式識別(Pattern Recognition)等學術期刊的編委,並且是多個國際多媒體會議的大會主席和程序委員會主席。他是國際模式識別學會會士,美國計算機協會傑出科學家,中國科學技術大學和中山大學兼職教授。

相關文章:

專訪微軟亞洲研究院副院長張益肇:我們在為 MSRA 布哪些醫療局?

MSRA獲ACM TOMM 2017最佳論文:讓AI接手繁雜專業的圖文排版設計工作

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 應用豐富的「卷積神經網絡」技術,怎樣實現了圖像識別?
    (原標題:應用豐富的「卷積神經網絡」技術,怎樣實現了圖像識別?)圖像識別的其他應用還包括——照片和視頻網站、互動營銷、創意活動、社交網絡上的面部及圖像識別,以及龐大數據集下的網絡圖像分類等。圖像識別是一項相當困難的任務圖像識別並不是一件容易的事,實現它的一種好辦法是將元數據應用於非結構化的數據。
  • 深度學習入門教程:手把手帶你用Numpy實現卷積神經網絡(一)
    雖然好的框架很多,不過自己用Numpy實現一個可以使用的CNN的模型有利於初學者加深對CNN的理解。後面我們將通過一系列文章介紹如何用Numpy從零實現一個可以訓練的CNN簡易網絡,同時對深度學習(CNN)的相關基礎知識進行一些複習,也希望能夠給正在入門的同學一些簡單的歸納。
  • 卷積神經網絡理解(一):濾波器的意義
    卷積神經網絡的發展二. 卷積神經網絡的重要性三. 卷積神經網絡與圖像識別四.二.卷積神經網絡的重要性1.局部連接在第三章中,我們介紹前饋神經網絡的時候,相鄰的兩層之間,前一層的每一個神經元(或輸入層的每一個單元)與後一層的每一個神經元都有連接,這種情況稱為全連接。
  • 你不了解的卷積神經網絡:新一代圖像視頻壓縮技術
    在圖片、視頻壓縮領域,使用最多的深度學習技術就是卷積神經網絡(CNN),下面會就卷積神經網絡進行簡單介紹。如圖 3 所顯示,像搭積木一樣,一個卷積神經網絡由卷積、池化、非線性函數、歸一化層等模塊組成。最終的輸出根據應用而定,如在人臉識別領域,我們可以用它來提取一串數字(專業術語稱為特徵)來表示一幅人臉圖片。然後通過比較特徵的異同進行人臉識別。
  • YJango的卷積神經網絡——介紹
    PS:YJango是我的網名,意思是我寫的教程,並不是一種網絡結構。。關於卷積神經網絡的講解,網上有很多精彩文章,且恐怕難以找到比斯坦福的CS231n還要全面的教程。 所以這裡對卷積神經網絡的講解主要是以不同的思考側重展開,通過對卷積神經網絡的分析,進一步理解神經網絡變體中「因素共享」這一概念。注意:該文會跟其他的現有文章有很大的不同。
  • 反思卷積神經網絡:圖像角度泛化上的困難重重
    毫無疑問,卷積神經網絡在圖像處理及周邊領域的開發進程和研究突破中發揮著重要作用。 但是,這不代表卷積神經網絡表現完美。 研究人員經常會遇到一個問題:他們往往由於過於追求理論和完美數據集而深陷其中。然而事與願違,要求數據準確度到小數點後幾位其實往往與現實情況中圖像處理的實際用處恰恰相反。
  • 人腦與卷積神經網絡的詭異對應,識別三維圖形反應模式非常相似
    ,就像我們利用我們對大腦的了解來開發新的神經網絡一樣。基於為遊戲開發的高容量GPU和網際網路上海量圖像和視頻提供的大規模訓練集,像AlexNet這樣的深(多層)網絡在物體識別方面取得了重大進展。在物體視覺的開始階段,大腦就能探測到三維形狀,如凸起、空洞、軸狀、球體。這是一種新發現的自然智能策略,約翰霍普金斯大學的研究人員也在訓練識別視覺物體的人工智慧網絡中發現了這種策略。
  • 深度學習入門:淺析卷積神經網絡
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。我們觀察這幾類圖片,發現它們長得確實很像,因此邏輯回歸的錯判也是可以理解的。
  • 人腦與卷積神經網絡的詭異對應,識別三維圖形反應模式非常相似
    來源:futurism 編輯:小勻 【新智元導讀】一直以來,神經網絡可以讓我們了解我們的大腦,就像我們利用我們對大腦的了解來開發新的神經網絡一樣。基於為遊戲開發的高容量GPU和網際網路上海量圖像和視頻提供的大規模訓練集,像AlexNet這樣的深(多層)網絡在物體識別方面取得了重大進展。 Connor和他的團隊對自然神經元和人工神經元的圖像反應進行了相同的測試,結果令人 「毛骨悚然」:V4和AlexNet第3層的圖像反應模式非常相似。
  • 「範例卷積神經網絡」和信息最大化
    這一方法也能被理解為「卷積神經網絡範例」。如果我們把z看作是x的表徵,那麼實現「互信息」║[X,Z]的最大化就是有意義的。這個「互信息」有一個下界,這個下界就是標準的「變分下限」。如果我們的變分集Q涵蓋了真實情境Px∣z,那麼這一下界就是確定的。「範例卷積神經網絡」的特別之處就在於,它利用了「分布Px實際上是N觀測值的一個經驗分布」這一事實。
  • 深度學習資訊|用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 基於卷積神經網絡的目標檢測算法簡介
    什麼是卷積神經網絡?卷積神經網絡是一個層次模型,主要包括輸入層,卷積層,池化層、全連接層以及輸出層。卷積神經網絡是專門針對圖像而設計,主要特點在於卷積層的特徵是由前一層的局部特徵通過卷積共享的權重得到。
  • 圖像識別技術——卷積神經網絡CNN詳解
    前言卷積神經網絡不同於神經網絡,在圖片處理這方面有更好的表現。本文主要對神經網絡和卷積神經網絡做了簡要的對比,著重介紹了卷積神經網絡的層次基礎,同時也簡要介紹了卷積神經網絡參數更新方式和其優缺點,並結合具體實例對卷積神經網絡的工作方式做了介紹。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    深度學習(Deep Learning, DL),從狹義上理解,就是一種具有一定的結構和訓練方法且含有多個隱含層的神經網絡;從廣義上理解,可以把具有任何層次結構的機器學習方法稱為深度學習。在深度學習過程中,從輸入圖像,經過無監督的逐層訓練和學習圖像特徵,通過有監督的訓練更新整個網絡參數,最小化損失函數,在輸出層實現正確的分類。
  • 解析卷積神經網絡的應用
    解析卷積神經網絡的應用 貿澤電子 發表於 2019-08-21 15:29:46 目前,人們對性能強大且結構複雜的計算機已是司空見慣。
  • PyTorch可視化理解卷積神經網絡
    如今,機器已經能夠在理解、識別圖像中的特徵和對象等領域實現99%級別的準確率。生活中,我們每天都會運用到這一點,比如,智慧型手機拍照的時候能夠識別臉部、在類似於谷歌搜圖中搜索特定照片、從條形碼掃描文本或掃描書籍等。造就機器能夠獲得在這些視覺方面取得優異性能可能是源於一種特定類型的神經網絡——卷積神經網絡(CNN)。
  • 卷積神經網絡數學原理解析
    事實上,我們每天都在使用計算機視覺——當我們用面部解鎖手機或在社交媒體上發照片前使用自動修圖。卷積神經網絡可能是這一巨大成功背後最關鍵的構建模塊。這一次,我們將加深理解神經網絡如何工作於CNNs。出於建議,這篇文章將包括相當複雜的數學方程,如果你不習慣線性代數和微分,請不要氣餒。我的目標不是讓你們記住這些公式,而是讓你們對下面發生的事情有一個直觀的認識。
  • 卷積神經網絡(CNN)介紹與實踐
    視覺通路。- 來源:http://cs231n.github.io/classification/為了「教會」一種算法如何識別圖像中的對象,我們使用特定類型的人工神經網絡:卷積神經網絡(CNN)。他們的名字源於網絡中最重要的一個操作:卷積。卷積神經網絡受到大腦的啟發。
  • 卷積神經網絡超詳細總結
    1)網絡結構**卷積神經網絡整體架構:**卷積神經網絡是一種多層的監督學習神經網絡,隱含層的卷積層和池採樣層是實現卷積神經網絡特徵提取功能的核心模塊。該網絡模型通過採用梯度下降法最小化損失函數對網絡中的權重參數逐層反向調節,通過頻繁的迭代訓練提高網絡的精度。
  • 卷積神經網絡(CNN)新手指南
    進一步深入網絡現在展示一個傳統的卷積神經網絡結構,還有其他層在這些層之間穿插轉換。類似地,在卷積神經網絡開始之前,權重或過濾器的值是隨機的,過濾器並不知道去尋找邊緣和曲線,在更高階的層過濾器不知道去尋找爪子和喙。然而當我們稍微大了一點之後,我們的父母和老師給我們展示了不同的圖片和圖像,並給了我們一個相應的標籤。給圖像以標籤這個想法既是卷積神經網絡(CNNs)的訓練過程。