實驗在UCF101上獲得最優的結果,且HMDB51也非常有競爭力,值得注意的是,本研究使用的數據量遠遠小於其他方法所使用的數據(1到100 million個視頻不等),顯示出本研究視頻文本匹配的目標函數以及課程學習的策略的有效性。
更多詳情,請參看論文原文:
論文連結:
https://arxiv.org/abs/2001.05691
代碼連結:
https://github.com/MCG-NJU/CPD-Video
後臺回復【210208】可直接下載論文PDF~一、研究動機
現在大部分視頻特徵的獲取都依賴於大規模的人工標註數據集,而視頻的標註相比於圖片更加昂貴,難以擴展到更大的規模,同時,我們觀察到網際網路上的視頻常常伴有非常豐富的多模態信息,如文本、聲音等,與標註信息相比,這些數據存在廣泛且易於獲得,能夠比較容易地擴大到更大的規模。
我們主要利用網絡上的視頻以及視頻本身的描述信息 (Instagram中的視頻描述、Youtube中的視頻標題),藉助contrastive learning的思想預測視頻和文本的匹配關係 (Cross-modal Pair Discrimination),對視頻網絡進行預訓練。
通過預訓練得到的視頻特徵在較小的動作識別數據集UCF101和HMDB51數據集上進行微調/訓練線性分類器,效果均優於當前的自監督、多模態監督的視頻預訓練方法。同時,由於硬體資源的限制,與其他預訓練的文章相比,我們使用的數據規模也相對較小(300k個視頻文本對,單機8卡訓練),也希望能為對這方面感興趣但計算資源有限的同學提供一些參考。
值得一提的是,OpenAI的最新工作CLIP利用與本文非常相似的對比學習的思路,將數據規模擴大至400m個圖片和文本對,獲得非常令人驚豔的效果,在ImageNet上zero shot的效果可以有監督結果相媲美,也可以作為判別器幫助圖像生成模型生成真實高清的圖像,展示了這一類方法的巨大潛力。
下面具體介紹一下我們的方法和實驗結果。
二、方法介紹
對於一個視頻及其對應的文本,我們首先對視頻進行採樣並對文本進行預處理,通過一個雙流網絡(視頻特徵提取網絡和文本特徵提取網絡),分別提取視頻的特徵,並利用MLP將他們編碼到同一特徵空間中並進行l2歸一化,得到第
其中 表示由第
我們採用SlowOnly的3D ResNet50作為視頻特徵提取網絡,綜合考慮性能和計算代價,採用DistilBERT作為文本特徵提取網絡。
對於視頻所對應的文本,由於沒有經過人工的篩選和標準,質量參差不齊,存在大量與視頻內容無關的噪聲信息,我們採用魯棒性較好的Transformer結構的DistilBERT模型作為文本特徵提取網絡,並利用無監督預訓練的參數對其進行初始化。
為了更好得利用無監督預訓練的語言模型,避免其被噪聲以及隨機初始化的視頻網絡所破壞,我們設計了課程學習的策略進行訓練。訓練分為兩個階段,第一個階段固定文本網絡的參數,只更新視頻網絡以及mlp的參數,直至訓練loss不再下降,再進入第二階段,同時優化視頻和文本網絡的參數,但文本網絡仍使用比較小的學習率。
3. 訓練數據
之前的視頻自監督、多模態預訓練方法大多直接使用Kinetics數據集中的視頻進行訓練,雖然沒有使用Kinetics數據集中的標籤,但是由於數據集中的視頻均經過了人工篩選,視頻質量比較高,且視頻是經過剪輯的,只包含具有預先定義的語義的視頻片段,且較為均勻得分布在400個類別中,所以與真實的網絡數據還是有比較大的偏差,與自監督、無監督本身的任務設定背道而馳。
為了消除人工幹預帶來的影響,我們採用了論文OmniSource中從Instagram上爬取的視頻以及視頻的描述作為數據進行訓練,這些視頻利用Kinetics-400中的類別進行檢索,得到的視頻完全沒有經過人工的篩選,所以不論是視頻還是文本都存在比較大的噪音,我們從中隨機採樣出300k個視頻,並將數據集命名為Instagram-300k。
下面我們給出一些例子,幫助大家更直觀地理解視頻和文本的情況,也歡迎做視頻自監督、多模態的同學使用這一更接近真實場景的數據。
可以看到,文本中包含許多與視頻內容直接相關的信息,也包含許多無關信息,甚至錯誤信息(b、c),視頻本身的質量也比較差,如e包含多個鏡頭轉換且拍攝質量較差。
為了與其他方法公平對比,我們也在Kinetics-400數據集進行了試驗,我們對數據集中的視頻標題進行爬取,除去連結消失或標題為非英語的視頻,最終得到210k個視頻,為了區別於Kinetics原本數據集,我們稱之為Kinetics-210k。
三、實驗結果
我們將預訓練得到的網絡在較小的動作識別數據集UCF101和HMBD51數據集上進行微調/訓練線性分類器,與其他自監督、多模態視頻預訓練方法進行對比。
可以看到,我們的結果在UCF101上獲得最優的結果,且HMDB51也非常有競爭力,值得注意的是,我們使用的數據量遠遠小於其他方法所使用的數據(1到100 million個視頻不等),顯示出我們視頻文本匹配的目標函數以及課程學習的策略的有效性。
我們也給出Kinetics-400數據集上訓練knn分類器和線性分類器(LC)的結果。
更多消融實驗以及模型的泛化能力實驗可以參考論文原文。
關於我「門」
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。
將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
微信:thejiangmen
bp@thejiangmen.com