南京大學提出CPD:通過視頻-文本對匹配的視頻預訓練模型

2021-03-06 將門創投

本文介紹南京大學計算機系媒體計算組於2020年初公開到arxiv上的一篇文章:CPD (Learning Spatiotemporal Features via Video and Text Pair Discrimination)。

實驗在UCF101上獲得最優的結果,且HMDB51也非常有競爭力,值得注意的是,本研究使用的數據量遠遠小於其他方法所使用的數據(1到100 million個視頻不等),顯示出本研究視頻文本匹配的目標函數以及課程學習的策略的有效性。

更多詳情,請參看論文原文:

論文連結:

https://arxiv.org/abs/2001.05691

代碼連結:

https://github.com/MCG-NJU/CPD-Video

後臺回復【210208】可直接下載論文PDF~


一、研究動機

現在大部分視頻特徵的獲取都依賴於大規模的人工標註數據集,而視頻的標註相比於圖片更加昂貴,難以擴展到更大的規模,同時,我們觀察到網際網路上的視頻常常伴有非常豐富的多模態信息,如文本、聲音等,與標註信息相比,這些數據存在廣泛且易於獲得,能夠比較容易地擴大到更大的規模。

我們主要利用網絡上的視頻以及視頻本身的描述信息 (Instagram中的視頻描述、Youtube中的視頻標題),藉助contrastive learning的思想預測視頻和文本的匹配關係 (Cross-modal Pair Discrimination),對視頻網絡進行預訓練。

通過預訓練得到的視頻特徵在較小的動作識別數據集UCF101和HMDB51數據集上進行微調/訓練線性分類器,效果均優於當前的自監督、多模態監督的視頻預訓練方法。同時,由於硬體資源的限制,與其他預訓練的文章相比,我們使用的數據規模也相對較小(300k個視頻文本對,單機8卡訓練),也希望能為對這方面感興趣但計算資源有限的同學提供一些參考。

值得一提的是,OpenAI的最新工作CLIP利用與本文非常相似的對比學習的思路,將數據規模擴大至400m個圖片和文本對,獲得非常令人驚豔的效果,在ImageNet上zero shot的效果可以有監督結果相媲美,也可以作為判別器幫助圖像生成模型生成真實高清的圖像,展示了這一類方法的巨大潛力。

下面具體介紹一下我們的方法和實驗結果。

二、方法介紹

對於一個視頻及其對應的文本,我們首先對視頻進行採樣並對文本進行預處理,通過一個雙流網絡(視頻特徵提取網絡和文本特徵提取網絡),分別提取視頻的特徵,並利用MLP將他們編碼到同一特徵空間中並進行l2歸一化,得到第 

其中  表示由第 

我們採用SlowOnly的3D ResNet50作為視頻特徵提取網絡,綜合考慮性能和計算代價,採用DistilBERT作為文本特徵提取網絡。

對於視頻所對應的文本,由於沒有經過人工的篩選和標準,質量參差不齊,存在大量與視頻內容無關的噪聲信息,我們採用魯棒性較好的Transformer結構的DistilBERT模型作為文本特徵提取網絡,並利用無監督預訓練的參數對其進行初始化。

為了更好得利用無監督預訓練的語言模型,避免其被噪聲以及隨機初始化的視頻網絡所破壞,我們設計了課程學習的策略進行訓練。訓練分為兩個階段,第一個階段固定文本網絡的參數,只更新視頻網絡以及mlp的參數,直至訓練loss不再下降,再進入第二階段,同時優化視頻和文本網絡的參數,但文本網絡仍使用比較小的學習率。

3. 訓練數據

之前的視頻自監督、多模態預訓練方法大多直接使用Kinetics數據集中的視頻進行訓練,雖然沒有使用Kinetics數據集中的標籤,但是由於數據集中的視頻均經過了人工篩選,視頻質量比較高,且視頻是經過剪輯的,只包含具有預先定義的語義的視頻片段,且較為均勻得分布在400個類別中,所以與真實的網絡數據還是有比較大的偏差,與自監督、無監督本身的任務設定背道而馳。

為了消除人工幹預帶來的影響,我們採用了論文OmniSource中從Instagram上爬取的視頻以及視頻的描述作為數據進行訓練,這些視頻利用Kinetics-400中的類別進行檢索,得到的視頻完全沒有經過人工的篩選,所以不論是視頻還是文本都存在比較大的噪音,我們從中隨機採樣出300k個視頻,並將數據集命名為Instagram-300k。

下面我們給出一些例子,幫助大家更直觀地理解視頻和文本的情況,也歡迎做視頻自監督、多模態的同學使用這一更接近真實場景的數據。

可以看到,文本中包含許多與視頻內容直接相關的信息,也包含許多無關信息,甚至錯誤信息(b、c),視頻本身的質量也比較差,如e包含多個鏡頭轉換且拍攝質量較差。

為了與其他方法公平對比,我們也在Kinetics-400數據集進行了試驗,我們對數據集中的視頻標題進行爬取,除去連結消失或標題為非英語的視頻,最終得到210k個視頻,為了區別於Kinetics原本數據集,我們稱之為Kinetics-210k。

三、實驗結果

我們將預訓練得到的網絡在較小的動作識別數據集UCF101和HMBD51數據集上進行微調/訓練線性分類器,與其他自監督、多模態視頻預訓練方法進行對比。

可以看到,我們的結果在UCF101上獲得最優的結果,且HMDB51也非常有競爭力,值得注意的是,我們使用的數據量遠遠小於其他方法所使用的數據(1到100 million個視頻不等),顯示出我們視頻文本匹配的目標函數以及課程學習的策略的有效性。

我們也給出Kinetics-400數據集上訓練knn分類器和線性分類器(LC)的結果。

更多消融實驗以及模型的泛化能力實驗可以參考論文原文。

關於我「

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務將門技術社群以及將門創投基金

將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: 

bp@thejiangmen.com

    

點擊右上角,把文章分享到朋友圈

微信:thejiangmen

bp@thejiangmen.com

相關焦點

  • 【NLP】Facebook提出的預訓練模型BART
    該模型結合雙向和自回歸 Transformer 進行模型預訓練,在一些自然語言處理任務上取得了SOTA性能表現。近日,Facebook 發表論文,提出一種為預訓練序列到序列模型而設計的去噪自編碼器 BART。BART 通過以下步驟訓練得到:1)使用任意噪聲函數破壞文本;2)學習模型來重建原始文本。
  • 機器推理文本+視覺,跨模態預訓練新進展
    針對上述問題,我們提出跨模態預訓練模型 Unicoder-VL。藉助通用領域跨模態預訓練,該模型能夠學習到語言和視覺間的內在關聯,並用於生成語言和視覺的聯合向量表示。實驗證明,這種考慮了跨模態信息的聯合向量表示能夠很好地遷移到下遊任務中,並取得很好的效果。
  • 預訓練語言模型:還能走多遠?
    韋福如對現有的語言模型預訓練工作進行總結和比較,然後介紹面向自然語言理解和生成任務的統一預訓練語言模型 UniLM 以及多語言預訓練模型 InfoXLM(演講內容請觀看CNCC回放視頻)。 邱錫鵬總結了預訓練語言模型目前的一些改進方向,包括遷移方法、知識嵌入、多模態、跨語言、特定領域等。
  • 字節跳動李航提出AMBERT!超越BERT!多粒度token預訓練語言模型
    事實上,細粒度和粗粒度的標記化在學習預訓練語言模型方面都有優缺點。在本文中,我們提出了一種新的基於細粒度和粗粒度標記的預訓練語言模型,稱為AMBERT(一種多粒度的BERT)。基於Transformer的語言模型首先在預訓練中從大型語料庫中學習,然後在微調中從下遊任務的標記數據中學習。基於Transformer (Vaswani et al ., 2017),通過預訓練技術和大數據, 模型可以有效地捕捉詞法,句法,語義關係的標記輸入文本,在許多NLU任務,如情緒分析、文本蘊涵和機器閱讀理解實現最先進的性能。
  • 關於AI文本生成動畫模型的論文
    近日,迪士尼研究所和羅格斯大學的科學家共同發表了關於AI文本生成動畫模型的論文。 研究人員表示,這種算法只要在輸入的文本中描述某些活動即可,不需要注釋數據和進行大量訓練就能產生動畫。 這篇論文中,研究人員進一步提出了端到端模型,這種模型可以創建一個粗略的故事版和電影劇本的視頻,用來描繪電影劇本中的文字。
  • 一文講透預訓練模型的改進訓練算法 ,輕鬆達到State of the Art
    針對已有的兩種主流算法NFT-TM和FT-NTM,綜合考慮了在預訓練語言模型上建立一個上層網絡,並以適當的方式對兩者進行微調的可能性,提出了一種新算法FT-TM。通過對一系列NLP任務的實驗結果分析,比較了算法FT-TM和FT-NTM的效果,證明了新算法FT-TM的優勢。在NLP的預訓練語言模型時代,針對已有的兩種主流算法NFT-TM和FT-NTM,本文提出了一種新算法FT-TM。
  • 百度預訓練模型ERNIE榮登榜首
    因此,吸引了谷歌、Facebook、微軟等國際頂尖公司以及史丹福大學、卡耐基·梅隆大學等頂尖大學參加。GLUE排行榜的效果,在一定程度上成為了衡量各機構自然語言處理預訓練技術水平最重要的指標之一。2018年底以來,以BERT為代表的預訓練模型大幅提升了自然語言處理任務的基準效果,取得了顯著技術突破,基於大規模數據的預訓練技術在自然語言處理領域變得至關重要。
  • NLP預訓練模型大集合!
    它們將詞語和句子編碼成稠密的定長向量,從而大大地提升神經網絡處理文本數據的能力。近日,Separius 在 GitHub 上列舉了一系列關於 NLP 預訓練模型的近期論文和文章,力求全面地概述 NLP 各個方面的最新研究成果,包括詞嵌入、池化方法、編碼器、OOV 處理等。
  • 中文ELECTRA預訓練模型再升級
    在今年3月,哈工大訊飛聯合實驗室推出了中文ELECTRA預訓練模型,並將相關資源進行開源,目前在GitHub上已獲得580個star。本次更新中,我們將預訓練語料從原有的約20G提升至180G,利用接近9倍大小的數據集。
  • PTMs|2020最新NLP預訓練模型綜述
    提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。這裡作者介紹的另一大類的預訓練方法是基於對比的方法,即:通過「對比」來進行學習。很像learning to rank中的pairwise方法。CTL全稱:Contrastive Learning,假設了「觀測文本對」之間的語義比「隨機採樣的文本對」之間的語義更近。
  • 賽爾原創@Findings|中文預訓練語言模型回顧
    同時,我們創新地提出了一種基於文本糾錯的預訓練語言模型MacBERT,應用糾錯型掩碼語言模型(MLM as correction,Mac)解決了預訓練模型中「預訓練-精調」不一致的問題。為了驗證實驗效果,我們選擇了8個經典的中文自然語言處理任務,包括閱讀理解、單句文本分類、句對文本分類等。大量實驗結果表明所提出的MacBERT能夠在大多數任務上取得顯著性能提升。
  • 如何用 Python 和 gensim 調用中文詞嵌入預訓練模型?
    回顧一下, 利用詞嵌入預訓練模型,Spacy 可以做許多很酷的事情。這篇教程關注中文詞嵌入模型,因而對其他功能就不展開介紹了。如何使用 Gensim 處理中文詞嵌入預訓練模型呢?我做了個視頻教程給你。視頻教程教程中,我們使用的預訓練模型來自於 Facebook ,叫做 fasttext 。它的 github 連結在這裡。
  • [預訓練語言模型專題] MT-DNN(KD) : 預訓練、多任務、知識蒸餾的結合
    感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理,我們將沿此脈絡前行,探索預訓練語言模型的前沿技術,紅框中為已介紹的文章,綠框中為本期介紹的文章,歡迎大家留言討論交流。眾所周知,語言模型預訓練方法和多任務學習策略都是提高模型性能的重要手段,本文就結合了兩者的優點,提出了MT-DNN的方案,並在GLUE上的八個NLU任務上超越了之前的state-of-art模型。首先,MT-DNN考慮了四種類型的NLU任務,分別是單句文本分類(CoLA, SST-2),文本對的分類(RTE,MNLI,QQP,MRPC),文本相似度度量(STS-B),相關度排序(QNLI)。
  • 【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
    近日,復旦大學邱錫鵬等學者發布了自然語言處理處理中預訓練模型PTMs的綜述大全,共25頁pdf205篇參考文獻,從背景知識到當前代表性PTM模型和應用研究挑戰等,是絕好的預訓練語言模型的文獻。這些學習過的編碼器仍然需要在上下文中通過下遊任務來表示單詞。此外,還提出了各種預訓練的任務,以學習PTMs的不同目的。這篇綜述的貢獻可以總結如下:1. 全面調研。我們為NLP提供了PTMs的全面回顧,包括背景知識、模型架構、預訓練任務、各種擴展、適應方法和應用。
  • 賽爾原創@Findings | 中文預訓練語言模型回顧
    同時,我們創新地提出了一種基於文本糾錯的預訓練語言模型MacBERT,應用糾錯型掩碼語言模型(MLM as correction,Mac)解決了預訓練模型中「預訓練-精調」不一致的問題。為了驗證實驗效果,我們選擇了8個經典的中文自然語言處理任務,包括閱讀理解、單句文本分類、句對文本分類等。大量實驗結果表明所提出的MacBERT能夠在大多數任務上取得顯著性能提升。
  • 帝國理工聯手谷歌提出抽象文本摘要最佳模型|ICML 2020
    但是,尚未有針抽象文本摘要(abstractive text summarization)定製預訓練目標。此外,目前抽象文本摘要任務也缺乏跨領域的系統評價。為此,本文提出了一種新的自監督預訓練目標:GSG(Gap Sentences Generation),以適配 Transformer-based 的 encoder-decoder 模型在海量文本語料上預訓練。
  • 深度| 通過NMT訓練的通用語境詞向量:NLP中的預訓練模型?
    自然語言處理(NLP)這個領域目前並沒有找到合適的初始化方法,它不能像計算機視覺那樣可以使用預訓練模型獲得圖像的基本信息,我們在自然語言處理領域更常用的還是隨機初始化詞向量。本文希望通過 MT-LSTM 先學習一個詞向量,該詞向量可以表徵詞彙的基本信息,然後再利用該詞向量輔助其它自然語言處理任務以提升性能。
  • 超越SOTA Transformer模型,哈佛、FAIR提出基於殘差能量模型的文本...
    機器之心報導機器之心編輯部在本文中,來自哈佛大學、Facebook AI 研究院的研究者提出了一種基於殘差能量模型的文本生成方法,效果超過 state-of-the-art 的 transformer 語言模型。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    新智元報導編輯:SF【新智元導讀】本文該綜述系統地介紹了nlp中的預訓練模型,深入盤點了目前主流的預訓練模型,提出了一種預訓練模型的分類體系。2、提出了一種預訓練模型的分類體系,通過四種分類維度來劃分目前已有的預訓練模型。包括:表徵的類型,即:是否上下文感知編碼器結構,如:LSTM、CNN、Transformer預訓練任務類型,如:語言模型LM,帶掩碼的語言模型MLM,排列語言模型PLM,對比學習等針對特定場景的拓展和延伸。
  • 自然語言處理中的深度遷移學習——文本預訓練
    有了計算機視覺,我們就有了優秀的大型數據集,比如ImageNet,在它之上我們可以獲得一套世界級的、最先進的預訓練模型來利用遷移學習。但是自然語言處理呢?考慮到文本數據是如此的多樣化、充斥著噪音以及非結構化的特點,這是一個嚴峻的挑戰。我們最近在文本嵌入方面取得了一些成功,包括Word2vec、GloVe 和 FastText 等方法,我在關於「文本數據的特徵工程」[1]的文章中介紹了所有這些方法。