ICCV三個Strong Accept,UCSB等提出首個大規模視頻語言數據集

2020-12-12 機器之心Pro

機器之心報導

參與:路、一鳴

繼獲得 CVPR 2019 審稿得分排名第一(三個 Strong Accept)並獲得最佳學生論文獎之後,加州大學聖芭芭拉分校王鑫等人所著論文再次獲得三個 Strong Accept,被另一大計算機視覺頂會 ICCV 2019 接收。

兩年一度的計算機視覺頂會 ICCV 2019 將於 2019 年 10 月 27-11 月 2 日在韓國首爾舉行。今日該會議發放接收論文通知,據機器之心統計,ICCV 2019 共收到 4303 篇論文,接收 1077 篇,接收率為 25%。相比於上一屆會議,ICCV 2019 的論文提交和接收數量都有大幅提升(ICCV 2017 共收到 2143 篇論文投稿,接收 621 篇,接收率為 29%)。

來自加州大學聖塔芭芭拉分校王威廉組的王鑫、吳佳煒與字節跳動人工智慧實驗室李磊、陳俊坤等人合作的 VATEX 論文被 ICCV 2019 接收,並獲得三個 Strong Accept。此前,王鑫等人的視覺語言導航研究《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》在 CVPR 2019 評審過程中也獲得三個 Strong Accept,最終獲得了 CVPR 2019 最佳學生論文獎。

我們來看這篇獲得三個 Strong Accept 的論文講了什麼。

這篇論文講什麼

論文:VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

論文連結:https://arxiv.org/pdf/1904.03493.pdf

這篇論文介紹了一個新型大規模多語視頻描述數據集 VATEX,該數據集包含超過 41250 個視頻和 82.5 萬中英文視頻描述,其中包括超過 20.6 萬描述是中英平行翻譯對。它包含 600 種人類活動和不同的視頻內容。每個視頻具備 10 個英文描述和 10 個中文描述,分別來自 20 個人類標註者。

圖 2:VATEX 數據集示例。該視頻有 10 個英文描述和 10 個中文描述。所有句子均指向這一個視頻,因此它們是彼此平行的,而後面五個中英文描述是彼此的互譯版本。

與廣泛使用的 MSRVTT 數據集相比,VATEX 是多語言的,且規模更大、語言更複雜、視頻和自然語言描述更加多樣化。

具體來說,

VATEX 包含大量中英文描述,支持多語言研究,而這是單語言數據集無法滿足的;VATEX 具備最大數量的視頻片段-句子對,且每個視頻片段都有多個不同的句子描述,每個描述在整個數據集中都是獨一無二的;VATEX 包含更全面且具代表性的視頻內容,覆蓋 600 種人類活動;VATEX 中的中英文語料在詞彙方面更加豐富,從而可以生成更自然和多樣化的視頻描述。研究者還基於 VATEX 數據集提出了兩項視頻語言研究任務:1)多語視頻描述,即使用緊湊的統一描述生成模型為視頻生成多種語言的描述;2)以視頻為輔助的機器翻譯,即使用視頻信息作為額外的時空語境將源語言描述翻譯為目標語言描述。

圖 1:VATEX 任務示例。(a) 使用緊湊的統一視頻描述模型準確地以中英文形式描述視頻內容。(b) 機器翻譯模型將「pull up bar」錯譯為「pulling pub」(拉起酒吧),將「do pull ups」錯譯為「do pull」(做拉)。而有了相關視頻語境作為輔助,機器翻譯模型可以將英語句子準確地翻譯為中文。

研究者在 VATEX 數據集上進行了大量實驗,結果表明:

統一的多語言模型不僅能夠更高效地生成視頻中英文描述,其性能還優於單語模型;時空視頻語境可以有效幫助對齊源語言和目標語言,從而輔助機器翻譯。該研究還討論了使用 VATEX 數據集進行其他視頻語言研究的潛力。

這項研究有哪些貢獻

該研究的貢獻主要為以下三點:

創建了新型大規模、高質量多語視頻描述數據集,有利於視頻語言研究領域的發展;對 MSR-VTT、VATEX 英語語料庫、VATEX 中文語料庫進行了深入對比。提出了多語視頻描述任務,並使用緊湊的統一模型驗證了其在生成中英文視頻描述時的效率和效果。首次提出視頻輔助的機器翻譯任務,並驗證了使用時空視頻語境作為額外信息對機器翻譯性能的提升效果。VATEX vs. MSR-VTT

研究者對 VATEX 數據集和 MSR-VTT 數據集進行了全面分析。由於 MSR-VTT 只有英語語料,因此研究者把 VATEX 分割成英語語料 (VATEX-en) 和中文語料 (VATEX-zh)。

VATEX 包含針對 41,300 個視頻的 413,000 個英文描述和 413,000 個中文描述,這些視頻共涵蓋 600 種人類活動;而 MSR-VTT 僅包含針對 7000 個視頻的 200,000 個描述,視頻覆蓋 257 種人類活動。除了比 MSR-VTT 規模大以外,VATEX-en 和 VATEX-zh 中的描述句子都更長一些,也更加具體。VATEX-en、VATEX-zh 和 MSR-VTT 的平均句子長度分別為 15.23、13.95 和 9.28。

圖 3 為 VATEX-en、VATEX-zh 和 MSR-VTT 的統計直方圖分布。從中我們可以看到,相比 MSR-VTT,VATEX 數據集中的視頻描述更長,且具備更多的名詞和動詞。

研究者還評估了二者的語言複雜度。他們對比了 VATEX-en、VATEX-zh 和 MSR-VTT 的 unique n-grams 和 POS tags(如動詞、名詞、副詞等),結果表明 VATEX 數據集較 MSR-VTT 有很大提升。VATEX 數據集具備更廣泛的描述風格,覆蓋更多的動作、物體和視覺場景。

關於視頻描述的多樣性,該研究也進行了深入對比。如表 3 所示,MSR-VTT 面臨嚴重的重複問題,66% 的視頻具備同樣的描述,而 VATEX 數據集沒有這個問題,不僅如此,同一個視頻中的描述也不會出現重複。此外,VATEX 數據集中的視頻描述句子在整個語料庫中都更加多樣化,這表明 VATEX 數據集可以作為視頻檢索的高質量基準。

為了更直觀地衡量詞語豐富性和描述多樣性,研究者提出了 Type-Caption Curve。如下圖 4 所示,VATEX 數據集具備更強的語言複雜度和多樣性。

多語視頻描述任務

多語視頻描述任務即用超過一種語言(如英文和中文)描述視頻內容。

模型

該研究使用的單語視頻描述基線模型如下圖所示:

該研究使用了三個不同的多語視頻描述模型,分別是:

兩個 Base 模型:兩個分別為英文和中文訓練的單語編碼器-解碼器模型(如圖 5 所示)的組合;Shared Enc 模型:共享視頻編碼器,但有兩個語言解碼器,分別適用於英文和中文;Shared Enc-Dec 模型:僅有一個編碼器和一個解碼器,中英文共享編碼器和解碼器,唯一的區別是不同語言的詞嵌入權重矩陣不同。如下圖所示:

結果

上表展示了三個基線模型在英文和中文測試集上的結果。多語模型(Shared Enc 和 Shared Enc-Dec)的性能優於單語模型 (Base)。這表明多語言學習通過共享視頻編碼器確實可以幫助視頻理解(Shared Enc 模型的性能最優)。更重要的是,Shared Enc 和 Shared Enc-Dec 的參數量相比 Base 模型大大減少(分別減少了 4.7M 和 13.4M)。

這些觀察結果證明,緊湊的統一模型能夠生成多語言描述,視覺理解可以從多語言知識學習中受益。研究者認為專門的多語模型可能會進一步提升對視頻的理解,帶來更好的結果。

視頻輔助的機器翻譯

視頻輔助的機器翻譯 (VMT),即將視頻信息作為時空語境幫助將源語言句子翻譯成目標語言。該任務在很多現實世界應用,如翻譯社交媒體中帶有視頻內容的帖子。

模型方法

在 VMT 中,翻譯系統使用源語言句子和對應的視頻作為輸入,生成目標語言句子。為了高效利用這兩種模態(文本和視頻),該研究設計了一個具備註意力機制的多模態序列到序列模型。該模型包含三個模塊:源語言編碼器(Source Encoder)、視頻編碼器(Video Encoder)和目標語言解碼器(Target Decoder),模型架構如下圖所示:

實驗

研究者使用以下三個基線模型:

神經機器翻譯模型(Base NMT 模型):僅考慮文本信息,採用編碼器-解碼器模型和注意力機制;視頻特徵均值模型(Average Video Features):模型架構和 Base NMT Model 相同,但該模型不僅考慮文本信息,也考慮了視頻信息;LSTM 視頻特徵模型(LSTM Video Features):該模型與該研究提出的 VMT 模型相同,但是它缺少了時間注意力(temporal attention)。表 5 展示了 4 個不同模型在英中、中英翻譯任務上的結果。Average video Features 模型和 LSTM Video Features 模型性能較 Base NMT 模型有所提升,這表明被動接收和考慮視頻特徵對於對齊源語言和目標語言是無效的。

但是,使用具備時間注意力的 LSTM Video Features 模型(即該研究提出的 VMT 模型,表 5 最下面一行 LSTM VI w/ Attn (VMT))模型對視頻特徵進行動態交互時,翻譯系統獲得了較大的性能提升。這是因為,使用注意力機制時,語言動態可作為 query,突出視頻中的相關時空特徵,從而使學得的視頻語境幫助源語言和目標語言空間中的詞映射。這表明額外的視頻信息可以有效提升機器翻譯系統的性能。

除了表 5 以 BLEU-4 為度量指標衡量模型性能之外,研究者還提出使用名詞/動詞恢復準確率(noun/verb recovery accuracy)來準確評估額外視頻信息對恢復名詞/動詞的影響,名詞/動詞恢復準確率即目標句子中名詞/動詞準確翻譯出來的概率。

下表 6 展示了 NMT 和 VMT 模型在不同 noun/verb masking rate 時的性能:

從上表中我們可以看到,VMT 模型的性能持續優於 NMT 模型。此外,隨著 masking rate 增加,NMT 模型很難找出正確的名詞/動詞,而 VMT 可以依賴視頻語境獲得更多有用信息,因此二者在 recovery accuracy 上的性能差距顯著增加。這表明,在 VMT 模型中視頻信息對於理解主體、對象、動作及其關係有著重要作用。

一作介紹

該論文共同一作王鑫、吳佳煒均來自加州大學聖塔芭芭拉分校王威廉組。

王鑫現在加州大學聖塔芭芭拉分校讀博,本科畢業於浙江大學。其研究興趣為:語言和視覺;多模態標對導航(multimodal grounded navigation);自然語言生成;視頻活動理解。

王鑫所著多篇論文被 ECCV、EMNLP、AAAI、NAACL、CVPR 等頂級會議接收,此前他擔任一作的論文《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》被 CVPR 2019 接收,在評審階段獲得了 3 個 Strong Accept,排名第一,並最終獲得了 CVPR 2019 最佳學生論文獎。

吳佳煒現在加州大學聖塔芭芭拉分校讀博,導師為王威廉,本科畢業於清華大學,導師為劉知遠。其研究興趣為:在最少人類監督情況下,利用自然信號進行語言理解和生成,具體來講,他主要研究無監督、自監督和半監督學習場景。此外,他也對視覺和語言的交叉領域感興趣。

吳佳煒所著多篇論文被 ACL、ICCV、AAAI、CVPR 接收。

相關焦點

  • PLATO:百度發布首個大規模隱變量對話模型
    PLATO 是業界首個基於隱空間(Latent Space)的端到端的預訓練對話生成模型。據悉,該模型利用隱向量來表示對話的潛在方向,從而達到對話內容豐富度和流暢度的顯著提升。針對具體的對話任務,基於PLATO可以用少量數據訓練得到非常流暢的對話系統。
  • 百度發布全球首個大規模隱變量對話模型PLATO
    PLATO是業界首個基於隱空間(Latent Space)的端到端預訓練對話生成模型。據悉,該模型利用隱向量來表示對話的潛在方向,從而達到對話內容豐富度和流暢度的顯著提升。針對具體對話任務,基於PLATO可以用少量數據訓練得到非常流暢的對話系統。
  • 業界首個!大規模多相機通用物品場景數據集MessyTable
    今天介紹的就是來自商湯與新加坡南洋理工大學聯合製作的大規模多相機通用物品場景數據集MessyTable,MessyTable包括5500+ 手工設計的場景,共計5萬多張圖片和120萬個密集標註的檢測框,其對應論文已被ECCV 2020接收。
  • 【UCSB】FYI是個什麼東西?
    Gaucho FYI是幹什麼的?Gaucho,我們都知道是南美牧牛人,也是本校的吉祥物。但也不只有這三樣,所以不要說"我知道不要醉酒駕駛、不要吸毒、性行為要雙方同意,這玩意我可以略過了"。這些知識,和現在的其他知識一樣,都通過"線上課程"來傳授,也就是一個兩部分的Zoom webinar。學校會自動為新生(包括大一新生、轉學生、EAP交換生)註冊這一課程,並在9月21號這一周通過Umail通知。做了有什麼好處?
  • 機器學習和計算機視覺的前20個圖像數據集
    圖像數據可以採用不同的形式,例如視頻序列,從多個角度的不同的攝像機查看圖像或來自醫療掃描儀的多維數據。哥倫比亞大學圖像庫:COIL100是一個數據集,其中包含360個旋轉角度中每個角度成像的100個不同對象。視覺基因組:視覺基因組是一個數據集和知識庫,旨在將結構化圖像概念與語言聯繫起來。該資料庫具有詳細的視覺知識庫,並帶有108,077張圖像的字幕。
  • 愛奇藝論文入選ACM MM會議 提出全球最大卡通人物數據集
    論文提出的卡通人物識別基準數據集iCartoonFace是目前全球最大的手工標註卡通人物數據集,將有效推動卡通識別領域技術突破,開啟面向卡通內容的智能識別新世代。除了面向視頻的結構化分析,卡通人物識別技術也在圖片搜索、廣告識別等場景有著大量使用需求。然而,卡通人物的複雜程度和顏色紋理多樣性都遠超真人人臉,並存在類間差異小類內差異大的情況,這些複雜分布的數據決定了卡通人物識別的難度和挑戰性都遠遠大於真人人臉識別。卡通數據集是實現卡通識別技術突破與應用的關鍵。絕大部分現有的卡通識別數據集存在著數據量小、噪聲比例大的問題。
  • 不以英語為中心,百種語言互譯,FB開源首個單一多語言MT模型
    近日,Facebook 根據多年對 MT 的研究宣布實現了一個重要的裡程碑:首個單一的大規模 MMT 模型,該模型可以實現 100x100 個語言對的直接翻譯,而不依賴以英語為中心的數據。這個單一的多語言模型表現得和傳統雙語模型一樣好,並且比以英語為中心的多語言模型提高了 10 個 BLEU 點。
  • 谷歌提出XTREME:評估跨語言的大規模多語言多任務基準
    然而,在實踐中,對這些方法的評估大多集中在一小部分任務上,並且針對相似的語言。為了鼓勵對多語言學習進行更多研究,我們發表了論文《XTREME:用於評估跨語言泛化的大規模多語言多任務基準》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)。
  • 華科團隊發布 OVIS 遮擋視頻實例分割基準數據集
    為了解決這一難點,來自華中科技大學、阿里巴巴、康奈爾大學、約翰霍普金斯大學以及牛津大學的團隊,收集了一個用於遮擋視頻實例分割的大規模數據集 OVIS(Occluded Video Instance Segmentation ),可用於同時檢測、分割和跟蹤遮擋場景中的實例。
  • 【乾貨】首次使用分層強化學習框架進行視頻描述生成,王威廉組最新工作
    達在MSR-VTT數據集上達到了的最佳結果,並且提出了新的Charades Caption數據集。文章中指出,未來將計劃注意力機制(Attention),以提升提出的層次強化學習(HRL)框架。作者相信,提出的方法的結果可以通過使用不同類型的特徵,如C3D特徵,光流等進一步改善。同時,作者將在其他相似的序列生成任務(如視頻/文檔摘要)中探索提出的HRL框架。
  • Moments in Time:IBM-MIT聯合提出最新百萬規模視頻動作理解數據集
    在過去一年中,視頻理解相關的領域湧現了大量的新模型、新方法,與之相伴的,今年也出現了多個新的大規模的視頻理解數據集。近期,MIT-IBM Watson AI Lab 就推出了一個全新的百萬規模視頻理解數據集Moments-in-Time[1]。雖然沒有之前的YouTube-8M數據集大,但應該是目前多樣性,差異性最高的數據集了。
  • 專欄 | 阿里 AI LAB ICCV 2017 錄用論文詳解:語言卷積神經網絡應用於圖像標題生成的經驗學習
    論文簡介:我們提出了基於卷積網絡 CNN 的語言模型,該 CNN 的輸入為之前時刻的所有單詞,進而可以抓住對生成描述很重要的歷史信息,用於指導當前時刻單詞的生成。目前,語音建模大多採用 LSTM,雖然通過引入「門機制」獲得長距離依存性建模的能力。
  • 超100億中文數據,要造出中國自己的BERT!首個專為中文NLP打造的語言理解基準CLUE升級
    目前擁有八個數據集的整體測評及其基線模型,30多位來自各個頂尖機構的志願者加入並成為了會員。CLUE還發布了已經處理好的100G大規模中文語料,研究者可直接拿來做預訓練,完成下遊的語言理解、文本分類等任務。「新智元急聘主筆、高級主任編輯,添加HR微信(Dr-wly)或掃描文末二維碼了解詳情。」分在不同的位置意思大不同。
  • 【Kaggle 實戰分享】谷歌 YouTube-8M 大規模視頻理解競賽技術剖析
    1 新智元原創作者:王鶴達,清華大學電子系多媒體信號與信息處理實驗室   【新智元導讀】谷歌雲和 Kaggle 共同主辦的 YouTube-8M 大規模視頻理解競賽,來自清華大學電子系的團隊主要從三個方面對視頻進行建模:標籤相關性、視頻的多層次信息,以及時間上的注意力模型。最終,他們的方法在 600 多支參賽隊伍中獲得第二。
  • 2019ICCV論文愛奇藝提出:利用無標籤數據優化人臉識別模型
    研究背景愛奇藝擁有海量優質的視頻資源,對這些視頻資源的結構化分析,尤其是分析視頻中出現的人物尤為重要。目前,人臉識別技術已經應用到愛奇藝多個產品中,如「AI雷達」和「只看TA」。 「AI雷達」分析當前視頻畫面中出現的人物,「只看TA」分析整個視頻中人物出現的所有場景片段。這兩個產品底層都依賴人臉識別技術。
  • 2019 UCSB新生入學攻略
    如果想了解更多項目信息,可登錄http://orientation.sa.ucsb.edu/resources-info/new-student-requirements/ucsb-mandatory-education進行查詢。
  • MIT、DeepMind發布CLEVRER數據集,推動視頻理解的因果邏輯推理
    機器之心發布機器之心編輯部大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。
  • 大規模3D數據集ScanNet:讓機器人理解真實世界
    Angela  Dai 是史丹福大學的一名博士生,在 CVPR 上有一個 Spotlight talk,主要介紹 ScanNet,一個擁有標註過 3D 室內場景重構信息的大規模 RGB-D 數據集。她最初的想法是,推動數據匱乏的機器學習算法的發展,特別是在 3D 數據上。3D 數據包含更多信息,比如比如大小和物體之間的距離。但
  • 阿里開源首個DL框架,新型XDL幫你搞定大規模稀疏數據
    作為一個真實在廣告業務下解決過大量技術問題的團隊,我們為了解決這些問題提出了大量的方法。阿里媽媽第一代的 基於深度學習的 CTR 模型研製與大規模線上部署都是 XDL 支撐的,我們將其中對業界有貢獻的部分提供給用戶,希望做出對大家有增量的東西。」靖世這樣描述 XDL 開源的初衷。
  • 北大獲中國首個WWW大會最佳論文獎,提出ELSA跨語言情感分析模型
    、Charles Lever、Joshua Mason、Andrew Miller、Nikita Borisov、Manos Antonakakis、Michael Bailey(伊利諾伊大學香檳分校、喬治亞理工學院)連結:https://nikita.ca/papers/outguard-www19.pdf獲獎理由:首個無需手動分析