CVPR2021 用更好的目標檢測器提取視覺特徵!微軟提出VinVL,基於更好的視覺特徵,達到更強的多模態性能

2022-01-04 我愛計算機視覺


本文詳細研究了視覺語言(VL)任務中更好的視覺表示,並開發了一種目標檢測模型,來提供以對象為中心的圖像表示。與最廣泛使用的bottom-up and top-down模型相比,新模型更大,更適用於VL任務,並在結合多個公共目標檢測數據集的更大訓練語料庫上進行預訓練。

因此,它可以生成更豐富的視覺對象和概念集合的表示。雖然之前的VL研究主要集中在改進視覺語言融合模型,而不涉及目標檢測模型的改進,但作者發現視覺特徵在VL模型中起著重要作用。在本文的實驗中,作者將新的目標檢測模型生成的視覺特徵輸入到基於Transformer的VL融合模型OSCAR中,並利用改進的方法OSCAR+對VL模型進行預訓練,然後在多個下遊VL任務中對其進行微調。結果表明,新的視覺特徵顯著提高了所有VL任務的性能,在多個基準數據集上達到SOTA的結果。


論文和代碼地址


VinVL: Revisiting Visual Representations in Vision-Language Models

論文地址:https://arxiv.org/abs/2101.00529

代碼地址:https://github.com/pzzhang/VinVL


Motivation

視覺語言預訓練(VLP)已被證明對廣泛的視覺語言(VL)任務是有效的。VLP通常包括兩個部分:

1)預訓練目標檢測模型,用於將圖像和圖像中的視覺對象編碼為特徵向量;

2)預訓練跨模態融合模型,用於混合文本和視覺特徵。現有的VLP研究主要集中在改進跨模態融合模型上,而本文著重於改進以對象為中心的視覺表示,並進行了全面的研究來證明視覺特徵在VL模型中的重要性

在目前的多模態預訓練工作中,大多使用的目標檢測(OD)模型是在Visual Genome數據集上訓練的。OD模型提供了一種以對象為中心的圖像表示。在這項工作中,作者預訓練了一個基於ResNeXt-152 C4結構(簡稱X152-C4)的大規模對象屬性檢測模型。

與以前的OD模型相比,新模型對VL任務進行了專門的設計,並且模型更大,訓練的數據量更大,訓練的數據結合了多個公共目標檢測數據集,包括COCO、OpenImages(OI)、Objects365、Visual Genome (VG)。因此,本文的OD模型在廣泛的VL任務上取得了更好的結果,如上表所示。

與其他OD模型(如在OpenImages上訓練的X152-FPN)相比,本文的新模型可以對視覺對象和概念的集合進行更精細的編碼,如上圖中的示例所示(作圖為OpenImages上訓練的X152-FPN結果,右圖為本文模型的結果)。

為了驗證新OD模型的有效性,作者在由885萬對文本圖像組成的公共數據集上預訓練了一個基於Transformer的跨模態融合模型OSCAR+,其中這些圖像的視覺表示由新OD模型生成,並在OSCAR+預訓練期間固定。然後,通過在廣泛的下遊任務上微調,包括VL理解任務(如VQA、GQA、NLVR2和COCO文本圖像檢索),以及VL生成任務(如COCO圖像字幕和NoCaps),確定最終的OSCAR+參數。


方法

3.1. Improving Vision (V) in Vision Language (VL)

基於深度學習的VL模型通常包括兩個模塊:圖像理解模塊Vision 和跨模態理解模塊VL

其中,Img和w分別是視覺和語言模態的輸入。視覺模塊的輸出由q和v組成。q是圖像的語義表示,如標籤或檢測到的對象,v是圖像在高維潛在空間中的特徵表示。大多數VL模型僅使用視覺特徵v,而最近OSCAR模型提出,q可以作為學習更好的視覺語言聯合表示的anchor,因此可以提高各種VL任務的性能。

上面式子中的w和y因不同VL任務而不同。在VQA中,w是一個問題,y是要預測的答案。在文本圖像檢索中,w是句子,y是句子圖像對的匹配分數。在圖像字幕中,w是不給定的,y是要生成的字幕。
視覺語言預訓練(VLP)的性能提升主要來自兩個方面:1)將視覺和語言建模與Transformer統一起來

2)使用大規模的圖像文本語料庫進行預訓練

然而,目前的VLP工作將圖像理解模塊視覺視為一個黑盒,自bottom-up and top-down模型以來,視覺特徵的改進未被觸及,然而目標檢測方面已經取得了很多研究進展:1)開發了更多樣化、更豐富、更大的訓練數據集(如OpenImages和Objects 365)

2)在目標檢測算法方面獲得新的進展,如特徵金字塔網絡、one-stage密集預測和anchor-free檢測器

3)利用更強大的GPU訓練更大的模型

本文的重點是改善視覺模態,以獲得更好的視覺表現。作者設計了一個新的OD模型,通過豐富視覺對象和屬性類別,擴大模型大小和在更大的數據集上進行訓練,從而提升多模態預訓練模型的性能。3.1.1. Object Detection Pre-training

為了改進VL任務的OD模型,作者使用了四個目標檢測數據集。由於大多數數據集沒有屬性標註,作者採用預訓練和微調策略來構建OD模型。首先在由四個公共數據集組成的大規模語料庫上預訓練OD模型,然後在Visual Genome上用附加屬性分支對模型進行微調,使其能夠檢測對象和屬性。

Data

上表展示了本文目標檢測器的訓練數據的細節,這些數據集在一定程度上互補的。例如,VG數據集為對象及其屬性提供了豐富多樣的注釋集,並具有開放的詞彙表。但是它的注釋非常嘈雜,並且存在注釋缺失的問題。而COCO數據集的注釋非常好,但是視覺對象和屬性的覆蓋率遠低於VG中的覆蓋率。作者採取以下步驟通過組合四個數據集來構建統一的語料庫:
1)首先,為了增強尾部類的視覺概念,作者對OpenImages和Objects365執行類感知採樣,以獲得每個類至少2000個實例,分別得到2.2M和0.8M的圖像。

2)為了平衡每個數據集的貢獻,作者根據數量合併了四個數據集(8×COCO(8×0.11M)、8×VG(8×0.1M)、2×類感知採樣Object 365(2×0.8M)和1×類感知採樣OpenImages(2.2M))。

3)為了統一它們的對象詞彙表,作者使用VG詞彙表及其對象別名作為基本詞彙表,如果和它們的類名或別名匹配,則將其他三個數據集中的類合併到VG類中,如果找不到匹配,則添加一個新類。

4)最後,作者保留1594個VG類和來自其他三個數據集的254個無法映射的類,最終數據集包含1848個類。

Model Architecture (FPN vs C4)

儘管最近的工作表明FPN模型在目標檢測方面優於C4模型,但FPN沒有為VL任務提供比C4更有效的區域特徵。作者提出了兩個原因:

首先,C4模型中用於區域特徵提取的所有層都使用ImageNet數據集進行預訓練,而FPN模型的MLP頭則沒有進行預訓練;第二個原因是不同的網絡架構(CNN與MLP)。C4中使用的卷積頭在編碼視覺信息方面比FPN的MLP頭具有更好的假設偏置。因此,作者使用C4架構進行VLP。Model Pre-Training

按照目標檢測訓練中的常見做法,首先凍結第一個卷積層、第一個殘差塊和所有BN層。作者還使用了幾種數據增強方法,包括horizontal flipping和multi-scale training。訓練具有X152-C4結構的檢測模型時,作者用ImageNet-5K的checkpoint初始化模型的backbone,並訓練180萬次迭代,Batch Size為16。

3.1.2. Injecting attribute information into the model

作者將屬性分支添加到預訓練好的OD模型中,然後在VG上微調OD模型以注入屬性信息(524個類)。由於對象表示在目標檢測預訓練階段進行了預訓練,因此作者將屬性損失權重設為1.25。本文的模型在檢測VG上的對象和屬性方面明顯優於以前的模型。

3.1.3. Efficient region feature extractor for VL tasks

由於視覺對象和屬性集更豐富,經典的類感知非極大抑制(NMS)後處理需要大量時間來移除重疊的邊界框,使得特徵提取過程非常緩慢。為了提高效率,作者用類無關NMS取代了類感知NMS。作者還將dilation=2的卷積換成了正常的卷積。這兩種替換使得區域特徵提取過程快得多,而VL下遊任務的精度沒有任何下降。

預訓練的OD模型用作圖像理解模塊,為VL任務生成

作者基於三種類型的VL數據集構建預訓練語料庫:

1)圖像字幕數據集,人工標註的字幕為w,自動生成5圖像標籤為q,包括COCO, Conceptual Captions (CC), SBU captions 和 flicker30k;

2)VQA數據集,問題為w,人工標註的答案為q,包括GQA、VQA和VG-QAs

3)圖像標記數據集,機器生成6個標題作為w,人工標註的tag作為q,包括OpenImages的子集(1.67M圖像)。

語料庫總共包含565萬張不同的圖片,885萬張文本-標籤-圖片三元組,細節如上表所示。
3.2.2. Pre-training Objectives

OSCAR +預訓練的損失函數如下所示:

其中,

如上面的公式所示,
由於
3.2.3. Pre-trained models

作者預訓練了兩個模型變體,分別表示為OSCAR+B和OSCAR+L,它們分別用BERT base和large的參數


實驗

4.1. Main Results

上表展示了本文方法和SOTA方法在不同下遊任務上性能的對比。

上表為不同模型在VQA任務上的結果。

上表為不同模型在GQA任務上的結果。

上表為不同模型在Image Captioning任務Karpathy測試集的結果。

上表為不同模型在Image Captioning任務上線上測試集的結果。

上表為不同模型在Text and Image retrieval任務上的結果。

上表為不同模型在NLVR2任務上的結果。

4.2. Ablation AnalysisHow much do the V and VL matter to the SoTA?

上表展示了VQA任務上不同視覺模型的結果,可以看出VinVL達到了更高的性能。

How much do data and model sizes matter to the new vision model?

上表展示了不同的目標檢測訓練數據量的實驗結果,可以看出更大的數據量可以達到更好的結果。
How much does OD model architecture matter?

上表展示了不同檢測模型的結果,可以看出X152-C4的性能更好。
How much does the diversity of visual concepts, i.e., object and attribute vocabularies, matter?

上表展示了目標詞彙和屬性詞彙信息對結果的影響,可以看出目標詞彙和屬性詞彙信息有利於性能的提升。


總結


在本文中,作者提出了一種新的方法來預訓練VL任務的OD模型。與廣泛使用的bottom-up and top-down模型相比,新模型更大,更適用於VL任務,並在更大的文本圖像語料庫上進行預訓練,因此可以為VL任務生成更豐富的視覺對象和概念集合的視覺特徵。

VL任務的流程為:將新的視覺特徵輸入到VL融合模型中,該模型在大規模成對文本圖像語料庫上預訓練,然後在七個VL任務上進行微調。結果表明,新的OD模型可以在多個公共基準數據集上大大提高所有七個VL任務的SoTA結果。目前大多數的工作都在更好的融合多模態信息的方向上努力,而本文的作者則換了一種思考方式,認為目前VL中視覺特徵並沒有被很好的提取,因此作者提了一個更大的數據集來預訓練更好的OD模型,從而提取更好的視覺特徵。本文也揭示了,更好的視覺特徵確實有利於更好的性能,特徵也是目前VL模型的一個瓶頸。但是ICML2021 ViLT這篇文章指出,在推理的時候,模型的很大一部分視覺都用在了提取視覺特徵上,那麼問題來了:有沒有辦法既能提高模型性能,又能不用複雜的目標檢測模型呢?

相關焦點

  • 3D視覺:一張圖像如何看出3D效果?
    因此,研究者們提出了許多 3D 目標檢測方法,根據傳感器的不同大致可分為視覺、雷射點雲以及多模態融合三大類。其中視覺又包括單目視覺和雙目視覺(深度視覺)兩類;雷射點雲包括三維點雲投影和三維空間體素特徵;而多模態融合實現了雷射點雲與視覺的融合。下面將對現階段比較流行的 3D 目標檢測多模態融合算法研究進行介紹。
  • NeurIPS2021-《YOLOS》-ViT現在可以做目標檢測任務啦!華科提出目標檢測新方法YOLOS
    為了回答這個問題,作者提出了You Only Look at One Sequence(YOLOS) ,這是一個基於原始視覺Transformer的目標檢測模型,儘可能少的進行模型修改和加入歸納偏置。
  • Transformer 在計算機視覺領域瘋狂「內卷」
    當前已有的 deep homography 方法將輸入的圖像或特徵串聯起來,忽略了它們之間對應關係的明確表述,引起在跨解析度挑戰中準確性下降。方案:將跨解析度 homography estimation(單應性估計)視為一個多模態問題,提出一個嵌入多尺度結構的 local transformer 網絡,明確學習多模態輸入之間的對應關係,即不同解析度的輸入圖像。
  • 用於水稻多光譜圖像匹配的檢測器與特徵描述子的比較分析
  • CVPR 2019 | 京東AI研究院提出 ScratchDet:隨機初始化訓練SSD目標檢測器
    使用 ImageNet 預訓練的網絡模型能夠幫助目標任務(物體檢測、語義分割、細粒度識別等)快速收斂,然而使用預訓練模型會帶來諸多限制,其中一個問題就是改動特徵提取網絡的結構成本相對較高,需要耗時巨大的重新預訓練來適應不同需求的任務。那麼,如果不使用預訓練模型,進行隨機初始化訓練,達到較高準確率的某些必要條件是什麼?
  • 基於雙目視覺的目標檢測與追蹤方案詳解
    了解其對於掌握後續關於測量提取和傳感器校準的討論是必要的。將相機信息與物理世界相關聯,需要描述 3D 世界坐標和圖像坐標之間數學關係的模型,計算機視覺中最簡單的此類模型是針孔相機模型(如下圖)。針孔模型中的圖像形成是通過假設一個無限小的孔徑來解釋的,因此用了針孔這個術語。
  • 視覺Transformer BERT預訓練新方式:中科大、MSRA等提出PeCo,優於MAE、BEiT
    然而,在視覺任務上設計具有相似風格的目標是具有挑戰性的,因為圖像作為一種高維和冗餘的模態,在兩個方面與文本不同:首先,文本由離散字符組成,而圖像在顏色空間中呈現連續值;其次,文本中的離散 token 包含高級語義含義,而離散化的圖像在像素級和 patch 級包含大量冗餘 token。因此,我們不禁會問是否有一種方法可以學習感知離散視覺 token,這將有助於圖像預訓練。
  • TartanAir:一個突破視覺SLAM極限的數據集
    作者利用此數據來評估各種因素對視覺SLAM算法的影響。最新算法的結果表明,視覺SLAM問題還遠遠沒有解決。作者的目標是通過提供一個具有挑戰性的基準來推動視覺SLAM算法在現實世界中的極限,同時也為基於學習的方法使用大量不同的訓練數據。
  • 微軟新作,ImageBERT雖好,千萬級數據集才是亮點
    其中VL-BERT是由來自中科大、微軟亞研院的研究者共同提出的一種新型通用視覺-語言預訓練模型。繼語言BERT之後,視覺BERT隱隱成為一種新的研究趨勢。用Faster-RCNN從 o RoIs中提取特徵(記為{r0,...ro-1}),從圖像中提取特徵,從而讓這兩個特徵代表視覺內容。檢測到的物體對象不僅可以為語言部分提供整個圖像的視覺上下文(visual contexts),還可以通過詳細的區域信息與特定的術語相關聯。另外,還通過將對象相對於全局圖像的位置編碼成5維向量來向圖像嵌入添加位置嵌入。
  • 立體視覺+慣導+雷射雷達SLAM系統
    本文提出的立體視覺+慣導+雷射雷達的SLAM系統,在比如隧道一些複雜場景下能夠實現良好性能。
  • 格「物」致知:多模態預訓練再次入門
    因為前段時間在已經湧現出不少多模態預訓練的方法,而我們展現一種另外一種打開多模態數據的方式,希望離多模態預訓練的正確打開方式更近一些。我們人類往往是通過多種渠道感知外部世界的,例如,用眼睛看到的圖像,或者用耳朵聽到的聲音。儘管任何單個渠道可能都不完整或嘈雜,但是人類可以自然地對齊並融合從多個渠道收集的信息,以提取了解世界所需的關鍵概念。
  • 計算機視覺學術速遞[6.21]
    TadTR能夠通過選擇性地關注視頻中的一些片段,自適應地提取做出動作預測所需的時間上下文信息。它大大簡化了TAD的流水線,並且比以前的檢測器運行得快得多。我們的方法在HACS段和THUMOS14上實現了最先進的性能,在ActivityNet-1.3上實現了有競爭力的性能。我們的代碼將在\url提供{https://github.com/xlliu7/TadTR}.
  • 港大&南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!簡化訓練流程
    然後,提取proposal中的細粒度的語義線索和視覺特徵,編碼器可以基於這些視覺特徵生成視頻字幕。上述方案很簡單,但存在以下問題:1)這種方案的性能高度依賴於生成的事件proposal的質量 ,這限制了這兩個子任務的相互促進。
  • CamVox: 一種低成本、高精度的雷射雷達輔助視覺SLAM系統
    將雷射雷達與基於相機的同步定位和建圖(SLAM)相結合是提高整體精度的有效方法,尤其是在大規模室外場景下.低成本雷射雷達(如Livox雷射雷達)的最新發展使我們能夠以更低的預算和更高的性能探索這種SLAM系統.在本文中,我們通過探索Livox雷射雷達的獨特特徵,將Livox雷射雷達應用到視覺SLAM(ORBSLAM2)中,提出了CamVox.基於Livox雷射雷達的非重複特性
  • Transformer研究井噴式湧現;最大中文多模態預訓練數據集
    具體而言,他們提出了一種被稱為 M6 的跨模態預訓練方法,將多模態轉換為多模態多任務 Mega-transformer,以便對單模態和多模態的數據進行統一的預訓練。研究者將模型的大小擴展到 100 億和 1000 億個參數,並建立了規模最大的中文預訓練模型。他們將該模型應用於一系列下遊應用,並展示了其與強基準相比的出色性能。
  • 每周論文清單:高質量文本生成,多模態情感分析,還有一大波GAN | PaperDaily #26
    end to end 模型來做 short text expansion 這個 task,方法上用了 memory network 來提升性能,在多個數據集上證明了方法的效果;Short text expansion 對很多問題都有幫助,所以這篇 paper 解決的問題是有意義的。
  • 機器視覺之HOG特徵提取(附python和c++代碼)
    HOG是一個特徵描述符,與SIFT、SURF和ORB屬於同一類型。不同的是,HOG不是基於顏色值而是基於梯度來計算直方圖的。
  • 詳細解讀TPH-YOLOv5 | 讓目標檢測任務中的小目標無處遁形
    為了進一步改進TPH-YOLOv5,作者還提供了大量有用的策略,如數據增強、多尺度測試、多模型集成和使用額外的分類器。在VisDrone2021數據集上的大量實驗表明,TPH-YOLOv5在無人機捕獲場景上具有良好的性能和可解釋性。
  • 通過消失點輔助雷射雷達視覺慣性估計器(ICRA2021)
    《Vanishing Point Aided LiDAR-Visual-Inertial Estimator》(ICRA2021)這篇文章的動機主要從VIO出發,VIO受制於尺度漂移和旋轉漂移 問題,針對旋轉漂移問題,作者採用了加入消失點檢測的方法來解決,針對尺度漂移問題,就是通過建立體素格級別的深度圖來解決.1.提出了第一種消失點輔助雷射雷達視覺慣性估計器,它利用雷射深度和消失點信息在視覺和幾何退化環境中實現魯棒姿態估計