CVPR2021 用更好的目標檢測器提取視覺特徵!微軟提出VinVL,基於更好的視覺特徵,達到更強的多模態性能

2022-01-04 我愛計算機視覺

本文詳細研究了視覺語言（VL）任務中更好的視覺表示，並開發了一種目標檢測模型，來提供以對象為中心的圖像表示。與最廣泛使用的bottom-up and top-down模型相比，新模型更大，更適用於VL任務，並在結合多個公共目標檢測數據集的更大訓練語料庫上進行預訓練。

因此，它可以生成更豐富的視覺對象和概念集合的表示。雖然之前的VL研究主要集中在改進視覺語言融合模型，而不涉及目標檢測模型的改進，但作者發現視覺特徵在VL模型中起著重要作用。在本文的實驗中，作者將新的目標檢測模型生成的視覺特徵輸入到基於Transformer的VL融合模型OSCAR中，並利用改進的方法OSCAR+對VL模型進行預訓練，然後在多個下遊VL任務中對其進行微調。結果表明，新的視覺特徵顯著提高了所有VL任務的性能，在多個基準數據集上達到SOTA的結果。

論文和代碼地址

VinVL: Revisiting Visual Representations in Vision-Language Models

論文地址：https://arxiv.org/abs/2101.00529

代碼地址：https://github.com/pzzhang/VinVL

Motivation

視覺語言預訓練(VLP)已被證明對廣泛的視覺語言(VL)任務是有效的。VLP通常包括兩個部分：

1）預訓練目標檢測模型，用於將圖像和圖像中的視覺對象編碼為特徵向量；

2）預訓練跨模態融合模型，用於混合文本和視覺特徵。現有的VLP研究主要集中在改進跨模態融合模型上，而本文著重於改進以對象為中心的視覺表示，並進行了全面的研究來證明視覺特徵在VL模型中的重要性 。

在目前的多模態預訓練工作中，大多使用的目標檢測（OD）模型是在Visual Genome數據集上訓練的。OD模型提供了一種以對象為中心的圖像表示。在這項工作中，作者預訓練了一個基於ResNeXt-152 C4結構（簡稱X152-C4）的大規模對象屬性檢測模型。

與以前的OD模型相比，新模型對VL任務進行了專門的設計，並且模型更大，訓練的數據量更大，訓練的數據結合了多個公共目標檢測數據集，包括COCO、OpenImages（OI）、Objects365、Visual Genome (VG)。因此，本文的OD模型在廣泛的VL任務上取得了更好的結果，如上表所示。

與其他OD模型（如在OpenImages上訓練的X152-FPN）相比，本文的新模型可以對視覺對象和概念的集合進行更精細的編碼，如上圖中的示例所示（作圖為OpenImages上訓練的X152-FPN結果，右圖為本文模型的結果）。

為了驗證新OD模型的有效性，作者在由885萬對文本圖像組成的公共數據集上預訓練了一個基於Transformer的跨模態融合模型OSCAR+，其中這些圖像的視覺表示由新OD模型生成，並在OSCAR+預訓練期間固定。然後，通過在廣泛的下遊任務上微調，包括VL理解任務（如VQA、GQA、NLVR2和COCO文本圖像檢索），以及VL生成任務（如COCO圖像字幕和NoCaps），確定最終的OSCAR+參數。

方法

3.1. Improving Vision (V) in Vision Language (VL)

基於深度學習的VL模型通常包括兩個模塊：圖像理解模塊Vision 和跨模態理解模塊VL ：

其中，Img和w分別是視覺和語言模態的輸入。視覺模塊的輸出由q和v組成。q是圖像的語義表示，如標籤或檢測到的對象，v是圖像在高維潛在空間中的特徵表示。大多數VL模型僅使用視覺特徵v，而最近OSCAR模型提出，q可以作為學習更好的視覺語言聯合表示的anchor，因此可以提高各種VL任務的性能。

上面式子中的w和y因不同VL任務而不同。在VQA中，w是一個問題，y是要預測的答案。在文本圖像檢索中，w是句子，y是句子圖像對的匹配分數。在圖像字幕中，w是不給定的，y是要生成的字幕。
視覺語言預訓練（VLP）的性能提升主要來自兩個方面：1）將視覺和語言建模與Transformer統一起來

2）使用大規模的圖像文本語料庫進行預訓練

然而，目前的VLP工作將圖像理解模塊視覺視為一個黑盒，自bottom-up and top-down模型以來，視覺特徵的改進未被觸及，然而目標檢測方面已經取得了很多研究進展：1）開發了更多樣化、更豐富、更大的訓練數據集（如OpenImages和Objects 365）

2）在目標檢測算法方面獲得新的進展，如特徵金字塔網絡、one-stage密集預測和anchor-free檢測器

3）利用更強大的GPU訓練更大的模型

本文的重點是改善視覺模態，以獲得更好的視覺表現。作者設計了一個新的OD模型，通過豐富視覺對象和屬性類別，擴大模型大小和在更大的數據集上進行訓練，從而提升多模態預訓練模型的性能。3.1.1. Object Detection Pre-training

為了改進VL任務的OD模型，作者使用了四個目標檢測數據集。由於大多數數據集沒有屬性標註，作者採用預訓練和微調策略來構建OD模型。首先在由四個公共數據集組成的大規模語料庫上預訓練OD模型，然後在Visual Genome上用附加屬性分支對模型進行微調，使其能夠檢測對象和屬性。

Data

上表展示了本文目標檢測器的訓練數據的細節，這些數據集在一定程度上互補的。例如，VG數據集為對象及其屬性提供了豐富多樣的注釋集，並具有開放的詞彙表。但是它的注釋非常嘈雜，並且存在注釋缺失的問題。而COCO數據集的注釋非常好，但是視覺對象和屬性的覆蓋率遠低於VG中的覆蓋率。作者採取以下步驟通過組合四個數據集來構建統一的語料庫：
1）首先，為了增強尾部類的視覺概念，作者對OpenImages和Objects365執行類感知採樣，以獲得每個類至少2000個實例，分別得到2.2M和0.8M的圖像。

2）為了平衡每個數據集的貢獻，作者根據數量合併了四個數據集（8×COCO（8×0.11M）、8×VG（8×0.1M）、2×類感知採樣Object 365（2×0.8M）和1×類感知採樣OpenImages（2.2M））。

3）為了統一它們的對象詞彙表，作者使用VG詞彙表及其對象別名作為基本詞彙表，如果和它們的類名或別名匹配，則將其他三個數據集中的類合併到VG類中，如果找不到匹配，則添加一個新類。

4）最後，作者保留1594個VG類和來自其他三個數據集的254個無法映射的類，最終數據集包含1848個類。

Model Architecture (FPN vs C4)

儘管最近的工作表明FPN模型在目標檢測方面優於C4模型，但FPN沒有為VL任務提供比C4更有效的區域特徵。作者提出了兩個原因：

首先，C4模型中用於區域特徵提取的所有層都使用ImageNet數據集進行預訓練，而FPN模型的MLP頭則沒有進行預訓練；第二個原因是不同的網絡架構（CNN與MLP）。C4中使用的卷積頭在編碼視覺信息方面比FPN的MLP頭具有更好的假設偏置。因此，作者使用C4架構進行VLP。Model Pre-Training

按照目標檢測訓練中的常見做法，首先凍結第一個卷積層、第一個殘差塊和所有BN層。作者還使用了幾種數據增強方法，包括horizontal ﬂipping和multi-scale training。訓練具有X152-C4結構的檢測模型時，作者用ImageNet-5K的checkpoint初始化模型的backbone，並訓練180萬次迭代，Batch Size為16。

3.1.2. Injecting attribute information into the model

作者將屬性分支添加到預訓練好的OD模型中，然後在VG上微調OD模型以注入屬性信息（524個類）。由於對象表示在目標檢測預訓練階段進行了預訓練，因此作者將屬性損失權重設為1.25。本文的模型在檢測VG上的對象和屬性方面明顯優於以前的模型。

3.1.3. Efﬁcient region feature extractor for VL tasks

由於視覺對象和屬性集更豐富，經典的類感知非極大抑制（NMS）後處理需要大量時間來移除重疊的邊界框，使得特徵提取過程非常緩慢。為了提高效率，作者用類無關NMS取代了類感知NMS。作者還將dilation=2的卷積換成了正常的卷積。這兩種替換使得區域特徵提取過程快得多，而VL下遊任務的精度沒有任何下降。

預訓練的OD模型用作圖像理解模塊，為VL任務生成

作者基於三種類型的VL數據集構建預訓練語料庫：

1）圖像字幕數據集，人工標註的字幕為w，自動生成5圖像標籤為q，包括COCO, Conceptual Captions (CC), SBU captions 和 ﬂicker30k；

2）VQA數據集，問題為w，人工標註的答案為q，包括GQA、VQA和VG-QAs

3）圖像標記數據集，機器生成6個標題作為w，人工標註的tag作為q，包括OpenImages的子集（1.67M圖像）。

語料庫總共包含565萬張不同的圖片，885萬張文本-標籤-圖片三元組，細節如上表所示。
3.2.2. Pre-training Objectives

OSCAR +預訓練的損失函數如下所示：

其中，

如上面的公式所示，
由於
3.2.3. Pre-trained models

作者預訓練了兩個模型變體，分別表示為OSCAR+B和OSCAR+L，它們分別用BERT base和large的參數

實驗

4.1. Main Results

上表展示了本文方法和SOTA方法在不同下遊任務上性能的對比。

上表為不同模型在VQA任務上的結果。

上表為不同模型在GQA任務上的結果。

上表為不同模型在Image Captioning任務Karpathy測試集的結果。

上表為不同模型在Image Captioning任務上線上測試集的結果。

上表為不同模型在Text and Image retrieval任務上的結果。

上表為不同模型在NLVR2任務上的結果。

4.2. Ablation AnalysisHow much do the V and VL matter to the SoTA?

上表展示了VQA任務上不同視覺模型的結果，可以看出VinVL達到了更高的性能。

How much do data and model sizes matter to the new vision model?

上表展示了不同的目標檢測訓練數據量的實驗結果，可以看出更大的數據量可以達到更好的結果。
How much does OD model architecture matter?

上表展示了不同檢測模型的結果，可以看出X152-C4的性能更好。
How much does the diversity of visual concepts, i.e., object and attribute vocabularies, matter?

上表展示了目標詞彙和屬性詞彙信息對結果的影響，可以看出目標詞彙和屬性詞彙信息有利於性能的提升。

總結

在本文中，作者提出了一種新的方法來預訓練VL任務的OD模型。與廣泛使用的bottom-up and top-down模型相比，新模型更大，更適用於VL任務，並在更大的文本圖像語料庫上進行預訓練，因此可以為VL任務生成更豐富的視覺對象和概念集合的視覺特徵。

VL任務的流程為：將新的視覺特徵輸入到VL融合模型中，該模型在大規模成對文本圖像語料庫上預訓練，然後在七個VL任務上進行微調。結果表明，新的OD模型可以在多個公共基準數據集上大大提高所有七個VL任務的SoTA結果。目前大多數的工作都在更好的融合多模態信息的方向上努力，而本文的作者則換了一種思考方式，認為目前VL中視覺特徵並沒有被很好的提取，因此作者提了一個更大的數據集來預訓練更好的OD模型，從而提取更好的視覺特徵。本文也揭示了，更好的視覺特徵確實有利於更好的性能，特徵也是目前VL模型的一個瓶頸。但是ICML2021 ViLT這篇文章指出，在推理的時候，模型的很大一部分視覺都用在了提取視覺特徵上，那麼問題來了：有沒有辦法既能提高模型性能，又能不用複雜的目標檢測模型呢？

CVPR2021 用更好的目標檢測器提取視覺特徵!微軟提出VinVL,基於更好的視覺特徵,達到更強的多模態性能

相關焦點

3D視覺:一張圖像如何看出3D效果?

NeurIPS2021-《YOLOS》-ViT現在可以做目標檢測任務啦!華科提出目標檢測新方法YOLOS

Transformer 在計算機視覺領域瘋狂「內卷」

用於水稻多光譜圖像匹配的檢測器與特徵描述子的比較分析

CVPR 2019 | 京東AI研究院提出 ScratchDet:隨機初始化訓練SSD目標檢測器

基於雙目視覺的目標檢測與追蹤方案詳解

視覺Transformer BERT預訓練新方式:中科大、MSRA等提出PeCo,優於MAE、BEiT

TartanAir:一個突破視覺SLAM極限的數據集

微軟新作,ImageBERT雖好,千萬級數據集才是亮點

立體視覺+慣導+雷射雷達SLAM系統

格「物」致知:多模態預訓練再次入門

計算機視覺學術速遞[6.21]

港大&南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!簡化訓練流程

CamVox: 一種低成本、高精度的雷射雷達輔助視覺SLAM系統

Transformer研究井噴式湧現;最大中文多模態預訓練數據集

每周論文清單:高質量文本生成,多模態情感分析,還有一大波GAN | PaperDaily #26

機器視覺之HOG特徵提取(附python和c++代碼)

詳細解讀TPH-YOLOv5 | 讓目標檢測任務中的小目標無處遁形

通過消失點輔助雷射雷達視覺慣性估計器(ICRA2021)