ViLT:最簡單的多模態Transformer

2022-02-05 將門創投

本文是多模態系列文章的開篇之作，清楚地歸納了各種多模態算法，可以當成一個小綜述來看。還提出了一種非常簡單的多模態Transformer方法ViLT。

本文將先闡述4種不同類型的Vision-and-Language Pretraining(VLP)，然後歸納2種模態相互作用方式和3種visual embedding方式，最後講一下ViLT的設計思路。

✨最後一天！ICRA線上交流活動報名，點擊這裡查看詳情，抓緊機會，末班車等你來！

https://arxiv.org/abs/2102.03334

之所以用這一篇作為多模態的開篇是因為這篇清楚的歸納了各種多模態算法，可以當成一個小綜述來看，然後還提出了一種非常簡單的多模態Transformer方法ViLT。先闡述一下4種不同類型的Vision-and-Language Pretraining(VLP)，然後歸納2種模態相互作用方式和3種visual embedding方式，最後講一下ViLT的設計思路。一、Taxonomy of VLP

上圖是4種不同類型的VLP模型示意圖。其中每個矩形的高表示相對計算量大小，VE、TE和MI分別是visual embedding、text embedding和modality interaction的簡寫。

VSE、VSE++和SCAN屬於(a)類型。對圖像和文本獨立使用encoder，圖像的更重，文本的更輕，使用簡單的點積或者淺層attention層來表示兩種模態特徵的相似性。

CLIP屬於(b)類型。每個模態單獨使用重的transformer encoder，使用池化後的圖像特徵點積計算特徵相似性。ViLBERT、UNTER和Pixel-BERT屬於©類型。這些方法使用深層transformer進行交互作用，但是由於VE仍然使用重的卷積網絡進行特徵抽取，導致計算量依然很大。作者提出的ViLT屬於(d)類型。ViLT是首個將VE設計的如TE一樣輕量的方法，該方法的主要計算量都集中在模態交互上。Modality Interaction Schema

模態交互部分可以分成兩種方式：一種是single-stream(如BERT和UNITER)，另一種是dual-stream(如ViLBERT和LXMERT)。其中single-stream是對圖像和文本concate然後進行交互操作，而dual-stream是不對圖像和文本concate然後進行交互操作。ViLT延用single-stream的交互方式，因為dual-stream會引入額外的計算量。

Visual Embedding Schema

現有的VLP模型的text embedding基本上都使用類BERT結構，但是visual embedding存在著差異。在大多數情況下，visual embedding是現有VLP模型的瓶頸。visual embedding的方法總共有三大類，其中region feature方法通常採用Faster R-CNN二階段檢測器提取region的特徵，grid feature方法直接使用CNN提取grid的特徵，patch projection方法將輸入圖片切片投影提取特徵。ViLT是首個使用patch projection來做visual embedding的方法。

二、ViLTModel Overview

作者提出的ViLT可以認為是目前最簡單的多模態Transformer方法。ViLT使用預訓練的ViT來初始化交互的transformer，這樣就可以直接利用交互層來處理視覺特徵，不需要額外增加一個視覺encoder。

文本特徵輸入部分，將文本看成一個詞序列，通過word embedding matrix轉化成word embedding，然後和position embedding進行相加，最後和modal-type embedding進行concate。

圖像特徵輸入部分，將圖像切塊看成一個圖像塊序列，通過linear projection轉化成visual embedding，然後和postion embedding進行相加，最後和modal-type embedding進行concate。

其中word embedding和visual embedding通過可學習的modal-type embedding標誌位來區分，其中0標誌位表示word embedding部分，1標誌位表示visual embedding部分。

wrod embedding和visual embedding分別都嵌入了一個額外的可學習[class] embedding，方便和下遊任務對接。

Pretraining Objectives

ViLT預訓練的優化目標有兩個：一個是image text matching(ITM)，另一個是masked language modeling(MLM)。

ImageText Matching：隨機以0.5的概率將文本對應的圖片替換成不同的圖片，然後對文本標誌位對應輸出使用一個線性的ITM head將輸出feature映射成一個二值logits，用來判斷圖像文本是否匹配。另外ViLT還設計了一個word patch alignment (WPA)來計算teextual subset和visual subset的對齊分數。

Masked Language Modeling：MLM的目標是通過文本的上下文信息去預測masked的文本tokens。隨機以0.15的概率mask掉tokens，然後文本輸出接兩層MLP與車mask掉的tokens。

Whole Word Masking：另外ViLT還使用了whole word masking技巧。whole word masking是將連續的子詞tokens進行mask的技巧，應用於BERT和Chinese BERT是有效的。比如將「giraffe」詞tokenized成3個部分[「gi」, 「##raf」, 「##fe」]，那麼使用whole word masking可以mask成[「gi」, 「[MASK]」, 「##fe」]，模型使用[「gi」，「##fe」]來預測mask的「##raf」，而不使用圖像信息。

三、實驗結果如圖所示，ViLT相比於region feature的方法速度快了60倍，相比於grid feature的方法快了4倍，而且下遊任務表現出相似甚至更好的性能。從table2、table3和table4中可以看出，相對於region和grid的方法，ViLT在下遊任務表現出相似甚至更好的性能。通過可視化可以看出，ViLT學到了word和image patch之間的對應關係。四、總結

BERT和ViT給多模態Transformer提供了基礎，通過巧妙的proxy task設計，ViLT成功將BERT和ViT應用於多模態Transformer。總體上來看基於patch projection的多模態方法速度優勢非常大，但是整體上性能還是略低於region feature的方法，期待未來會有更強的基於patch projection的多模態方法出現。

Reference：

[1] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Illustration by Semenin Egor from Icons8

報名最後一天！來趕大佬雲面基的末班車！

ICRA 2021 直播在線交流，掃碼報名~

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我「門」:

相關焦點

為什麼Transformer適合做多模態任務?

多模態識別主要是挖掘不同模態之間的互補性，其核心在於怎麼做圖像和文本的融合。多模態匹配的重點在於如何將圖像和文本這兩種模態特徵進行對齊。首先，transformer這個結構最先提出是用在機器翻譯上的，它誕生之初就只是單一模態的模型。並且是經典的encoder decoder結構是設計來為sequence to sequence任務服務的。你很難看出他有什麼針對多模態的特殊設計。
贈書| 新手指南——如何通過HuggingFace Transformer整合表格數據

首先，我們將從多模態學習領域開始——該領域旨在研究如何在機器學習中處理不同的模態。多模態文獻綜述目前的多模態學習模式主要集中在聽覺、視覺和文本等感官模態的學習上。
A Survey on Visual Transformer及引文理解

上圖基本上就是本文的主要內容了，作者首先對attention，transformer做一個簡單介紹，然後介紹transformer在NLP中的應用，最後將其在CV中的應用分為四類加以介紹。還有一些多模態的transformer和這篇文章比較相關，可以簡單了解一下。
視覺Transformer最新綜述

上圖基本上就是本文的主要內容了，作者首先對 attention，transformer 做一個簡單介紹，然後介紹 transformer 在 NLP 中的應用，最後將其在 CV 中的應用分為四類加以介紹。
多模態深度學習綜述:網絡結構設計和模態融合方法匯總

這些領域中的任務都只涉及單模態的輸入，但是最近更多的應用都需要涉及到多種模態的智慧。多模態深度學習主要包含三個方面：多模態學習表徵，多模態信號融合以及多模態應用，而本文主要關注計算機視覺和自然語言處理的相關融合方法，包括網絡結構設計和模態融合方法（對於特定任務而言）。
Tesla Vision背後的變形金剛——Transformer!

讀者可以從上圖中明白什麼是所謂的「感知大一統」（當然這裡的大一統並非字面上的意思，而更多傾向於對於現有AI識別任務中最關鍵的文本和圖像輸入進行聯合識別的關鍵性任務）。如果完全僅僅依賴車載視覺系統的捕捉和分析結果，則置信度不會太高，有兩種輸入手段互相驗證往往會更好；第三，視覺系統可以準確捕捉Stop sign標識，給出分類圖形結果即可；第四，視覺系統可以準確捕捉Stop sign標識的附帶文字限制條件（白底黑框文字條件），並在文本化的基礎上（類似於我們桌面常用的OCR技術）提供短語語義輸出結果；第五，FSD系統應該具備多模態的識別能力
Transformer 在計算機視覺領域瘋狂「內卷」

以及如何整合2個非常輕量級的全局時空關注機制，以最小的計算成本提供額外的準確性改進。結果：通過實驗證明所提出模型在最流行的視頻識別數據集上產生了非常高的識別精度，同時比其他的 Video Transformer 模型明顯更有效率。代碼將被提供。
【transformer】你應該知道的 transformer

通常來說，Seq2Seq任務最常見的是使用encoder+decoder的模式，先將一個序列編碼成一個上下文矩陣，在使用decoder來解碼。當然，我們僅僅把context vector作為編碼器到解碼器的輸入。
如何看待Transformer在CV上的應用前景,未來有可能替代CNN嗎?

因為參數太特麼多了，多到現有設備難以維持多層fc。所以聰明的人提出了share weights的思想，大大減少了參數量，後續工作也就變成了如何擴大感受野，從而有了加深網絡深度，金字塔，或者其他方法。如果cnn是參數量和性能的折衷，那麼某種意義上，我覺得transformer對於cv領域來說就是cnn和fc的折衷，沒什麼稀奇，只能說有錢了，有設備了，往全局性上去考量很正常。
多模態:翻譯研究的新視角

因此，翻譯活動本身包含著多模態信息傳遞的內容，我們借鑑多模態話語分析的理論與成果來考察翻譯產品與過程，作為翻譯研究的新視角，具有其內在的合理性與可行性。從多模態的視角切入翻譯實踐和研究，我們能夠得到更多新的發現與收穫，從而豐富和完善翻譯研究的分支，同時也是對多模態話語分析這一語言學理論的開發與拓展。
這可能是「多模態機器學習」最通俗易懂的介紹

目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態學習。多模態學習從1970年代起步，經歷了幾個發展階段，在2010後全面步入Deep Learning階段。人其實是一個多模態學習的總和，所以也有」磚家「說了，多模態學習才是真正的人工智慧發展方向。
多模態學習分析：通過多模態數據分析與接口實現學習的未來

多模態界面和多模態學習分析在評估開放性學習環境中的學習方面有很大的前景。由於其對多種數據流和自然界面的豐富整合，這一研究領域可通過支持替代性學習模式，幫助迎來新一輪的教育改革。為了開發出更合適的評估 SPBL 的措施和手段，我想通過多模態學習界面和技術的使用，構建一個完整的 SPBL 環境中學習的過程。為此，我的首要研究問題是：&34;主要的子問題是："能否利用基於人工智慧技術構成的連續的多模態監測系統來描述 SPBL 環境中的學習過程？
什麼是模態分析?模態分析有什麼用?

來源：西安本根科技有限公司官網結構動力學分析中，最基礎、也是最重要的一種分析類型就是「結構模態分析」。
視覺Transformer綜述

ViT將一個純粹的transformer直接用於圖像塊序列，並在多個圖像識別基準上獲得SOTA性能。除了基本的圖像分類，transformer還用於解決更多計算機視覺問題，例如目標檢測，語義分割，圖像處理和視頻理解。由於其出色的性能，提出了越來越多基於transformer的模型來改善各種視覺任務。
模態分析入門知識

試驗模態分析是人為地對結構物施加一定動態激勵，採集各點的振動響應信號及激振力信號，根據力及響應信號，用各種參數識別方法獲取模態參數。激勵方法不同，相應識別方法也不同。目前主要由單輸入單輸出（SISO）、單輸入多輸出（SIMO）多輸入多輸出（MIMO）三種方法。以輸入力的信號特徵還可分為正弦慢掃描、正弦快掃描、穩態隨機（包括白噪聲、寬帶噪聲或偽隨機）、瞬態激勵（包括隨機脈衝激勵）等。
【綜述專欄】多模態知識圖譜前沿進展

圖1 System1 和 System2 的融合3. 知識圖譜：銜接感知與認知認知科學家道格拉斯·霍夫施塔特有一個觀點認為「記憶是高度重建的。在記憶中進行搜取，需要從數目龐大的事件中挑選出什麼是重要的，什麼是不重要的，強調重要的東西，忽略不重要的東西。這種選擇過程實際上就是感知。」
多模態研究:認知語言學的新方法

多模態研究：認知語言學的新方法 2017年09月12日 07:39 來源：中國社會科學網-中國社會科學報作者：王中祥字號內容摘要：所謂多模態研究，是指通過多種技術手段記錄人際交流過程中不同類型的模態數據
AAAI 2021 | 多模態最新進展解讀

>多模態學習旨在使計算機擁有處理不同來源信息的能力，近年來成為了人工智慧領域的研究熱點。多多模態學習將不同模態信息進行融合，學習不同模態信息之間的關聯。人類對信息的處理其實也是多模態的，如人可以同時利用視覺和聽覺信息理解說話人的情感、可以通過視覺信息補全文本中的缺失信息等。多模態學習不僅可以用在視覺、聽覺和自然語言信息的融合，也可以廣泛用在雷達、傳感器等信息的分析處理。因此多模態學習的研究和應用也越來越廣泛。
模態分析(modal analysis)詳解

圖示為風力發電機的的扇葉，為了測試其受到激勵後的振動特性，用了3個振動源（Shaker)做為激勵，然後用了足夠多的探測器通過數據收集終端連接到扇葉Blade上（圖示在Blade3上），分別測出3個扇葉相同激勵下葉片的振動模式。
模態參與因子/模態有效質量

要理解模態參與(modal participation or mode participation)，我們需要複習一點模態的基本理論。首先，我們知道模態分析是通過數學手段將物理空間中的物理坐標轉化為模態空間的模態坐標。模態空間的基是相互正交的(模態是解耦的)，這就意味著我們可將實際物理空間的力分解在模態基上，從而得到力對不同模態的貢獻。

ViLT:最簡單的多模態Transformer

相關焦點

為什麼Transformer適合做多模態任務?

贈書| 新手指南——如何通過HuggingFace Transformer整合表格數據

A Survey on Visual Transformer及引文理解

視覺Transformer最新綜述

多模態深度學習綜述:網絡結構設計和模態融合方法匯總

Tesla Vision背後的變形金剛——Transformer!

Transformer 在計算機視覺領域瘋狂「內卷」

【transformer】 你應該知道的 transformer

如何看待Transformer在CV上的應用前景,未來有可能替代CNN嗎?

多模態:翻譯研究的新視角

​這可能是「多模態機器學習」最通俗易懂的介紹

多模態學習分析：通過多模態數據分析與接口實現學習的未來

什麼是模態分析?模態分析有什麼用?

視覺Transformer綜述

模態分析入門知識

【綜述專欄】多模態知識圖譜前沿進展

多模態研究:認知語言學的新方法

AAAI 2021 | 多模態最新進展解讀

模態分析(modal analysis)詳解

模態參與因子/模態有效質量

【transformer】你應該知道的 transformer

這可能是「多模態機器學習」最通俗易懂的介紹