PVT:金字塔架構的視覺Transformer,助力稠密視覺任務的高效實現

2021-12-22 將門創投

收錄於話題 #技術乾貨 68個內容

來自南京大學、香港大學等研究機構的研究人員提出了一種基於Transformer的無卷積主幹網絡架構，稱為金字塔視覺Transformer（Pyramid Vision Transformer，PVT)，它克服了傳統Transformer所面臨的諸多困難，可以作為多功能的主幹模型服務於包括圖像級與像素級預測等多種形式的下遊任務。

更多詳情，請訪問論文原文和項目主頁：

論文連結：

https://arxiv.org/abs/2102.12122

代碼連結：

https://github.com/whai362/PVT

後臺回復【210315】可直接下載論文PDF~

近十年來，卷積神經網絡在計算機視覺領域取得了驚人的成就，同時也成為了幾乎所有計算機視覺任務的主幹網絡。但同時，科學家們還在嘗試著從多個角度探索無卷積的計算機視覺模型，以進一步提高模型的泛化性與適應性。

近四年來，Transformer模型在自然語言處理領域實現了巨大的突破，在此啟發下，視覺領域的研究人員也開始嘗試著利用Transformer解決視覺任務。研究人員將視覺任務視為一個可學習查詢的字典查找問題，或者利用Transformer解碼器在CNN主幹網絡的基礎上對特定任務進行處理。雖然有一系列工作將注意力機制集成到了CNN中，但根據目前的情況來看，關於用無卷積結構的Transformer來實現稠密圖像預測任務的研究還很缺乏。

最近，有研究人員探索了利用Transformer進行圖像分類的工作Vision Transformer（ViT），將模型的主幹結構替換為了無需卷積的操作，實現了有益的探索和嘗試。下圖顯示了幾種不同特徵抽取方式的細節和對比。

ViT使用柱狀結構將粗糙的圖像片元作為輸入，儘管ViT可以實現圖像分類，但卻難以實現像素級的稠密預測任務（包括目標檢測、圖像分割等），這主要是由於其輸出特徵圖僅僅只有單個尺度的低解析度，同時在通常大小的圖像上也需要異常龐大的計算開銷。

為了克服這些問題，本文提出了基於Transformer的無卷積主幹網絡架構，稱為金字塔視覺Transformer (Pyramid Vision Transformer，簡稱PVT)，可以作為多功能的主幹模型服務於包括圖像級與像素級預測等多種形式的下遊任務。

具體來講，不同於ViT，PVT克服了傳統Transformer所面臨的困難：

通過細粒度的圖像片元作為輸入，來學習用於稠密預測任務的高解析度表達；

引入了漸進式的金字塔架構，隨著網絡深度加深，減小Transformer的序列長度，大幅度減小了計算開銷；

採樣空間簡約注意力層進一步縮減學習高分辨特徵圖的資源開銷。

總體來看，PVT架構可以帶來下列優勢：

首先，與傳統CNN主幹網絡相比（其感受野隨著網絡深度加深而擴大），PVT總是可以通過注意力機制對所有小圖像片實現全局感受野，比CNN的局域感受野更適合於目標檢測和分割等操作。

其次，與上圖的ViT相比，PVT先進的金字塔架構可以更為容易地插入其他稠密表示任務的流程中去（包括RetinaNet、Mask-RCNN等模型）。

此外，通過與其他Transformer解碼結合，PVT可以構建出適應於多種任務的架構，例如，PVT+DERT用於目標檢測，通過完全非卷積的模型實現高性能的目標檢測性能。

自注意力與視覺Transformer

由於卷積網絡的權重在訓練結束後就被固定下來，它對於動態變化的輸入缺乏靈活性。因此，許多方法通過自注意力機制來緩解這一問題。

其中，非局域模塊嘗試為長程時空依賴性建模，提升了視頻分類的精度；但非局域操作需要大量的內存開銷和計算資源；交錯(Criss-cross)方式僅僅通過交叉路徑生成稀疏注意力圖進一步減少了複雜性；而後獨立的自注意力機制利用局域自注意力單元代替了卷積層。AANet則通過自注意力與卷積的操作實現了優秀的結果。DETR使用Transformer解碼器來為目標檢測建模，將其視為可學習查詢的端到端字典查詢問題，成功地剔除了非極大值抑制等手工操作。在DETR的基礎上，其變種則引入了可變形注意力層聚焦與稀疏紋理元素，實現更為快速的收斂和更高的性能。

近年來，視覺Transformer（ViT）採用了純粹的Transformer模型，通過將圖像分類為一系列圖片元序列實現了圖像分類任務。DeiT模型通過使用先進的蒸餾方法進一步拓展了ViT。但是，與先前的研究任務不同，本文提出的方法將在Transformer中引入金字塔結構，並設計純粹的Transformer主幹網絡用於稠密視覺預測任務（稠密預測任務的目標在特徵圖的基礎上用於實現像素級的分類或回歸，其代表性任務是目標檢測和語義分割）。

金字塔視覺Transformer (PVT)

本研究的目標是將金字塔架構引入Transformer中，生成多尺度特徵圖用於稠密視覺預測任務。PVT的整體架構如下圖所示，其中有四層不同尺度的特徵圖，四層結構共享相同的架構，其中包含了嵌入層和Li層的Transformer編碼層。

本文提出PVT的整體架構，模型分為四個部分，每個部分由片元嵌入層和transformer編碼器構成；隨後是尺寸從1/4到1/32的金字塔結構。

在第一階段，H × W × 3的圖像將被分為4 × 4的片元送入模型以獲得高解析度的特徵圖。隨後將展平的圖像片元送入線性投射並獲取C1通道的嵌入特徵片元。然後，嵌入片元和位置嵌入一同送入L1層的Transformer編碼器中，輸出特徵圖F1，其尺寸為H/4 × W/4 × C1.在同樣的操作下，將前一階段得到的特徵圖送入後續階段得到F2、F3、F4特徵圖，最終得到不同層級的特徵金字塔{F1、F2、F3、F4}，可以有效用於下遊的視覺任務。

特徵金字塔操作

CNN主幹網絡使用不同的卷積步長得到多尺度特徵圖，與CNN不同的是，本文提出的PVT方法採用漸進式的壓縮策略通過片層嵌入層來控制特徵圖尺度。第i層的片元尺寸為Pi，首先將前一層特徵圖分為多個Pi × Pi的片元，而後每個片元被展平並映射到Ci維嵌入上，最終得到了H/Pi × W/Pi × Ci大小的特徵圖，其尺寸都比輸入縮小了Pi倍。通過這樣的方式可以靈活地調整每一階段特徵圖的尺度，有效構建Transformer的特徵金字塔。

Transformer編碼器

針對第i階段的Transformer，其擁有Li個編碼層，每個編碼層由一個注意力層和前向傳播層構成。由於本文需要處理高解析度特徵，所以提出了一種空間縮減注意力層（spatial-reduction attention，SRA）來代替編碼器中傳統的多頭注意力層（multi-head attention，MHA）。

多頭注意力與空間減約注意力比較，其中SRA的計算與內存開銷比SRA要少，使其更適合於高解析度特徵圖的操作。

與MHA類似，SRA同樣也需要查詢Q，鍵K和V作為輸入，其輸出則是優化後的特徵。其不同在於SRA會在注意力操作前減小K和V的空間尺度，大幅度減小了計算和內存開銷。其表達式如下所示:

這部分的作用是將K與V的維度縮減，實現平方級數的計算量縮減，讓處理大尺度高解析度的特徵圖成為可能。為了儘可能比較模型的優劣，研究人員設計了Tiny、Small、Medium、Large等一系列PVT模型進行進一步研究。

對比討論

研究人員詳細對比了ViT和PVT的各方面優劣。它們都是純粹的不包含卷積的Transformer模型，其主要的不同在於PVT增加了金字塔架構。與傳統的Tranformer類型相比，ViT的輸出序列長度與輸出相同，這意味著ViT只具有一個特徵尺度。此外由於資源限制，ViT的輸出只能是粗粒度的低解析度結果（16,32像素的），難以將ViT直接應用於需要高解析度多尺度特徵圖的稠密預測任務上。

而PVT則可以通過漸進式的特徵圖縮減來對Transformer的結果進行路由，可以像傳統CNN一樣生成多尺度的特徵圖。此外，研究人員還設計了簡單並有效的注意力層SRA，用於高效處理高解析度特徵圖，減小計算量和內存的消耗。在這些設計的驅動下，本文提出的方法不僅可以實現更為靈活的多尺度特徵圖抽取，同時易於與其他已有模塊集成廣泛應用於不同的下遊任務，對於高解析度輸入具有更加友好的計算與存儲需求。

實驗結果

為了展示新模型的性能，研究人員將這一架構與ResNet和ResNeXt等CNN主幹網絡進行了比較，同時也分析了ViT和Dei等Transformer模型的性能，並在圖像分類、目標檢測和語義分割等任務上進行了具體的分析。

下表展示了PVT模型在相同參數和計算開銷的情況下實現達到了更好的性能。金字塔結構對於稠密預測任務提升很大，但對於圖像分類任務則提升有限。而ViT和DeiT則因為分類任務而定製，所以在稠密預測任務中表現並不好。

針對目標檢測任務，研究人員在coco數據集上對PVT架構進行了測試，在參數規模相似的情況下，PVT架構可以在目標檢測任務上取得優異的結構，這證明了PVT可以有效替代CNN結構。

同樣，在實例分割任務上，Mask R-CNN+PVT-Tiny架構比ask R-CNN+ResNet18高出3.9個點，甚至比ask R-CNN+ResNet50還高出0.7個點。Mask R-CNN+PVT-Large實現了最高40.7的mAP性能。

此外，在語義分割上，PVT架構也顯示出了強大的能力。FPN+PVT-Large在參數量小20%的情況下直接比FPN+ResNeXt101-64x4d高出了1.9mIo，證明它可以利用全局的注意力機制抽取比CNN更優異的特徵。

最後，研究人員還利用純粹的Transformer架構進行稠密視覺任務，包括目標檢測和分割任務。

From: 南京大學等研究機構；編譯：T.R

Illustration by Oleg Shcherba from Icons8

關於我「門」

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。

將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我「門」:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

微信：thejiangmen

bp@thejiangmen.com

PVT:金字塔架構的視覺Transformer,助力稠密視覺任務的高效實現

相關焦點

視覺Transformer綜述

Transformer 在計算機視覺領域瘋狂「內卷」

視覺Transformer最新綜述

計算機視覺中的transformer模型創新思路總結

視覺+Transformer最新論文出爐,華為聯合北大、雪梨大學發表

NLP攜手Transformer跨界計算機視覺,DETR:目標檢測新範式

CVPR2021|PVT--無卷積密集預測的多功能backbone

熱門的模型跨界,Transformer、GPT做CV任務一文大盤點

NLP/CV模型跨界,視覺Transformer趕超CNN?

NLP/CV模型跨界進行到底,視覺Transformer要趕超CNN?

全球最大人臉數據集;類Transformer模型跨界視覺任務新SOTA

【源頭活水】IPT CVPR 2021 | 底層視覺預訓練Transformer | 華為開原始碼解讀

從金字塔模型的角度認識視覺感知

Pytorch實現28個視覺Transformer,開源庫 timm 了解一下!附代碼

計算機視覺學術速遞[10.11]

Transformer在CV領域有可能替代CNN嗎?

【源頭活水】基於視覺的在線地圖:一種Transformer網絡方法

Vision Transformer:用於大規模圖像識別的 Transformer

A Survey on Visual Transformer及引文理解

為什麼Transformer適合做多模態任務?