CVPR2020 |香港中文大學賈佳亞老師團隊: 兩類新型自注意力網絡

2021-02-19 深度學習與圖網絡

paper:https://hszhao.github.io/papers/cvpr20_san.pdf

code:https://github.com/hszhao/SAN

該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。對動態濾波器卷積實現不明白的小夥伴可能看該文會非常費力。本文首先在不改變原文意思的基礎上進行簡單的翻譯與介紹,在後續的文章中本人將從另一個角度對該文進行解析並進行復現和轉換,歡迎持續關注。

近期的研究表明:自注意力可以作為圖像識別模型的基礎模塊而存在。作者探索了自注意力機制的變種並對其在圖像識別中的有效性進行了評價。作者考慮了兩種形式的自注意力機制:(1) pairwise self-attention,它是標準點積注意力的擴展,本質上是一組操作;(2) patchwise self-attention一種比卷積更強有力的的操作,其對應的模型明顯優於標準卷積版本。作者還通過實驗驗證了所提表達方式的魯棒性,並證實自注意力網絡從魯棒性和泛化性能方面均優於標準卷積網絡。

看完上面這一段介紹,大家有沒有感覺看的雲裡霧裡,不知所云。這到底是個什麼鬼?沒關係,下面的原文翻譯會讓你更加的不知所云,拭目以待!

在卷積網絡中,網絡中的OP有兩個作用:(1) 特徵聚合(feature aggregation),對局部近鄰特徵採用核參數進行加權得到輸出特徵;(2) 特徵變換(feature transformation),它有後接線性映射以及非線性函數達成(即BatchNorm+ReLU)。


作者認為:前述兩個功能可以解耦。如果可以採用一種特殊的機制進行特徵聚合,那麼採用感知器(它包含線性映射與非線性函數)進行逐點特徵變換。作者主要聚焦於特徵聚合部分進行研究。其實說白了就是嘗試提出一種特殊的機制替代標準卷積。


常規卷積通過固定核進行特徵聚合,即全圖權值共享,不會隨特徵內容而自適應變化,同時參數量會隨著聚合特徵數量增加而增加。鑑於此,作者提出幾種特徵聚合機制並構建了一個高性能圖像識別框架(它交錯執行特徵聚合(自注意力)和特徵變換(逐點感知器))。


作者探索了兩種類型的自注意力機制:(1) pairwise self-attention;(2) patchwise self-attention.


首先,給出Pair Self-attention的定義:

其中,表示Hadamard乘積表示特徵圖在i位置處的特徵向量,表示局部近鄰空間。函數將對輸入局部特徵進行編碼並將被用於特徵聚合,聚合參數為自適應參數並通過確定。

構成了該自注意力的核心,它用於計算待聚合特徵的權值。為簡化不同自注意力的描述,對其進行分解得到如下形式:

其中,而則根據待聚合成對特徵輸出一個特徵向量,而函數則據此輸出用於特徵聚合的權值標量。函數使得可以儘可能的去探索之間的相關性,而不需要考慮維度對齊問題。

作者探索了下面幾種形式的相關函數,其中表示可訓練的變換,兩者具有相同的輸出維度。


Summation: 

Subtraction: 

Concatenation: 

Hadamard product: 

Dot product: 


pair self-attention的一個突出特徵:特徵向量是獨立的進行處理,僅依賴於近鄰特徵計算權值,而不會依賴範圍之外的其他特徵。為了對模型提供空間上下文信息,作者對其進行了擴展並編碼的位置信息。編碼方式如下:

將水平和垂直坐標分別進行歸一化,歸一化到.歸一化後的兩個坐標系進行拼接並融入另一個可訓練的線性子網絡,該子網絡將輸出每個位置的位置編碼信息。作者採用近鄰點坐標與中心點的差值進行位置信息編碼,該位置編碼信息將增廣前述並產生協同作用。


作者研究的另一種自注意力機制為patchwise self-attention,其公式定義如下:

其中表示塊特徵向量,表示同空間維度的塊特徵向量構成的tensor。

patchwise self-attention中,作者允許構建的額權值向量直接作用於,該權值集成了更多的近鄰特徵向量信息。需要注意的是:patchwise self-attention不再是一組操作,它不再具有pairwise self-attention的置換不變性,它可以自適應的從不同位置編碼不同的特徵信息,從而具有強於卷積的性能。

類似的,作者對進行解耦表示為:

類似地,作者研究了下面幾種形式的函數:

Star-product: 

Clique-product: 

Concatenation: 

Self-attention Block


上圖給出了本文所提出的自注意力機制在殘差模塊中嵌入示意圖。輸入特徵圖將經由兩個處理流:(1)左邊分支用於評估輸出注意力權值;(2)右邊分支將對輸入進行線性變換,為更有效的處理進行降維。前述兩個分支的輸出將通過Hadamard乘積進行特聚合,聚合後特徵將經由規範化操作+非線性激活與最後的非線性層得到與輸入同等通道的輸出。

看到這裡,不知道各位小夥伴是否看懂了作者想要表達的意思?反正我第一次看的時候是沒看懂,也不知道到底是怎麼做的,看的雲裡霧裡一塌糊塗。沒關係,我後面會提供一種更為通用的解釋來介紹上述兩種自注意力機制。

前面基本上已經把本文的核心全部介紹完畢了,那麼接下來就是要說明一下如何利用前述提到的兩種模塊搭建一個完成的神經網絡了。

ResNet不愧是深度學習的裡程碑,萬能油網絡啊,太多太多的網絡都是在ResNet的基礎上進行修改發paper,造就了太多的高質量paper(比如Res2Net, ResNeXt, MobileNetV2等)。

沒有任何意外,作者還是在ResNet的基礎上進行改造。下表為改造模型參數列表,作者提供了三種深度的網絡SAN10, SAN15, SAN19,它們分別對應ResNet26, ResNet38, ResNet50。


前面給出了作者改造的網絡結構:SAN系列。我們從下面幾個部分針對該系列模型進行簡單的分析。

Backbone: SAN的骨幹部分包含5個階段,不同階段具有不同的空間解析度,最終輸出32倍下採樣的特徵。每個階段包含不同數量的自注意力模塊,相鄰的兩個階段參考DenseNet通過過渡層(過渡層的作用是降低空間解析度並提升通道數)橋接。在五個階段之外,後接一個分來Head模塊,該模塊由全局均值池化、全連接層以及softmax構成。

Transition:過渡層的用於降低特徵空間解析度,因此可以降低計算複雜度提升感受野。過渡層由BatchNorm、ReLU、MaxPool以及1x1卷積(用於擴增通道維度)構成。

Footprint:局部範圍用於控制特徵聚合的上下文數量,為平衡計算複雜度和效果,作者在後四個階段的只注意模塊中設為,而第一個則設為(出於計算複雜度、顯存消耗考慮)。

Instantiations:通過調節網絡不同階段的自注意力模塊的數量控制網絡的容量,相關配置參數將上表,基本上是參考ResNet進行設置的。


上表對比了自注意力模塊與常規卷積、標量注意力機制之間的區別所在。

Convolution:常規卷積具有固定的核權值,不會隨內容而變化,但和權值會跨通道變化(但這種變化是訓練確定的,很難說是真正意義上的通道自適應);

Scalar Attention:標量注意力的聚合權值會根據內容隨位置發生變換,但存在跨通道共享。

Vector attention:作者所設計的自注意力模塊則同時具有內容自適應與通道自適應性。


作者在ImageNet數據集上進行了所提方法的實驗與驗證。相關訓練信息如下:

Epoch:100

Learning rate:cosine learning rate with base 0.1

Standard data augmentation: random crop, random flip, normalize

SyncSGD: momentum=0.9, weight decay=0.0001

Label Smoothing: regularization coefficient=0.1

BatchSize: 256.

關於自注意力模塊的幾個參數設置為:,權值共享的通道數設為8.

上圖給出了所提SAN與對標ResNet的性能差異對比。從中可以看到:(1) pairwise模型媲美甚至優於對標的ResNet模型;(2)patchwise模型以極大的優勢超越了對標的ResNet。

上表對比了自注意力模塊中不同相關函數下的性能,從中可以看到:(1)對於pairwise模型而言,summation、subtraction以及Hadamard乘積具有相似的精度,並優於其他兩種相關函數;(2)對於patchwise模型而言,concatenation取得最佳性能。

上表對比了自注意力模塊中不同映射函數的性能對比。從中可以看到:(1)對於pairwise模型而言,兩個全連接層即可取得最佳性能;(2) 對於patchwise模型而言,不同的配置具有相似的性能(考慮到內存佔用與計算量問題,作者最終選用了兩個全連接層的配置)。

上表驗證了自注意力模塊中使用三個離散變換函數的必要性。從中可以看到:使用三個獨立的變換函數具有最佳性能,使用獨立變換函數的另外一個優勢是降低計算複雜度。

上表對比了自注意力模塊中不同局部範圍(即卷積核尺寸)下的性能對比。從中可以看到:(1)在常規卷積中,提升卷積核尺寸會提升計算複雜度與內存佔用;(2)在SAN中,性能先隨核尺寸增大而提升,而後達到飽和。對於pairwise模型而言,提升核尺寸對於參數沒有任何影響。綜合考量後,作者將核尺寸設置為。

最後,作者評價了位置編碼在pairwise模型中的重要性,結果見上表。從中可以看到:位置編碼具有很重要的影響:位置編碼能帶來5%的性能提升。

此外,作者從兩個方面驗證了模型的魯棒性。(1) 旋轉魯棒性(見上表),pairwise模型具有更佳的抗旋轉性魯棒性,這也與前面提到的patchwise不具有置換不變性不謀而合;(2) 對抗魯棒性(見下表),patchwise具有更佳的對抗攻擊魯棒性;(3)相比常規卷積網絡,自注意力網絡具有更佳的魯棒性和泛化性能。


作者研究了自注意力在圖像識別模型中的有效性,作者提出了兩種形式的自注意力:pairwise與patchwise。作者通過實驗得到以下幾點重要發現:


基於pairwise的網絡取得了匹配甚至超越純卷積網絡的性能,這意味著計算機視覺中深度學習的成功並非與卷積網絡緊密相連,還有其他的方案具有媲美甚至更優的判別能力(比如permutation- and cardinality-invariance);


基於patchwise的網絡取得了超越純卷積網絡的性能,這意味著塊自注意力可能在其他計算機視覺中取得更好的性能增益;


相比標量(scale/dot-product)自注意力機制(當前主流注意力機制),向量(vector)自注意力更有力且具有明顯優勢。

相關焦點

  • 比CNN更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020
    paper:https://hszhao.github.io/papers/cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。
  • 比 CNN 更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020
    paper:https://hszhao.github.io/papers/cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。
  • 香港中文大學賈佳亞教授加盟騰訊優圖,一大波圖像黑科技很可能在路...
    雷鋒網(公眾號:雷鋒網)AI科技評論消息,賈佳亞教授在香港科技大學獲得計算機科學博士學位,在微軟亞洲研究院做一年半訪問學者後,2004年加入香港中文大學計算機科學與工程系,2010年升任副教授,2015年任教授。
  • 賈佳亞真·離職騰訊!創立思謀科技,專注工業檢測與高清視頻
    大數據文摘出品作者:劉俊寰、牛婉楊去年11月下旬,有媒體爆出騰訊優圖實驗室聯合負責人、傑出科學家賈佳亞已從騰訊離職,並回到香港中文大學擔任教職。我也真心捨不得優圖這樣一個優秀的戰鬥團隊,以及與團隊小夥伴們攜手開拓出來的事業。」思謀科技在未來會努力把AI科技應用推向新的高度,賈佳亞說道,這也要感恩騰訊的企業文化和對技術開拓的包容度。
  • 香港中文大學(深圳)舉行網絡傳媒春茗活動, 與100餘位媒體記者相約...
    3月13日上午,香港中文大學(深圳)的大學主管人員們穿起隆重的唐裝,與來自全國的100餘家媒體記者在「雲端」進行了一場特別的見面會——「香港中文大學(深圳)2020年網絡傳媒春茗活動」,向媒體及社會匯報香港中文大學(深圳)在招生、就業、科研、國際交流、人才培養等多方面的最新進展情況。
  • 賈佳亞離開騰訊優圖實驗室,創立AI公司思謀科技獲 Pre-A 輪融資
    資料顯示,該司的核心成員(創始人)包括兩名,賈佳亞與沈小勇,沈小勇為思謀(香港)有限公司 CEO。他曾擔任騰訊優圖實驗室高級研究員,同時也是賈佳亞在香港中文大學的學生。與此同時,思謀(香港)有限公司 100% 控股 深圳思謀信息科技有限公司,所屬軟體和信息技術服務業,註冊資本 1000 萬人民幣。沈小勇,浙江大學本科及碩士,香港中文大學博士及博士後。
  • 賈佳亞正式離職優圖,稱艱難的決定,疫情當前創辦「思謀科技」
    【新智元導讀】賈佳亞離開騰訊自己創業了!原騰訊傑出科學家、優圖實驗室X-Lab負責人、香港中文大學計算機科學工程系終身教授賈佳亞和學生創立了一家新的AI公司——思謀科技。為什麼?聽聽賈佳亞怎麼說。賈佳亞離開騰訊自己創業了!
  • 香港中文大學(深圳):2020年啟動本科大類招生新模式!
    香港中文大學(深圳)是一所經國家教育部批准,按中外合作辦學條例設立的大學。大學以創建一所立足中國、面向世界的一流研究型大學為己任,致力於培養具有國際視野、中華傳統和社會擔當的創新型高層次人才。大學的辦學特色是國際化的氛圍、中英並重的教學環境、書院制傳統、通識教育、新型交叉學科設置和以學生為本的育人理念。
  • 2020年香港中文大學(深圳)湖南省本科生招生介紹
    香港中文大學(深圳)辦學性質:中外(含內地與港澳臺)合作院校學校國標代碼:16407我們鼓勵2020年高考全省排名文科前
  • AI大牛賈佳亞離職騰訊優圖,自主創業且獲Pre-A融資
    在來到騰訊之前,他已經是香港中文大學的終身教授,曾帶領港中文計算機視覺實驗室研究出業界最領先的圖像濾波和模糊圖像視頻恢復算法,在學界和業界得到了應用。賈佳亞在騰訊優圖實驗室期間,帶領團隊成員幾乎打造了騰訊內容平臺90%的AI能力,並在多項頂級學術會議上發表50多篇論文。如今賈佳亞離開騰訊創辦思謀科技,這家AI創業公司的實力必然不容小覷。
  • AI 大牛賈佳亞告別騰訊優圖,創立「思謀科技」,已獲融資
    昨日晚間,已有媒體報導稱原騰訊雲與智慧產業事業群旗下優圖實驗室負責人、香港中文大學計算機科學工程系終身教授賈佳亞創業新公司為思謀科技(SmartMore),已完成 Pre-A 輪融資。賈佳亞離職風波2019 年 11 月 18 日,InfoQ 得到消息稱:騰訊優圖實驗室(X Lab)負責人、騰訊傑出科學家賈佳亞已於本月 15 日從騰訊離職,接下來,他將重回香港中文大學任教。晚些時候,該消息得到了賈佳亞本人和騰訊方面的否定,稱:賈佳亞尚未離職。
  • 香港中文大學(深圳):辦學六年,交出了一份滿意答卷
    3月13日上午,香港中文大學(深圳)的大學主管人員們穿起隆重的唐裝,與來自全國的100餘家媒體記者在「雲端」進行了一場特別的見面會——「香港中文大學(深圳)2020年網絡傳媒春茗活動」。校長徐揚生教授還介紹,在疫情期間,香港中文大學(深圳)自2月17日開始網上授課,是廣東省第一所全面推廣線上教學的大學,同時,大學向在校師生、家長及社會各界朋友推出「足不出戶上大學」系列直播公開課、「雲上藝術」線上直播等內容豐富的網絡課程。4月初,大學也將啟動「線上校園開放日」,便於大家了解香港中文大學(深圳)最新的招生政策、校園生活等方面的內容。
  • 香港中文大學(深圳)2020年啟動本科大類招生新模式
    香港中文大學(深圳)是一所經國家教育部批准,按中外合作辦學條例設立的大學。大學以創建一所立足中國、面向世界的一流研究型大學為己任,致力於培養具有國際視野、中華傳統和社會擔當的創新型高層次人才。大學的辦學特色是國際化的氛圍、中英並重的教學環境、書院制傳統、通識教育、新型交叉學科設置和以學生為本的育人理念。
  • 抗擊疫情,香港中文大學(深圳)在行動
    【MBA中國網訊】2020年剛進入農曆新年,一場突如其來的病毒肆虐打破了中國人原本的春節氣氛,確診疑似病例數字不斷刷新,成千上萬的一線醫護人員陸續投身前線,新型冠狀病毒感染的肺炎疫情牽動著全國人民的心。作為一所年輕的大學,香港中文大學(深圳)的師生們與祖國「同呼吸、共命運」,在這場戰「疫」中盡己所能,共克時艱。
  • 合成逼真圖像,試試港中大&英特爾的半參數方法|CVPR 2018 oral
    深度神經網絡的出現,給CG帶來一道曙光。根據大致的草圖框架(也稱語義布局法),深度神經網絡現在可以直接合成真實效果的圖片。不過,主流圖像合成所用的模型大多是參數模型(parametric models)。這種模型,所有和逼真外觀有關的數據,都會體現在深度神經網絡的權重裡。
  • 香港中文大學(深圳)2020年安徽省高考志願填報搶先看
    我們鼓勵2020年高考全省排名文科前700名,理科前3500名的安徽考生重點關注,7月27-29日在提前批志願填報香港中文大學(深圳)!
  • 香港中文大學許建斌老師課題組招收全獎博士生 (快速通道)
    許建斌,香港中文大學電子工程系教授,IEEE Fellow、國家特聘專家、國家自然科學基金委海外傑青、教育部長江學者講座教授、深圳市傑出人才。曾任兩屆IEEE-NTC納米技術專業分會和IEEE-EDS電子器件專業分會成員;擔任多個國際期刊的編委及審稿人,以及多個IEEE及其它國際學術會議的大會主席,包括全球著名科技旗艦會議,Gordon Research Conference 2018香港分會和即將於2021年5月在舉辦的 Gordon Research Conference 2021會議技術分會的主席。
  • 原騰訊優圖負責人賈佳亞創業,新AI公司已獲pre-A輪融資
    近日,原騰訊優圖負責人賈佳亞的下一步動向得以曝光,其創建的新公司思謀科技已獲 Pre-A 輪融資。但目前尚不清楚該公司的投資方和估值。據 「天眼查」 顯示,思謀於 2019 年 11 月 5 日成立,專注於 5G+AI 領域,將 5G、AI 應用在高清視頻、智能製造等領域,並已在深圳和香港設立研發中心,在上海有商務代表處。公司的核心成員(創始人)除了賈佳亞外,還有思謀的 CEO、賈佳亞在香港中文大學的學生沈小勇。他也曾是騰訊優圖團隊成員。
  • 香港中文大學(深圳)「湘約」高三學子
    今起至5月31日,符合條件的湖南學子可登錄香港中文大學(深圳)博文獎學金申報系統(https://ugapply.cuhk.edu.cn/bowen)申請。  招生變化  採用更大類的招生模式,學生入學後可根據興趣選學院和專業  香港中文大學(深圳)自2014年「出道」以來,受到了外界的廣泛關注,在全國的招生更是火爆。
  • ...開創政府與大學合作新模式!龍崗區政府與香港中文大學(深圳...
    (攝影:李凱)作為深圳的行政大區、人口大區、產業大區,今年以來,龍崗區堅持「產業立區、創新強區」不動搖,大力實施「一芯兩核多支點一走廊」戰略,積極克服新冠肺炎疫情影響,全面搶抓「雙區」建設機遇,經濟社會發展取得了顯著進步,連續三年位居中國工業百強區榜首,同時獲評2020胡潤中國最具投資潛力區域第二名、科技創新發展潛力區域第一名,發展勢頭又好又快。