比 CNN 更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020

2021-03-02 AI有道

paper:https://hszhao.github.io/papers/cvpr20_san.pdf

code:https://github.com/hszhao/SAN

該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。對動態濾波器卷積實現不明白的小夥伴可能看該文會非常費力。本文首先在不改變原文意思的基礎上進行簡單的翻譯與介紹,在後續的文章中本人將從另一個角度對該文進行解析並進行復現和轉換,歡迎持續關注。

Abstract

近期的研究表明:自注意力可以作為圖像識別模型的基礎模塊而存在。作者探索了自注意力機制的變種並對其在圖像識別中的有效性進行了評價。作者考慮了兩種形式的自注意力機制:(1) pairwise self-attention,它是標準點積注意力的擴展,本質上是一組操作;(2) patchwise self-attention一種比卷積更強有力的的操作,其對應的模型明顯優於標準卷積版本。作者還通過實驗驗證了所提表達方式的魯棒性,並證實自注意力網絡從魯棒性和泛化性能方面均優於標準卷積網絡。

看完上面這一段介紹,大家有沒有感覺看的雲裡霧裡,不知所云。這到底是個什麼鬼?沒關係,下面的原文翻譯會讓你更加的不知所云,拭目以待!Method

在卷積網絡中,網絡中的OP有兩個作用:(1) 特徵聚合(feature aggregation),對局部近鄰特徵採用核參數進行加權得到輸出特徵;(2) 特徵變換(feature transformation),它有後接線性映射以及非線性函數達成(即BatchNorm+ReLU)。

作者認為:前述兩個功能可以解耦。如果可以採用一種特殊的機制進行特徵聚合,那麼採用感知器(它包含線性映射與非線性函數)進行逐點特徵變換。作者主要聚焦於特徵聚合部分進行研究。其實說白了就是嘗試提出一種特殊的機制替代標準卷積。

常規卷積通過固定核進行特徵聚合,即全圖權值共享,不會隨特徵內容而自適應變化,同時參數量會隨著聚合特徵數量增加而增加。鑑於此,作者提出幾種特徵聚合機制並構建了一個高性能圖像識別框架(它交錯執行特徵聚合(自注意力)和特徵變換(逐點感知器))。

作者探索了兩種類型的自注意力機制:(1) pairwise self-attention;(2) patchwise self-attention.

Pairwise Self-attention

首先,給出Pair Self-attention的定義:

其中,

其中,而

作者探索了下面幾種形式的相關函數

Position Encoding

pair self-attention的一個突出特徵:特徵向量

將水平和垂直坐標分別進行歸一化,歸一化到

Patchwise Self-attention

作者研究的另一種自注意力機制為patchwise self-attention,其公式定義如下:

其中

在patchwise self-attention中,作者允許構建的額權值向量直接作用於

類似的,作者對

類似地,作者研究了下面幾種形式的

Self-attention Block

上圖給出了本文所提出的自注意力機制在殘差模塊中嵌入示意圖。輸入特徵圖將經由兩個處理流:(1)左邊分支用於評估輸出注意力權值;(2)右邊分支將對輸入進行線性變換,為更有效的處理進行降維。前述兩個分支的輸出將通過Hadamard乘積進行特聚合,聚合後特徵將經由規範化操作+非線性激活與最後的非線性層得到與輸入同等通道的輸出。

看到這裡,不知道各位小夥伴是否看懂了作者想要表達的意思?反正我第一次看的時候是沒看懂,也不知道到底是怎麼做的,看的雲裡霧裡一塌糊塗。沒關係,我後面會提供一種更為通用的解釋來介紹上述兩種自注意力機制。Network Architectures

前面基本上已經把本文的核心全部介紹完畢了,那麼接下來就是要說明一下如何利用前述提到的兩種模塊搭建一個完成的神經網絡了。

ResNet不愧是深度學習的裡程碑,萬能油網絡啊,太多太多的網絡都是在ResNet的基礎上進行修改發paper,造就了太多的高質量paper(比如Res2Net, ResNeXt, MobileNetV2等)。

沒有任何意外,作者還是在ResNet的基礎上進行改造。下表為改造模型參數列表,作者提供了三種深度的網絡SAN10, SAN15, SAN19,它們分別對應ResNet26, ResNet38, ResNet50。

前面給出了作者改造的網絡結構:SAN系列。我們從下面幾個部分針對該系列模型進行簡單的分析。

Backbone: SAN的骨幹部分包含5個階段,不同階段具有不同的空間解析度,最終輸出32倍下採樣的特徵。每個階段包含不同數量的自注意力模塊,相鄰的兩個階段參考DenseNet通過過渡層(過渡層的作用是降低空間解析度並提升通道數)橋接。在五個階段之外,後接一個分來Head模塊,該模塊由全局均值池化、全連接層以及softmax構成。Transition:過渡層的用於降低特徵空間解析度,因此可以降低計算複雜度提升感受野。過渡層由BatchNorm、ReLU、MaxPool以及1x1卷積(用於擴增通道維度)構成。Footprint:局部範圍

上表對比了自注意力模塊與常規卷積、標量注意力機制之間的區別所在。

Convolution:常規卷積具有固定的核權值,不會隨內容而變化,但和權值會跨通道變化(但這種變化是訓練確定的,很難說是真正意義上的通道自適應);Scalar Attention:標量注意力的聚合權值會根據內容隨位置發生變換,但存在跨通道共享。Vector attention:作者所設計的自注意力模塊則同時具有內容自適應與通道自適應性。Experiments

作者在ImageNet數據集上進行了所提方法的實驗與驗證。相關訓練信息如下:

Learning rate:cosine learning rate with base 0.1

Standard data augmentation: random crop, random flip, normalize

SyncSGD: momentum=0.9, weight decay=0.0001

Label Smoothing: regularization coefficient=0.1

BatchSize: 256.

關於自注意力模塊的幾個參數設置為:

上圖給出了所提SAN與對標ResNet的性能差異對比。從中可以看到:(1) pairwise模型媲美甚至優於對標的ResNet模型;(2)patchwise模型以極大的優勢超越了對標的ResNet。

上表對比了自注意力模塊中不同相關函數下的性能,從中可以看到:(1)對於pairwise模型而言,summation、subtraction以及Hadamard乘積具有相似的精度,並優於其他兩種相關函數;(2)對於patchwise模型而言,concatenation取得最佳性能。

上表對比了自注意力模塊中不同映射函數的性能對比。從中可以看到:(1)對於pairwise模型而言,兩個全連接層即可取得最佳性能;(2) 對於patchwise模型而言,不同的配置具有相似的性能(考慮到內存佔用與計算量問題,作者最終選用了兩個全連接層的配置)。

上表驗證了自注意力模塊中使用三個離散變換函數的必要性。從中可以看到:使用三個獨立的變換函數具有最佳性能,使用獨立變換函數的另外一個優勢是降低計算複雜度。

上表對比了自注意力模塊中不同局部範圍(即卷積核尺寸)下的性能對比。從中可以看到:(1)在常規卷積中,提升卷積核尺寸會提升計算複雜度與內存佔用;(2)在SAN中,性能先隨核尺寸增大而提升,而後達到飽和。對於pairwise模型而言,提升核尺寸對於參數沒有任何影響。綜合考量後,作者將核尺寸設置為

最後,作者評價了位置編碼在pairwise模型中的重要性,結果見上表。從中可以看到:位置編碼具有很重要的影響:位置編碼能帶來5%的性能提升。

此外,作者從兩個方面驗證了模型的魯棒性。(1) 旋轉魯棒性(見上表),pairwise模型具有更佳的抗旋轉性魯棒性,這也與前面提到的patchwise不具有置換不變性不謀而合;(2) 對抗魯棒性(見下表),patchwise具有更佳的對抗攻擊魯棒性;(3)相比常規卷積網絡,自注意力網絡具有更佳的魯棒性和泛化性能。

Conclusion

作者研究了自注意力在圖像識別模型中的有效性,作者提出了兩種形式的自注意力:pairwise與patchwise。作者通過實驗得到以下幾點重要發現:

基於pairwise的網絡取得了匹配甚至超越純卷積網絡的性能,這意味著計算機視覺中深度學習的成功並非與卷積網絡緊密相連,還有其他的方案具有媲美甚至更優的判別能力(比如permutation- and cardinality-invariance);基於patchwise的網絡取得了超越純卷積網絡的性能,這意味著塊自注意力可能在其他計算機視覺中取得更好的性能增益;相比標量(scale/dot-product)自注意力機制(當前主流注意力機制),向量(vector)自注意力更有力且具有明顯優勢。

相關焦點

  • 比CNN更強有力,港中文賈佳亞團隊提出兩類新型自注意力網絡|CVPR2020
    paper:https://hszhao.github.io/papers/cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。
  • CVPR2020 |香港中文大學賈佳亞老師團隊: 兩類新型自注意力網絡
    /cvpr20_san.pdfcode:https://github.com/hszhao/SAN該文是香港中文大學賈佳亞老師團隊投於CVPR2020的一篇關於動態濾波器卷積的文章。作者還通過實驗驗證了所提表達方式的魯棒性,並證實自注意力網絡從魯棒性和泛化性能方面均優於標準卷積網絡。看完上面這一段介紹,大家有沒有感覺看的雲裡霧裡,不知所云。這到底是個什麼鬼?沒關係,下面的原文翻譯會讓你更加的不知所云,拭目以待!
  • 賈佳亞正式離職優圖,稱艱難的決定,疫情當前創辦「思謀科技」
    【新智元導讀】賈佳亞離開騰訊自己創業了!原騰訊傑出科學家、優圖實驗室X-Lab負責人、香港中文大學計算機科學工程系終身教授賈佳亞和學生創立了一家新的AI公司——思謀科技。為什麼?聽聽賈佳亞怎麼說。賈佳亞離開騰訊自己創業了!
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    這種情況在使用少批量數據更新神經網絡的參數時更為嚴重。研究發現這是由於 BN(Batch Normalization)導致的。BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用,在學術界和工業界均被廣泛使用。港中文團隊提出的 SN(Switchable Normalization)解決了 BN 的不足。
  • 自注意力可以替代CNN,能表達任何卷積濾波層
    △論文地址:https://arxiv.org/abs/1911.03584這項工作來自洛桑理工學院,研究表明:只要有足夠的頭(head)和使用相對位置編碼,自注意力可以表達任何CNN卷積濾波層。此外,還中選ICLR 2020,在Twitter上也受到了廣泛的關注。
  • 合成逼真圖像,試試港中大&英特爾的半參數方法|CVPR 2018 oral
    深度神經網絡的出現,給CG帶來一道曙光。根據大致的草圖框架(也稱語義布局法),深度神經網絡現在可以直接合成真實效果的圖片。不過,主流圖像合成所用的模型大多是參數模型(parametric models)。這種模型,所有和逼真外觀有關的數據,都會體現在深度神經網絡的權重裡。
  • CVPR 2020放榜,錄取率降至22%,港中文周博磊發文感慨十年變遷
    從論文接收率來看,被接收難度似乎在逐年增大,從 2018 年的 29.6% 到 2019 年的 25% 再到 2020 年的 22%,兩年都出現了下降趨勢。論文接收結果公布之後,不少人在社交平臺上曬出了自己團隊的「戰績」。
  • 香港中文大學賈佳亞教授加盟騰訊優圖,一大波圖像黑科技很可能在路...
    賈佳亞教授在香港科技大學獲得計算機科學博士學位,在微軟亞洲研究院做一年半訪問學者後,2004年加入香港中文大學計算機科學與工程系,2010年升任副教授,2015年任教授。騰訊優圖隸屬於騰訊社交網絡事業群,整體立足於騰訊社交網絡大平臺,依託騰訊社交業務產生的龐大數據量,進行算法開發和應用場景訓練,除了支持自家QQ和QQ空間外,還已經和多個政企機構進行合作。這是一次如魚得水的加盟據雷鋒網AI科技評論了解,賈佳亞教授本人就一直對圖像有很濃厚的興趣,所以即便20年前計算機視覺還是完全冷門,他也決心投身這個領域。
  • AI大牛賈佳亞離職騰訊優圖,自主創業且獲Pre-A融資
    如今再看,賈佳亞去年11月傳出「被離職」消息並不是空穴來風。據賈佳亞回復,「關於公司情況不便過多透露,正在進行一系列稠密嚴謹的準備工作。」在來到騰訊之前,他已經是香港中文大學的終身教授,曾帶領港中文計算機視覺實驗室研究出業界最領先的圖像濾波和模糊圖像視頻恢復算法,在學界和業界得到了應用。
  • 賈佳亞離開騰訊優圖實驗室,創立AI公司思謀科技獲 Pre-A 輪融資
    資料顯示,該司的核心成員(創始人)包括兩名,賈佳亞與沈小勇,沈小勇為思謀(香港)有限公司 CEO。他曾擔任騰訊優圖實驗室高級研究員,同時也是賈佳亞在香港中文大學的學生。在此之前,賈佳亞於 2004 年赴香港中文大學計算機科學與工程系任教,帶領的港中文計算機視覺實驗室是業界和學界知名的研究團隊,研究出業界最領先的圖像濾波和模糊圖像視頻恢復算法,在學界和業界得到了應用,同時帶領團隊多次獲得實例分割、語義分割與物體檢測等國際計算機視覺領域競賽的冠軍。
  • CVPR 2020|弱監督怎樣做圖像分類?上交大提出自組織記憶網絡
    這兩種噪聲給利用網絡數據學習圖像分類器帶來了很多額外的困難,而現有的方法要麼非常依賴於額外的監督信息,要麼無法應對背景噪聲。論文中提出了一種不需要額外監督信息的方法來同時處理這兩種類型的噪聲,並在四個基準數據集上的實驗證明了方法的有效性。本文已被 CVPR2020 接收。
  • 2020最佳博士論文;南開等提出新型自校準卷積
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括 SIGGRAPH 2020 最佳博士論文,以及南開大學等提出的自校準卷積和相應網絡。
  • 賈佳亞真·離職騰訊!創立思謀科技,專注工業檢測與高清視頻
    針對「思謀科技」的取名,賈佳亞表示,「我們要思考現在的技術手段,謀劃未來行業的發展,以服務行業為核心是這個名字的由來,不僅要smart,還要more,這是產業的期望與要求。」面對疫情,賈佳亞坦言道,「現在疫情狀況對於經濟、社會、生產的影響,讓我們對於思謀科技的創立會更加急迫和有動力」。
  • AI 大牛賈佳亞告別騰訊優圖,創立「思謀科技」,已獲融資
    昨日晚間,已有媒體報導稱原騰訊雲與智慧產業事業群旗下優圖實驗室負責人、香港中文大學計算機科學工程系終身教授賈佳亞創業新公司為思謀科技(SmartMore),已完成 Pre-A 輪融資。賈佳亞離職風波2019 年 11 月 18 日,InfoQ 得到消息稱:騰訊優圖實驗室(X Lab)負責人、騰訊傑出科學家賈佳亞已於本月 15 日從騰訊離職,接下來,他將重回香港中文大學任教。晚些時候,該消息得到了賈佳亞本人和騰訊方面的否定,稱:賈佳亞尚未離職。
  • 上海交大團隊提出點雲分形網絡;FB提出Other-Play新型學習算法
    【今日資訊頭條 | CVPR 2020 | 更高質量的點雲補全:上海交通大學團隊提出點雲分形網絡】來源:arxiv上海交通大學團隊提出點雲分形網絡傳統的點雲補完方法基於一定的物體基礎結構的先驗信息,如對稱性信息或語義類信息等,通過一定的先驗信息對缺失點雲進行修補。
  • CVPR 2020線上分享 | 港中文博士:對抗生成網絡的可解釋性及其應用
    CVPR 2020線上分享 | 港中文博士:對抗生成網絡的可解釋性及其應用 2020-06-08 19:39 來源:澎湃新聞·澎湃號·湃客
  • 原騰訊優圖負責人賈佳亞創業,新AI公司已獲pre-A輪融資
    近日,原騰訊優圖負責人賈佳亞的下一步動向得以曝光,其創建的新公司思謀科技已獲 Pre-A 輪融資。但目前尚不清楚該公司的投資方和估值。公司的核心成員(創始人)除了賈佳亞外,還有思謀的 CEO、賈佳亞在香港中文大學的學生沈小勇。他也曾是騰訊優圖團隊成員。圖丨賈佳亞(來源:騰訊)作為業內著名的計算機視覺專家,賈佳亞是香港中文大學計算機科學工程系教授、終身教授,師從前微軟全球執行副總裁沈向洋。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。因此本文提出使用關鍵點的向心偏移(centripetal shift)來進行匹配,其背後的思想是同一個物體的不同關鍵點應該對應同一個物體中心點。從下圖可以直觀的看到利用向心偏移匹配相對於關聯嵌入向量在避免錯誤匹配方面的優勢。
  • CVPR2019無人駕駛相關論文
    更有機會與李開復老師等大牛群內互動!同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。作者 | 不努力一下子原文地址 | https://zhuanlan.zhihu.com/p/591715741、Stereo R-CNN based 3D Object Detection for Autonomous Driving3D目標檢測作者:Peiliang Li,Xiaozhi Chen(陳曉智--DJI,MV3D的作者),Shaojie Shen(港科大
  • 【源頭活水】Sparse R-CNN:簡化版fast rcnn
    算法,是faster rcnn算法的前身,由於其巨大計算量以及無法端到端訓練,故而提出區域提取網絡RPN加上fast rcnn的faster rcnn算法。但是你是否想過去掉RPN,僅僅在fast rcnn算法基礎上額外引入點新技術就可以實現更簡潔、更高精度的替代算法?本文借鑑了最新提出的detr算法核心思想,從而實現了上述想法。Sparse R-CNN極其簡單,不需要設置煩人的密集anchor,不需要RPN、不需要複雜後處理和nms,不需要小心的平衡RPN和fast rcnn訓練過程,也沒有難調的超參,和detr一樣完美。