點擊上方「CVer」,選擇加"星標"置頂
重磅乾貨,第一時間送達
本文轉載自:阿柴和她的CV學習日記
註:論文已上傳,文末附下載方式
論文地址:arxiv.org/pdf/2007.01947
代碼地址:https://github.com/GuoleiSun/MCIS_wsss
本篇文章沿著近幾年弱監督語義分割(WSSS)的研究熱點 — 如何改進CAM [1] 只能定位局部判別性區域,提出了不同之前只從改進分割網絡結構或細化分類網絡任務的的方法。作者採用跨圖像(cross image)的方式,獲得了更加豐富的圖片間的上下文信息,從而實現了更高的精度。本篇文章在pacvoc 2012驗證集上mIoU達到了66.2,在測試集上達到了66.9,均為最高。
一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。這兩個階段以CAM [1] 的出現為劃分節點。在CAM這個方法出現之前,WSSS的研究呈現百花齊放的狀態。這種狀態體現在兩個方面:
弱監督標籤的多樣性:這一階段大家選擇的弱監督標籤是多樣化的。有bouding box [2,3], Image level label [4,5], point [6], Scribble[7]等弱監督標籤都在被研究用於WSSS。
2016年,CAM出現之後,大大的提高了弱監督語義分割的精度,這使得大家的研究方向趨於統一:1)使用Image level label的弱標籤,因為它標註起來最便捷,最能體現弱監督的「弱」;2)方法上,大家都開始使用CAM得到的定位圖來訓練語義分割網絡。
由於CAM得到的定位圖存在只能定位到局部具有判別力的區域,而更加全面的定位圖顯然可以訓練出精度更高的模型。所以,近兩年,有大量的工作都在研究如何改進分類網絡的結構從而使得CAM的定位圖更加的全面。比如:region hiding and erasing [8]、區域增長 [9]、多尺度上下文 [10]。
本篇文章同樣沿襲了這一改進思路,但是思想上獨闢蹊徑。作者並沒有專注於改進分類網絡本身,而是使用兩張有著共同標籤的圖片共同訓練。並引入了兩個注意力模塊,一個來找尋兩張圖片所擁有的共同對象,另一個來找尋兩張圖片之間的不同對象。最後,作者詳細的闡述了他所提出的得到定位圖的方法。
二、方法(Cross image)2.1、Overview圖一:總體框架可以看到一直到Co-attention之前,所有的操作與之前通用的CAM的框架一致。都是用一個特徵提取器比如resnet提取到圖片對應的特徵圖Fn(Fm)。然後將Fn(Fm)送入相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。
作者與之前方法的區別在於,它用了兩張圖片同時訓練。這兩張圖片是擁有共同的標籤(person),當然也可能有不同的標籤(cow、table)。所以作者在提取完Fn(Fm)又將其送入Co-attention模塊之中以尋找兩張圖片共同的對象(person),然後送入Contrastive Co-Attenttion中去尋找兩張圖片不同的對象(cow、table)。下面我們來看看這兩個注意力模塊是怎麼做的。
2.2、Co-Attenttion作者首先計算了Fm與Fn之間的親和力矩陣:
在計算過程中,Fm與Fn首先要flattened into 矩陣的形式。Wp是一個可學習的矩陣,它的大小為C×C。實際上這個親和力矩陣的計算過程可以類比non-local。只不過non-local是計算自己和自己的相似度,所以non-local的原理也稱為自注意力。而這裡計算的是Fm和Fn之間的相似度。P的第(i, j)個元素給出了Fm中的第i個位置和Fn中的第j個位置之間的相似性。
然後對P進行列優先的softmax操作從而歸一化:
歸一化之後實質上得到了兩個注意力圖Am與An。他們分別關注Fm與Fn中相似的特徵。所以可以用Am與An分別與Fm和Fn對應相乘,使得Fm與Fn中相似的特徵被highlight:
然後將相乘得到的結果同樣相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。但是值得注意的是image-level的標籤這裡只用兩張圖片共有的標籤。
以下是被highlight區域的可視化:
2.3、Contrastive Co-Attenttion現在我們還只找到了相同的區域,還不能定位出不同的區域(cow、table)。所以作者設計了Contrastive Co-Attenttion。首先對Co-Attenttion的結果使用了1×1的卷積(Wb代表1×1卷積),來壓縮通道得到一個共同區域的mask:
那麼,1-該結果就得到了關注不同對象區域的注意力圖:
可以用Am與An分別與Fm和Fn對應相乘,使得Fm與Fn中不相似的特徵被highlight:
然後將相乘得到的結果同樣相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。但是值得注意的是image-level的標籤這裡只用兩張圖片不共有的標籤。
以下是被highlight區域的可視化:
2.4、得到定位圖的方法對於一張圖,從數據集中取出與其它有相同標籤的所有圖片。利用Co-Attenttion讓這張圖與這些圖片對比,可以得到這張圖中當前標籤對應的目標在圖中的區域。如果這張圖還存在其他的標籤,重複上述過程就可以了。當所有標籤都被找完之後,便得到了最後的定位圖。這個方法得到的定位圖與CAM相比,由於存在圖片間的上下文關係,所以該定位圖定位的區域更加的全面而準確。
三、實驗作者做了很多的實驗。這裡我們只列出最標準的image-level設置的實驗結果:
結果對比可視化結果參考文獻:
[1] CVPR_2016: Learning Deep Features for Discriminative Localization
[2] ICCV_2015:Exploiting Bounding Boxes toSupervise Convolutional Networks for Semantic Segmentation
[3] CVPR_2018: Simple Does It_Weakly Supervised Instance and Semantic Segmenta-tion
[4] ICLR_2015: Fully CONVOLUTIONAL MULTI-CLASS MULTIPLE INSTANCELEARNING
[5] ECCV_2016: Built-in Foreground/Background Prior for Weakly-SupervisedSemantic Segmentation
[6] ECCV_2016: What’s the Point: Semantic Segmentation with PointSupervision
[7] CVPR_2016: ScribbleSup: Scribble-Supervised Convolutional Networks forSemantic Segmentation
[8] ICCV_2017:Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization
[9] Seed, Expand and Constrain: Three Principles forWeakly-Supervised Image Segmentation
[10] CVPR_2018: Revisiting Dilated Convolution:A Simple Approach forWeakly- and SemiSupervised Semantic Segmentation
下載
在CVer公眾號後臺回覆:0719,即可下載本論文
重磅!CVer-圖像分割交流群成立
掃碼添加CVer助手,可申請加入CVer-圖像分割 微信交流群,目前已滿1500+人,旨在交流語義分割、實例分割、全景分割和醫學圖像分割等方向。
同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。
一定要備註:研究方向+地點+學校/公司+暱稱(如圖像分割+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲長按加微信群
▲長按關注CVer公眾號
點讚和在看!讓更多CVer看見