ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡

2021-01-18 CVer

點擊上方「CVer」,選擇加"星標"置頂

重磅乾貨,第一時間送達

本文轉載自:阿柴和她的CV學習日記

註:論文已上傳,文末附下載方式


論文地址:arxiv.org/pdf/2007.01947

代碼地址:https://github.com/GuoleiSun/MCIS_wsss 

本篇文章沿著近幾年弱監督語義分割(WSSS)的研究熱點 — 如何改進CAM [1] 只能定位局部判別性區域,提出了不同之前只從改進分割網絡結構或細化分類網絡任務的的方法。作者採用跨圖像(cross image)的方式,獲得了更加豐富的圖片間的上下文信息,從而實現了更高的精度。本篇文章在pacvoc 2012驗證集上mIoU達到了66.2,在測試集上達到了66.9,均為最高。

一、簡介

如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。這兩個階段以CAM [1] 的出現為劃分節點。在CAM這個方法出現之前,WSSS的研究呈現百花齊放的狀態。這種狀態體現在兩個方面:

弱監督標籤的多樣性:這一階段大家選擇的弱監督標籤是多樣化的。有bouding box [2,3], Image level label [4,5], point [6], Scribble[7]等弱監督標籤都在被研究用於WSSS。

2016年,CAM出現之後,大大的提高了弱監督語義分割的精度,這使得大家的研究方向趨於統一:1)使用Image level label的弱標籤,因為它標註起來最便捷,最能體現弱監督的「弱」;2)方法上,大家都開始使用CAM得到的定位圖來訓練語義分割網絡。

由於CAM得到的定位圖存在只能定位到局部具有判別力的區域,而更加全面的定位圖顯然可以訓練出精度更高的模型。所以,近兩年,有大量的工作都在研究如何改進分類網絡的結構從而使得CAM的定位圖更加的全面。比如:region hiding and erasing [8]、區域增長 [9]、多尺度上下文 [10]。

本篇文章同樣沿襲了這一改進思路,但是思想上獨闢蹊徑。作者並沒有專注於改進分類網絡本身,而是使用兩張有著共同標籤的圖片共同訓練。並引入了兩個注意力模塊,一個來找尋兩張圖片所擁有的共同對象,另一個來找尋兩張圖片之間的不同對象。最後,作者詳細的闡述了他所提出的得到定位圖的方法。

二、方法(Cross image)2.1、Overview圖一:總體框架

可以看到一直到Co-attention之前,所有的操作與之前通用的CAM的框架一致。都是用一個特徵提取器比如resnet提取到圖片對應的特徵圖Fn(Fm)。然後將Fn(Fm)送入相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。

作者與之前方法的區別在於,它用了兩張圖片同時訓練。這兩張圖片是擁有共同的標籤(person),當然也可能有不同的標籤(cow、table)。所以作者在提取完Fn(Fm)又將其送入Co-attention模塊之中以尋找兩張圖片共同的對象(person),然後送入Contrastive Co-Attenttion中去尋找兩張圖片不同的對象(cow、table)。下面我們來看看這兩個注意力模塊是怎麼做的。

2.2、Co-Attenttion

作者首先計算了Fm與Fn之間的親和力矩陣:

在計算過程中,Fm與Fn首先要flattened into 矩陣的形式。Wp是一個可學習的矩陣,它的大小為C×C。實際上這個親和力矩陣的計算過程可以類比non-local。只不過non-local是計算自己和自己的相似度,所以non-local的原理也稱為自注意力。而這裡計算的是Fm和Fn之間的相似度。P的第(i, j)個元素給出了Fm中的第i個位置和Fn中的第j個位置之間的相似性。

然後對P進行列優先的softmax操作從而歸一化:

歸一化之後實質上得到了兩個注意力圖Am與An。他們分別關注Fm與Fn中相似的特徵。所以可以用Am與An分別與Fm和Fn對應相乘,使得Fm與Fn中相似的特徵被highlight:

然後將相乘得到的結果同樣相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。但是值得注意的是image-level的標籤這裡只用兩張圖片共有的標籤。

以下是被highlight區域的可視化:

2.3、Contrastive Co-Attenttion

現在我們還只找到了相同的區域,還不能定位出不同的區域(cow、table)。所以作者設計了Contrastive Co-Attenttion。首先對Co-Attenttion的結果使用了1×1的卷積(Wb代表1×1卷積),來壓縮通道得到一個共同區域的mask:

那麼,1-該結果就得到了關注不同對象區域的注意力圖:

可以用Am與An分別與Fm和Fn對應相乘,使得Fm與Fn中不相似的特徵被highlight:

然後將相乘得到的結果同樣相繼送進全連接層、GAP。然後用image-level的標籤作為監督信息,sigmoid cross entropy (CE)作為損失函數來訓練網絡。但是值得注意的是image-level的標籤這裡只用兩張圖片不共有的標籤。

以下是被highlight區域的可視化:

2.4、得到定位圖的方法

對於一張圖,從數據集中取出與其它有相同標籤的所有圖片。利用Co-Attenttion讓這張圖與這些圖片對比,可以得到這張圖中當前標籤對應的目標在圖中的區域。如果這張圖還存在其他的標籤,重複上述過程就可以了。當所有標籤都被找完之後,便得到了最後的定位圖。這個方法得到的定位圖與CAM相比,由於存在圖片間的上下文關係,所以該定位圖定位的區域更加的全面而準確。

三、實驗

作者做了很多的實驗。這裡我們只列出最標準的image-level設置的實驗結果:

結果對比可視化結果

參考文獻:

[1] CVPR_2016: Learning Deep Features for Discriminative Localization

[2] ICCV_2015:Exploiting Bounding Boxes toSupervise Convolutional Networks for Semantic Segmentation

[3] CVPR_2018: Simple Does It_Weakly Supervised Instance and Semantic Segmenta-tion

[4] ICLR_2015: Fully CONVOLUTIONAL MULTI-CLASS MULTIPLE INSTANCELEARNING

[5] ECCV_2016: Built-in Foreground/Background Prior for Weakly-SupervisedSemantic Segmentation

[6] ECCV_2016: What’s the Point: Semantic Segmentation with PointSupervision

[7] CVPR_2016: ScribbleSup: Scribble-Supervised Convolutional Networks forSemantic Segmentation

[8] ICCV_2017:Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization

[9] Seed, Expand and Constrain: Three Principles forWeakly-Supervised Image Segmentation

[10] CVPR_2018: Revisiting Dilated Convolution:A Simple Approach forWeakly- and SemiSupervised Semantic Segmentation


下載


在CVer公眾號後臺回覆:0719,即可下載本論文


重磅!CVer-圖像分割交流群成立


掃碼添加CVer助手,可申請加入CVer-圖像分割 微信交流群,目前已滿1500+人,旨在交流語義分割、實例分割、全景分割和醫學圖像分割等方向。


同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。


一定要備註:研究方向+地點+學校/公司+暱稱(如圖像分割+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群

▲長按加微信群


▲長按關注CVer公眾號

點讚和在看!讓更多CVer看見

相關焦點

  • 2019 語義分割指南
    of a Deep Convolutional Network for Semantic Image Segmentation (用於語義分割的弱監督和半監督的深度神經網絡)Fully Convolutional Networks for Semantic Segmentation (用於語義分割的全卷積神經網絡)
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    雷鋒網 AI 科技評論按:百度研究院、華中科技大學、雪梨科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    基於 NAS 的圖像分類遷移到高解析度的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰:(1)神經網絡的搜索空間和基本運算單元有本質不同。(2)架構搜索必須固有地在高解析度圖像上運行,因此不能實現從低解析度圖像訓練模型遷移到高解析度圖像。論文首次嘗試將元學習應用於密集圖像預測(本人理解就是像素級圖像分割)。
  • 蘇黎世聯邦理工學院走出來的知名中國校友
    蘇黎世聯邦理工學院走出來的知名中國校友不少中國學子邁出國門求學,並取得了非常傲人的成就。今天我們就來盤點一下遊學蘇黎世聯邦理工學院的知名人物吧~周培源著名流體力學家、理論物理學家、教育家和社會活動家周培源,江蘇省宜興縣人。著名流體力學家、理論物理學家、教育家和社會活動家。
  • ECCV 2020 論文匯總:遙感與航空影像處理識別
    包含圖像合成、圖像分類、重建、分割等工作。/papers/eccv_2020/papers_ECCV/papers/123470562.pdf備註 | ECCV 2020 Oral一種從衛星圖像自動合成清晰而規則的建築物外牆方法
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV, 2015)這篇論文提出了一個解決方法,主要面對處理深度卷積網絡中的弱標籤數據,以及具有良好標籤和未被合適標記得數據的結合時的挑戰。
  • 圖像分割系列<->語義分割
    這期我們就來講講語義分割(Semantic Segmantation), 語義分割是指將圖像中的每一個像素都賦予一個類別標籤,用不同的顏色表示。下圖是 Segnet 網絡架構,後面講解。 Segnet的模型框架和思路比較簡單,應用了當年很火的VGG16框架,去掉全連接層,搭建對稱模型,在2014年當時還沒有興起框架,基於Caffe實現端到端的像素級別網絡模型是很難的,之後在MATLAB2016中,Sgenet成為內置的用於語義分割的深度學習算法。
  • 蘇黎世聯邦理工學院成功研發飛秒雙梳Yb: CaF 2雷射器
    來自瑞士蘇黎世聯邦理工學院量子電子研究所物理系開發出一種新方法實現了由單個雷射器來創建兩個發射高功率飛秒脈衝的高功率光學頻率梳,為可攜式雙梳狀光源在光譜學和精確距離測量等應用領域鋪平了道路。在過去的四十年中,超短脈衝雷射器使超快採樣技術得以持續發展。將快速且具有周期性的信號與超短光脈衝混合的泵浦探針測量因此也得以廣泛使用。
  • 蘇黎世聯邦工業大學介紹
    蘇黎世聯邦工業大學(德語:Eidgen?ssische TechnischeHochschule Zürich,簡稱ETH Zürich或ETHZ),或譯蘇黎世聯邦理工學院,瑞士著名高等學府,是瑞士的兩所聯邦理工學院之一,是一所公立大學。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    我們已經開始發展自動駕駛汽車和智慧機器人,這些都需要深入理解周圍環境,因此精確分割實體變得越來越重要。什麼是語義分割?語義分割是計算機視覺中的基本任務,在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,「語義的可解釋性」即分類類別在真實世界中是有意義的。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    VOC2012和MSCOCO是語義分割領域最重要的數據集。  有哪些不同的解決方案?  在深度學習應用到計算機視覺領域之前,人們使用TextonForest和隨機森林分類器進行語義分割。卷積神經網絡(CNN)不僅對圖像識別有所幫助,也對語義分割領域的發展起到巨大的促進作用。
  • CNN 在基於弱監督學習的圖像分割中的應用
    最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。香港中文大學的 Di Lin 提出了一個基於 Scribble 標記的弱監督學習方法。 Scribble 是一個很方便使用的標記方法,因此被用得比較廣泛。如下圖,只需要畫五條線就能完成對一副圖像的標記工作。
  • ECCV 2020 目標檢測論文大盤點(49篇論文)
    2D 目標檢測旋轉目標檢測視頻目標檢測弱監督目標檢測域自適應目標檢測Few-Shot 目標檢測水下目標檢測目標檢測對抗攻擊其他2D目標檢測ECCV 2020 目標檢測論文大盤點2D 目標檢測_2020_paper.phpSoft Anchor-Point Object Detection論文:https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/721_ECCV_2020_paper.php
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    在本文中,作者提出了場景圖引導的模塊網絡(SGMN),該網絡在表達式的語言結構的指導下通過神經模塊網絡對圖像語義圖和語言場景圖進行推理。此外,作者還提出了Ref-Reasoning——用於結構化的指稱表達式推理的大規模真實數據集。該數據集包含真實圖像和具有不同推理布局的語義豐富的表達式。
  • 瑞士蘇黎世聯邦理工學院:用毫米波技術解決「最後一英裡」問題!
    導讀近日,瑞士蘇黎世聯邦理工學院的研究人員們開發出一種新型調製器。採用這種調製器,通過毫米波形式傳輸的數據可直接轉化到在光纖中傳輸的光脈衝中。然而,隨著光纖通信網絡的不斷發展,「最後一英裡(Last-mile)「問題,成為了困擾著許多用戶與電信運營商的主要問題之一,也成為了光纖通信邁向更高速度的主要瓶頸。
  • 金字塔注意力網絡:一種利用底層像素與高級特徵的語義分割網絡
    選自arXiv機器之心編譯參與:機器之心編輯部目前很多語義分割方法在細節方面做得都不好,近日北京理工、曠視科技、北京大學機器感知重點實驗室的研究者提出金字塔形注意力網絡,它結合注意力機制和空間金字塔去提取精準的密集特徵而用於像素級標註任務,這種方法不再使用複雜化的擴張卷積和人工設計的解碼網絡。
  • ECCV 2020|Workshop第一彈:視覺研討會,最新研究成果一網打盡
    這一研討會將主要探討以下方面的對抗魯棒性:- 探索和發現真實世界中的對抗樣本;- 提出針對遮擋、視點變換和其他真實世界中變換具有魯棒性的新架構;- 研究為真實世界中的計算機視覺系統提供魯棒性的域自適應系統;- 開發具有能夠評估模型穩定性的數據集;- 用於診斷和理解視覺系統局限性的對抗性機器學習方法;-
  • 史上最火 ECCV 已開幕,這些論文都太有意思了
    據統計,ECCV 2020 共收到有效投稿 5025 篇,是上一屆(2018 年)投稿量的兩倍還多,因此被認為是「史上最火 ECCV」。最終被接收發表論文 1361 篇,接收率為 27%。在接收論文中,oral 的論文數為 104 篇,佔有效投稿總數的 2%,spotlight 的數目為 161 篇,比例約為 3%。其餘論文為 poster。
  • 【重磅整理】ECCV 2020 亮點摘要
    同時可以發現,研究人員對諸如無監督學習的標籤有效方法和低視野等領域的興趣顯著增加,同樣的結果在CVPR2020中也有所體現。在本篇論文中,作者們提出了使用語義分割網絡中的 FCN 來進行實例分割。為了進行有效的實例分割,FCN 需要兩種信息,一是表觀信息用於目標分類,二是位置信息用於區分同一類別的不同目標。該