對抗互補學習:弱監督物體定位方法

2021-02-28 機器學習與生成對抗網絡

點擊上方「機器學習與生成對抗網絡」,關注星標

獲取有趣、好玩的前沿乾貨!

無需標籤,定位物體的位置,弱監督物體定位的端到端的方法,超越CAM和Hide-and-Seek。

ACoL: Adversarial Complementary Learning

對抗補充學習弱監督目標定位,ACoL,由雪梨科技大學,伊利諾伊大學香檳分校和新加坡國立大學提出。摘要:

弱監督目標定位(WSOL)是對目標進行定位,但沒有目標的包圍框標籤,只有圖像級標籤,用於訓練。提出了一種簡單的網絡結構,該結構包含兩個並行分類器,用於目標定位。前向傳遞的時候在分類的同時動態定位一些有區分性的目標區域這是一種對抗學習,兩個並行的分類器被迫利用互補的目標區域進行分類,最終共同生成完整的目標定位。1. ACoL: 網絡結構

ACoL: 網絡結構
傳統上,深度分類網絡通常利用特定類別的獨特模式進行識別,生成的物體定位圖只能突出目標物體的一小部分區域,而不能突出整個物體

提出的ACoL旨在通過對抗學習的方式發現整體的目標區域

1.1. ACoL結構提出的ACoL,包括三個組成部分,BackboneClassifier AClassifier bBackbone:一個全卷積網絡,作為特徵提取器兩個分支包含相同數量的卷積層然後是GAP層和softmax層用於分類。

具體來說,將分類器B的輸入特徵在分類器A產生的可區分區域的指導下進行部分擦除。

對分類器A的定位圖進行閾值分割,識別出可區分區域。然後將B分類器輸入特徵映射中的對應區域用0代替進行擦除,以實現對抗。這樣的操作鼓勵分類器B利用目標物體的其他區域的特徵來支持圖像級標籤。最後,將兩個分支產生的定位圖相結合,得到目標對象的整體定位圖。採用Max函數進行融合操作。整個過程是端到端訓練的。兩種分類器均採用交叉熵損失函數進行訓練。1.2. VGGNet 和 GoogLeNet提出ACoL方法使用VGGNet和GoogLeNet。具體來說,對VGG-16網絡刪除conv5-3(從pool5到prob),對GoogLeNet網絡刪除最後一個inception。然後,添加兩個kernel size 3 × 3, stride 1, pad 1, 1024個單元的卷積層和一個size 1 × 1, stride 1, 1000個單元的卷積層(CUB-200-2011和Caltech-256數據集分別為200和256個單元)。最後,在卷積層的頂部添加一個GAP層和一個softmax層。1.3. 測試在測試過程中,根據預測的類提取融合後的目標圖,通過線性插值的方法將融合後的目標圖大小調整到與原始圖像相同的大小。為了公平比較,我們使用CAM中詳細介紹的相同策略,根據生成的目標定位圖來生成目標邊界框。具體來說,首先用一個固定的閾值分割前景和背景。然後,尋找在前景像素中覆蓋最大連接區域的緊密邊界框。2. 消融研究

不同閾值下的定位誤差
提出的互補分支(分類器B)成功地與分類器A協同工作。需要一個設計良好的閾值。過大的閾值不能有效鼓勵分類器B發現更多的有用區域,太小的閾值可能會帶來背景噪聲。特別的是,添加第三個分類器,並通過融合分類器A和分類器b的目標定位圖來擦除/引導其輸入特徵圖,但沒有明顯的改善。3. 實驗結果3.1. 分類

在ILSVRC驗證集上的分類誤差
GoogLeNet-ACoL 和 VGGNet-ACoL 要比GoogLeNet-GAP 和 VGGNet-GAP的結果更好。

在細粒度CUB-200–2011測試集上的分類誤差
VGGNet-ACoL 達到了最低的 error 28.1%,沒有使用包圍框。

該方法可以使網絡達到與原始網絡等價的分類性能。這是由於擦除操作引導網絡發現更多有區別的模式。

3.2. 定位

在ILSVRC驗證集上的定位誤差
VGGNet-ACoL要遠好於VGGNet-GAP 和 GoogLeNet-ACoL,比GoogLeNet-HaS-32還要好。

在細粒度CUB-200–2011測試集上的定位誤差
同樣,該方法的Top-1誤差比GoogLeNet-GAP小4.92%。

在ILSVRC驗證集上的定位/分類誤差
使用集成DPN的分類結果,Top-1的誤差從45.14%減少到了38.45%。此外,僅從CAM之後的前三個預測類中選擇邊界框,可以提高 Top-5的定位性能(由*表示)。VGGNet-ACoL-DPN-ensemble模型達到了30.03%的誤差在ILSVRC上。

在ILSVRC驗證集上使用ground-truth標籤的定位誤差
消除分類結果對定位精度的影響,使用ground-truth標籤比較定位精度。所提出的ACoL方法的Top-1誤差達到37.04%,超過了其他方法。3.3. 可視化

和CAM方法的比較

CAM只能捕獲目標的一部分,而ACoL可以捕獲目標的大部分。

提出方法的物體定位圖
對於上面的每一張圖像,分別顯示了分類器A(左中)、分類器B(右中)和融合後的圖(右中)。提出的兩個分類器(A和B)可以發現目標物體的不同部位,從而在給定的圖像中定位同一類別的整個區域。

英文原文:https://sh-tsang.medium.com/acol-adversarial-complementary-learning-weakly-supervised-object-localization-e112e5343f

猜您喜歡:


超100篇!CVPR 2020最全GAN論文梳理匯總!

拆解組新的GAN:解耦表徵MixNMatch

StarGAN第2版:多域多樣性圖像生成

附下載 | 《可解釋的機器學習》中文版

附下載 |《TensorFlow 2.0 深度學習算法實戰》

附下載 |《計算機視覺中的數學方法》分享

《基於深度學習的表面缺陷檢測方法綜述》

《零樣本圖像分類綜述: 十年進展》

《基於深度神經網絡的少樣本學習綜述》

相關焦點

  • ACoL:對抗互補學習,弱監督物體定位方法
    作者:Sik-Ho Tsang編譯:ronghuaiyang無需標籤,定位物體的位置,弱監督物體定位的端到端的方法
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。除此之外,還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。
  • 弱監督語義分割|經典之作SEC
    論文:SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation1、總體架構論文主題:這篇論文主要講了弱監督語義分割的一般方法,即三個基本的原則
  • 國際權威弱監督學習賽事開幕!冠軍團隊將受邀百度CVPR LID workshop
    而本屆大會中,由百度主辦的Learning from Imperfect Data研討會正是聚焦當前領域內熱議的弱監督學習,這也是對百度視覺技術實力及前沿探索的極大認可。弱監督學習,即通過較弱的監督信號來構建預測模型,已成為該領域內的熱門課題。
  • 弱監督語義分割算法 | DSRG方法詳解
    論文:Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing會議:CVPR2018DSRG方法遵循SEC方法的三個規則,具體見參考更多中SEC的詳解文章(以前的一篇文章)SEC原則1)Seed:利用分類網絡獲取物體定位信息
  • 關於弱監督學習,這可能是目前最詳盡的一篇科普文
    如何充分利用人工標註信息、減小標註工作量、將人類經驗與學習規則充分結合成為了急需解決的關鍵問題!本文結合斯坦福 AI 實驗室在弱監督學習領域的研究進展、成果以及相關思考,就弱監督學習的理論方法、標註工具、研究進展三個方面展開討論。近年來,機器學習對現實世界的影響與日俱增。
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    常規的行人重識別方法往往需要高昂的人工標註成本,計算複雜度也很大。在本文中,中山大學研究者提出的弱監督行人重識別方法恰恰克服了這兩方面的障礙,並發布了一個大型行人重識別數據集。近期,中山大學發布了一種基於可微圖學習的弱監督行人重識別(person re-ID)方法和一個大型數據集。
  • 南京大學周志華教授綜述論文:弱監督學習
    本文綜述了弱監督學習的一些研究進展,主要關注三種弱監督類型:不完全監督:只有一部分訓練數據具備標籤;不確切監督:訓練數據只具備粗粒度標籤;以及不準確監督:給出的標籤並不總是真值。機器學習在各種任務中取得了巨大成功,特別是在分類和回歸等監督學習任務中。預測模型是從包含大量訓練樣本的訓練數據集中學習,每個訓練樣本對應一個事件或對象。
  • 深度學習:基於語境的文本分類弱監督學習
    深度學習:基於語境的文本分類弱監督學習 丁磊 發表於 2021-01-18 16:04:27 高成本的人工標籤使得弱監督學習備受關注。seed-driven 是弱監督學習中的一種常見模型。
  • 今日Paper|弱監督目標的定位;遞歸殘差卷積神經網絡;嵌套U-Net結構...
    目錄重新思考通往弱監督目標的定位基於U-Net(R2U-Net)的遞歸殘差卷積神經網絡在醫學圖像分割中的應用UNet++: 一種醫學圖像分割的嵌套U-Net結構使用基於雙譜的深度卷積神經網絡對非線性時間序列進行分類
  • DCGAN:深度卷積生成對抗網絡的無監督學習,補全人臉合成圖像匹敵真實照片
    Github 用戶 saikatbsk 做了一個項目,使用深度卷積生成對抗網絡進行圖像補完,取得了非常不錯的效果。作者 Alec Radford, Luke Metz, Soumith Chintala 表示,據他們所知,當時還沒有任何事實證據表明在使用 SGD 和小的學習率的情況下,只通過一個階段的訓練模型就記住了樣本。
  • 2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...
    無監督學習無監督學習指在沒有額外信息的情況下,從原始數據中提取模式和結構的任務,它與需要標籤的監督學習相互對立。使用神經網絡解決該問題的經典方法是自動編碼器。其基礎的版本由多層感知機(Multilayer Perceptron)組成,其中輸入層和輸出層有同樣的大小,並會訓練一個較小的隱藏層來恢復輸入。
  • 加速RL探索效率,CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵
    最近,來自 CMU、谷歌大腦和史丹福大學的研究者發布一項研究,展示了如何通過弱監督以最小負擔為智能體提供有用信息,以及如何利用這些監督幫助智能體在環境中學習。研究者探索了一種在目標趨向強化學習(goal-conditioned RL)設置中使用弱監督的方法。
  • 弱監督學習下商品識別:CVPR 2018細粒度識別挑戰賽獲勝方案簡介
    經過 3 個多月的角逐,iMaterialist 2018 挑戰賽最終分出勝負:解決方案一般細粒度識別可以分為兩種,即基於強監督信息的方法和僅使用弱監督信息的方法。基於強監督的細粒度識別通常需要使用邊界框和局部標註信息,例如 2014 年提出的 Part-based R-CNN 利用自底向上的候選區域(region proposals)計算深度卷積特徵而實現細粒度識別。這種方法會學習建模局部外觀,並加強局部信息之間的幾何約束。而 iMaterialist 2018 僅使用類別標籤,因此是一種弱監督信息的細粒度識別。
  • 人工智慧的下半場,一定少不了自監督學習
    二、 基於圖像的自監督學習三、基於視頻的自監督學習四、基於控制的自監督學習五、 參考文獻一、為什麼要進行自監督學習?自監督學習使我們能夠無需額外成本就可以利用根據數據得出各種標籤,這個動機非常直接。為了利用大量的無標籤數據,一種解決方法是合理設置學習目標,以便從數據本身中得到監督信號。自監督任務(也稱為 pretext 任務)要求我們考慮監督損失函數。然而,我們通常不關心該任務最終的性能。實際上,我們只對學習到的中間表徵感興趣,我們期望這些表徵可以涵蓋良好的語義或結構上的意義,並且能夠有益於各種下遊的實際任務。
  • 引用次數最多的深度學習論文出自誰手?(無監督學習/生成模型篇)
    作者在文章提出,這些技巧使得模型能夠學習ImageNet類的可辨別特徵。[2] Improved techniques for training GANs (2016), T. Salimans et al. [pdf]近幾年在計算機視覺領域,卷積神經網絡在有監督學習問題上得到了大量應用,而在無監督學習問題上卻鮮少有人關注。
  • 引用次數最多的深度學習論文出自誰手?無監督學習/生成模型篇
    囿於篇幅限制,雷鋒網整理編譯了無監督學習/生成模型的七篇論文,並增加了論文的概要,方便讀者快速了解。自然圖像分布的建模在無監督學習中是一個裡程碑式的難題,因為圖像的高維度和高結構性,建模時需要考慮模型的可表達性,可控性和可擴展性,這使得很多模型在建立時以犧牲性能為代價,才能提取出有意義的圖像表徵。
  • 【深度】自監督學習,如何從數據困境中拯救深度學習?
    牛頓發現萬有引力定律我們了解重力及其含義,知道如果讓炮彈和羽毛從同一起點落下,由於兩個物體的空氣阻力不同,炮彈將先到達地面;知道物體不能漂浮在空中;了解有關世界運作方式的常識。Yann LeCun 在關於自監督學習的研究中,認為至少有3種獲取知識的方法。(1)通過觀察(2)通過監督(大部分來自家長和老師)(3)通過強化反饋論文地址:https://www.facebook.com/epflcampus/videos/1960325127394608
  • 一種用於高粱頭狀花序檢測和計數的弱監督深度學習框架 | SPJ專遞
    月,Plant Phenomics刊發了由來自美國愛荷華州立大學、日本東京大學等機構的科學家撰寫的題為A weakly supervised deep learning framework for sorghum headdetection and counting的研究論文,介紹了一種用於高粱頭狀花序檢測和計數的弱監督深度學習框架
  • 清華CVer 對自監督學習的一些思考
    典型的方法包括:解決 Jigsaw Puzzles、運動傳播、旋轉預測,以及最近很火的MoCo 等等。當然還有其他分類方法,比如根據數據也可以分為 video / image / language 的自監督學習。本文主要討論 image 上的自監督學習。判斷一個工作是否屬於自監督學習,除了無需人工標註這個標準之外,還有一個重要標準,就是是否學到了新的知識。