CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割

2020-11-30 手機鳳凰網

雷鋒網 AI 科技評論按:百度研究院、華中科技大學、雪梨科技大學聯合新作——關於無監督領域自適應語義分割的論文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF A 類學術會議 CVPR2019 收錄為 Oral 論文 。該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。雷鋒網

論文地址: 

1.問題背景

基於深度學習的語義分割方法效果出眾,但需要大量的人工標註進行監督訓練。不同於圖像分類等任務,語義分割需要像素級別的人工標註,費時費力,無法大規模實施。藉助於計算機虛擬圖像技術,如3D遊戲,用戶可以幾乎無成本地獲得無限量自動標註數據。然而虛擬圖像和現實圖像間存在嚴重的視覺差異(域偏移),如紋理、光照、視角差異等等,這些差異導致在虛擬圖像上訓練出的深度模型往往在真實圖像數據集上的分割精度很低。

 圖1. 問題背景

2. 傳統方法

針對上述域偏移問題,一種廣泛採用的方法是在網絡中加入一個域判別器Discriminator (D),利用對抗訓練的機制,減少源域Source (S)和目標域Target(T)之間不同分布的差異,以加強原始網絡(G)在域間的泛化能力。方法具體包括兩方面:

(1)利用源域的有標籤數據進行有監督學習,提取領域知識:

 

其中Xs,Ys為源域數據及其對應標籤。

(2)通過對抗學習,降低域判別器(D)的精度,以對齊源域與目標域的特徵分布:

其中XT為目標域數據,無標籤。

3.我們針對傳統方法的改進

以上基於對抗學習的傳統域適應方法只能對齊全局特徵分布(Marginal Distribution),而忽略了不同域之間,相同語義特徵的語義一致性(Joint Distribution),在訓練過程中容易造成負遷移,如圖2(a)所示。舉例來說,目標域中的車輛這一類,可能與源域中的車輛在視覺上是接近的。因此,在沒有經過域適應算法之前,目標域車輛也能夠被正確分割。然而,為了迎合傳統方法的全局對齊,目標域中的車輛特徵反而有可能會被映射到源域中的其他類別,如火車等,造成語義不一致。

針對這一問題,我們在今年CVPR的論文中,向對抗學習框架裡加入了聯合訓練的思想,解決了傳統域適應方法中的語義不一致性和負遷移等鍵問題。具體做法見圖2(b),我們採用了兩個互斥分類器對目標域特徵進行分類。當兩個分類器給出的預測很一致時,我們認為該特徵已經能被很好的分類,語義一致性較高,所以應減少全局對齊策略對這些特徵產生的負面影響。反之,當兩個分類器給出的預測不一致,說明該目標域特徵還未被很好地分類,依然需要用對抗損失進行與源域特徵的對齊。所以應加大對齊力度,使其儘快和源域特徵對應。

 

圖2. 傳統方法和本文方法對比

4.網絡結構

為了實現上述語義級對抗目標,我們提出了Category-Level Adversarial Network (CLAN)。 遵循聯合訓練的思想,我們在生成網絡中採用了互斥分類器的結構,以判斷目標域的隱層特徵是否已達到了局部語義對齊。在後續對抗訓練時,  網絡依據互斥分類器產生的兩個預測向量之差(Discrepancy)來對判別網絡所反饋的對抗損失進行加權。網絡結構如下圖3所示。 

圖3. 網絡結構

圖3中,橙色的線條表示源域流,藍色的線條表示目標域流,綠色的雙箭頭表示我們在訓練中強迫兩個分類器的參數正交,以達到互斥分類器的目的。源域流和傳統的方法並無很大不同,唯一的區別是我們集成了互斥分類器產生的預測作為源域的集成預測。該預測一方面被標籤監督,產生分割損失(Segmentation Loss),如式(3)所示:

另一方面,該預測進入判別器D,作為源域樣本。

綠色的雙箭頭處,我們使用餘弦距離作為損失,訓練兩個分類器產生不同的模型參數:

 

目標域流中,集成預測同樣進入判別器D。不同的是,我們維持兩個分類器預測的差值,作為局部對齊程度的依據 (local alignment score map)。該差值與D所反饋的損失相乘,生成語義級別的對抗損失:

該策略加大了語義不一致特徵的對齊力度,而減弱了語義一致的特徵受全局對齊的影響,從而加強了特徵間的語義對齊,防止了負遷移的產生。

最後,根據以上三個損失,我們可以得出最終的總體損失函數:

 

基於以上損失函數,算法整體的優化目標為:

 

在訓練中,我們交替優化G和D,直至損失收斂。

5. 特徵空間分析

圖4. T-SNE

我們重點關注不常見類,如圖4(a)中黃框內的柱子,交通標誌。這些類經過傳統方法的分布對齊,反而在分割結果中消失了。結合特徵的t-SNE圖,我們可以得出結論,有些類的特徵在沒有進行域遷移之前,就已經是對齊的。傳統的全局域適應方法反而會破壞這種語義一致性,造成負遷移。而我們提出的語義級別對抗降低了全局對齊對這些已對齊類的影響,很好的解決了這一問題。

6. 實驗結果 

我們在兩個域適應語義分割任務,即GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 上進行了實驗驗證。我們採用最常見的Insertion over Union作為分割精度的衡量指標,實驗結果如下。從表1和表2中可以看出,在不同網絡結構(VGG16,ResNet101)中,我們的方法(CLAN)域適應效果都達到了 state-of-the-art的精度。特別的,在一些不常見類上(用藍色表示),傳統方法容易造成負遷移,而CLAN明顯要優於其他方法。

表 1. 由虛擬數據集GTA5 遷移至真實數據集 Cityscapes 的域適應分割精度對比。 

表 2. 由虛擬數據集SYNTHIA 遷移至真實數據集 Cityscapes 的域適應分割精度對比。

第二個實驗中,我們了展示隱空間層面,源域和目標域間同語義特徵簇的中心距離。該距離越小,說明兩個域間的語義對齊越好。結果見圖 5。

最後,我們給出分割結果的可視化效果。我們的算法大大提高了分割精度。

7. 總結

《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了聯合訓練結合對抗學習的設計,在無監督域適應語義分割任務中取得了較好的實驗結果。該算法能應用前景廣泛,比如能夠很好地應用到自動駕駛中,讓車輛在不同的駕駛環境中也能保持魯棒的街景識別率。

相關焦點

  • 2019 語義分割指南
    圖源:http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf我們來看看一些涵蓋最先進的構建語義分割模型方法的研究論文,即:Weakly- and Semi-Supervised Learning
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    此外,由於專業水平和應用目的不同,語義分割的目標概念集本質上可以開放化和高度結構化,以適應特定的任務/數據集。然而,一些技術還通過在最終預測分數上採用複雜圖形推斷 [7]、層級損失 [31] 或詞嵌入先驗 [39] 來探索視覺識別的語義層次。它們的損失約束只能間接地將視覺特徵引導為可被層次感知,與通用的 CNN 模型相比,結果難以得到保證,甚至往往會得到更差的結果。
  • 韓國科學技術院在讀博士潘飛:語義分割場景中域適應問題的研究 |...
    基於卷積神經網絡的監督學習方法近幾年在語義分割任務裡取得了顯著進展。但是,這種方法十分依賴於大量帶注釋的數據進行訓練。為了解決這種限制,通常將從圖形引擎生成自動注釋數據,並用來訓練語義分割網絡。但是,從圖形引擎裡生成的數據訓練的模型很難遷移到真實世界採集到的圖像數據。針對遷移學習的問題,目前主流的是使用域適應或遷移學習的方法來解決圖像分割任務中的遷移學習問題。
  • CVPR 2019錄取結果公布,7篇新鮮好文推薦
    > http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt https://docs.google.com/spreadsheets/d/1zhpogphsC8rGaexSHUANQeW3ezFV3XiJuO-wayQIIYI/htmlview?
  • CVPR 2019 | 騰訊AI Lab解讀六大前沿方向及33篇入選論文
    2019 將於 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室 25 篇。以往大多數研究工作集中在白盒對抗攻擊和非結構化輸出模型的攻擊,而我們CVPR 2019的入選論文重點研究了更具挑戰的黑盒對抗攻擊,和對結構化輸出模型的攻擊。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    基於 NAS 的圖像分類遷移到高解析度的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰:(1)神經網絡的搜索空間和基本運算單元有本質不同。(2)架構搜索必須固有地在高解析度圖像上運行,因此不能實現從低解析度圖像訓練模型遷移到高解析度圖像。論文首次嘗試將元學習應用於密集圖像預測(本人理解就是像素級圖像分割)。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡
    論文地址:arxiv.org/pdf/2007.01947代碼地址:https://github.com/GuoleiSun/MCIS_wsss 本篇文章沿著近幾年弱監督語義分割(WSSS)的研究熱點一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。這兩個階段以CAM [1] 的出現為劃分節點。在CAM這個方法出現之前,WSSS的研究呈現百花齊放的狀態。這種狀態體現在兩個方面:弱監督標籤的多樣性:這一階段大家選擇的弱監督標籤是多樣化的。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    我們已經開始發展自動駕駛汽車和智慧機器人,這些都需要深入理解周圍環境,因此精確分割實體變得越來越重要。什麼是語義分割?語義分割是計算機視覺中的基本任務,在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,「語義的可解釋性」即分類類別在真實世界中是有意義的。
  • DeepLabv3+:語義分割領域的新高峰
    在實驗中發現 DCNNs 做語義分割時精準度不夠的問題,根本原因是 DCNNs 的高級特徵的平移不變性,即高層次特徵映射,根源於重複的池化和下採樣。 針對信號下採樣或池化降低解析度,DeepLab 是採用的 atrous(帶孔)算法擴展感受野,獲取更多的上下文信息。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇。此次,騰訊公司有超過 58 篇論文被本屆 CVPR 接收,其中騰訊優圖實驗室 25 篇、騰訊 AI Lab 33 篇,以下便是對騰訊優圖實驗室 25 篇被錄用論文的詳細介紹。1.
  • HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
    在論文方面,CVPR 2019 年共收到了 5165 篇有效提交論文,比去年 CVPR2018 增加了 56%,論文接收方面,本屆大會共接收了 1300 論文,接收率接近 25.2%,據統計共有 288 篇 Oral 論文。
  • 今日Paper|3D門控遞歸融合;雙注意力GAN;通用目標檢測器;無監督域...
    目錄用於語義場景完成的3D門控遞歸融合用於大姿態人臉正面化的雙注意力GANUniversal-RCNN:基於可轉移圖R-CNN的通用目標檢測器用於圖像深度估計的無監督域自適應嵌套命名實體識別的神經分層模型用於語義場景完成的3D門控遞歸融合論文名稱:3D Gated Recurrent
  • 語義分割概念及應用介紹
    比如自動駕駛汽車已經逐漸成為可能,但在整個深度學習過程,需要算法識別和學習作為原始數據提供的圖像,在這一過程中,應用到了語義分割技術。下面讓我們來看看語義分割的需求是如何演變的。早期,計算機視覺的初始應用需求只是識別基本元素,例如邊緣(線和曲線)或漸變。然而,僅僅通過全像素語義分割的創造來理解像素級的圖像,它將屬於同一目標的圖像部分聚集在一起,從而擴展了語義分割的應用場景。
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    >作者:Alexander Kirillov,Ross Girshick,Kaiming He,Piotr Dollar最近引入的全景分割任務使該領域的研究者對統一實例分割任務(對象類)和語義分段任務(材料類)產生了興趣。
  • MMSegmentation:標準統一的語義分割框架
    語義分割作為計算機視覺中一項基礎任務,同時在自動駕駛/視頻編輯等領域中有重要的應用,因此一直受到學術界和工業界的廣泛關注。在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,OpenMMLab開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。