全監督語義分割訓練新範式「像素對比學習」,蘇黎世聯邦理工等出品

2021-03-02 機器之心

在這篇論文中,研究者提出了一種新的、全監督語義分割訓練範式「像素對比學習」,強調利用訓練集中、跨圖像的像素 - 像素對應關係來學習一個結構化的特徵空間,用來替代傳統的、基於圖像的訓練範式。

當前,語義分割算法的本質是通過深度神經網絡將圖像像素映射到一個高度非線性的特徵空間。然而,現有算法大多只關注於局部上下文信息(單個圖像內、像素之間的位置和語義依賴性),卻忽略了訓練數據集的全局上下文信息(跨圖像的、像素之間的語義相關性),因而難以從整體的角度對習得的特徵空間進行約束,進而限制了語義分割模型的性能。最近,蘇黎世聯邦理工學院及商湯研究院的研究者提出了一種新的、全監督語義分割訓練範式:像素對比學習(pixel-wise contrastive learning),強調利用訓練集中、跨圖像的像素 - 像素對應關係(cross-image pixel-to-pixel relation)來學習一個結構化(well structured)的特徵空間,用來替代傳統的、基於圖像的(image-wise)訓練範式。該訓練策略可直接應用於主流的語義分割模型,並在模型推理階段不引入額外計算開銷。下圖展示了在 Cityscapes 驗證集上主流分割算法的性能,可以看出,在 DeepLabV3、HRNet、OCR 上引入像素對比學習後,取得了較為顯著的性能提升。

圖像語義分割旨在為圖像中的每個像素預測一個語義標籤,是計算機視覺領域的一個核心問題。自 Fully Convolutional Network(FCN)[1] 提出以後,主流的語義分割算法強調圖像內部的上下文信息(intra-image context)。主要從兩方面入手: 1) 提出不同的上下文聚合模塊(context aggreation module),如 dilated convolution, spatial pyramid pooling, encoder-decoder 及 non-local attention 等經典模型,核心思想是利用額外的模型參數或特殊的操作來建模提取圖像內部的上下文信息;2)傳統算法將語義分割視為一個像素級的分類任務,因而逐像素獨立計算交叉熵損失(cross-entropy loss),但完全忽略了像素間的依賴關係。因而有研究者提出結構化的(structure-aware)損失函數,如 pixel affinity loss [2],lovasz loss [3] 等,直接在訓練目標函數中對分割結果的整體結構信息進行顯式約束。然而,以上工作都只關注圖像內部的上下文信息,卻忽略了跨圖像的、全局的上下文信息:在訓練集中,來自不同圖像的像素之間也具有極強的相關性,如圖 1(b),相同顏色的像素表示他們具有相同的語義。

更進一步,當前語義分割算法的本質是通過深度神經網絡,將圖像像素映射到一個高度非線性的特徵空間(如圖 1(c)),在這個過程中,只利用了上下文聚合模塊或結構化的損失函數來強調局部的像素間的依賴關係,但忽略了一個本質問題:一個理想的語義分割特徵空間究竟是什麼樣的?研究者認為,一個好的分割特徵空間應同時具備兩個性質:

強判別能力:在該特徵空間中,每個像素的特徵應具有較強的分類能力(strong categorization ability of individual pixel embeddings);

高度結構化:同類像素的特徵應高度緊緻(intra-class compactness),不同類像素的特徵儘量分散(inter-class dispersion)。

然而,當前語義分割方法一般只關注性質 1,卻忽略了 2。此外,很多表徵學習(representation learning)的工作 [4, 5] 也驗證了:通過強調性質 2,有助於更好的增強性質 1。因此我們大膽假設,儘管當前的語義分割算法已經取得了極佳性能,但是通過同時考慮性質 1 和 2,有可能習得一個更好的、結構化的分割特徵空間,進而進一步提高語義分割算法的性能。近年來,無監督學習領域迎來了巨大發展,源頭是對比學習(contrastive learning)[6, 7] 在海量無標註訓練樣本下的成功應用。假設  是一張沒有標註的訓練樣本圖像 I 的特徵向量, 為圖像 I 的一個正樣本(positive sample)特徵,這個正樣本往往是對 I 施以某種變換得到的(如 flipping、cropping 操作等), 為一個負樣本(negative sample)特徵,訓練集中其它非 I 的圖像均被視為負樣本。之後通過對比學習損失函數,如下面的 InfoNCE loss [8] ,進行無監督訓練:

目標是將正樣本從大量負樣本中識別出來。無監督訓練得到的圖像特徵表現出了極強的泛化能力,能夠為下遊任務提供極佳的網絡初始化權重,或僅經過少量有標籤樣本的微調(finetuning),即可獲得接近全監督訓練性能的圖像分類模型。無監督對比學習的成功也帶來了啟發,對比學習屬於度量學習(metric learning),本質是利用了數據集的整體信息,學習了一個具有極強表達能力的圖像表徵空間。在圖像語義分割的全監督訓練條件下,訓練圖像的每個像素的標籤已經給出,我們可以將正樣本視為同屬於相同語義類別的像素,將負樣本視為不屬於同一語義類別的像素,而不論它們是否來源於同一個訓練圖像。之後即可以利用度量學習或對比學習,對傳統的交叉熵損失加以改進,進而挖掘所有訓練圖像中、像素與像素之間的全局語義關係,進而獲得一個高度結構化的分割特徵空間,從而同時強調性質 1 和 2。由此研究者提出了一個基於像素對比學習的、全監督的、語義分割訓練範式,像素對比學習(pixel-wise contrastive learning),強調利用訓練數據集的全局上下文信息,從整體的角度對習得的特徵空間進行顯式約束,使其在全局結構上具備良好的性質(intra-class compactness 和 inter-class dispersion)。如圖 1(d)所示,給定一個訓練樣本中的像素 i,也稱之為錨點(anchor point),研究者將 i 與其它像素在分割特徵空間上進行比較,儘可能拉近 i 與其同類的像素(正樣本)的距離,並迫使 i 儘可能遠離其它不同類像素(負樣本)。因此該訓練範式能夠考慮整個訓練集中所有像素的全局語義相似度,使得模型能夠利用更具多樣性的、大規模樣本提升表徵學習的能力,從而獲得更優的語義特徵空間(如圖 1(e))。基於 Pixel-Wise 交叉熵的經典語義分割損失函數有何問題?下面以語義分割領域經典的 Pixel-wise 交叉熵作為出發點,進一步探討將度量學習或對比學習引入語義分割訓練的必要性。如前所述,當前語義分割算法將該任務視作一個逐像素的語義分類問題,即為圖像中的每個像素 i 預測一個語義標籤 c。因此使用 pixel-wise 交叉熵作為訓練目標:

這裡 y 表示:通過 FCN 得到對像素 i 的未歸一化的分類預測(unnormalized categorical score vector),也稱為 logit,表示像素 i 的真實標籤,為的 one-hot 編碼。

只對每個像素的預測獨立地進行約束,而忽略了像素之間的關係 [9] ;

由於使用了 softmax 操作,交叉熵的計算實際只依賴於 logits 之間的相對關係,卻無法直接約束習得的像素特徵(cannot directly supervise on the learned representations) [10] 。

儘管最近的一些結構化損失函數(如 pixel affinity loss, lovasz loss 等)意識到了缺點 1,但也只考慮了同一個圖像內部的像素依賴關係,卻忽略了不同圖像間像素的語義一致性。而缺點 2,在語義分割領域則鮮有提及。基於全監督、像素 - 像素對比學習的語義分割訓練範式

本文提出的像素對比學習(pixel-wise contrastive learning)能夠較好的解決交叉熵損失函數的兩個缺點。在訓練過程中,對於任意像素(錨點)i, 其正樣本為其它與之同類的像素,負樣本為其它與之不同類的像素。值得注意的是,對於錨點 i 的正負樣本的選擇不限於同一張圖像。對像素 i,對比損失函數定義為:

這裡 表示像素 i 的所有正樣本像素的特徵,表示像素 i 的所有負樣本像素的特徵。由上式可以看出,通過像素 - 像素對比學習,研究者直接在語義分割的特徵空間上,將同屬於一個語義類別的像素拉近,同時迫使不同語義類別的像素互相遠離,從而同時強調了交叉熵損失的兩個缺點。

交叉熵損失促使分割模型學習具有判別力的特徵、提升分類能力(強調性質 1),pixel-wise contrastive loss 通過探索像素之間的全局語義關係,從整體上約束語義分割特徵空間(強調性質 2)。下圖對只使用交叉熵損失(左圖)與上式混合損失函數(右圖)學習到的分割特徵進行了可視化,可以看出,通過引入 pixel-wise contrastive loss,同類像素特徵更加緊緻,而類與類之間可以更好的分離。這表明,通過結合一元(unary)交叉熵損失和二元(pari-wise)contrastive loss 的優勢,分割網絡能夠學習到更好的特徵表示。

圖3:分割特徵可視化。左圖:交叉熵損失;右圖:交叉熵 + 像素對比損失。基於以上框架,研究者進一步探索了像素 - 區域對比學習及難例挖掘,並得出了若干有益結論,具體內容請移步原文。為驗證所提方案的性能,研究者在三個標準的語義分割數據集(Cityscapes,PASCAL-Context,COCO-Stuff)上進行了實驗。以目前主流的語義分割模型(HRNet,OCR)為基礎,引入像素對比學習後的性能對比如下:

實驗結果表明,在三個數據集上,本文提出的訓練範式可以明顯地提升現有語義分割算法的性能。此外,該算法在模型部署階段,不會引入任何額外的計算開銷,不改變分割網絡結構,具有較高的靈活性。不同於當前主流算法只關注圖像內部像素的局部上下文信息,本文提出跨圖像、像素對比損失函數,來挖掘訓練數據集中所有像素的全局關係,有效提升了語義分割的性能。這有助於我們重新思考當前主流的訓練範式,不僅僅只關注訓練樣本自身的特性,同時從全局的角度,關注訓練樣本之間關係。 

對比學習或度量學習依賴於正負樣本的質量,更智能的採樣策略能夠幫助分割網絡更快速有效的學習。

從度量學習的角度,交叉熵損失為一元損失函數(unary loss), 而對比損失為二元損失函數(pair-wise loss),探索高階的度量損失函數有可能帶來更大的提升。

對比損失在計算中需要對正負樣本採樣,有可能藉此更自然地實現訓練中的類別再均衡(class rebalance)。

本文方案在主流語義分割數據集上取得了有效的性能提升,並且有望在其它圖像稠密預測任務中(如 2D 人體姿態估計,醫療圖像分割等)發揮優勢。

[1] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. [2] Tsung-Wei Ke, Jyh-Jing Hwang, Ziwei Liu, and Stella X Yu. Adaptive affinity fields for semantic segmentation. In ECCV, 2018 [3] Maxim Berman, Amal Rannen Triki, and Matthew B Blaschko. The lovasz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks. In CVPR, 2018. [4] Weiyang Liu, Yandong Wen, Zhiding Yu, and Meng Yang. Large-margin softmax loss for convolutional neural networks. In ICML, 2016. [5] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015. [6] Alexey Dosovitskiy, Jost Tobias Springenberg, Martin Riedmiller, and Thomas Brox. Discriminative unsupervised feature learning with convolutional neural networks. In NeurIPS, 2014. [7] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. ICML, 2020. [8] Michael Gutmann and Aapo Hyva ̈rinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS, 2010. [9] Shuai Zhao, Yang Wang, Zheng Yang, and Deng Cai. Region mutual information loss for semantic segmentation. In NeurIPS, 2019. [10] Tianyu Pang, Kun Xu, Yinpeng Dong, Chao Du, Ning Chen, and Jun Zhu. Rethinking softmax cross-entropy loss for adversarial robustness. In ICLR, 2020. 

AWS白皮書《策略手冊:數據、 分析與機器學習》

曾存儲過 GB 級業務數據的組織現在發現,所存儲的數據量現已達 PB 級甚至 EB 級。要充分利用這 些海量數據的價值,就需要利用現代化雲數據基礎設施,從而將不同的信息豎井融合統一。無論您處於數據現代化改造過程中的哪個階段,本行動手冊都能幫助您完善策略,在整個企業範圍內高效擴展數據、分析和機器學習,從而加快創新並推動業務發展。

點擊閱讀原文,免費領取白皮書。

© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

相關焦點

  • 基於深度學習的語義分割綜述
    圖像分割可以表述為帶有語義標籤的像素分類問題(語義分割)或單個對象分割問題(實例分割)。語義分割對所有圖像像素使用一組對象類別(如人、車、樹、天空)進行像素級標記,因此通常比預測整個圖像的單個標籤的圖像分類困難。實例分割通過檢測和描繪圖像中的每個感興趣對象(例如,個體的分割),進一步擴展了語義分割的範圍。
  • 香港中大-商湯科技聯合實驗室AAAI錄用論文詳解:自監督語義分割的混合與匹配調節
    此項研究已經在圖像分割領域中得到了應用(Zhang, Isola, and Efros 2016a; Larsson, Maire, and Shakhnarovich 2016; 2017)。其關鍵在於,在此過程中引入了一個無監督的「預訓練任務」,這個任務可以在無標註數據上執行,用來學習圖像的描述。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    語義分割是計算機視覺中的基礎任務,我們通常會使用基於 CNN 加 CRF 的方法或直接使用對抗性的訓練實現端到端的分割。本文簡要介紹了這兩種方法及它們的特點。人類是如何描述場景的?我們可能會說「窗戶下有一張桌子」,或者「沙發右邊有一盞燈」。
  • 2019 語義分割指南
    of a Deep Convolutional Network for Semantic Image Segmentation (用於語義分割的弱監督和半監督的深度神經網絡)Fully Convolutional Networks for Semantic Segmentation (用於語義分割的全卷積神經網絡)
  • 入門 | 一文了解什麼是語義分割及常用的語義分割方法有哪些
    我們可能會說「窗戶下有一張桌子」,或者「沙發右邊有一盞燈」。圖像理解的關鍵在於將一個整體場景分解成幾個單獨的實體,這也有助於我們推理目標的不同行為。當然,目標檢測方法可以幫助我們繪製某些確定實體的邊框,但人類對場景的理解能以像素級的精細程度對每一個實體進行檢測並標記精確的邊界。我們已經開始發展自動駕駛汽車和智慧機器人,這些都需要深入理解周圍環境,因此精確分割實體變得越來越重要。
  • 用於半監督語義分割的基於掩碼的數據增強
    利用卷積神經網絡(CNN)進行語義分割是圖像分析中的一個重要組成部分。訓練一個CNN來進行語義分割需要大量的標記數據,而這些標記數據的生產既昂貴又勞動密集型。半作者提出了一種更有效的基於掩碼的分割地圖擴展策略,稱為ComplexMix,以解決半監督語義分割問題。作者假設在增加語義上正確的增廣的複雜性中有附加價值,因此試圖產生語義上正確的複雜增廣。作者將一幅圖像的分割圖分割成幾個相同大小的正方形,並根據當前模型預測每個正方形中的語義標籤。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    By路雪 2017年7月14日  語義分割一直是計算機視覺中十分重要的領域,隨著深度學習的流行,語義分割任務也得到了大量的進步。本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。  什麼是語義分割?  語義分割指像素級地識別圖像,即標註出圖像中每個像素所屬的對象類別。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    根據語義概念層次結構顯式構建動態網絡結構的 DSSPN。基本的卷積特徵被傳播到動態結構化語義神經元圖中,用於層級的像素級識別。在訓練過程中,DSSPN 只激活語義神經元的一個子圖(語義神經元涉及每個圖像的目標標籤),引起動態結構化的前饋傳播和反向傳播。這意味著 DSSPN 只需要在訓練過程中將具備同一父神經元的易混淆概念進行層級分類。為了釐清概念,這裡只顯示部分語義神經元。
  • CVPR 2018 | 新型語義分割模型:動態結構化語義傳播網絡DSSPN
    根據語義概念層次結構顯式構建動態網絡結構的 DSSPN。基本的卷積特徵被傳播到動態結構化語義神經元圖中,用於層級的像素級識別。在訓練過程中,DSSPN 只激活語義神經元的一個子圖(語義神經元涉及每個圖像的目標標籤),引起動態結構化的前饋傳播和反向傳播。這意味著 DSSPN 只需要在訓練過程中將具備同一父神經元的易混淆概念進行層級分類。為了釐清概念,這裡只顯示部分語義神經元。
  • 資源 | 從全連接層到大型卷積核:深度學習語義分割全指南
    本文首先闡釋何為語義分割,然後再從論文出發概述多種解決方案。本文由淺層模型到深度模型,簡要介紹了語義分割各種技術,雖然本文並沒有深入講解語義分割的具體實現,但本文簡要地概述了每一篇重要論文的精要和亮點,希望能給讀者一些指南。什麼是語義分割?語義分割指像素級地識別圖像,即標註出圖像中每個像素所屬的對象類別。
  • 弱監督語義分割算法 | DSRG方法詳解
    由於SEC方法在訓練過程中種子區域始終是初始種子區域,屬於靜態監督設置,偏離了語義分割任務的要求,因需要準確和完整的對象區域來訓練分割模型。所以DSRG提出動態監督的方法,在訓練過程中,使用迭代訓練,每一次迭代中均使用種子區域擴展方法擴展種子區域,下一次迭代時使用擴展後的種子區域作為新的待擴展區域。同時也是用條件隨機場方法限制邊界。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 語義分割最新指南2019版
    導讀:網上曾經流傳深度學習語義分割指南2017版(A 2017 Guide to Semantic Segmentation with Deep Learning http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review),總結了當年各個具有代表性的語義分割算法與相關貢獻,對把握該領域研究進展脈絡起到了提綱挈領的作用
  • 基於深度學習的語義分割技術講解
    在計算機視覺領域,有一個方向是語義分割,一般是針對圖像進行像素級分類。具體而言,語義圖像分割就是將每個像素都標註上其對應的類別。
  • 蘇黎世聯邦理工,嚴校出高徒生
    新成立的聯邦政府深知這樣的計劃需要強大的科學技術支持,所以幾乎是在建國的同時,一所聯邦理工學校便在孕育之中。當時的聯邦政府希望,這所學校能成為國家致富的堅實後備力量。自由派與保守派的博弈然而,豐滿的夢想終究要回歸骨感的現實。
  • 蘇黎世理工 Offer+1 祝賀北理工G同學斬獲蘇黎世聯邦理工學院(與MIT齊名)Offer!
    G 同學學校:北理工  自動化專業錄取:蘇黎世聯邦理工學院
  • 弱監督語義分割|經典之作SEC
    論文:SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation1、總體架構論文主題:這篇論文主要講了弱監督語義分割的一般方法,即三個基本的原則
  • 圖像語義分割
    上圖為語義分割的一個實例,其目標是預測出圖像中每一個像素的類標籤。圖像語義分割是圖像處理和計算機視覺技術中關於圖像理解的重要的一環。語義分割對圖像中的每一個像素點進行分類,確定每個點的類別(如屬於背景、邊緣或身體等)需要和實例分割區分開來。語義分割沒有分離同一類的實例;它關心的只是每個像素的類別,如果輸入對象中有兩個相同類別的對象,則分割本身不會將它們區分為單獨的對象。
  • 重新發現語義分割,一文簡述全卷積網絡
    全卷積網絡自 2012 年出現以來,在圖像分類和圖像檢測領域取得了巨大成功。本文利用筆記本電腦構建了一個小型全卷積網絡,詳細介紹了全卷積網絡的思路、過程等等,值得一看語義分割是一種學習如何識別圖像中對象範圍的機器學習技術。語義分割賦予機器學習系統與人類相似的理解圖像內容的能力。
  • 語義分割的經典學習方法和深度學習方法綜述
    語義分割是將標籤分配給圖像中的像素的過程。這與分類形成了鮮明的對比,在分類中,一個標籤被分配給整個圖片。語義分割將同一類的多個對象視為一個實體。另一方面,實例分割將同一類的多個對象視為不同的單個對象(或實例)。通常,實例分割比語義分割更難。