CNN 在基於弱監督學習的圖像分割中的應用

2021-01-11 雷鋒網

最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。

對於圖像分割而言,要得到大量的完整標記過的圖像非常困難,比如在 ImageNet 數據集上,有 1400 萬張圖有類別標記,有 50 萬張圖給出了 bounding box, 但是只有 4460 張圖像有像素級別的分割結果。對訓練圖像中的每個像素做標記非常耗時,特別是對醫學圖像而言,完成對一個三維的 CT 或者 MRI 圖像中各組織的標記過程需要數小時。

如果學習算法能通過對一些初略標記過的數據集的學習就能完成好的分割結果,那麼對訓練數據的標記過程就很簡單,這可以大大降低花在訓練數據標記上的時間。這些初略標記可以是:

1. 只給出一張圖像裡面包含哪些物體;

2. 給出某個物體的邊界框;

3. 對圖像中的物體區域做部分像素的標記,例如畫一些線條、塗鴉等(scribbles)。

1. ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation (CVPR 2016)

香港中文大學的 Di Lin 提出了一個基於 Scribble 標記的弱監督學習方法。 Scribble 是一個很方便使用的標記方法,因此被用得比較廣泛。如下圖,只需要畫五條線就能完成對一副圖像的標記工作。

ScribbleSup 分為兩步,第一步將像素的類別信息從 scribbles 傳播到其他未標記的像素,自動完成所有的訓練圖像的標記工作; 第二步使用這些標記圖像訓練 CNN。在第一步中,該方法先生成 super-pxels, 然後基於 graph cut 的方法對所有的 super-pixel 進行標記。

Graph cut 的能量函數為:

在這個 graph 中,每個 super-pixel 是 graph 中的一個節點,相接壤的 super-pixel 之間有一條連接的邊。這個能量函數中的一元項包括兩種情況,一個是來自於 scribble 的,一個是來自 CNN 對該 super-pixel 預測的概率。整個最優化過程實際上是求 graph cut 能量函數和 CNN 參數聯合最優值的過程:

上式的最優化是通過交替求和的最優值來實現的。文章中發現通過三次迭代就能得到比較好的結果。

2. Constrained Convolutional Neural Networks for Weakly Supervised Segmentation (ICCV 2015)

UC Berkeley 的 Deepak Pathak 使用了一個具有圖像級別標記的訓練數據來做弱監督學習。訓練數據中只給出圖像中包含某種物體,但是沒有其位置信息和所包含的像素信息。該文章的方法將 image tags 轉化為對 CNN 輸出的 label 分布的限制條件,因此稱為 Constrained convolutional neural network (CCNN).

該方法把訓練過程看作是有線性限制條件的最優化過程:

其中是一個隱含的類別分布,是 CNN 預測的類別分布。目標函數是 KL-divergence 最小化。其中的線性限制條件來自於訓練數據上的標記,例如一幅圖像中前景類別像素個數期望值的上界或者下界(物體大小)、某個類別的像素個數在某圖像中為 0,或者至少為 1 等。該目標函數可以轉化為為一個 loss function,然後通過 SGD 進行訓練。

實驗中發現單純使用 Image tags 作為限制條件得到的分割結果還比較差,在 PASCAL VOC 2012 test 數據集上得到的 mIoU 為 35.6%,加上物體大小的限制條件後能達到 45.1%, 如果再使用 bounding box 做限制,可以達到 54%。FCN-8s 可以達到 62.2%,可見弱監督學習要取得好的結果還是比較難。

3. Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation

Google 的 George Papandreou 和 UCLA 的 Liang-Chieh Chen 等在 DeepLab 的基礎上進一步研究了使用 bounding box 和 image-level labels 作為標記的訓練數據。使用了期望值最大化算法(EM)來估計未標記的像素的類別和 CNN 的參數。


對於 image-level 標記的數據,我們可以觀測到圖像的像素值和圖像級別的標記, 但是不知道每個像素的標號, 因此把 當做隱變量。使用如下的概率圖模式:

使用 EM 算法估計和。E 步驟是固定求的期望值,M 步驟是固定使用 SGD 計算θ。

對於給出 bounding box 標記的訓練圖像,該方法先使用 CRF 對該訓練圖像做自動分割,然後在分割的基礎上做全監督學習。通過實驗發現,單純使用圖像級別的標記得到的分割效果較差,但是使用 bounding box 的訓練數據可以得到較好的結果,在 VOC2012 test 數據集上得到 mIoU 62.2%。另外如果使用少量的全標記圖像和大量的弱標記圖像進行結合,可以得到與全監督學習 (70.3%) 接近的分割結果 (69.0%)。

4. Learning to Segment Under Various Forms of Weak Supervision (CVPR 2015)

Wisconsin-Madison 大學的 Jia Xu 提出了一個統一的框架來處理各種不同類型的弱標記:圖像級別的標記、bounding box 和部分像素標記如 scribbles。該方法把所有的訓練圖像分成共計個 super-pixel,對每個 super-pixel 提取一個維特徵向量。因為不知道每個 super-pixel 所屬的類別,相當於無監督學習,因此該方法對所有的 super-pixel 做聚類,使用的是最大間隔聚類方法 (max-margin clustering, MMC), 該過程的最優化目標函數是:

其中是一個特徵矩陣,每列代表了對於的類別的聚類特徵。是將第個 super-pixel 劃分到第類的代價。在這個目標函數的基礎上,根據不同的弱標記方式,可以給出不同的限制條件,因此該方法就是在相應的限制條件下求最大間隔聚類。

該方法在 Siftflow 數據集上得到了比較好的結果,比 state-of-the-art 的結果提高了 10% 以上。

小結:在弱標記的數據集上訓練圖像分割算法可以減少對大量全標記數據的依賴,在大多數應用中會更加貼合實際情況。弱標記可以是圖像級別的標記、邊框和部分像素的標記等。訓練的方法一般看做是限制條件下的最優化方法。另外 EM 算法可以用於 CNN 參數和像素類別的聯合求優。

參考文獻

1. Di Lin, Jifeng Dai, Jiaya Jia, Kaiming He, and Jian Sun."ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation". IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016

2. Pathak, Deepak, Philipp Krahenbuhl, and Trevor Darrell. "Constrained convolutional neural networks for weakly supervised segmentation." Proceedings of the IEEE International Conference on Computer Vision. 2015.

3. Papandreou, George, et al. "Weakly-and semi-supervised learning of a DCNN for semantic image segmentation." arXiv preprint arXiv:1502.02734 (2015).

4. Xu, Jia, Alexander G. Schwing, and Raquel Urtasun. "Learning to segment under various forms of weak supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

雷鋒網(公眾號:雷鋒網)按:原作者taigw,本文原載於作者的知乎專欄。

實戰特訓:遠場語音交互技術  

智能音箱這麼火,聽聲智科技CTO教你深入解析AI設備語音交互關鍵技術!

課程連結:http://www.mooc.ai/course/80

加入AI慕課學院人工智慧學習交流QQ群:624413030,與AI同行一起交流成長

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 前沿研究丨深度學習在醫學超聲圖像分析中的應用
    文章指出,在醫學超聲圖像分析中,深度學習展示了巨大的應用潛力,簡要介紹了一些流行的深度學習結構,討論了深度學習方法在超聲圖像分析的各種特定任務(如圖像分類、物體檢測與目標分割)中的應用。文章指出了深度學習在醫學超聲圖像分析應用中所面臨的挑戰以及潛在的發展趨勢。
  • Double DIP——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。概況許多看似無關的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。
  • Double DIP ——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。
  • ECCV 2020 Oral | 蘇黎世聯邦理工學院提出:弱監督語義分割新網絡
    作者採用跨圖像(cross image)的方式,獲得了更加豐富的圖片間的上下文信息,從而實現了更高的精度。本篇文章在pacvoc 2012驗證集上mIoU達到了66.2,在測試集上達到了66.9,均為最高。一、簡介如果閱讀過我之前關於弱監督語義分割(WSSS)的論文閱讀筆記的讀者,就一定知道弱監督語義分割從開始到現在的發展大致分為兩個階段。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    研究者們提出了各種圖像分割算法。最近,由於深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力於開發使用深度學習模型的圖像分割方法。第3節全面概述了最重要的、最先進的、基於深度學習的細分模型,截至2019年已有100多個。我們也討論了他們的長處和貢獻超過以往的工作在這裡。第四部分回顧了一些最流行的圖像分割數據集及其特點。第5.1節回顧了評價基於深度學習的細分模型的流行指標。在5.2節中,我們報告了這些模型的定量結果和實驗性能。在第6節中,我們將討論基於深度學習的分割方法的主要挑戰和未來的發展方向。
  • 基於部分監督學習的多器官分割
    -- 周少華背景    多器官分割是醫學圖像分析中的一個重要的研究問題,而數據標註是建立多器官分割模型過程中不可或缺的一部分。
  • 自動計數:利用田間圖像對植物器官進行無監督分割和計數
    利用田間圖像對植物器官進行計數,如頭狀花序或穗,是植物表型研究中一個基準計算機視覺任務,此前文獻中已使用最先進的監督深度學習技術進行了研究。然而,在田間圖像中,器官的標註耗時較長,容易出錯。從圖像到實例的分割過程
  • 2019 語義分割指南
    語義分割是指將圖像中的每個像素歸於類標籤的過程,這些類標籤可以包括一個人、汽車、鮮花、一件家具等。我們可以將語義分割認為是像素級別的圖像分類。例如,在有許多汽車的圖像中,分割會將所有對象標記為汽車對象。然後,一個稱為實例分割的模型能夠標記一個出現在圖像中的物體的獨立實例。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    Pytorch中使用Mask-RCNN實現實例分割,是基於torchvision的預訓練模型庫,首先需要下載預訓練模型,並檢查是否可以支持GPU推理,相關的代碼如下:model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)model.eval
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    Mask R-CNN 可以應用到人體姿勢識別,並且在實例分割、目標檢測、人體關鍵點檢測三個任務都取得了很好的效果。因此,百度深度學習框架 PaddlePaddle 開源了用於目標檢測的 RCNN 模型,從而可以快速構建強大的應用,滿足各種場景的應用,包括但不僅限於安防監控、醫學圖像識別、交通車輛檢測、信號燈識別、食品檢測等等。
  • 深度學習在醫學影像中的研究進展及發展趨勢
    3 醫學圖像配準與分割在很多醫學圖像分析任務中,獲得高質量的圖像數據後,經常需要對圖像進行配準,並對感興趣區域進行分割,之後才能進行圖像分析和識別。本節分別對深度學習在醫學圖像配準以及分割領域的應用進行詳細的闡述。
  • 電院徐奕副教授團隊在MICCAI 2019「消化道病理圖像檢測與分割...
    Detection and Segmentation Challenge 2019(「消化道病理圖像檢測與分割」國際挑戰賽)中獲佳績,分別摘得印戒細胞檢測競賽的第二名(1st Runner Up)和結腸鏡檢查組織分割競賽的第四名。
  • 從R-CNN到YOLO,一文帶你了解目標檢測模型(附論文下載)
    它是將CNN用於對象檢測的起源,能夠基於豐富的特徵層次結構進行目標精確檢測和語義分割來源。如何確定這些邊界框的大小和位置呢?R-CNN網絡是這樣做的:在圖像中提出了多個邊框,並判斷其中的任何一個是否對應著一個具體對象。
  • 可微圖學習&弱監督,中山大學提出新型行人重識別方法和史上最大...
    在本文中,中山大學研究者提出的弱監督行人重識別方法恰恰克服了這兩方面的障礙,並發布了一個大型行人重識別數據集。近期,中山大學發布了一種基於可微圖學習的弱監督行人重識別(person re-ID)方法和一個大型數據集。該方法結合可微圖學習和弱監督學習方法,為行人重識別深度神經網絡加入自動生成訓練標籤的模塊並與其一體訓練。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • 阿里文娛資深算法專家:視頻物體分割算法的三個方向與最新應用
    機器之心專欄作者:阿里巴巴資深算法專家任海兵在此文章中,阿里巴巴資深算法專家為我們介紹了視頻物體分割的三個研究方向,然後結合阿里文娛摩酷實驗室的探索,分享了他們在視頻領域的最新應用。視頻物體分割(Video Object Segmentation,簡稱 VOS),顧名思義就是從視頻所有圖像中把感興趣的物體區域完整的分割出來。
  • 黃浴:基於深度學習的超解析度圖像技術發展軌跡一覽
    作者 | 黃浴轉載自知乎導讀:近年來,使用深度學習技術的圖像超解析度(SR)取得了顯著進步。本文中,奇點汽車自動駕駛首席科學家黃浴對基於深度學習技術的圖像超解析度技術進行了一次全面的總結,分析了這門技術近年來的發展軌跡。
  • 華為雲2篇論文被MICCAI2020收錄,醫學圖像邊緣分割新突破
    基於醫生手工勾勒或者傳統軟體勾勒的方法耗時耗力或者方法泛化能力差,基於深度學習的方法在醫療圖像分割問題上展現優異的分割性能,但是由於醫療設備成像原因(成像偽影),器官病灶本身構造原因(器官病灶內部體液、肌肉間隔,相鄰器官病灶邊緣界定不清晰)等諸多原因,導致器官病灶等待分割物體邊緣不清晰,已有深度學習的方法無法較好解決以上問題。
  • 一文探討可解釋深度學習技術在醫療圖像診斷中的應用
    本文重點關注可解釋深度學習方法在醫療圖像診斷中的應用。由於醫學圖像自有的特點,構建用於醫療圖像分析的可解釋深度學習模型與其它領域中的應用是不同的。本文依託於綜述性文章[1],首先回顧了可解釋性方法的主要分類以及可解釋深度學習在醫療圖像診斷領域中應用的主要方法。然後,結合三篇文章具體分析了可解釋深度學習模型在醫療圖像分析中的應用。