加入極市專業CV交流群,與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度 等名校名企視覺開發者互動交流!
同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊匯總,行業技術交流。關注 極市平臺 公眾號 ,回復 加群,立刻申請入群~
Image Segmentation Using Deep Learning: A SurveyPaper連結:https://arxiv.org/abs/2001.05566
摘要圖像分割是圖像處理和計算機視覺領域的一個重要課題,在場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實、圖像壓縮等領域有著廣泛的應用。近年來,由於深度學習模型在視覺應用中的成功,已有大量的工作致力於利用深度學習模型開發圖像分割方法。本文全面回顧了撰寫本文時的文獻,涵蓋了語義和實例級分割的大量開創性工作,包括完全卷積像素標記網絡、編碼器-解碼器架構、多尺度和基於金字塔的方法、遞歸網絡,視覺attention模型,以及生成對抗模型。論文研究了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集、報告性能,並討論了這一領域未來有希望的研究方向。背景介紹圖像分割是許多視覺理解系統的重要組成部分。它包括將圖像(或視頻幀)分割成多個片段或對象。分割在醫學圖像分析(例如,腫瘤邊界提取和組織體積測量),自主載體(例如,可導航表面和行人檢測),視頻監控,和增強現實起到了非常重要的作用。文獻中已經開發了許多圖像分割算法,從最早的方法,如閾值化、基於直方圖的方法、區域劃分、k-均值聚類、分水嶺,到更先進的算法,如活動輪廓、基於Graph的分割、馬爾可夫隨機場和稀疏方法。然而,在過去的幾年裡,深度學習網絡已經產生了新一代的圖像分割模型,其性能得到了顯著的提高——通常在流行的基準上達到了最高的準確率——這導致了許多人認為是該領域的範式轉變。圖像分割可以表述為帶有語義標籤的像素分類問題(語義分割)或單個對象分割問題(實例分割)。語義分割對所有圖像像素使用一組對象類別(如人、車、樹、天空)進行像素級標記,因此通常比預測整個圖像的單個標籤的圖像分類困難。實例分割通過檢測和描繪圖像中的每個感興趣對象(例如,個體的分割),進一步擴展了語義分割的範圍。論文調查涵蓋了圖像分割的最新文獻,討論了到2019年為止提出的100多種基於深度學習的分割方法。本文對這些方法的不同方面提供了全面的了解和認識,包括訓練數據、網絡架構的選擇、損失函數、訓練策略及其主要貢獻。我們比較總結了這些方法的性能,並討論了基於深度學習的圖像分割模型面臨的挑戰和未來的發展方向。根據其主要技術貢獻,將基於深度學習的作品分為以下幾類:1)Fully convolutional networks2)Convolutional models with graphical models3)Encoder-decoder based models4) Multi-scaleand pyramid network based models5)R-CNN based models (for instance segmentation)6)Dilated convolutional models and DeepLab family7)Recurrent neural network based models9)Generative models and adversarial training10)Convolutional models with active contour models本文的一些主要貢獻可以總結如下:本次調查涵蓋了截至2019年提出的
100多種算法,分為10類。通過深入學習,對分割算法的不同方面提供了全面的了解和具體的分析,包括訓練數據、網絡結構的選擇、損失函數、訓練策略及其關鍵貢獻。除此之外,還提供了大約20個流行的圖像分割數據集的概述,這些數據集分為2D、2.5D(RGBD)和3D圖像。在流行的基準上提供了一個比較性總結,說明了用於分割目的的已審查方法的性質和性能,並為基於深度學習的圖像分割提供了若干挑戰和潛在的發展方向。基於深度學習的圖像分割模型回顧了截至2019年提出的100多種基於深度學習的分割方法,共分為10類。值得一提的是,在這些作品中,有一些是常見的,例如具有編碼器和解碼器部分、skip連接、多尺度分析,以及最近使用的dilated卷積。因此,很難提及每個算法的獨特貢獻,但更容易根據其在結構方面的貢獻將其歸類。
1.Fully ConvolutionalNetworks這項工作被認為是圖像分割中的一個裡程碑,證明了可以在可變大小的圖像上以端到端的方式訓練深層網絡進行語義分割。然而,傳統的FCN模型雖然具有普遍性和有效性,但也存在一定的局限性,它不能快速地進行實時推理,不能有效地考慮全局上下文信息,也不容易轉換為3D圖像。有幾項努力試圖克服FCN的一些局限性。例如,Liu等人提出了一個名為ParseNet的模型,以解決FCN忽略全局context information的問題. ParseNet通過使用層的平均特徵來增加每個位置的特徵,將全局contextinformation添加到FCN。FCNs已經應用於多種分割問題,如腦腫瘤分割[34]、實例感知語義分割、皮膚損傷分割和虹膜分割。
2.Convolutional ModelsWith Graphical ModelsChen等人提出了一種基於CNN和全連接CRF組合的語義分割算法。他們表明,對於精確的目標分割來說,來自深層CNN最終層的響應並沒有得到足夠的定位(因為CNN的不變性使得它適合於高層次的任務,比如分類)。為了克服深CNN定位性能差的問題,他們將最終CNN層的響應與全連接的CRF相結合,論文表明,模型能夠以比以前的方法更高的準確率定位。Schwing和Urtasun提出了一種用於圖像分割的全連通深結構網絡。他們提出了一種聯合訓練CNNs和全連接CRF進行語義圖像分割的方法,並在PASCAL VOC 2012數據集上取得了令人鼓舞的結果。Zheng等人提出了一種結合CRF和CNN的相似語義分割方法。在另一項相關工作中,Lin等人提出了一種基於上下文深度CRF的高效語義分割算法。Liuatal提出了一種將豐富的信息集成到MRF中的語義分類算法,包括高階關係和混合標籤文本。與以往使用迭代算法優化MRF的工作不同,他們提出了一種CNN模型,即一個解析網絡,它可以在一次轉發過程中實現確定性的端到端計算。
3.Encoder-Decoder BasedModels另一個流行的用於圖像分割的深度模型家族是基於卷積編碼器-解碼器體系結構的。大多數基於DL的分割工作都使用某種編碼-解碼模型。論文將這些工作分為兩類,用於一般分割的編碼器-解碼器模型和用於醫學圖像分割的編碼器-解碼器模型(以更好地區分應用程式)。Badrinarayanan等人提出了一種用於圖像分割的卷積編碼器架構,SegNet的核心由一個編碼器網絡(在拓撲上與VGG16網絡中的13個卷積層相同)和一個對應的解碼器網絡以及一個像素級分類層組成。SegNet的主要新穎之處在於解碼器對其低解析度輸入特徵映射進行上採樣;具體來說,它使用在相應編碼器的最大池步驟中計算的池索引來執行非線性上採樣。這消除了學習向上採樣的必要性。然後(稀疏的)上採樣地圖與可訓練濾波器卷積以產生密集的特徵圖。SegNet在可訓練參數的數量上也比其他結構小得多。同一作者還提出了SegNet的Bayesian版本,用於建模場景分割的卷積編碼器-解碼器網絡固有的不確定性。這一類中另一個流行的模型是最近的一些分割網絡,高解析度網絡(HRNet)。除了像在DeConvNet、SegNet、U-Net和V-Net中那樣恢復高解析度表示之外,HRNet通過並行連接高解析度和低解析度卷積流並在多個解析度之間重複交換信息來通過編碼過程保持高解析度表示。近年來,許多關於語義分割的研究都是以HRNet為骨幹,利用上下文模型,如self-attention及其擴展等。其他一些工作採用轉置卷積或編碼器-解碼器進行圖像分割,如堆疊反卷積網絡(SDN)、Linknet、W-Net和局部敏感反卷積網絡進行RGBD分割。在FCNs和編解碼模型的啟發下,醫學/生物醫學圖像分割初步發展了幾種模型。U-Net和V-Net是兩種著名的此類架構,它們現在也被用於醫療領域之外。Ronnebergeretal提出了用於分割生物顯微鏡圖像的U-Net。他們的網絡和訓練策略依賴於使用數據增強來更有效地從可用的注釋圖像中學習。V-Net是另一個著名的基於FCN的模型,由Milletari等人提出,用於三維醫學圖像分割。對於模型訓練,他們引入了一個新目標函數,使模型能夠處理前景和背景中體素數量之間存在嚴重不平衡的情況。該網絡在描述前列腺的MRI體積上進行端到端的訓練,並學習同時預測整個體積的分割。醫學圖像分割的其他相關工作包括漸進密集V-net(PDV-net)等。用於從胸部CT圖像中快速自動分割肺葉,以及用於病變分割的3D-CNN編碼器。
4.Multi-Scale and PyramidNetwork Based Models多尺度分析(Multi-scale analysis,Multi-scaleanalysis)是圖像處理中的一個古老的思想,已經被廣泛應用於各種神經網絡結構中。其中最突出的一種模型是Lin等人提出的特徵金字塔網絡(FPN)。雖然主要用於目標檢測,但也應用於分割,利用深CNNs的內在多尺度金字塔層次結構構造具有邊際額外成本的特徵金字塔。為了融合低解析度和高解析度特徵,FPN由自下而上的路徑、自上而下的路徑和橫向連接組成。然後,通過3×3卷積處理連接的特徵映射,以產生每個階段的輸出。最後,自上而下路徑的每個階段都生成一個預測來檢測對象。對於圖像分割,作者使用兩個多層感知器(MLPs)來生成掩模。Zhao等人開發了金字塔場景解析網絡(PSPN),這是一個多尺度網絡,可以更好地學習場景的全局上下文表示。使用殘差網絡(ResNet)作為特徵提取器,通過擴展網絡從輸入圖像中提取不同的模式。然後將這些特徵映射輸入金字塔池模塊,以區分不同尺度的模式。它們在四個不同的尺度上集合,每個尺度對應一個金字塔層,並由1×1卷積層處理以減小它們的維數。金字塔層的輸出被上採樣,並與初始特徵映射連接,以捕獲本地和全局上下文信息。最後,使用卷積層來產生逐像素預測。Ghiasi和Fowlkes開發了一種基於拉普拉斯金字塔的多解析度重建體系結構,該結構使用高解析度特徵映射的跳躍連接和乘法選通來連續重建低解析度映射的細分邊界。研究表明,卷積特徵映射的空間解析度較低,但高維特徵表示包含了大量的亞像素定位信息。還有其他使用多尺度分析進行分割的模型,如DM-Net(動態多尺度濾波器網絡)、上下文對比網絡和門控多尺度聚集(CCN)、APC-Net、MSCI和顯著對象分割。
5.R-CNN Based Models (實例分割)何凱明提出了一個用於對象實例分割的Mask R-CNN,它在許多COCO挑戰上超過了所有先前的基準。該模型在為每個實例生成高質量分段掩碼的同時,有效地檢測圖像中的對象。Hu等人提出了一種新的部分監督訓練範式和一種新的權值轉移函數,該範式使約束狀態分類模型成為一個大類別集,所有類別都有框注釋,但只有一小部分類別有掩碼注釋。Chen等人開發了一個實例分割模型MaskLab,該模型基於更快的R-CNN,具有語義和方向特徵。另一個有趣的模型是Tensormask,由Chen等人提出,基於密集滑動窗口實例分割。他們將密集實例分割作為4D張量上的預測任務,並提出了一個通用框架,使4D張量上的新算子成為可能。他們證明了張量視圖比基線有更大的增益,產生的結果與掩模R-CNN相當。TensorMask在密集對象分割方面取得了很有希望的結果(許多其他的實例分割模型是基於R-CNN開發的,例如那些為掩碼建議開發的模型,包括R-FCN、DeepMask、SharpMask、PolarMask和邊界感知實例分割。值得注意的是,還有一個很有前途的研究方向是嘗試通過學習用於自底向上分割的分組線索來解決實例分割問題,例如深分水嶺變換和通過深度量學習進行語義實例分割。
6.DilatedConvolutional Models and DeepLab Family擴張/膨脹卷積為卷積層引入了另一個參數,即膨脹率。它可以在在不增加計算成本的情況下擴大了感受野。膨脹卷積在實際時間段中已被廣泛應用,其中一些最重要的包括DeepLab家族、多尺度Context Aggregation、密集上採樣卷積和混合擴張卷積(DUC-HDC)、Densespp和ENet。DeepLabv1和DeepLabv2是Chenetal開發的最流行的圖像分割方法之一,後者有三個關鍵特性:第一,使用擴展卷積來解決網絡中解析度降低的問題(由max pooling和striding引起)。第二種是atrus空間金字塔池(ASPP),它在多個採樣率下使用濾波器探測傳入的卷積特徵層,從而在多個尺度上捕獲對象和圖像上下文,以在多個尺度上可靠地分割對象。第三種是結合深CNNs和概率圖形模型的方法改進目標邊界的定位。最佳的DeepLab(使用ResNet-101作為主幹)在2012年pascal VOC挑戰賽中達到79.7%的mIoU分數,在cityscape挑戰賽中達到70.4%的mIoU分數。隨後,Chen等人提出了DeepLabv3,它結合了級聯和並行的擴展卷積模塊。並行卷積模塊分組在ASPP中。在ASPP中加入了1×1卷積和批量正態化。2018年,Chen等人發布的Deeplabv3+,它使用編碼器-解碼器架構,包括Atrus separable convolution、每個輸入通道的空間卷積和點卷積。他們使用DeepLabv3框架作為編碼器。在COCO和JFT數據集上預訓練的最佳DeepLabv3+在2012年pascal VOC挑戰賽中獲得89.0%的mIoU分數。
7.Recurrent NeuralNetwork Based Models雖然CNN是解決計算機視覺問題的一種天然手段,但它並不是唯一的可能性。RNNs在建立像素間的短期/長期依賴關係模型以(潛在地)改善分割圖的估計方面非常有用。使用RNNs,像素可以被連接在一起並按順序處理,以建模全局信息進行語義分割。1. Scenelabeling with lstm recurrent neural networks2. Semanticobject parsing with graph lstm3. Da-rnn:Semantic mapping with data associated recurrent neural networks4. Segmentationfrom natural language expressions
8.Attention-Based Models多年來,注意機制一直在計算機視覺中被不斷探索,因此,發現將這種機制應用於語義分割的出版物也就不足為奇了。Chen等人提出了一種attention機制,學習在每個像素位置對多尺度特徵進行軟加權。它們採用了一個強大的語義分割模型,並與多尺度圖像和attention模型聯合訓練。attention機制的性能優於平均值和最大值池,使模型能夠在不同的位置和尺度上評估特徵的重要性。與其他作品不同,在這些作品中,卷積分類學被訓練來學習標記對象的典型語義特徵,Huang等人提出了一種基於反向attention機制的語義分割方法。他們的反向attention網絡(RAN)架構也訓練模型捕捉相反的概念(即,與目標類無關的特徵)。RAN是一個同時執行直接和反向attention學習過程的三分支網絡。Li等人開發了一個用於語義分割的金字塔attention網絡。該模型充分利用了全局上下文信息對語義分割的影響。他們將注意力機制和空間金字塔結合起來,提取精確的密集特徵用於像素標記,而不是複雜的擴展卷積和精心設計的解碼網絡。最近,Fu等人提出了一種用於場景分割的雙attention網絡,該網絡能夠基於自注意機制捕獲豐富的上下文依賴關係。其他許多研究探索了語義切分的注意機制,如OCNet提出了一種受自我注意機制啟發的對象上下文池、期望最大化attention(EMANet)、Criss交叉attention網絡(CCNet)、具有重複attention的端到端實例切分,用於場景分析的點式空間attention網絡和判別特徵網絡(DFN)。
9.Generative Models andAdversarial TrainingGANs自提出以來,已被廣泛應用於計算機視覺領域,並被用於圖像分割。Luc等人提出了一種對抗性的語義分割訓練方法。他們訓練了一個卷積式語義分割網絡,以及一個對抗性網絡,該網絡將地面真值分割圖與分割網絡生成的真值分割圖區分開來。他們展示了這種差異訓練方法提高了在PASCAL VOC 2012數據集上的準確性。蘇利等人提出了使用Gans的半弱監督語義分類。它包括代理網絡,為多類分類器提供額外的訓練示例,在GAN框架中充當鑑別器,從K個可能類中分配樣本標籤y或將其標記為假樣本(額外類)。在另一部作品中,Hung等人開發了一個使用對抗性網絡的半監督語義分割框架。他們設計了一個FCN鑑別器,在考慮空間解析度的情況下,將預測概率圖與地面真值分割分布區分開來。該模型考慮的損失函數包括三個項:分割地面真實性的交叉熵損失、鑑別網絡的對抗性損失和基於置信圖的半監督損失,即鑑別器的輸出。薛等人提出了一種多尺度L1損失的對抗性醫學圖像分割網絡。他們使用分段或生成率分段標籤映射,並提出了一個具有多尺度L1損失函數的網絡,以強制批評者和分段者學習捕獲像素之間長距離和短距離空間關係的全局和局部特徵。
10.CNN Models With ActiveContour ModelsFCNs和活動輪廓模型(ACMs)之間協同作用的探索最近引起了研究興趣。一種方法是根據ACM原理建立新的損失函數。例如Chen等人提出了一個有監督的丟失層,該層在FCN訓練過程中包含了預測掩模的面積和大小信息,解決了心臟MRI中心室分割的問題。同樣,Gur等人提出了一種基於無邊緣形態學活動輪廓的無監督損失函數,用於微血管圖像分割。一種不同的方法最初試圖將ACM僅僅用作FCN輸出的後處理程序,一些努力試圖通過對FCN進行預訓練來實現適度的共同學習。Le等人的工作是一個用於自然圖像語義分割的ACM後處理器的例子。Hatamizadeh等人提出了一個集成的深部活動損傷(DALS)模型,用於訓練背根骨預測新的局部參數化水平集能函數的參數函數。在其他相關工作中,Marcos等人提出了深結構活動輪廓(DSAC),它將ACMs和預先訓練的FCNs結合在一個結構化的預測框架中,用於在航空圖像中建立實例分割(儘管需要手動初始化)。對於相同的應用程式,Cheng等人提出了與DSAC相似的深度主動射線網絡(DarNet),但採用了基於極坐標的不同顯式ACM公式來防止輪廓自相交。Hatamizadeh等人最近推出了一種真正的端到端反向傳播可訓練、完全集成的FCN-ACM組合被稱為深卷積活動輪廓(DCAC)。圖像分割數據集
1.2D datasetsPASCALVisual Object Classes (VOC)MicrosoftCommon Objects in Context (MS COCO)ADE20K/MITScene Parsing (SceneParse150)BerkeleySegmentation Dataset (BSD)Semantic Boundaries Dataset(SBD) Adobes Portrait Segmentation
2.2.5D datasets3.3D DatasetsSydneyUrban Objects Dataset
添加極市小助手微信(ID : cv-mart),備註:研究方向-姓名-學校/公司-城市(如:AI移動應用-小極-北大-深圳),即可申請加入AI移動應用極市技術交流群,更有每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、乾貨資訊匯總、行業技術交流,一起來讓思想之光照的更遠吧~
△長按添加極市小助手
△長按關注極市平臺,獲取最新CV乾貨
覺得有用麻煩給個在看啦~