語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab

2020-11-29 搜狐網

原標題：語義分割中的深度學習方法全解：從FCN、SegNet到各版本DeepLab

王小新編譯自 Qure.ai Blog

量子位出品 | 公眾號 QbitAI

圖像語義分割就是機器自動從圖像中分割出對象區域，並識別其中的內容。

量子位今天推薦的這篇文章，回顧了深度學習在圖像語義分割中的發展歷程。

發布這篇文章的Qure.ai，是一家用深度學習來讀取醫學影像的公司，他們在官方博客上梳理了語義分割中的深度學習方法。

他們希望通過這份介紹，能讓大家了解這個已經在自然圖像處理比較成熟、但是在醫學圖像中仍需發展的新興技術。

作者Sasank Chilamkurthy三部分介紹了語義分割相關研究：

以下內容編譯自Qure.ai官方博客：

語義分割是什麼？

語義分割方法在處理圖像時，具體到像素級別，也就是說，該方法會將圖像中每個像素分配到某個對象類別。下面是一個具體案例。

△左邊為輸入圖像，右邊為經過語義分割後的輸出圖像。

該模型不僅要識別出摩託車和駕駛者，還要標出每個對象的邊界。因此，與分類目的不同，相關模型要具有像素級的密集預測能力。

目前用於語義分割研究的兩個最重要數據集是VOC2012和MSCOCO。

VOC2012：

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

MSCOCO：

http://mscoco.org/explore/

有哪些方法？

在深度學習應用到計算機視覺領域之前，研究人員一般使用紋理基元森林(TextonForest)或是隨機森林(Random Forest)方法來構建用於語義分割的分類器。

卷積神經網絡(CNN)不僅能很好地實現圖像分類，而且在分割問題中也取得了很大的進展。

最初，圖像塊分類是常用的深度學習方法，即利用每個像素周圍的圖像塊分別將各像素分成對應的類別。其中，使用圖像塊的主要原因是分類網絡通常具有全連接層，其輸入需為固定大小的圖像塊。

2014年，加州大學伯克利分校的Long等人提出的完全卷積網絡(Fully Convolutional Networks)，推廣了原有的CNN結構，在不帶有全連接層的情況下能進行密集預測。

這種結構的提出使得分割圖譜可以生成任意大小的圖像，且與圖像塊分類方法相比，也提高了處理速度。在後來，幾乎所有關於語義分割的最新研究都採用了這種結構。

除了全連接層結構，在分割問題中很難使用CNN網絡的另一個問題是存在池化層。池化層不僅能增大上層卷積核的感受野，而且能聚合背景同時丟棄部分位置信息。然而，語義分割方法需對類別圖譜進行精確調整，因此需保留池化層中所捨棄的位置信息。

研究者提出了兩個不同形式的結構來解決這個問題。

第一種方法是編碼器-解碼器(encoder-decoder)結構。其中，編碼器使用池化層逐漸縮減輸入數據的空間維度，而解碼器通過反卷積層等網絡層逐步恢復目標的細節和相應的空間維度。從編碼器到解碼器之間，通常存在直接的信息連接，來幫助解碼器更好地恢復目標細節。在這種方法中，一種典型結構為U-Net網絡。

△一種典型的編碼器-解碼器結構U-Net

第二種方法使用了稱作空洞卷積的結構，且去除了池化層結構。

△空洞卷積，當比率為1時，即為經典的卷積結構。

條件隨機場(Conditional Random Field，CRF)方法通常在後期處理中用於改進分割效果。CRF方法是一種基於底層圖像像素強度進行「平滑」分割的圖模型，在運行時會將像素強度相似的點標記為同一類別。加入條件隨機場方法可以提高1~2%的最終評分值。

△發展中的CRF方法效果。b圖中將一維分類器作為CRF方法的分割輸入；c、d、e圖為CRF方法的三種變體；e圖為廣泛使用的一種CRF結構。

接下來，我們會梳理一些代表性論文，來介紹從FCN網絡開始的分割結構演變歷程。

這些結構都使用了VOC2012數據集來測試實際效果。

一些有趣的研究

接下來將按照論文的發表順序來介紹以下論文：

1．FCN網絡；

2．SegNet網絡；

3．空洞卷積(Dilated Convolutions)；

4．DeepLab (v1和v2)；

5．RefineNet；

6．PSPNet；

7．大內核(Large Kernel Matters)；

8．DeepLab v3；

對於上面的每篇論文，下面將會分別指出主要貢獻並進行解釋，也貼出了這些結構在VOC2012數據集中的測試分值IOU。

FCN

論文：

Fully Convolutional Networks for Semantic Segmentation

於2014年11月14日提交到arvix

https://arxiv.org/abs/1411.4038

主要貢獻：

具體解釋：

本文的關鍵在於：分類網絡中的全連接層可以看作是使用卷積核遍歷整個輸入區域的卷積操作。

這相當於在重疊的輸入圖像塊上評估原始的分類網絡，但是與先前相比計算效率更高，因為在圖像塊重疊區域，共享計算結果。

儘管這種方法並不是這篇文章中所特有的，還有一篇關於overfeat的文章也使用了這種思想，但是確實顯著提高了在VOC2012數據集上的實際效果。

△用卷積運算實現的全連接層結構

在將VGG等預訓練網絡模型的全連接層卷積化之後，由於CNN網絡中的池化操作，得到的特徵圖譜仍需進行上採樣。

反卷積層在進行上採樣時，不是使用簡單的雙線性插值，而是通過學習實現插值操作。此網絡層也被稱為上卷積、完全卷積、轉置卷積或是分形卷積。

然而，由於在池化操作中丟失部分信息，使得即使加上反卷積層的上採樣操作也會產生粗糙的分割圖。因此，本文還從高解析度特性圖譜中引入了跳躍連接方式。

分值	評論	來源
62.2	無	排行榜
67.2	增大動量momentum(原文未描述)	排行榜

△FCN網絡在VOC2012上測試的基準分值

個人評論：

本文的研究貢獻非常重要，但是最新的研究已經很大程度地改進了這個結果。

SegNet

論文：

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

於2015年11月2日提交到arvix

https://arxiv.org/abs/1511.00561

主要貢獻：

將最大池化指數轉移至解碼器中，改善了分割解析度。

具體解釋：

在FCN網絡中，通過上卷積層和一些跳躍連接產生了粗糙的分割圖，為了提升效果而引入了更多的跳躍連接。

然而，FCN網絡僅僅複製了編碼器特徵，而Segnet網絡複製了最大池化指數。這使得在內存使用上，SegNet比FCN更為高效。

△SegNet網絡結構

△SegNet在VOC2012上測試的基準分值

個人評論：

FCN網絡和SegNet網絡都是最先出現的編碼器-解碼器結構，但是SegNet網絡的基準分值還不能滿足可實際使用的需求。

空洞卷積

論文：

Multi-Scale Context Aggregation by Dilated Convolutions

於2015年11月23日提交到arvix

https://arxiv.org/abs/1511.07122

主要貢獻：

具體解釋：

池化操作增大了感受野，有助於實現分類網絡。但是池化操作在分割過程中也降低了解析度。

因此，該論文所提出的空洞卷積層是如此工作的：

△空洞卷積示意圖

空洞卷積層在不降低空間維度的前提下增大了相應的感受野指數。

在接下來將提到的DeepLab中，空洞卷積被稱為多孔卷積(atrous convolution)。

從預訓練好的分類網絡中(這裡指的是VGG網絡)移除最後兩個池化層，而用空洞卷積取代了隨後的卷積層。

特別的是，池化層3和池化層4之間的卷積操作為空洞卷積層2，池化層4之後的卷積操作為空洞卷積層4。

這篇文章所提出的背景模型(frontend module)可在不增加參數數量的情況下獲得密集預測結果。

這篇文章所提到的背景模塊單獨訓練了前端模塊的輸出，作為該模型的輸入。該模塊是由不同擴張程度的空洞卷積層級聯而得到的，從而聚集多尺度背景模塊並改善前端預測效果。

分值	評論	來源
71.3	前端	空洞卷積論文
73.5	前端+背景	同上
74.7	前端+背景+ CRF	同上
75.3	前端+背景+ CRF - RNN	同上

△空洞卷積在VOC2012上測試的基準分值

個人評論：

需要注意的是，該模型預測分割圖的大小是原圖像大小的1/8。這是幾乎所有方法中都存在的問題，將通過內插方法得到最終分割圖。

DeepLab(v1和v2)

論文1：

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

於2014年12月22日提交到Arvix

https://arxiv.org/abs/1412.7062

論文2：

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

於2016年6月2日提交到Arxiv

https://arxiv.org/abs/1606.00915

主要貢獻：

具體解釋：

空洞卷積在不增加參數數量的情況下增大了感受野，按照上文提到的空洞卷積論文的做法，可以改善分割網絡。

我們可以通過將原始圖像的多個重新縮放版本傳遞到CNN網絡的並行分支(即圖像金字塔)中，或是可使用不同採樣率(ASPP)的多個並行空洞卷積層，這兩種方法均可實現多尺度處理。

我們也可通過全連接條件隨機場實現結構化預測，需將條件隨機場的訓練和微調單獨作為一個後期處理步驟。

△DeepLab2網絡的處理流程

分值	評論	來源
79.7	ResNet-101 + 空洞卷積 + ASPP + CRF	排行榜

△DeepLab2網絡在VOC2012上測試的基準分值 RefineNet

論文：

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

於2016年11月20日提交到Arxiv

https://arxiv.org/abs/1611.06612

主要貢獻：

帶有精心設計解碼器模塊的編碼器-解碼器結構；
所有組件遵循殘差連接的設計方式。

具體解釋：

使用空洞卷積的方法也存在一定的缺點，它的計算成本比較高，同時由於需處理大量高解析度特徵圖譜，會佔用大量內存，這個問題阻礙了高解析度預測的計算研究。

DeepLab得到的預測結果只有原始輸入的1/8大小。

所以，這篇論文提出了相應的編碼器-解碼器結構，其中編碼器是ResNet-101模塊，解碼器為能融合編碼器高解析度特徵和先前RefineNet模塊低解析度特徵的RefineNet模塊。

△RefineNet網絡結構

每個RefineNet模塊包含一個能通過對較低解析度特徵進行上採樣來融合多解析度特徵的組件，以及一個能基於步幅為1及5×5大小的重複池化層來獲取背景信息的組件。

這些組件遵循恆等映射的思想，採用了殘差連接的設計方式。

△RefineNet模塊

分值	評論	來源
84.2	CRF + 多維度輸入 + COCO預訓練	排行榜

△RefineNet網絡在VOC2012上測試的基準分值 PSPNet

論文：

Pyramid Scene Parsing Network

於2016年12月4日提交到Arxiv

https://arxiv.org/abs/1612.01105

主要貢獻：

提出了金字塔池化模塊來聚合背景信息；
使用了附加損失(auxiliary loss)。

具體解釋：

全局場景分類很重要，由於它提供了分割類別分布的線索。金字塔池化模塊使用大內核池化層來捕獲這些信息。

和上文提到的空洞卷積論文一樣，PSPNet也用空洞卷積來改善Resnet結構，並添加了一個金字塔池化模塊。該模塊將ResNet的特徵圖譜連接到並行池化層的上採樣輸出，其中內核分別覆蓋了圖像的整個區域、半各區域和小塊區域。

在ResNet網絡的第四階段(即輸入到金字塔池化模塊後)，除了主分支的損失之外又新增了附加損失，這種思想在其他研究中也被稱為中級監督(intermediate supervision)。

△PSPNet網絡結構

分值	評論	來源
85.4	COCO預訓練，多維度輸入，無CRF方法	排行榜
82.6	無COCO預訓練方法，多維度輸入，無CRF方法	PSPNet論文

△PSPNet網絡在VOC2012上測試的基準分值大內核

論文：

Large Kernel Matters — Improve Semantic Segmentation by Global Convolutional Network

於2017年3月8日提交到Arxiv

https://arxiv.org/abs/1703.02719

主要貢獻：

提出了一種帶有大維度卷積核的編碼器-解碼器結構。

具體解釋：

這項研究通過全局卷積網絡來提高語義分割的效果。

語義分割不僅需要圖像分割，而且需要對分割目標進行分類。在分割結構中不能使用全連接層，這項研究發現可以使用大維度內核來替代。

採用大內核結構的另一個原因是，儘管ResNet等多種深層網絡具有很大的感受野，有相關研究發現網絡傾向於在一個小得多的區域來獲取信息，並提出了有效感受野的概念。

大內核結構計算成本高，且具有很多結構參數。因此，k×k卷積可近似成1×k＋k×1和k×1＋1×k的兩種分布組合。這個模塊稱為全局卷積網絡(Global Convolutional Network, GCN)。

接下來談結構，ResNet(不帶空洞卷積)組成了整個結構的編碼器部分，同時GCN網絡和反卷積層組成了解碼器部分。該結構還使用了一種稱作邊界細化(Boundary Refinement，BR)的簡單殘差模塊。

△GCN網絡結構

分值	評論	來源
82.2	-	詳情見本論文
83.6	改進訓練過程，未在本文中詳細描述	排行榜

△GCN網絡在VOC2012上測試的基準分值 DeepLab v3

論文：

Rethinking Atrous Convolution for Semantic Image Segmentation

於2017年6月17日提交到Arxiv

https://arxiv.org/abs/1706.05587

主要貢獻：

具體解釋：

與在DeepLab v2網絡、空洞卷積中一樣，這項研究也用空洞卷積/多空卷積來改善ResNet模型。

這篇論文還提出了三種改善ASPP的方法，涉及了像素級特徵的連接、加入1×1的卷積層和三個不同比率下3×3的空洞卷積，還在每個並行卷積層之後加入了批量歸一化操作。

級聯模塊實際上是一個殘差網絡模塊，但其中的空洞卷積層是以不同比率構建的。這個模塊與空洞卷積論文中提到的背景模塊相似，但直接應用到中間特徵圖譜中，而不是置信圖譜。置信圖譜是指其通道數與類別數相同的CNN網絡頂層特徵圖譜。

該論文獨立評估了這兩個所提出的模型，嘗試結合將兩者結合起來並沒有提高實際性能。兩者在驗證集上的實際性能相近，帶有ASPP結構的模型表現略好一些，且沒有加入CRF結構。

這兩種模型的性能優於DeepLabv2模型的最優值，文章中還提到性能的提高是由於加入了批量歸一化層和使用了更優的方法來編碼多尺度背景。

△DeepLabv3 ASPP結構

分值	評論	來源
85.7	使用了ASPP結構，且不帶有級聯模塊	排行榜

△DeepLabv3 ASPP結構在VOC2012上測試的基準分值

原文地址：

http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review

【完】

一則通知

量子位讀者5群開放申請，對人工智慧感興趣的朋友，可以添加量子位小助手的微信qbitbot2，申請入群，一起研討人工智慧。

另外，量子位大咖雲集的自動駕駛技術群，僅接納研究自動駕駛相關領域的在校學生或一線工程師。申請方式：添加qbitbot2為好友，備註「自動駕駛」申請加入~

招聘

量子位正在招募編輯/記者等崗位，工作地點在北京中關村。相關細節，請在公眾號對話界面，回覆：「招聘」。

追蹤人工智慧領域最勁內容返回搜狐，查看更多

責任編輯：

語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab

相關焦點

谷歌開源語義圖像分割模型:該領域當前最優模型

DeepLabv1 & DeepLabv2 - 空洞卷積(語義分割)

從全卷積網絡到大型卷積核:深度學習的語義分割全指南

2019 語義分割指南

谷歌通過深度度量學習,提出新的語義實例分割方法

入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些

圖像分割系列<->語義分割

DeepLab系列

如何用PyTorch進行語義分割?一個教程教會你

語義分割概念及應用介紹

100個深度圖像分割算法,紐約大學UCLA等最新綜述論文

「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理

韓國科學技術院在讀博士潘飛:語義分割場景中域適應問題的研究 |...

光學精密工程 | 實例特徵深度鏈式學習全景分割網絡

CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割

語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割

CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN

DeepLabv3+:語義分割領域的新高峰

語義分割標註工具Semantic Segmentation Editor 快速安裝指南

MMSegmentation:標準統一的語義分割框架