浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結

2020-12-06 雷鋒網

雷鋒網AI科技評論按:圖像語義分割是 AI 領域中一個重要的分支,是機器視覺技術中關於圖像理解的重要一環。近年的自動駕駛技術中,也需要用到這種技術。車載攝像頭探查到圖像,後臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。

在近期雷鋒網 GAIR 大講堂上,來自浙江大學的在讀博士生劉漢唐為等候在直播間的同學們做了一場主題為「圖像分割的經典算法」的技術分享,本文根據直播分享內容整理而成,同學們如果對嘉賓所講的內容感興趣還可以在 AI 慕課學院觀看直播回放。(技術細節推薦觀看視頻回放)

劉漢唐,浙江大學計算機系博士生在讀,阿里巴巴 iDST 實習生。研究方向是計算機視覺、深度學習。個人公眾號是:賈維斯的日常(jarvisdaily)。

分享提綱

  1. 圖像分割的問題定義,以及在實際場景中的應用樣例

  2. 全卷積網絡

  3. 雙線性上採樣

  4. 特徵金字塔

  5. Mask-RCNN

大家好,我是浙江大學在讀博士生劉漢唐,目前在阿里巴巴 iDST 實習。接下來的分享首先會為大家介紹圖像分割具體是做什麼的,圖像分割有哪些應用場景以及做圖像分割實驗經常用到的幾個數據集。

最後再講解圖像分割的幾個方法。分為兩個部分,第一部分是傳統視覺的圖分割算法,雖然現在很少用,但自認為算法比較優美。第二部分是深度學習算法,會介紹最近幾年流行的經典技巧。

什麼是圖像分割?

圖像分割就是預測圖像中每一個像素所屬的類別或者物體。圖像分割有兩個子問題,一個是只預測類別層面的分割,對每個像素標出一個位置。第二個是區分不同物體的個體。

應用場景,比如自動駕駛,3D 地圖重建,美化圖片,人臉建模等等。

最常用的數據集

主要介紹三個:Pascal VOC;CityScapes;MSCOCO。

第一個是 Pascal VOC 數據集

這是一個比較老牌的數據集,它提供 20 個類別,包括,人,車等。有 6929 張標註圖片,提供了類別層面的標註和個體層面的標註,也就是說既可以做語義分割,只區分是不是車;也可以做個體分割,區分有幾輛車,把不同的車標記出來。

第二個是CityScapes數據集

主要面向道路駕駛場景,它有 30 個精細的類別。其中有 5000 張圖片進行了精細標註,精確到像素級別。還有 20000 張圖片有粗糙的標註。它也可以提供語義層面分割和個體層面分割。

第三個是MS COCO數據集

這是目前為止有語義分割的最大數據集,提供的類別有 80 類,有超過 33 萬張圖片,其中 20 萬張有標註,整個數據集中個體的數目超過 150 萬個,最新的一些論文都會在 MSCOCO 數據集上做實驗,因為它的難度最大,挑戰新最高。

傳統的圖切割

圖切割就是移除一些邊,使得兩個子圖不相連;圖切割的目標是,找到一個切割,使得移除邊的和權重最小。

圖切割的優點和缺點

優點是分割效果還不錯,並且是一種普適性的框架 ,適合各種特徵。缺點是時間複雜度和空間複雜度較高,需要事先選取分割塊兒的數目。

圖切割的失敗案列

為了克服這個失敗,有一篇論文提出了 Normalized Cut。它是在圖分割中加入權重參數 Volume。Volume(A) 是 A 中所有邊的權重之和。這種方法平衡了每一個子圖的大小。

深度學習算法

第一篇比較成功用神經網絡做圖像分割的論文是 Fully Convolutional Networks (以下簡稱為 FCN)。

傳統神經網絡做分類的步驟是,首先是一個圖像進來之後經過多層卷積得到降維之後的特徵圖,這個特徵圖經過全連接層變成一個分類器,最後輸出一個類別的向量,這就是分類的結果。

而 FCN 是把所有的全連接層換成卷基層,原來只能輸出一個類別分類的網絡可以在特徵圖的每一個像素輸出一個分類結果。這樣就把分類的向量,變成了一個分類的特徵圖。

為了能讓分類的特徵圖恢復到原圖的大小,採用了上採樣層。具體細節可觀看視頻回放。

FCN的結構圖

下面介紹一下怎麼進行圖片放大操作的。

這裡有兩個概念,第一個概念叫反卷積層(Deconvolution);第二個概念叫雙線性差值上採樣(Bilinear Upsampling)。

這裡的「反卷積」其實不是真正的卷積的逆運算,用 Transposed Convolution 代替比較合適,但原論文中用的是 Deconvolution,我們下面還是用這個詞,它可以等效於普通卷積。它的主要目的就是實現上採樣。


反卷積具體是怎麼計算的,詳細過程可到AI慕課學院免費觀看視頻回放。

下面講一下Padding和Stride。

Padding和Stride實際指的是普通卷積,而不是反卷積等效的普通卷積。

雙線性上採樣差

雙線性上採樣差值的三個用途:用作初始化反卷積的權重;不用反卷積,使用上卷積+卷積;只使用上採樣。

下面介紹膨脹卷積或帶洞卷積(Dilated Convolution )

它的用途可以使特徵圖視野變大,但不增加計算量,對於圖像分割的好處,更利於提取全局信息,這樣就使得分割準確率增加很多。

特徵金字塔(Feature Pyramid)

有以下幾種特徵金字塔

特徵金字塔網絡

Pyramid Pooling 

前面的是在不同的尺度上提取特徵,而這個是把特徵提取之後pooling到不同的大小。

Mask-RCNN的特點

第一個特點它是多分支輸出的。它同時輸出物體的類別,bounding box和Mask。

第二個特點是它使用了Binary Mask。之前神經網絡都是使用多類Mask,而它只需要判斷物體在哪個地方。

最後是RoiAlign層。能比較精確地把物體的位置對應到特徵圖的位置上。

具體講解細節請觀看免費的直播回放視頻。

Rol Pooling 與Roi Align的比較

雷鋒網(公眾號:雷鋒網)AI 慕課學院提供本次直播回放視頻,點擊連結直達:http://www.mooc.ai/course/414/learn#lesson/2266。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 「GAIR 大講堂」大牛、學霸們的精華分享一次看個夠 | 年度盤點
    CVPR清華專場回顧內容簡介:段嶽圻(清華大學自動化系三年級博士生 )分享的論文題目是:Learning Deep Binary Descriptor with Multi-Quantization 。 他分別從四個方面介紹了他的論文研究:背景介紹,文章方法,實驗結果,參會心得。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    圖像分割(Image Segmentation)是計算機視覺的經典問題之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。在前深度學習時代有大量的方法提出,比如分水嶺、GraphCut等。隨著深度學習的興起,大量的算法提出如R-CNN、Mask-RCNN等。
  • 分享一個PyTorch醫學圖像分割開源庫
    分享一位52CV粉絲Ellis開發的基於PyTorch的專注於醫學圖像分割的開源庫,其支持模型豐富,方便易用。其可算為torchio的一個實例,作者將其綜合起來,包含眾多經典算法,實用性比較強。地址在這裡:https://github.com/MontaEllis/Pytorch-Medical-Segmentation該庫特點:支持2D和3D醫學圖像分割,可以修改hparam.py文件來確定是2D分割還是3D分割以及是否可以進行多分類
  • 如何提高交互式圖像分割算法的效率?
    現有的交互式圖像分割算法雖然能迭代式地更新分割結果,但很大程度上忽略了對連續交互之間動態性的探索,造成分割效率大大降低。在 CVPR 2020 的一篇論文中,來自上海交大和華師大的團隊聯合提出了一種基於多智能體深度強化學習(MARL)的新型交互式三維醫療圖像分割算法(IteR-MRL)。
  • 腦部MR圖像的Sigma-IFCM分割算法分析
    圖像分割是把圖像分割成互不相交的區域,使每個區域內的像素具有某種相似的特徵,以便對圖像進行後續處理。圖像分割是圖像分析的難點之一,至今沒有一個通用且有效的圖像分割方法能夠滿足不同的需求。在腦部MR圖像分析中該問題尤為突出。 在諸多的圖像分割算法中,模糊C均值(FCM)分割算法是目前應用最廣泛的分割算法之一。最早由Dunn提出,後經Bezdek改進。
  • 基於Sigma-IFCM分割算法的腦部MR圖像
    本文引用地址:http://www.eepw.com.cn/article/199482.htm在諸多的圖像分割算法中,模糊C均值(FCM)分割算法是目前應用最廣泛的分割算法之一。最早由Dunn提出,後經Bezdek改進。由於模糊集理論對圖像的不確定性有較好的描述能力,因此FCM算法在醫學圖像分割中取得了良好的分割效果。最早把FCM算法用於醫學腦部圖像分割的是LiC L等人。
  • 計算機視覺:圖像檢測和圖像分割有什麼區別?
    當前用於目標檢測的最佳模型 YOLOFaster RCNN圖像分割-預測掩模一步一步地掃描圖像的邏輯替代方法是遠離畫框,而是逐像素地注釋圖像。如果你這樣做,你將會有一個更詳細的模型,它基本上是輸入圖像的一個轉換。如何理解圖像分割方法?
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • 阿里文娛資深算法專家:視頻物體分割算法的三個方向與最新應用
    機器之心專欄作者:阿里巴巴資深算法專家任海兵在此文章中,阿里巴巴資深算法專家為我們介紹了視頻物體分割的三個研究方向,然後結合阿里文娛摩酷實驗室的探索,分享了他們在視頻領域的最新應用。視頻物體分割(Video Object Segmentation,簡稱 VOS),顧名思義就是從視頻所有圖像中把感興趣的物體區域完整的分割出來。
  • OpenCV圖像處理專欄十五 |《一種基於亮度均衡的圖像閾值分割技術》
    前言對於光照不均勻的圖像,用通常的圖像分割方法不能取得滿意的效果。為了解決這個問題,論文《一種基於亮度均衡的圖像閾值分割技術》提出了一種實用而簡便的圖像分割方法。該方法針對圖像中不同亮度區域進行亮度補償,使得整個圖像亮度背景趨於一致後,再進行常規的閾值分割。實驗結果表明,用該方法能取得良好的分割效果。
  • 微軟最新AR專利分享介紹了『全息圖像分割』技術
    這種將圖像分割為前景和背景的過程稱為圖像分割。圖像分割包括將圖像元素標記為前景或背景圖像元素。這在數字攝影、醫學圖像分析、全息圖構造、虛擬實境應用、以及其他應用領域都十分有用,因為它有助於在圖像中確定目標對象與圖像背景之間的邊界。然後,提取的對象和背景可以分開並進行不同的處理。
  • 基於顏色特徵與直方圖閾值相結合的田間青椒圖像分割算法
    由於機器人採集的圖像受到自然光的影響,青椒果實表面與其周圍葉片等環境存在一定的差別, 目前常用的圖像分割方法有兩種:利用圖像的顏色特徵進行分割以及利用BP神經網絡對圖像進行分割。本文經過對青椒果實的顏色因子和青椒葉子的顏色因子分析發現,通過RGB顏色因子G與B的差值和G與R的差值的疊加可以將青椒從其背景中有效分割出來。1 圖像的採集 (1)採集時間:圖像獲取的時間,應根據青椒作物的生長狀況和生長規律而定,選擇青椒有較明顯特徵時進行拍攝。
  • 一文概述用 python 的 scikit-image 模塊進行圖像分割
    而圖像分割是圖像處理中非常重要的一個步驟,它是把圖像分成若干個特定的、具有獨特性質的區域,並提取出感興趣目標的技術。近日,工程師 Parul Pandey 發表了一篇博文,在博文中,她介紹了用 python 的 scikit-image 庫進行圖像分割的方法。具體涉及 scikit-image 的安裝,圖像導入以及用監督算法和無監督算法進行圖像分割的方法。
  • 西北工業大學夏勇教授課題組博士生在醫學圖像計算頂級會議MICCAI...
    該會議是醫學影像人工智慧領域的國際頂級會議,除了展示領域內最新研究成果外,還因舉辦面向各種醫學圖像智能分析場景的國際挑戰賽而受到全球研究者和業界的廣泛關注。西北工業大學計算機學院的空天地海一體化大數據應用技術國家工程實驗室夏勇教授課題組博士生賈灝哲在大腦膠質瘤分割挑戰賽(BraTS 2020)獲得國際亞軍,博士生張建鵬在基於多序列CMR的心肌病理分割挑戰賽(MyoPS 2020)獲得國際季軍。
  • 2020入坑圖像分割,我該從哪兒入手?
    初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標籤標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標籤進行標註(下圖右)。
  • CNN 在基於弱監督學習的圖像分割中的應用
    最近基於深度學習的圖像分割技術一般依賴於卷積神經網絡 CNN 的訓練,訓練過程中需要非常大量的標記圖像,即一般要求訓練圖像中都要有精確的分割結果。對於圖像分割而言,要得到大量的完整標記過的圖像非常困難,比如在 ImageNet 數據集上,有 1400 萬張圖有類別標記,有 50 萬張圖給出了 bounding box, 但是只有 4460 張圖像有像素級別的分割結果。對訓練圖像中的每個像素做標記非常耗時,特別是對醫學圖像而言,完成對一個三維的 CT 或者 MRI 圖像中各組織的標記過程需要數小時。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    CIFAR-100 50k訓練圖像、10k測試圖像、100個類別、圖像大小3×32×32。ImageNet 1.2M訓練圖像、50k驗證圖像、1k個類別。2017年及之前,每年會舉行基於ImageNet數據集的ILSVRC競賽,這相當於計算機視覺界奧林匹克。(2) 圖像分類經典網絡結構基本架構 我們用conv代表卷積層、bn代表批量歸一層、pool代表匯合層。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    圖像分割計算機視覺任務的核心是分割(Segmentation)處理,它將整幅圖片分割成可被標記和分類的像素組。在此基礎上,語義分割(Semantic Segmentation)則更進了一步,它試圖從語義上去理解一幅圖像中每個像素扮演的角色。比如:一個圖像中出現的是一隻貓還是汽車,還是其它類別的事物。
  • 突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割...
    牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
  • 全方位解讀全景分割技術, 曠視冠軍團隊最新分享
    ,全景分割算法 OANet 第一作者,研究方向包括全景分割、語義分割等。前言在計算機視覺中,圖像語義分割(Semantic Segmentation)的任務是預測每個像素點的語義類別;實例分割(Instance Segmentation)的任務是預測每個實例物體包含的像素區域。