深度 | 一文介紹3篇無需Proposal的實例分割論文

2021-03-01 機器之心

選自Medium

作者:Bar Vinograd

機器之心編譯

參與:Nurhachu Null、黃小天

本文解析了實例分割領域中的三篇論文,它們不同於主流的基於 proposal 和 Faster-RCNN 的方法,比如 Mask R-CNN、MaskLab 以及最新的 PANet,後者在多個數據集(CityScapes、COCO 以及 MVD)上實現了當前最優的結果。

基於 proposal 的實例分割架構存在三個根本缺陷。首先,兩個物體可能共享同一個或者非常相似的邊界框。在這種情況中,mask head 無法區分要從邊界框中拾取的對象。這對於其所在邊界框中具有低填充率的線狀物體(例如自行車和椅子)而言是非常嚴重的問題。第二,架構中沒有任何能夠阻止兩個實例共享像素的東西存在。第三,實例的數量通常受限於網絡能夠處理的 proposal 的數量(通常為數百個)。

Mask R-CNN 的架構

此外,這種架構很複雜,難以調節和「調試」。在這個問題的前身目標檢測中,已經成功使用了更簡單的單階段架構,比如 RetinaNet。

使用了實例嵌入之後,每個對象在 N 維空間中被分配了一個「顏色」。網絡處理圖像,並產生與輸入圖像相同大小的密集輸出。網絡輸出中的每一個像素都是嵌入空間中的一個點。屬於同一對象的點在嵌入空間中是比較接近的,而屬於不同類別的點在嵌入空間中是遠離的。解析圖像嵌入空間會涉及到一些聚類算法。

論文 1: Semantic Instance Segmentation with a Discriminative Loss Function(基於判別損失函數的語義實例分割)

作者:Bert De Brabandere、Davy Neven、Luc Van Gool

可視化對比損失

損失函數。這篇論文使用的對比損失由三部分組成:

(1)拉力。懲罰同一實例中所有元素與其平均值之間的距離。也就是說,獲取一個實例的所有像素,並計算平均值。這種拉力會將同一實例中的所有像素點拉近到嵌入空間中的同一個點。簡單說,就是減少每一個實例的嵌入方差。

(2)推力。獲取所有中心點 (在嵌入空間中,而不是空間中心),然後將它們推得更遠。

(3)正則化。中心點不應該離原點太遠。

這裡使用的α和β值都是 1,γ則被設置為 0.001。兩個δ都是拉力和推力的閾值。

解析:在獲得語義分割圖 ( 車、狗、計算機、…) 之後,我們將每個類掩碼細分為實例。這是通過在語義掩碼中拾取隨機未分配點并迭代地應用均值偏移算法來找到實例的均值點來實現的。

平均值的第一個假設是最初拾取的隨機像素的嵌入。然後圍繞該點 (在嵌入空間中) 擴展一組點,然後再次計算它們的平均值,並且重複該過程直到平均值的變化不顯著。根據我的經驗,算法只需不超過 10 次迭代就能收斂。大多數時候 3 - 4 次迭代就足夠了。

用於在嵌入空間中展開實例掩碼的半徑與拉閾值是相同的。理論上,如果測試誤差為 0,並且中心之間的最小距離至少是方差分量的拉閾值的兩倍,我們可以使用這些閾值來解析圖像。距離不大於拉閾值的所有點都應屬於同一實例。由於測試誤差幾乎從不為零,因此均值偏移算法被用來來尋找嵌入的高密度部分的中心。

視頻連結:https://www.youtube.com/watch?v=hJg7ik4x95U

這種跟蹤過程在二維嵌入空間中的良好可視化,其中集合的模式,以及密度的峰值,最終都被找到。

誤差來源

這些結果展示了 Cityscapes 數據集中大多數誤差的來源。如果語義分割不是預測出來的,而是使用了真實標籤,AP50 的結果從 40.2 跳到 58.5。如果實際的中心點也被使用了,而且沒有使用 mean-shift 做估計,那麼,得分幾乎會額外增長 20,最終達到 77.8。目前最先進的結果是使用 PANet 在 COCO 數據集上在未使用預訓練的情況下達到 57.1(參考 https://www.cityscapes-dataset.com/benchmarks/)。這與使用語義分割的真實值的結果是一樣的。我們知道,嵌入本身就是相當好的。

實例嵌入

下面是一個實例嵌入的例子,通過網絡實際訓練得到。它被用於解決 Data Science Bowl 2018 中提出的問題,它目前由 Kaggle 運營,目的是尋找醫療圖像中的細胞核。

左上角是原始圖像。中上部分的圖像是語義分割(這裡只有背景和前景兩類)。其餘是嵌入空間中 64 個通道中的前 7 個通道。從潛入中可以明顯看出,網絡學到了在空間上區分細胞核的通道。以對角線或者水平編碼為例。一些將圖像中心的距離進行編碼。然而,在實例內部,顏色是均勻的。這給我們提供了一些關於網絡學習分割實例的洞見。

論文 2:Semantic Instance Segmentation via Deep Metric Learning(基於深度度量學習的實例語義分割)

作者:Alireza Fathi、Zbigniew Wojna、Vivek Rathod、Peng Wang、Hyun Oh Song、Sergio Guadarrama、Kevin P. Murphy 

論文地址:https://arxiv.org/abs/1703.10277

基於深度度量學習的語義實例分割一文中所提出的網絡架構

這篇論文的主要貢獻是為每個像素學習種子得分。這個分數告訴我們像素是否是擴展 mask 的良好候選。上篇論文中,種子是隨機選擇的,然後使用均值漂移算法(mean-shift algorithm)對中心進行細化。然而這裡只進行了一次擴展。

將所有類別和帶寬上的最大值作為種子得分。

這篇論文建議為每個像素學習幾個可能的種子。我們為嵌入空間中的每個半徑和每一個類別都學習了一個種子。因此,如果我們有 C 個類別和 T 個帶寬(半徑),那麼每個像素就有 C×T 個種子「候選」。而對於每一個像素而言,只有得分最高的種子會被考慮。

嵌入損失:在這篇論文中,使用像素對懲罰嵌入。我們一併考慮來自同一實例和不同實例的像素對。

嵌入空間中的一個 logistic 距離函數

這篇論文使用了一個修正版的 logistic 函數,它能夠將嵌入空間中的歐氏距離變換到 [0,1] 區間。嵌入空間中比較接近的像素對會被分配一個接近於 1 的數值,比較遠離的像素對會被分配一個接近於 0 的數值。

自然,對數損失也被用作一個損失函數。實例的大小可能會變化,因此,為了緩解這種不平衡問題,像素對會根據所屬實例的大小進行加權。

基於像素對之間的 logistic 距離的對數損失

種子損失:對於每個像素,模型學習幾個種子得分。這是一個由帶寬 (嵌入空間中的半徑) 和類別組合而成的分數。由於種子評分接近但不同於語義分割,因此每次評估嵌入時都確定每個種子評分的基本真實性。mask 圍繞像素的嵌入展開,並且如果具有基本事實實例的 IoU 超過某個閾值,則該像素被認為是實例的類別種子。損失函數將會為這個類別懲罰一個較低的種子得分。

種子損失

在每一個批量中,每幅圖像僅評估大約 10 個種子,並且是隨機選取的。學習幾個這樣的模型,每個帶寬一個。帶寬越寬,對象越大。在某種程度而言,接收最高得分的帶寬就是模型將它的估計傳達給實例大小 (相對於嵌入空間中的距離) 的方式。

訓練過程。本文基於 COCO 數據集預訓練的 ResNet-101 作為主幹。訓練從沒有分類/種子預測開始,也就是說λ為 0,並且隨著嵌入的穩定發展,更新到 0.2。

以不同尺度 ( 0.25,0.5,1,2 ) 對主幹進行評價,並將評價結果反饋給種子和嵌入頭。

解析:學習到種子之後,程序就很直接了當了。提出了一種圖像最佳種子集的選取方法。它一方面優化了高種子得分,另一方面優化了嵌入空間的多樣性。

迭代地選擇種子,每個新種子被選擇為在嵌入空間中遠離先前選擇的種子。所選擇的第一種子是圖像中種子得分最高的像素。第二個將會是既具有高種子得分,另一方面又會在嵌入空間中不太接近的種子。使用參數α控制兩個要求之間的平衡。α需要被調節,對此參數測試的範圍在 0.1 和 0.6 之間。與 NMS 不同,這裡所用的方法鼓勵嵌入空間的多樣性,而不僅僅是空間多樣性。

基於深度度量學習的語義實體分割的一些結果

論文 3: Recurrent Pixel Embedding for Instance Grouping(用於實例分組的遞歸像素嵌入)

作者:Shu Kong、Charless Fowlkes

這篇論文提出了在 n 球面上進行嵌入,並利用餘弦距離來度量像素的接近程度。然而,本文的主要貢獻是基於高斯模糊均值偏移 ( GBMS ) 算法的改進版本的遞歸分組模型。

GBMS 是一種迭代算法,類似於第一篇論文中用於尋找實例中心的簡單均值漂移算法。在這個版本中,所有像素被認為是潛在的種子。所有像素在每次迭代中相對於它們周圍的密度被更新。向「重心」移動,就好像圖像的嵌入空間是一個產生行星的星雲。距離越遠,對彼此的影響就越小。距離由高斯的帶寬控制,這是標準差,從下面的算法中可以清楚地看出。

GBMS 中存在三次收斂保證,因此在應用多次變換之後,最終我們應該得到非常密集、幾乎呈點狀的聚類。有關 GBMS 更多信息,請參見:http://www.cs.cmu.edu/~aarti/SMLRG/miguel_slides.pdf。

為了將該算法引入到網絡中,它已經被使用矩陣運算來表達了。

簡單地應用上述算法是沒有意義的,因為嵌入在球體上,並且它們的接近度使用餘弦變換來測量。描述所有點之間距離的接近度矩陣可以使用以下的變換來計算:

測量球體上的距離,而不是使用 L2 範數。此外,在應用 GBMS 步驟之後,需要對生成的嵌入進行規範化,以便它們位於單位球體上。

訓練:使用了像素對的損失,與前一篇論文類似,其閾值為所需的不同對 (α) 的距離。每個像素對都使用校準的餘弦距離來衡量,它的變化範圍是 [0,1],而不是 [-1,1]。

校準餘弦距離

損失通過循環分組模型的每個應用被反向傳播。以後的應用階段只會出現非常困難的情況。作者以快速 RCNN 訓練中的硬否定挖掘為例,比較了這一性質。

用於實例分組的遞歸像素嵌入所使用的損失函數

作者在文中使用的α值為 0.5。請注意,實例的大小用於重新平衡大小實例之間的損失。

解析:在分組模塊的幾個應用之後,聚類應該非常密集,隨機挑選值應該產生足夠好的種子。

出於實際目的,僅使用 GBMS 步驟中的一些像素是有意義的,因為計算相似性矩陣可能是極其昂貴的。所採用的像素量是速度/精度的折衷考慮。

其他方法

實例嵌入並不是基於網絡的唯一推薦方法。這裡還有一切涉及解決實例分割中的問題的其他方法的論文,

基於循環注意力機制的端到端實例分割(End-to-End Instance Segmentation with Recurrent Attention): https://arxiv.org/abs/1605.09410

用於實例分割的深分水嶺變換(Deep Watershed Transform for Instance Segmentation):https://arxiv.org/abs/1611.08303

聯合嵌入:用於聯合檢測和分組的端到端學習(Associative Embedding: End-to-End Learning for Joint Detection and Grouping):http://ttic.uchicago.edu/~mmaire/papers/pdf/affinity_cnn_cvpr2016.pdf

SGN:用於實例分割的序列分組網絡(SGN: Sequential Grouping Networks for Instance Segmentation):https://www.cs.toronto.edu/~urtasun/publications/liu_etal_iccv17.pdf

總結

與基於 proposal 的解決方案相比,這些論文的結果並沒有競爭力。我們論述了三篇關於損失函數和解析的解決方法。

(1)基於判別損失函數的語義實例分割

使用了非成對的損失函數。使用圖像中所有像素產生了特別豐富的梯度。

(2)基於深度度量學習的實例語義分割

引入了種子模型,同時幫助我們分類並拾取最佳種子,做了速度優化。

(3)用於實例分組的遞歸像素嵌入

GBMS 是均值漂移的一種變體,在網絡內部用於訓練和解析。創建了非常密集的聚類。

這些方法能夠結合起來使用,以產生更好的結果。它們比基於 proposal 的方法更簡單,也可能更快,同時避免了基於 proposal 的實例分割架構存在的三個根本缺陷。

原文連結:https://medium.com/@barvinograd1/instance-embedding-instance-segmentation-without-proposals-31946a7c53e1

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 一文介紹3篇無需Proposal的實例分割論文
    基於深度度量學習的語義實例分割一文中所提出的網絡架構   這篇論文的主要貢獻是為每個像素學習種子得分。這個分數告訴我們像素是否是擴展 mask 的良好候選。
  • CVPR 2020 論文大盤點-實例分割篇
    本文盤點CVPR 2020 所有實例分割(Instance Segmentation)相關論文(語義分割在這裡,不含全景分割、醫學圖像分割、交互式分割等,以上將會另行總結),總計18篇,對文獻進行了分類匯總,希望對大家有幫助。
  • 一文讀懂語義分割與實例分割
    圖像分割技術是目前預測圖像領域最熱門的一項技術,原因在於上述許多計算機視覺任務都需要對圖像進行智能分割,以充分理解圖像中的內容,使各個圖像部分之間的分析更加容易。本文會著重介紹語義分割和實例分割的應用以及原理。
  • 全新視角探究目標檢測與實例分割的互惠關係 | AAAI 2020
    論文對當前目標檢測及實例分割算法的現狀進行了簡要的概述,並對各種方法的優劣進行了簡要的分析,據此提出了一套完整的框架,同時完成目標檢測與實例分割任務,並且兩個任務相互輔助,同時取得了性能的提升。圖中所示結果由 Mask R-CNN 得到,可以看到由於邊界框定位不準導致的實例掩碼缺失((a), (b))及邊界框與實例掩碼不統一的問題((c), (d))。這些問題都可以在這篇論文提出的算法中得到很好的解決。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    論文速遞」,旨在分享計算機視覺相關領域最新的論文,每次推文近數篇論文,只是整理論文最精華的部分「摘要」,所以該主題的文章質量實屬一般。受密集預測網絡在語義分割[24],[28],[31],[6]和實例分割任務[36],[38],[30],[2],[14]等成功的啟發, [5]我們設計了一個多任務網絡分支,包括一個車道分割分支和一個車道嵌入分支,可以進行端到端的訓練。車道分割分支具有兩個輸出類別,即背景或車道,而車道嵌入分支進一步將分段的車道像素分解成不同的車道實例(instance)。
  • 一文詳解圖像分割的主流方法及新思路
    圖像分割是計算機視覺領域的重要任務之一,在醫學圖像分析、視頻監控、遙感圖像處理、工業質檢、場景理解等領域有著廣泛的應用。而隨著深度學習模型在視覺應用中的成功,已有大量的工作致力於利用深度學習模型進行圖像分割,為了幫助大家更好的了解圖像分割,智東西公開課精選了「圖像分割」系列文章。作為本系列的開篇,本文對圖像分割的主流方法及新思路展開介紹。
  • 實例分割算法之Mask RCNN
    論文在此:https://arxiv.org/pdf/1703.06870.pdfMask RCNN是在Faster RCNN基礎上的改進算法
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文<Image Segmentation Using Deep Learning: A Survey>,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。
  • 南加州大學 phd 王薇月:深度學習在點雲分割中的應用 | 分享總結
    2D 圖像的實例分割與物體檢測。SGPN [CVPR 2018]:點雲的實例分割與物體檢測。採集點雲的主要方式就是雷射雷達、深度攝像頭(深度攝像頭採集來的 depth map 可以通過照相機的參數計算出 3D 的點雲)。我們今天的講課專注點雲的分割。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    116600)DOI:摘 要 針對全景分割中實例目標邊緣特徵提取不足導致目標邊界分割失效的問題,提出一種創新的實例特徵深度鏈式學習全景分割網絡。在MS COCO和Cityscapes數據集上的實驗結果表明,本文提出的實例特徵深度鏈式學習全景分割網絡在分割精度上優於現存同類方法,與全景分割網絡常用的Mask RCNN實例分割結構相比,分割準確率最高提升了0.94%。
  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 【論文解讀】Facebook 何凱明 Mask R-CNN 狙擊目標實例分割
    作者:黃瑋來源:全球人工智慧 aicapital  Facebook MaskR-CNN 論文解讀  Facebook人工智慧研究小組提出更簡單靈活和通用的目標實例分割框架MaskR-CNN,文章提出了一種從概念上更簡單、靈活和通用的用於目標實例分割(object instance segmentation)的框架
  • ECCV 2020 論文大盤點-圖像與視頻分割篇
    分割是ECCV 2020 中的熱門關鍵詞,前文已經總結了:ECCV 2020 論文大盤點-語義分割篇
  • Facebook 最新論文:Mask R-CNN實例分割通用框架,檢測,分割和特徵...
    近日, FAIR部門的研究人員在這一領域又有了新的突破——他們提出一種目標實例分割(object instance segmentation)框架Mask R-CNN,該框架較傳統方法操作更簡單、更靈活。研究人員把實驗成果《Mask R-CNN》發布在了arXiv上,並表示之後會開源相關代碼。以下為AI科技評論據論文內容進行的部分編譯。
  • [CVPR 2019] Pose2Seg:檢測免費的人體實例分割
    2019回顧論文「Pose2Seg:Detection Free Human Instance Segmentation」。本文提出了一種人類實例分割的新方法,該方法基於人體姿勢而不是提議區域檢測來分離實例。 本文的一些亮點: 介紹人體姿勢估計和分割是更好地理解人類活動的重要信息。有很多關於這個主題的研究。
  • 突破AI和機器理解的界限,牛津博士論文學習重建和分割3D物體
    今年九月畢業於牛津大學計算機科學系的博士生 Bo Yang 在其畢業論文《Learning to Reconstruct and Segment 3D Objects》中對這一主題展開了研究。與傳統方法不同,作者通過在大規模真實世界的三維數據上訓練的深度神經網絡來學習通用和魯棒表示,進而理解場景以及場景中的物體。
  • ECCV 2020 論文大盤點-語義分割篇
    最近我們在總結ECCV 2020 的論文,分割類論文總計 93 篇,語義分割幾乎佔據半壁江山
  • 實例分割與物體檢測的統一——Mask-RCNN
    深度學習在計算機視覺上的運用主要是卷積神經網絡,必須強調的是卷積神經網絡的應用並不僅僅局限於圖像,在音頻、視頻方面也有不少的應用,甚至NLP中也有使用卷積神經網絡的例子,所以說對AI從業者來說學習這些還是很有好處的。在這篇文章中,我們以Mask-RCNN[1]的發展歷史為線索探討計算機視覺問題中的圖像分割問題以及物體檢測,並最後簡單講解一些我在醫學圖像領域使用Mask-RCNN的例子。
  • 大盤點 | 2020年5篇圖像分割算法最佳綜述
    綜述一【1】使用深度學習進行圖像分割:綜述標題:Image Segmentation Using Deep Learning: A Survey作者:Shervin Minaee最近,由於深度學習模型在各種視覺應用中的成功,已經有大量旨在利用深度學習模型開發圖像分割方法的工作。本文提供了對文獻的全面回顧,涵蓋了語義和實例級分割的眾多開創性作品,包括全卷積像素標記網絡,編碼器-解碼器體系結構,多尺度以及基於金字塔的方法,遞歸網絡,視覺注意模型和對抗環境中的生成模型。
  • 8篇論文深入學習深度估計:深度預測;自我運動學習;觀看《冰雪奇緣...
    :這篇文章介紹了幾篇具有指導意義的論文,助你深入了解何為深度估計。深度估計是一種計算機視覺任務,旨在從2D圖像中估計深度。這個任務輸入RGB圖像,輸出深度圖。深度圖包含了從視圖看圖像中的被攝物體距離的信息。深度估計的應用包括:平滑圖像的模糊部分、更好地渲染3D場景、自動駕駛、機器人抓取、機器人輔助手術、電影中的2D到3D的自動轉換以及3D計算機圖形學中的陰影映射等。在這篇指南中,我們將介紹幾篇通過深度學習來解決這些問題的論文。