完全理解PolarMask-圖像實例分割-anchor free新思路

2020-12-22 百度校園

作者：張澤平來源：人工智慧學習圈

PolarMask在CVPR2020提出，是基於單張2D照片進行實例分割的典範。

Arxiv: https://arxiv.org/abs/1909.13226

Official GitHub: https://github.com/xieenze/PolarMask

突出工作使用加粗標明。

FCOS

PolarMask基於FCOS，全名Fully Convolutional One-Stage Object Detection。實現了在沒有錨點且不被建議的情形下，實現了目標檢測算法。並且提出了Center-Ness的思想，性能表現與目前許多比較主流的基於錨框的目標檢測算法相同，甚至還有提高。

為什麼不使用錨框成為熱點研究方向

錨框首先在Fast R-CNN中提出，後續在許多YOLO等知名目標檢測模型中應用。但錨框有缺點。首先檢測效果和錨框的長寬比、數目有很大關聯，因此人們在努力提高錨框的數量，和最適合的分布方法。其次，錨框的外形是固定的，在處理較大的目標比較困難，比如飛機的兩翼。同時對於小目標也不夠友好。為了提高召回率，大量的錨框增加了計算量和內存佔用。因此，anchor free方法的潛力成為業界最希望提高性能的目標之一。

Fig1 錨框定位

FCOS首先使用BackOne CNN提取特徵。FCOS對逐一像素都進行回歸，對不規則輸入友好，這一點和FCN很像。而FCN和CNN的區別就在於把CNN最後的連接層換成卷積層，輸出一張已經Label好的照片。(Fig.2)

Fig2 FCN結構示意圖

對比Mask R-CNN的貢獻

MASK-RNN的工作流程是「先檢測，再分割」。在檢測框的基礎上進行像素級的語義分割，同時取得了接近SOTA的性能。PolarMask和它的目的一致，都是instance segmentation.(Fig.3)

Fig.3 Differences bet. Semantic Segmentation and Instance Segmentation

但是Mask-RNN主要完成像素級建模(Fig.4)，而PolarMask是基於極坐標系建模(Fig.5)。雖然對於凹的物體有性能損失，但PolarMask還是有意義的。一個是Mask RCNN的上限也達不到100mAP，另一個是根據目前的發展，無論是Mask RCNN還是PolarMask，實際性能距離1--mAP的上限還有一定距離。

Fig.4 Pixel-wise Representation

Fig.5 Polar Representation

PolarMask基於極坐標關係建模輪廓，把實例分割問題轉化為實例中心點分類問題和密集距離回歸問題。同時提出了Polar CenterNess和Polar IoU Loss以優化High-Quality正樣本採樣和dense distance regression的損失函數優化。根據作者的思路，採用FCOS主要為了簡單和可靠。FCOS是目前主流的anchor-free檢測器，十分通用而且簡單。

網絡架構

Fig.6 PolarMask Structure

標準的backbone+FPN模型。左側部分包含主幹和要素金字塔，以提取不同級別的要素。中間是分類和極性遮罩回歸的兩個方向，H，W，C指特徵圖的高度、寬度、通道。而k是類別數，n是射線數。以下的實驗性能都基於n=36。

Polar Segmentation建模

說白了，輸入一張原圖。經過網絡可以得到中心點的位置和36根射線的交點的距離。之後連接這些點構成一個輪廓。連通區域就是實例分割的結果。(Fig.7)

Fig.7 Polar Segmentation建模

在實驗中，文章以重心為基準，映射到特徵圖上。在重心周圍採樣作為正樣本，別的地方作為負樣本。訓練方式和FCOS一致，使用FOCAL LOSS。文章中提出了一種Polar CenterNess用來選擇高質量的正樣本，並且給低質量的正樣本降低權重。這是一個很聰明的做法。這種做法的思路具有通用性。

Polar CenterNess

通過下面的公式，我們很容易看出來正樣本的充分條件是d min > d max.

這就意味著，一個具有良好長度回歸的樣本，是36根射線比較均衡的情況。Polar Centerness的工作實際上就是給比較均衡情況的點比較高的權重，或者對比的看，削弱不那麼均衡的點的權重。

根據作者的實驗結果，Polar Centerness可以不增加網絡複雜度的情況下，提高1.4的性能。

Polar IoU Loss

在PolarMask中，需要回歸k(k=36)根射線與重心的距離，如何監督regression branch是一個問題。文中提出Polar IoU Loss近似計算出predict mask和gt mask的iou，通過Iou Loss 更好的優化mask的回歸。Polar IoU Loss的計算方法如下所示。(Fig.8)其實就是簡化了計算，最快地看到效果。

Fig.8 Polar IoU Loss

後記：

註：代碼目前已經發布，四張Tesla V100可以在15個小時內訓練好PolarMask（讓我看看我的GTX 960要多久）

再註：作者給出了很友好的示例。讀完論文筆者半夜兩點還在嘗試部署。應該是未來一個熱點方向。今年CVPR Segmentation好多灌水文章，精華更應該認真看看。

又註：如果你電腦性能不高，可以直接用訓練好的模型：

https://drive.google.com/drive/folders/1EWtLhWSGuJVtMCS8mTvKNxdYYpz7ufjV?usp=sharing

而我的960M看起來不服，甚至躍躍欲試。

再再註：希望AMD早日出一個可以與CUDA媲美的計算庫，天下苦皮衣久矣。（Vega用戶，利益相關

原文連結:https://zhuanlan.zhihu.com/p/147037149

相關焦點

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

SOLOv2 算法可以按位置分割物體，完成實例分割任務，同時還兼具實時性。由於其出色地兼顧了精度和速度，已經被廣泛應用於自動駕駛、機器人抓取控制、醫療影像分割、工業質檢和遙感圖像分析等領域。自下而上的實例分割方法這類方法比較好理解，先進行像素級別的語義分割，再通過聚類、度量學習等手段區分不同的實例。PolarMask、SOLO 系列算法就是其中的代表。
用於圖像分割的卷積神經網絡:從R-CNN到Mask R-CNN

在本文中，我們將看到卷積神經網絡（CNN）如何在圖像實例分割任務中提升其結果。自從 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年贏得了 ImageNet 的冠軍，卷積神經網絡就成為了分割圖像的黃金準則。事實上，從那時起，卷積神經網絡不斷獲得完善，並已在 ImageNet 挑戰上超越人類。
阿德萊德大學在讀博士陳昊:高質高效的實例分割模型BlendMask:公開...

實例分割，是機器自動從圖像中用目標檢測的方法框出不同的實例，然後用語義分割的方法在不同的實例區域內進行逐像素標記的過程。簡單的理解就是：在同一個類的實例中區分不同的實例。在計算機視覺的任務中，由於實例分割是像素級識別輪廓任務，因此與其他類似的視覺任務相比，實例分割屬於最困難的視覺任務之一。實例分割兼具目標檢測和語義分割的特點，因此逐漸演化出基於語義分割的down-top apporach與基於目標檢測的top-down apporach兩種方法。
圖像分割二十年,Mask R-CNN 影響力僅排第十?

（Instance segmentation）算法，在圖像分割領域可謂「家喻戶曉」。Mask R-CNN不僅在實例分割任務中表現優異，還是一個非常靈活的框架，可以通過增加不同的分支完成目標分類、目標檢測、語義分割、實例分割、人體姿勢識別等多種不同的任務。
基於人類獨特性,實現自由人像實例分割檢測

圖1 使用人體姿勢比邊框更容易分割高度本文將回顧《pose2seg：自由檢測人像實例分割》這篇論文。在這篇論文中，作者介紹了一種新型基於姿勢的人像實例分割框架，可基於人體姿勢來分離圖像實例。圖2 常見的計算機視覺用例我們想把實例分割可用來在像素級別圖像中識別每一種物品。這說明標記得同時做到分類感知和實例感知，例如圖2(d)對羊1、羊2等作了不同的標記。
圖像目標檢測算法——總結

整個過程中，原始圖像過了一遍CNN，所有的操作都是基於整圖的featuremap 進行的。RPN 網絡是基於anchor box 的方式進行的。過程示意圖：因此，這樣的預測方式可以使得任何anchor box 可以出現在圖像中的任意位置，導致模型可能不穩定。
計算機視覺:圖像檢測和圖像分割有什麼區別?

在本文中，我將介紹目標檢測和圖像分割之間的區別。在這兩個任務中，我們都希望找到圖像中某些感興趣的項目的位置。例如，我們可以有一組安全攝像頭照片，在每張照片上，我們想要識別照片中所有人的位置。通常有兩種方法可以用於此：目標檢測（Object Detection）和圖像分割（Image Segmentation）。
一文概述用 python 的 scikit-image 模塊進行圖像分割

而圖像分割是圖像處理中非常重要的一個步驟，它是把圖像分成若干個特定的、具有獨特性質的區域，並提取出感興趣目標的技術。近日，工程師 Parul Pandey 發表了一篇博文，在博文中，她介紹了用 python 的 scikit-image 庫進行圖像分割的方法。具體涉及 scikit-image 的安裝，圖像導入以及用監督算法和無監督算法進行圖像分割的方法。
在PyTorch中使用DeepLabv3進行語義分割的遷移學習

當我在使用深度學習進行圖像語義分割並想使用PyTorch在DeepLabv3[1]上運行一些實驗時，我找不到任何在線教程。並且torchvision不僅沒有提供分割數據集，而且也沒有關於DeepLabv3類內部結構的詳細解釋。然而，我是通過自己的研究進行了現有模型的遷移學習，我想分享這個過程，這樣可能會對你們有幫助。
南加州大學 phd 王薇月:深度學習在點雲分割中的應用 | 分享總結

公開課回放連結：http://www.mooc.ai/open/course/501分享題目：深度學習在點雲分割中的應用分享提綱深度學習在點雲上的應用。2D 圖像的實例分割與物體檢測。SGPN [CVPR 2018]：點雲的實例分割與物體檢測。
詳解QML的錨點布局anchor

最近工作項目中採用了QML來開發觸控螢幕，由於第一次接觸使用QML, 難免遇到各種各樣的問題，特別是界面的布局，所以，本文結合工作中探索的經驗，重新梳理總結了QML的錨點布局anchor。本文將會從以下四個方面來講解錨點布局，分別是錨線、邊距、偏移以及便捷用法。
視覺工具包torchvision重大更新:支持分割模型、檢測模型

這次，工具包裡增加了許多新模型：做語義分割的，做目標檢測的，做實例分割的……也增加了許多數據集，比如ImageNet，CelebA，Caltech 101等等等等。另外，torchvision還有了不少視覺專用的C++/Cuda算子。消息一出，小夥伴們紛紛奔走相告。現在，來仔細觀察一下，新的torchvision都有哪裡變強了。
SNE-RoadSeg:一種基於表面法向量提取的道路可行駛區域分割方法

駕駛場景下對周圍環境的理解是自動汽車的一項重要任務，隨著人工智慧的最新進展，它有了很大的飛躍。無碰撞空間（Collision-free space，簡稱freespace）檢測是駕駛場景理解的一個基本組成部分。自由空間檢測方法一般將RGB或深度/差值圖像中的每個像素分類為可駕駛或不可駕駛。
您知道mask是什麼意思嗎?

說到mask這個單詞，我們都會想到的意思是面具、面罩。單詞mask除了這個簡單的意思，還有什麼意思呢？今天，我們就一起看一下mask的用法。首先，我們看一下mask做名詞的用法。1、單詞mask做名詞的時候，可以理解為面具、面罩。
Supervise.ly 發布人像分割數據集啦(免費開源)

我們的「導入」模塊支持大多數公共數據集，並將它們轉換為統一的基於json-based的格式，稱為Supervisely格式 :)我們執行DTL（「數據轉換語言」）查詢以執行一些操作：合併數據集 - >跳過沒有人物的圖像 - >從圖像裁剪每個人 - >按寬度和高度過濾它們 - >分割為訓練/測試集。
AABO:自適應最優化Anchor設置,性能榨取的最後一步|ECCV 2020

編譯 | VincentLee來源 | 曉飛的算法工程筆記Introduction目前，主流的目標檢測算法使用多種形狀的anchor box作為初始預測，然後對anchor box進行回歸調整，anchor box的配置是檢測算法中十分重要的超參數
圖像處理中曝光 - CSDN

這一講主要包括圖像的直方圖，直方圖均衡化，自適應直方圖均衡化，顏色閾值調整，gamma校正等等內容。# 返回直方圖, 直方圖分成幾份，返回兩個數組分別是該組別的像素個數和組別skimage.exposure.histogram(image, nbins=256)# 直方圖均衡化,mask和原圖大小一致bool類型只有0或1skimage.exposure.equalize_hist(image, nbins=256, mask=None)# 自適應直方圖均衡化skimage.exposure.equalize_adapthist
《free!》完全新作劇場版PV公布,向世界的挑戰開始了!

完全新作劇場版是由京都動畫來進行製作，河浪栄作監督，相關的配音陣容也得到了曝光，七瀬遙：島﨑信長，橘真琴：鈴木達央，松岡凜：宮野真守，桐嶋鬱彌：內山昂輝，椎名旭：豊永利行。《free！》完全新作劇場版的主題曲則是STYLE FIVE「BRAVE DREAM。《free!》是根據おおじこうじ原作輕小說《High☆Speed!》

完全理解PolarMask-圖像實例分割-anchor free新思路

相關焦點

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

用於圖像分割的卷積神經網絡:從R-CNN到Mask R-CNN

阿德萊德大學在讀博士陳昊:高質高效的實例分割模型BlendMask:公開...

圖像分割二十年,Mask R-CNN 影響力僅排第十?

基於人類獨特性,實現自由人像實例分割檢測

圖像目標檢測算法——總結

計算機視覺:圖像檢測和圖像分割有什麼區別?

一文概述用 python 的 scikit-image 模塊進行圖像分割

在PyTorch中使用DeepLabv3進行語義分割的遷移學習

南加州大學 phd 王薇月:深度學習在點雲分割中的應用 | 分享總結

詳解QML的錨點布局anchor

視覺工具包torchvision重大更新:支持分割模型、檢測模型

SNE-RoadSeg:一種基於表面法向量提取的道路可行駛區域分割方法

您知道mask是什麼意思嗎?

Supervise.ly 發布人像分割數據集啦(免費開源)

AABO:自適應最優化Anchor設置,性能榨取的最後一步|ECCV 2020

圖像處理中曝光 - CSDN

《free!》完全新作劇場版PV公布,向世界的挑戰開始了!