性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

2020-12-15 機器之心Pro

機器之心發布

機器之心編輯部

如何兼顧目標檢測和語義分割的能力，並實現大幅性能提升？本文介紹了產業SOTA的實時實例分割算法SOLOv2。

目標檢測無法精細獲得目標邊界形狀和面積，語義分割無法區分不同目標個體，並分別獲得位置。小夥伴們可能會疑惑，以上動圖展示的實例分割效果顯然兼具了目標檢測和語義分割二者的能力，是通過什麼技術實現的呢？

下面給大家介紹的這類相當牛氣的方法：實時實例分割算法 SOLOv2！

SOLOv2 算法可以按位置分割物體，完成實例分割任務，同時還兼具實時性。由於其出色地兼顧了精度和速度，已經被廣泛應用於自動駕駛、機器人抓取控制、醫療影像分割、工業質檢和遙感圖像分析等領域。

相較於目標檢測和語義分割，實例分割算法的構建和訓練難度是非常複雜、且具有挑戰性的。如果要同時兼顧精度和速度，難度又上了一個臺階。不過莫慌，本文不僅為大家準備了極其乾貨的實力分割算法原理和優化方法講解，還為大家準備了產業 SOTA 的實例分割算法在「實現機器人抓取」和「工業質檢」這兩個產業實踐中的案例解析。

驚不驚喜？意不意外？值不值得關注、學習以及 Star？

著急的小夥伴可以 Github 傳送門直接走起：

https://github.com/PaddlePaddle/PaddleDetection/tree/release/0.5/configs/solov2

從文章開篇的動圖裡我們可以看到，算法可以同時檢測並精細分割不同快速移動的球員個體。而這個算法，使用的是PaddleDetection 研發團隊深度優化過的實時實例分割算法 SOLOv2。經過一系列的優化後，SOLOv2-Enhance（PaddleDetection 提供的 SOLOv2 的增強模型，如圖五角星所示）的性能表現如下圖所示：

Tesla V100-SXM2 的單 GPU 環境中預測速度達到 38.6FPS，提升了 31.2%；

COCO val2017 數據集上mask AP 達到 38.8%，提升 2.4 個百分點；

單機 8 卡訓練速度是 SOLOv2 官方 PyTorch 版本的2.4 倍；

在精度和預測速度性價比方面達到業界 SOTA 級別。

PaddleDetection 提供的 SOLOv2 為何有如此優勢呢？下面從實例分割算法、SOLO 算法演進歷程及 PaddleDetection 對於 SOLOv2 深度優化等幾方面為大家逐層剖析背後的設計和實現思想。

實例分割算法

實例分割一般分為自上而下和自下而上兩種方法。

自上而下的實例分割方法

簡單地說，這種方法就是先檢測後分割。這類方法的代表選手是 Mask R-CNN。它的優點是定位精度高，但也有一定的局限，比如：預測時延高，達不到實時，實例分割結果在物體檢測框的束縛下等。

業界很多大神都在持續嘗試基於 Mask R-CNN 算法進行改進，希望解決上述局限問題，GCNet、PANet、HTC、DetectoRS 等網絡就是在 Mask R-CNN 算法上優化、演進而來的。但是預測速度慢的問題仍得不到解決。

第一類可以被稱為實時的實例分割的模型是 YOLACT 和 YOLACT++，它們基於 RetainNet，將實例分割分為兩個並行的子任務，採用單階段的網絡結構，使網絡計算量儘量小，後者訓練 54 個 epoch 左右，最終在 COCO test-dev 數據集上的 mask AP 達到 34.6%，在 Titan Xp 的 GPU 環境中達到 27.3~33.5FPS。

而 CenterMask 算法則基於 Anchor Free 模型 FCOS 更進一步提升了實例分割的精度和速度，改進了 backbone，提出 VoVNetV2，同時基於 Mask R-CNN 的 mask 分支，引入 Spatial Attention-Guided Mask（空間注意力模塊），實時的 CenterMask-Lite 模型在 COCO Test-dev 數據集上的 mask AP 達到 36.3%，在 Titan Xp 的 GPU 環境中達到 35.7FPS，成為新的 SOTA 模型。

自下而上的實例分割方法

這類方法比較好理解，先進行像素級別的語義分割，再通過聚類、度量學習等手段區分不同的實例。PolarMask、SOLO 系列算法就是其中的代表。

PolarMask 基於 FCOS 的思想，將回歸到檢測框四邊的距離問題轉換為回歸基於中心點不同角度的 36 根射線的距離問題，通過聯通整個區域獲得分割結果。這種方法創新性很高，但問題也很明顯，如：通過角點確定分割區域的方法不夠準確，mask AP 較低，預測速度也很慢。

而 SOLO 系列算法經過不斷的優化，在精度和預測速度的性價比方面均超越了 YOLACT++ 和 CenterMask 算法，下面我們就著重介紹一下 SOLO 系列算法的發展歷程及 PaddleDetection 針對 SOLOv2 算法進行的優化。

SOLO 算法發展歷程

SOLO（Segmenting Objects by Locations）算法的核心思想是將分割問題轉化為位置分類問題，從而做到不需要 anchor（錨框）及 bounding box，而是根據實例的位置和大小，對每個實例的像素點賦予一個類別從而達到對實例對象進行分割的效果。

具體而言，就是如果物體的中心落在了某個網格內，該網格就負責預測該物體的語義類別，並給每個像素點賦一個位置類別。

SOLOv1

在 SOLOv1 中有兩個分支：類別分支和 mask 分支。類別分支預測語義類別；mask 分支則分割物體實例。同時，使用 FPN 來支持多尺度預測，FPN 的每一個特徵圖後都接上述兩個並行的分支。

來自論文《SOLO: Segmenting Objects by Locations》

其中，類別分支負責預測物體的語義類別，共產出 S×S×C 大小的預測結果。Mask 分支中每個有類別輸出的網格（正樣本）都會輸出對應類別的 mask，這裡一個通道負責預測一個網格的 mask，因此輸出維度是 H×W×S2。同時基於 SOLOv1，作者又提出了 Decoupled-SOLO 改進算法，將 S2 個分類器解耦為兩組分類器，每組 S 個，分別對應 S 個水平位置類別和 S 個垂直位置類別，優化之後的輸出空間就從 H×W×S2 降低到了 H×W×2S，從而降低了網絡計算量，如下圖 (b) 所示，最後將兩個通道的特徵圖做 element-wise 乘，進行特徵的融合。

來自論文《SOLOv2: Dynamic and Fast Instance Segmentation》

SOLOv2

SOLOv2 繼承了 SOLOv1 中的一些設定，將原來的 mask 分支解耦為 mask 核分支和 mask 特徵分支，分別預測卷積核和卷積特徵，如上圖 (c) 中的 Dynamic head 所示。

輸入為 H×W×E 的特徵，F、E 是輸入特徵的通道數，輸出為卷積核 S×S×D，其中 S 是劃分的網格數目。

Mask 核分支位於預測 head 內，平行的有語義類別分支。預測 head 的輸入是 FPN 輸出的特徵圖。Head 內的 2 個分支都有 4 個卷積層來提取特徵，和 1 個最終的卷積層做預測。Head 的權重在不同的特徵圖層級上共享。同時作者在 kernel 分支上增加了空間性，做法是在第一個卷積內加入了 CoordConv，即輸入後面跟著兩個額外的通道，操作如下圖所示。

來自論文《An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution》

我們知道深度學習裡的卷積運算是具有平移不變性的，這樣可以在圖像的不同位置共享統一的卷積核參數，但是這樣卷積學習過程中是不能感知當前特徵在圖像中的坐標的。CoordConv 就是通過在卷積的輸入特徵圖中新增對應的通道來表徵特徵圖像素點的坐標，讓卷積學習過程中能夠一定程度感知坐標來提升檢測精度。

同時 SOLOv2 也使用了 Matrix NMS，通過矩陣運算所有的操作都可以單階段地實現，不需要遞歸，比傳統的 NMS 快 9 倍。

經過以上的迭代，SOLOv2 成為當前產業最實用的實例分割算法。而飛槳 PaddleDetection 不僅復現了該模型，還對其進行了一系列的深度優化，使其精度和速度相較原網絡有了進一步的提升。

PaddleDetection 中的 SOLOv2

經過 PaddleDetection 深度優化後的 SOLOv2 在具有如下五大亮點：

更優的骨幹網絡：ResNet50vd-DCN + 蒸餾更穩定的訓練方式：EMA、Sync-BN更多的數據增強方法更快的訓練方式多種部署方式更優的骨幹網絡: ResNet50vd-DCN + 蒸餾

針對 SOLOv2，飛槳使用更加優異的 ResNet50vd-DCN 作為模型的骨幹網絡，它相比於原始的 ResNet，可以提高 1%-2% 的檢測精度，且推理速度基本保持不變。

而 DCN（Deformable Convolution）可變形卷積的特點在於：其卷積核在每一個元素上額外增加了一個可學習的偏移參數。這樣的卷積核在學習過程中可以調整卷積的感受野，從而能夠更好的提取圖像特徵，以達到提升目標檢測精度的目的，是一種引入極少計算量並提升模型精度的最佳策略。

進一步地，PaddleDetection 採用飛槳自研的 SSLD 知識蒸餾方法優化過的 ResNet50vd，在 ImageNet 上的 Top-1 分類精度從 79.1% 優化到 82.4%。感興趣的同學可以到 PaddleClas 中了解 SSLD 知識蒸餾方案詳情。

PaddleClas：https://github.com/PaddlePaddle/paddleclas

SOLOv2 模型在使用了 ResNet50vd 的 SSLD 知識蒸餾之後更優的預訓練權重進行訓練後，COCO minival 數據集的精度提升了 1.4%（36.4%->37.8%）。在 V100 上的預測速度上，從 29.4FPS 提升至 38.6FPS。

更穩定的訓練方式：EMA、Sync-BN

飛槳團隊採用了 EMA（Exponential Moving Average）滑動平均方案，將參數過去一段時間的均值作為新的參數，讓參數學習過程中變得更加平緩，有效避免異常值對參數更新的影響，提升模型訓練的收斂效果。實驗發現，使用 EMA 後網絡收斂速度明顯加快。

一般情況下，Batch Norm 實現只會計算單卡上的均值和方差，相當於「減小了」批大小。SOLOv2 實際訓練比較耗費顯存，單卡的 batch size 較小，為 2。針對這種情況，我們引入了同步的 Batch Norm，即：Sync-BN，它可以統計全局的均值和方差，獲得更穩定的統計值，相當於「增大了」批大小。

綜上，通過訓練過程中的指數滑動平均、Sync-BN 的 Trick，SOLOv2 模型又提升了 0.6%（37.8%->38.4%）。

更多的數據增強方法

在 SOLOv2 中除了採用空間變換（隨機尺度變換、隨機裁剪圖片、隨機翻轉等）、顏色扭曲（透明度、亮度、飽和度等）、信息刪除 (增加隨機噪聲、隨機遮擋等) 等常用數據增強方法之外，還使用了一種新穎的信息刪除方法：Grid-Mask 方法。

Grid-Mask 方法屬於信息刪除的方法。其實現方式是隨機在圖像上丟棄一塊區域，作用相當於是在網絡上增加一個正則項，避免網絡過擬合，相比較改變網絡結構來說，這種方法只需要在數據輸入的時候進行增廣，簡單便捷。

經過數據增強之後，SOLOv2 模型在保持原有速度的情況下，精度又提升了 0.4%（38.4%->38.8%）。

更快的訓練方式

而實際的訓練過程往往是艱辛和漫長的，往往一次訓練實驗要耗費十幾甚至幾十個小時，PaddleDetection 在網絡訓練層面，針對損失函數 (loss) 計算進行了針對性的工程優化，從而加快了訓練速度。

預取 Target: 在計算 loss 時，輸入 ground truth 需要經過一定的映射轉換，將此流程放到數據預處理中進行，因數據預處理和模型計算是異步進行，起到了預取的作用。減少數據拷貝並 GPU 計算: 在官方 PyTorch 實現中，損失函數計算通過 Numpy 計算，在 PaddleDetection 中，由於飛槳框架提供了豐富算子，損失計算採用框架算子組合計算，不僅減少了數據的拷貝時間，還可以使用 GPU 計算加速。Batch 計算: 在官方 PyTorch 實現版本中，Loss 計算時，循環計算每張圖的損失，在 PaddleDetection 中，採用 batch 計算（比如 batch size=2，那麼同時對 2 張圖運算），加快了整體的訓練速度。採用飛槳分布式訓練能力，在 8 卡 Tesla V100-SXM2 上，COCO 數據集上訓練一個 SOLOv2-R50-1x 的模型，訓練 12 個 epoch，只需要 10 小時就能完成。

多種部署方式

除了科研、學習使用外，PaddleDetection 還充分考慮了產業用戶的需求，使 SOLOv2 支持多種環境、多種語言的預測方法，包括：

伺服器端 Python 部署和 C++ 部署：多用於工業、網際網路等擁有伺服器、工控機的環境；Paddle-Serving 服務部署：多用於希望進行雲端部署的場景；Paddle-Lite 輕量化部署：多用戶在邊緣、輕量化設備、國產晶片等進行部署的場景；Windows 系統部署：充分考慮工業場景多為 windows 系統的現狀。優化前後的 SOLOv2 性能對比

經過網絡優化後，SOLOv2 算法在 COCO minival 數據集上的 mask AP 達到 38.8%，在單張 Tesla V100 上單卡預測速度達到 38.6FPS。相比於原論文，精度提升 2.4%，預測速度提升 31.2%。

除此之外，PaddleDetection 還集成了基於 MobileNetv3 的輕量化模型，在最小輸入尺寸 448 像素時，可以在 V100 上達到50FPS，COCO val2017 數據集上 mask AP 達到 30.0%，預測速度進一步提升。實驗具體數據指標如下表所示：

產業實踐

如開篇所說，實例分割算法在產業中有非常廣泛的應用場景，如：自動駕駛、機器人抓取控制、醫療影像分割、工業質檢和遙感圖像分析。下面我們就通過機器視覺導視和機械總院帶鋼表面缺陷檢測兩個案例，介紹下實例分割在產業中的應用。

機器視覺導視

2D 機械手抓取的思路往往是將算法提供的圖像位置坐標信息轉化為機械手的世界坐標，進而指導機械手實現抓取。實際的視覺導視裡不僅需要了解目標的位置，還需要進一步了解目標的角度信息，因此實例分割逐漸被使用在了視覺導視中。

下面是利用機械手吸盤抓取屏幕實現自動化裝配的案例圖像。我們可以看到，單純使用目標檢測雖然可以得到坐標信息，但對於傾斜的產品的定位卻很難做到精確，而使用 SOLOV2 實例分割，是可以精確的得到目標的輪廓信息。

再通過將 SOLOv2 輸出得到的結果進行轉化，將 Mat 圖像轉換成散點圖坐標，得到整個點的位置坐標，根據產品的質心和輪廓點判斷出經過計算傳輸給機械手較好的抓取坐標，進而實現精準抓取。

工業質檢

在工業質檢中，要求標準精細化與出貨靈活化，因此需要對缺陷的精細量化，讓廠家更好的控制產品的良品率。比如在 A 產品上，5mm 的缺陷是 NG 產品；但是在 B 產品上，即使是 10mm 也屬於 OK 產品。在工廠中產品有著嚴格的等級標準，質檢人員通常使用菲林比對卡來看缺陷的大小。因此如果深度學習想要進一步的利用在缺陷檢測中，不僅僅要實現對於缺陷的定性分析，也需要定量計算缺陷的大小。通過實例分割，可以實現對於缺陷的像素級別分割，通過單像素精度的換算可以算得缺陷的實際物理尺寸，進而配合質量標準進行產品管控。

實例分割算法就很好地實現對缺陷的位置及大小精確的捕捉量化，並且可以對缺陷類型進行分類。機械總院在帶鋼表面缺陷檢測系統中採用 PaddleDetection 中提供的 SOLOv2 算法實現對於缺陷的識別和大小的計數，達到了良好的效果，在被生產監測系統集成後，直接推動產線質檢效率、精度大幅度提升。

寫到這裡，你還不心動嘛！趕緊前往飛槳 PaddleDetection 項目地址，學習、試用吧！！！記得順手幫我們點亮 Star 哦~

GitHub: https://github.com/PaddlePaddle/PaddleDetection

Gitee: https://gitee.com/paddlepaddle/PaddleDetection

更多飛槳的相關內容，請參閱以下內容。

官網地址：https://www.paddlepaddle.org.cn

飛槳開源框架項目地址：

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

相關焦點

飛槳& 英特爾聯合,優化AI算法CPU部署性能,推動產業低成本智能化升級

基於多特徵地圖和深度學習的實時交通場景分割

低成本AI算法部署方案,高效CPU部署使產業智能化升級進程大幅提速

低成本AI算法部署方案,高效CPU部署使產業智能化進程大幅提速

一種基於深度卷積神經網絡(DCNN)用于于頭髮和面部皮膚實時分割方法

李沐團隊提出最強ResNet改進版,多項任務達到SOTA|已開源

BAIR最新RL算法超越谷歌Dreamer,性能提升2.8倍

性能超越GPU、FPGA,華人學者提出軟體算法架構加速AI實時化

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

YOLO-v4目標檢測實時手機實現,全自動實時移動端AI框架

圖像分割二十年,Mask R-CNN 影響力僅排第十?

性能SOTA,國防科技大學單張RGB-D圖像預測物體對稱性

一款Go 語言實現的實時圖形化分析的性能測試工具

搶紅包算法——線段分割法

騰訊雲星星海伺服器助力貝貝網雙十一系統性能提升20%

基於Zynq-7000 AP SoC實現高效馬達控制設計實例

見圖像傳統處理算法-邊緣檢測-分割-增強-降噪

騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

相關焦點

飛槳& 英特爾聯合,優化AI算法CPU部署性能,推動產業低成本智能化升級

基於多特徵地圖和深度學習的實時交通場景分割

低成本AI算法部署方案,高效CPU部署使產業智能化升級進程大幅提速

低成本AI算法部署方案,高效CPU部署使產業智能化進程大幅提速

一種基於深度卷積神經網絡(DCNN)用于于頭髮和面部皮膚實時分割方法

李沐團隊提出最強ResNet改進版,多項任務達到SOTA|已開源

BAIR最新RL算法超越谷歌Dreamer,性能提升2.8倍

性能超越GPU、FPGA,華人學者提出軟體算法架構加速AI實時化

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

CVPR2020Oral|廈大、深度賦智提指向性目標實時聯合檢測分割網絡

YOLO-v4目標檢測實時手機實現,全自動實時移動端AI框架

圖像分割二十年,Mask R-CNN 影響力僅排第十?

性能SOTA,國防科技大學單張RGB-D圖像預測物體對稱性

一款Go 語言實現的實時圖形化分析的性能測試工具

搶紅包算法——線段分割法

騰訊雲星星海伺服器助力貝貝網雙十一 系統性能提升20%

基於Zynq-7000 AP SoC實現高效馬達控制設計實例

見圖像傳統處理算法-邊緣檢測-分割-增強-降噪

騰訊光影研究室憑GYSeg算法斬獲MIT場景解析評測第一

騰訊雲星星海伺服器助力貝貝網雙十一系統性能提升20%