現代實例分割方法主要是先檢測對象邊界框,然後進行裁剪和分割, Mask R-CNN 是目前這類方法中最優秀的。
近日,來自 FAIR 的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar 等人發表一篇新論文「TensorMask: A Foundation for Dense Object Segmentation」,從一個新的方向解決實例分割問題,並提出了一個名為 TensorMask 的通用框架。
論文地址:
https://arxiv.org/pdf/1903.12174.pdf
作者表示,TensorMask 達到了與 Mask R-CNN 相當的結果,有助於更全面地理解這項任務。
Ross Girshick、何愷明、Piotr Dollar 三人也是 Mask R-CNN 的作者,一作陳鑫磊博士畢業於 CMU,導師是 Tom Mitchell 教授,並曾在谷歌雲 AI 李飛飛、李佳的指導下實習。
在密集、規則的網格上生成邊界框對象預測的滑動窗口目標檢測器 (sliding-window object detectors) 已經得到迅速發展,並得到了廣泛的應用。
與此相反,現代的實例分割方法主要是先檢測對象邊界框,然後進行裁剪和分割,Mask R-CNN 推廣了這種方法。
在這項工作中,我們研究了密集滑動窗口實例分割 (dense sliding-window instance segmentation) 的範例,令人驚訝的是,這方面的研究十分不足。
我們的核心發現是,這項任務與其他的密集預測任務 (如語義分割或邊界框對象檢測) 有本質的不同,因為每個空間位置的輸出本身就是一個幾何結構,具有自己的空間維度。
為了形式化地說明這一點,我們將密集實例分割視為一個 4D 張量 (4D tensors) 的預測任務,並提出了一個名為 TensorMask 的通用框架,該框架顯式地捕獲這種幾何圖形,並支持對 4D tensors 使用新的操作符。
圖 1:TensorMask 的輸出。我們將密集實例分割作為一種基於結構化 4D 張量的預測任務。除了獲得具有競爭力的定量結果,TensorMask 還獲得了定性上合理的結果。圖中小的和大的物體都被很好地描繪出來,並且,重疊的物體也被正確地處理了。
我們證明了 tensor 這種想法可以相比 baseline 獲得較大的增益,並且可以得到與Mask R-CNN 相當的結果。這些結果表明, TensorMask 可以作為密集掩碼預測的新進展的基礎,有助於更全面地理解這項任務。我們將發布本研究的代碼。
滑動窗口 (sliding-window) 範例 —— 通過查看放置在一組密集圖像位置上的每個窗口來查找對象 —— 是計算機視覺中最早、也是最成功的概念之一,並且這個概念自然地與卷及網絡相關。
然而,儘管目前性能最好的對象檢測器依賴於滑動窗口預測來生成初始候選區域,但獲得更準確的預測主要來自對這些候選區域進行細化的階段,如 Faster R-CNN 和 Mask R-CNN,分別用於邊界框目標檢測和實例分割。這類方法已經主導了 COCO 目標檢測挑戰賽。
近年來,諸如 SSD 和 RetinaNet 之類的邊界框目標檢測器,避開了 「細化」 這個步驟,專注於直接的滑動窗口預測,已經有了復甦的趨勢,並顯示出有希望的結果。
相比之下,該領域在密集滑動窗口實例分割方面並沒有取得同等的進展;對於 mask prediction,沒有類似於 SSD / RetinaNet 這樣的直接、密集的方法。
為什麼密集的方法在邊界框檢測方面進展迅速,而在實例分割方面卻完全缺失?這是一個基本科學上的問題。這項工作的目標就是彌補這一差距,並為探索密集實例分割方法提供基礎。
我們的主要觀點是,定義 dense mask representations 的核心概念,以及這些概念在神經網絡中的有效實現,都是缺乏的。
與邊界框不同,邊界框具有固定的低維表示而不考慮比例,分割掩碼 (segmentation masks) 可以從更豐富、更結構化的表示中獲益。例如,每個 mask 本身是一個 2D 空間映射,較大對象的 mask 可以受益於較大空間映射的使用。為 dense masks 開發有效的表示是實現密集實例分割的關鍵步驟。
為了解決這個問題,我們定義了一組用高維張量表示 mask 的核心概念,這些概念允許探索用於 dense mask prediction 的新穎網絡架構。為了證明所提出的表示的優點,我們提出了幾個這樣的網絡並進行了實驗。
我們的框架稱為 TensorMask,它建立了第一個密集滑動窗口實例分割系統,其結果接近於 Mask R-CNN。
左:自然表示。右:對齊表示 (Aligned representation)。
TensorMask 表示的核心想法是使用結構化的 4D tensors 表示空間域上的 mask。
與以前的面向通道的方法不同,我們建議利用形狀 (V, U, H, W) 的 4D tensors,其中(H, W) 表示目標位置,(V, U) 表示對應的 mask 的位置,它們都是幾何子張量,也就是說,它們的軸有明確定義的 units 和關於圖像的幾何意義。
這種從非結構化通道軸上的 encoding masks 到使用結構化幾何子張量的視角轉變,使得定義新的操作和網絡架構成為可能。這些網絡可以以幾何上有意義的方式直接作用於(V, U) 子張量,包括坐標變換、up-/downscaling 和金字塔的使用。
在 TensorMask 框架的支持下,我們在一個 4D tensors 的標度索引列表上建立了一個金字塔結構,我們稱之為張量雙金字塔 ( tensor bipyramid)。與特徵金字塔類似,tensor bipyramid 是一個多尺度特徵映射列表,它包含一個形狀為 2kV、2ku、12kh、12kw 的 4D 張量列表,其中 k≥0 個索引尺度。這種結構在 (H, W) 和 (V, U) 幾何子張量上都呈金字塔形狀,但方向相反。這種設計捕捉了大對象具有粗糙空間定位的高解析度 mask(大 k) 和小對象具有精細空間定位的低解析度 mask(小 k) 的理想特性。
feature pyramid 和 tensor bipyramid 的比較
我們將這些組件組合成一個網絡骨幹和訓練程序,類似 RetinaNet,其中我們的 dense mask predictor 擴展了原始的密集邊界框預測器。
通過詳細的消融實驗,我們評估了 TensorMask 框架的有效性,並證明了明確捕捉該任務的幾何結構的重要性。最後,我們展示了 TensorMask 與對應的 Mask R-CNN 產生了相似的結果 (見圖 1 和圖 2)。
TensorMask 框架的核心思想是使用結構化的高維張量來表示一組密集滑動窗口中的圖像內容 (例如 masks)。
圖 2:使用 ResNet-101-FPN 骨幹的 TensorMask 和 Mask R-CNN 的示例結果 (與圖 6中使用的 Mask R-CNN 的圖像相同)。結果在定量和質量上都很相似,表明密集滑動窗口範式確實可以有效地用於實例分割任務。請讀者猜猜哪些結果是 TensorMask 生成的(答案見文末)。
TensorMask架構
我們已經展示了採用 TensorMask representations 的模型。這些模型有一個在滑動窗口中生成 masks 的 mask prediction head,以及一個用於預測對象類別的classification head,類似於滑動窗口目標檢測器中的 box regression 和 classification heads。
我們報告了 COCO 實例分割的結果。所有的模型都在 ~118k train2017 圖像上進行訓練,並在 5k val2017 圖像上進行測試。最終結果在 test-dev 上。我們使用 COCO mask 的平均精度 (用 AP 表示)。box AP 用 APbb 表示。
TensorMask 表示
首先,我們研究了使用 V =U=15 和 ResNet-50-FPN 骨幹的 mask 的各種張量表示。表2 報告了定量結果,圖 2 和圖 9 顯示了定性比較。
表2
與 Mask R-CNN 的比較
表 3 總結了 test-dev 上最好的 TensorMask 模型,並將其與當前用於 COCO 實例分割的主流方法 Mask RCNN 進行了比較。
表3
如上表所示,最好的 TensorMask 在 test-dev 上達到了 35.5 mask AP,接近於 mask R-CNN 的 36.8。
在 ResNet-101 中,TensorMask 實現了 37.3 mask AP,與 mask R-CNN 相比只有 1.0 AP 差距。
這些結果表明,密集滑動窗口方法可以縮小與 「先檢測後分割」 方法的差距。定性結果如圖 2、10、11 所示。
TensorMask 是一個 dense sliding-window 實例分割框架,首次在定性和定量上都接近於 Mask R-CNN 框架。TensorMask 為實例分割研究建立了一個概念互補的方向。
(圖2答案:第一行是Mask R-CNN的結果,第二行是TensorMask的結果。)
論文地址:
https://arxiv.org/pdf/1903.12174.pdf
更多閱讀
【2019新智元 AI 技術峰會精彩回顧】
2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以「智能雲•芯世界「為主題,聚焦智能雲和AI晶片的發展,重塑未來AI世界格局。
同時,新智元將在峰會現場權威發布若干AI白皮書,聚焦產業鏈的創新活躍,評述AI獨角獸影響力,助力中國在世界級的AI競爭中實現超越。
現場精彩回顧:
愛奇藝(全天):
https://live.iqiyi.com/s/19rsj6q75j.html
頭條科技(上午):
m.365yg.com/i6672243313506044680/
頭條科技(下午):
m.365yg.com/i6672570058826550030/