選自arXiv
作者:Xinlei Chen、Ross Girshick、Kaiming He、Piotr Dollar
機器之心編譯
滑動窗口在目標檢測中非常重要,然而最近何愷明等研究者表明,這個範式同樣可以用於實例分割。他們提出一條新的道路,即將密集實例分割看成一個在 4D 張量上進行的預測任務,這也就是 TensorMask 通用框架。
該論文是 FAIR 實驗室完成的,除了何愷明外,一作陳鑫磊博士也非常厲害。陳鑫磊本科畢業於浙江大學,博士在 CMU(2012-2018)完成,他從 2011 年開始就在 AAAI、ICCV 和 CVPR 發過 13 篇頂會論文,其中有 8 篇是一作。
為什麼需要 TensorMask
滑動窗口範式(sliding-window paradigm)是計算機視覺領域最早、最成功的概念之一,這種技術通過查看一組密集圖像上的每個窗口來尋找目標,和卷積神經網絡產生了自然的關聯。
最近,避開第二階段的提煉,以直接滑動窗口預測為核心的邊界框目標檢測器開始復甦,並取得了良好的效果。但相比之下,該領域的密集滑動窗口實例分割並未取得同步的進展。為什麼邊界框的密集檢測發展如此之快,但實例分割卻落後了呢?這是一個具有根本科學意義的問題。
該論文的目標就是彌補這一差距並為密集實例分割研究奠定基礎,為了這個目標,作者提出了一種名為 TensorMask 的框架。
利用 TensorMask 框架,研究者在 4D 張量的標度索引列表上開發了一個金字塔結構,並將其命名為 tensor bipyramid。
他們的實驗表明,TensorMask 可以生成與 Mask R-CNN 相似的結果(見圖 1、2)。
圖 1:TensorMask 的輸出。
圖 2:TensorMask 和以 ResNet-101-FPN 為骨幹網絡的 Mask R-CNN 的示例結果。二者在定性和定量標準上都非常接近。表明這一密集滑動窗口範式在實例分割任務上也可以非常有效。
這些有力的結果表明,TensorMask 框架可以為將來的密集滑動窗口實例分割研究拓寬道路。說不定在挖了全景分割這個坑後,愷明大神又為我們指引了一條新的發展方向。
什麼是 TensorMask
研究者認為,目前還缺乏定義密集 Mask 表徵的概念以及這些概念在神經網絡中的有效實現。邊界框有不考慮比例的固定低維表徵,但分割 Mask 可以利用更加結構化的豐富表徵。例如,每個 Mask 本身都是一個 2D 空間圖,較大對象的 Mask 可以從較大空間圖的使用中獲益。為密集 Mask 開發有效的表徵是實現密集實例分割的關鍵一步。
為了解決這一問題,研究者定義了一組核心概念來表徵高維張量 Mask,這使得探索密集 Mask 預測的新型網絡成為可能。研究者提出了若干此類網絡並利用其進行了實驗,以展示所提出的表徵方法的優點。TensorMask 框架創建了第一個密集滑動窗口實例分割系統,達到的效果接近 Mask R-CNN。
TensorMask 表徵的核心理念是利用結構化的 4D 張量在一個空間域上表徵 Mask。這一理念與之前分割與類無關的對象的工作形成了對比,如 DeepMask 和使用結構化 3D 張量的 InstanceFCN,其中的 Mask 被打包到第三個「通道」軸。該通道軸與表徵目標位置的通道軸不同,它沒有明確的幾何意義,因此難以操縱。通過使用一個基本的通道表徵,人們錯過了從使用結構化數組將 Mask 表徵為 2D 實體中獲益的機會,類似於表徵 2D 圖像的 MLP 和 ConvNet 之間的差別。
與這些通道導向的方法不同,本文作者提出利用 4D 形狀張量(V, U, H, W),其中的(H, W)表徵目標位置,(V, U)表徵相關 Mask 位置,它們都是幾何子張量,即它們都有與圖像相關的單元和幾何意義定義完整的軸。這種從非結構化通道軸上的編碼 Mask 到使用結構化幾何子張量的視角轉變,使得定義新的運算和網絡體系架構成為可能。這些網絡可以直接以幾何上有意義的方式在以 (V, U) 子張量上進行運算,包括坐標變換、上/下尺度變換和尺度金字塔的使用。
論文:TensorMask: A Foundation for Dense Object Segmentation
連結:https://arxiv.org/pdf/1903.12174.pdf
摘要:在一個密集、規則的網格上生成邊界框目標預測的滑動窗口目標檢測發展迅速並得到了廣泛的應用。相比之下,當下流行的目標分割方法主要是先檢測目標邊界框,然後裁剪並分割這些區域,如流行的 Mask R-CNN。
在本文中,我們研究了密集滑動窗口實例分割的範式,這一方法目前鮮有人研究。我們認為,這一任務與語義分割、邊界框目標檢測等其他密集預測任務有著本質上的不同,因為在這一任務中,每個空間位置的輸出本身就是一個幾何結構,具有自己的空間維度。
為了使其更加清晰,我們將密集實例分割看成一個在 4D 張量上進行的預測任務,提出了 TensorMask 通用框架,這一框架可以顯式地捕捉這一幾何機構並使得在 4D 張量上的新型操作成為可能。
我們證明了,這一張量視角優於忽略這種結構的基線方法,其結果可媲美 Mask R-CNN。這些有力的結果表明,TensorMask 可以為密集 Mask 預測取得新進展提供基礎,有助於我們更全面地理解這一任務。代碼將會開源。
Mask 的張量表徵
TensorMask 框架的核心概念是使用結構化的高維張量表示密集窗口的圖像內容。例如,如果在特徵圖 W×H 上有一個 V ×U 大小的滑動窗口。那麼我們可以使用一個形狀為 (C, H, W) 的張量表示所有滑動窗口上的所有 Mask,且每一個 Mask 可以通過 C=V ·U 個像素參數化,這就是 DeepMask 中採用的表徵。
實際上,這種表徵的潛在觀點即使用更高維張量——4D 的 (V, U, H, W)。其中子張量 (V, U) 將一個二維空間實體表示為 Mask。在理解這種張量表徵前,我們先要了解 6 個關鍵概念。
1. 長度的單位(unit of length),每一個空間軸的單位對於理解四維張量都非常重要。直觀而言,一個軸的單位定義了對應單個像素的長度,不同的軸有不同的單位。例如,H 和 W 軸的單位表示為σ_HW,它定義為有關輸入圖像的步輻。
2. 自然表徵(Natural Representation),定義單位後,我們就可以描述 (V, U, H, W) 張量的表徵意義。在最簡單的定義中,它表示 (H, W) 上的滑動窗口,這可以稱為自然表徵。
3. 對齊表徵(Aligned Representation),在自然表徵中,位於 (y, x) 的子張量 (V, U) 表示偏移像素 (y+αv, x+αu) 的值,而不是直接表示 (y, x) 的值。在使用卷積計算特徵時,保持輸入像素和輸出像素的對齊能帶來很多性能上的提升。
下圖展示了這兩種表徵:
圖 3: 左圖為自然表徵,其中 (V, U) 子張量表示以該像素為中心的窗口。右圖為對齊表徵,(V hat, U hat) 子張量表示該像素在各窗口的值。
4. 坐標轉換(Coordinate Transformation),論文引入了這種方法以在自然表徵和為對齊表徵之間做轉換,這會給設計新架構帶來額外的靈活性。
5. 放大轉換(Upscaling Transformation),對齊表徵允許使用粗粒度的子張量 (V hat, U hat) 創建細粒度的子張量 (V, U)。
圖 4: up align2nat 操作由兩個運算組成。
6. 張量 Bipyramid,在目標框檢測中,使用特徵金字塔非常常見。為此在 Mask 張量中,我們不再使用 V ×U 個單元表示不同尺度的 Mask,我們提出了這種基於尺度來調整 Mask 像素數量的方法。
TensorMask 架構
這些模型有一個預測 Mask 的 Head,它在滑動窗口中生成 Mask;同時也有一個進行分類的 Head,它可以預測目標類別。它們類似於滑動窗口目標檢測器中的邊界框回歸和分類分支。邊界框預測對於 TensorMask 模型並不是必要的,但可以便捷地包含進來。
如下圖 6 所示,我們考慮了四個基線 Head。每一個 Head 接受一張輸入特徵圖 (C, H, W)。
圖 6: 基線 Mask 預測 Head,這四種 Head 都從通道為 C 的特徵圖開始。
圖 7: 使用基線 Head 的特徵金字塔,與 Tensor Bipyramid 的對比。
圖 8:使用 Tensor Bipyramid 將 FPN 特徵圖從
轉換到 (C, H, W)。
實驗
表 3 總結了測試-開發集上的最好 TensorMask 模型,並與當前 COCO 實例分割的主流模型 Mask RCNN 進行了對比。
表 3:在 COCO 測試-開發集上與 Mask R-CNN 實例分割對比
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。