滑動窗口也能用於實例分割,陳鑫磊、何愷明等人提出圖像分割新範式

2021-01-15 機器之心Pro

選自arXiv

作者:Xinlei Chen、Ross Girshick、Kaiming He、Piotr Dollar

機器之心編譯

滑動窗口在目標檢測中非常重要,然而最近何愷明等研究者表明,這個範式同樣可以用於實例分割。他們提出一條新的道路,即將密集實例分割看成一個在 4D 張量上進行的預測任務,這也就是 TensorMask 通用框架。

該論文是 FAIR 實驗室完成的,除了何愷明外,一作陳鑫磊博士也非常厲害。陳鑫磊本科畢業於浙江大學,博士在 CMU(2012-2018)完成,他從 2011 年開始就在 AAAI、ICCV 和 CVPR 發過 13 篇頂會論文,其中有 8 篇是一作。

為什麼需要 TensorMask

滑動窗口範式(sliding-window paradigm)是計算機視覺領域最早、最成功的概念之一,這種技術通過查看一組密集圖像上的每個窗口來尋找目標,和卷積神經網絡產生了自然的關聯。

最近,避開第二階段的提煉,以直接滑動窗口預測為核心的邊界框目標檢測器開始復甦,並取得了良好的效果。但相比之下,該領域的密集滑動窗口實例分割並未取得同步的進展。為什麼邊界框的密集檢測發展如此之快,但實例分割卻落後了呢?這是一個具有根本科學意義的問題。

該論文的目標就是彌補這一差距並為密集實例分割研究奠定基礎,為了這個目標,作者提出了一種名為 TensorMask 的框架。

利用 TensorMask 框架,研究者在 4D 張量的標度索引列表上開發了一個金字塔結構,並將其命名為 tensor bipyramid。

他們的實驗表明,TensorMask 可以生成與 Mask R-CNN 相似的結果(見圖 1、2)。

圖 1:TensorMask 的輸出。

圖 2:TensorMask 和以 ResNet-101-FPN 為骨幹網絡的 Mask R-CNN 的示例結果。二者在定性和定量標準上都非常接近。表明這一密集滑動窗口範式在實例分割任務上也可以非常有效。

這些有力的結果表明,TensorMask 框架可以為將來的密集滑動窗口實例分割研究拓寬道路。說不定在挖了全景分割這個坑後,愷明大神又為我們指引了一條新的發展方向。

什麼是 TensorMask

研究者認為,目前還缺乏定義密集 Mask 表徵的概念以及這些概念在神經網絡中的有效實現。邊界框有不考慮比例的固定低維表徵,但分割 Mask 可以利用更加結構化的豐富表徵。例如,每個 Mask 本身都是一個 2D 空間圖,較大對象的 Mask 可以從較大空間圖的使用中獲益。為密集 Mask 開發有效的表徵是實現密集實例分割的關鍵一步。

為了解決這一問題,研究者定義了一組核心概念來表徵高維張量 Mask,這使得探索密集 Mask 預測的新型網絡成為可能。研究者提出了若干此類網絡並利用其進行了實驗,以展示所提出的表徵方法的優點。TensorMask 框架創建了第一個密集滑動窗口實例分割系統,達到的效果接近 Mask R-CNN。

TensorMask 表徵的核心理念是利用結構化的 4D 張量在一個空間域上表徵 Mask。這一理念與之前分割與類無關的對象的工作形成了對比,如 DeepMask 和使用結構化 3D 張量的 InstanceFCN,其中的 Mask 被打包到第三個「通道」軸。該通道軸與表徵目標位置的通道軸不同,它沒有明確的幾何意義,因此難以操縱。通過使用一個基本的通道表徵,人們錯過了從使用結構化數組將 Mask 表徵為 2D 實體中獲益的機會,類似於表徵 2D 圖像的 MLP 和 ConvNet 之間的差別。

與這些通道導向的方法不同,本文作者提出利用 4D 形狀張量(V, U, H, W),其中的(H, W)表徵目標位置,(V, U)表徵相關 Mask 位置,它們都是幾何子張量,即它們都有與圖像相關的單元和幾何意義定義完整的軸。這種從非結構化通道軸上的編碼 Mask 到使用結構化幾何子張量的視角轉變,使得定義新的運算和網絡體系架構成為可能。這些網絡可以直接以幾何上有意義的方式在以 (V, U) 子張量上進行運算,包括坐標變換、上/下尺度變換和尺度金字塔的使用。

論文:TensorMask: A Foundation for Dense Object Segmentation

連結:https://arxiv.org/pdf/1903.12174.pdf

摘要:在一個密集、規則的網格上生成邊界框目標預測的滑動窗口目標檢測發展迅速並得到了廣泛的應用。相比之下,當下流行的目標分割方法主要是先檢測目標邊界框,然後裁剪並分割這些區域,如流行的 Mask R-CNN。

在本文中,我們研究了密集滑動窗口實例分割的範式,這一方法目前鮮有人研究。我們認為,這一任務與語義分割、邊界框目標檢測等其他密集預測任務有著本質上的不同,因為在這一任務中,每個空間位置的輸出本身就是一個幾何結構,具有自己的空間維度。

為了使其更加清晰,我們將密集實例分割看成一個在 4D 張量上進行的預測任務,提出了 TensorMask 通用框架,這一框架可以顯式地捕捉這一幾何機構並使得在 4D 張量上的新型操作成為可能。

我們證明了,這一張量視角優於忽略這種結構的基線方法,其結果可媲美 Mask R-CNN。這些有力的結果表明,TensorMask 可以為密集 Mask 預測取得新進展提供基礎,有助於我們更全面地理解這一任務。代碼將會開源。

Mask 的張量表徵

TensorMask 框架的核心概念是使用結構化的高維張量表示密集窗口的圖像內容。例如,如果在特徵圖 W×H 上有一個 V ×U 大小的滑動窗口。那麼我們可以使用一個形狀為 (C, H, W) 的張量表示所有滑動窗口上的所有 Mask,且每一個 Mask 可以通過 C=V ·U 個像素參數化,這就是 DeepMask 中採用的表徵。

實際上,這種表徵的潛在觀點即使用更高維張量——4D 的 (V, U, H, W)。其中子張量 (V, U) 將一個二維空間實體表示為 Mask。在理解這種張量表徵前,我們先要了解 6 個關鍵概念。

1. 長度的單位(unit of length),每一個空間軸的單位對於理解四維張量都非常重要。直觀而言,一個軸的單位定義了對應單個像素的長度,不同的軸有不同的單位。例如,H 和 W 軸的單位表示為σ_HW,它定義為有關輸入圖像的步輻。

2. 自然表徵(Natural Representation),定義單位後,我們就可以描述 (V, U, H, W) 張量的表徵意義。在最簡單的定義中,它表示 (H, W) 上的滑動窗口,這可以稱為自然表徵。

3. 對齊表徵(Aligned Representation),在自然表徵中,位於 (y, x) 的子張量 (V, U) 表示偏移像素 (y+αv, x+αu) 的值,而不是直接表示 (y, x) 的值。在使用卷積計算特徵時,保持輸入像素和輸出像素的對齊能帶來很多性能上的提升。

下圖展示了這兩種表徵:

圖 3: 左圖為自然表徵,其中 (V, U) 子張量表示以該像素為中心的窗口。右圖為對齊表徵,(V hat, U hat) 子張量表示該像素在各窗口的值。

4. 坐標轉換(Coordinate Transformation),論文引入了這種方法以在自然表徵和為對齊表徵之間做轉換,這會給設計新架構帶來額外的靈活性。

5. 放大轉換(Upscaling Transformation),對齊表徵允許使用粗粒度的子張量 (V hat, U hat) 創建細粒度的子張量 (V, U)。

圖 4: up align2nat 操作由兩個運算組成。

6. 張量 Bipyramid,在目標框檢測中,使用特徵金字塔非常常見。為此在 Mask 張量中,我們不再使用 V ×U 個單元表示不同尺度的 Mask,我們提出了這種基於尺度來調整 Mask 像素數量的方法。

TensorMask 架構

這些模型有一個預測 Mask 的 Head,它在滑動窗口中生成 Mask;同時也有一個進行分類的 Head,它可以預測目標類別。它們類似於滑動窗口目標檢測器中的邊界框回歸和分類分支。邊界框預測對於 TensorMask 模型並不是必要的,但可以便捷地包含進來。

如下圖 6 所示,我們考慮了四個基線 Head。每一個 Head 接受一張輸入特徵圖 (C, H, W)。

圖 6: 基線 Mask 預測 Head,這四種 Head 都從通道為 C 的特徵圖開始。

圖 7: 使用基線 Head 的特徵金字塔,與 Tensor Bipyramid 的對比。

圖 8:使用 Tensor Bipyramid 將 FPN 特徵圖從

轉換到 (C, H, W)。

實驗

表 3 總結了測試-開發集上的最好 TensorMask 模型,並與當前 COCO 實例分割的主流模型 Mask RCNN 進行了對比。

表 3:在 COCO 測試-開發集上與 Mask R-CNN 實例分割對比

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    CNNs最初是由福島在他的開創性論文「新認知元」[17]中提出的,基於Hubel和Wiesel提出的視覺皮層的分級接受域模型。隨後,Waibel等人[18]引入了具有時間接受域權值共享的CNNs和用於音素識別的反向傳播訓練,LeCun等人[13]開發了用於文檔識別的CNN架構(圖2)。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。
  • 谷歌通過深度度量學習,提出新的語義實例分割方法
    雷鋒網了解到,谷歌研究院近日與UCLA合作,提出了一種新的語義實例分割方法:首先計算兩個像素屬於同一對象的可能性,然後將相似的像素分組在一起。其中,相似性度量是基於深度,完全卷積的嵌入模型,而分組方法是基於選擇所有與一組「種籽點」足夠相似的點,這個選擇模型是一個深度的、完全卷積的評分模型。
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    Pytorch中使用Mask-RCNN實現實例分割,是基於torchvision的預訓練模型庫,首先需要下載預訓練模型,並檢查是否可以支持GPU推理,相關的代碼如下:model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)model.eval
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    新智元專欄 作者:張皓【新智元導讀】本文作者來自南京大學計算機系機器學習與數據挖掘所(LAMDA),本文直觀系統地梳理了深度學習在計算機視覺領域四大基本任務中的應用,包括圖像分類、定位、檢測、語義分割和實例分割。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    116600)DOI:摘 要 針對全景分割中實例目標邊緣特徵提取不足導致目標邊界分割失效的問題,提出一種創新的實例特徵深度鏈式學習全景分割網絡。該算法採用Mask RCNN分割網絡,其分割結構僅由一支串聯卷積層組構成,特徵在層級傳遞過程中不斷精簡,容易出現特徵損失,破壞目標特徵原始信息;卷積結構萃取深度有限,導致目標邊緣特徵提取不足,實例分割結構的局限性使得全景融合結構有效性大大降低。同樣地,OANet(Occlusion Aware Network)提出一種空間排序模塊來用於融合實例和語義分割結果。
  • 性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA
    由於其出色地兼顧了精度和速度,已經被廣泛應用於自動駕駛、機器人抓取控制、醫療影像分割、工業質檢和遙感圖像分析等領域。相較於目標檢測和語義分割,實例分割算法的構建和訓練難度是非常複雜、且具有挑戰性的。如果要同時兼顧精度和速度,難度又上了一個臺階。
  • ICCV 2017獎項公布:最大贏家何愷明獲最佳論文,參與最佳學生論文
    Facebook 人工智慧實驗室何愷明等人論文《Mask R-CNN》獲得最佳論文、Facebook 論文《Focal Loss for Dense Object Detection》獲得最佳學生論文獎。同時,大會還公布了終身成就獎、傑出研究獎、Everingham 團隊獎等獎項。
  • Double DIP——一種無監督層圖像分割 AI 技術
    舉兩個突出的例子:圖像分割——分割成背景層和前景層的區域;圖像去霧——分割為清晰圖層和有霧圖層。在該論文中,作者提出了一種基於耦合的「深度圖像先驗」(DIP)網絡對單個圖像進行無監督層分割的統一框架。被 CVPR 2018 會議接收的深度圖像先驗(DIP)網絡,是一種可以用來對單個圖像的低級統計數據進行生成的結構,而且只需要在單張圖像上進行訓練。
  • Double DIP ——一種無監督層圖像分割 AI 技術
    舉兩個突出的例子:圖像分割——分割成背景層和前景層的區域;圖像去霧——分割為清晰圖層和有霧圖層。在該論文中,作者提出了一種基於耦合的「深度圖像先驗」(DIP)網絡對單個圖像進行無監督層分割的統一框架。被 CVPR 2018 會議接收的深度圖像先驗(DIP)網絡,是一種可以用來對單個圖像的低級統計數據進行生成的結構,而且只需要在單張圖像上進行訓練。
  • 何愷明Mask R-CNN精度提升,一半輸入數據量...
    這就是阿里達摩院提出的提出的圖像分析新方法:「頻域學習」(Learning in the Frequency Domain)。  核心要義,是省略圖像壓縮/解壓縮中計算量最大的步驟,直接利用頻域特徵來進行圖像推理,減少系統中模塊之間的數據傳輸量,從而提升系統性能。
  • 2020入坑圖像分割,我該從哪兒入手?
    初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標籤標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標籤進行標註(下圖右)。
  • 2019 語義分割指南
    語義分割是指將圖像中的每個像素歸於類標籤的過程,這些類標籤可以包括一個人、汽車、鮮花、一件家具等。我們可以將語義分割認為是像素級別的圖像分類。例如,在有許多汽車的圖像中,分割會將所有對象標記為汽車對象。然後,一個稱為實例分割的模型能夠標記一個出現在圖像中的物體的獨立實例。
  • 全新訓練及數據採樣&增強策略,FB全景分割實現新SOTA
    來自 Facebook 的研究者通過引入實例 scale-uniform 採樣策略與 crop-aware 邊框回歸損失,能夠在所有尺度上改善全景分割效果,並在多個數據集上實現 SOTA 性能。全景分割網絡可以應對很多任務(目標檢測、實例分割和語義分割),利用多批全尺寸圖像進行訓練。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    然而,實例分割(Instance Segmentation)又在語義分割上更進了一步,它能夠分割出一個類別事物中具體不同的對象,比如以三種不同顏色來標記不同的三隻狗。此外,分割技術的應用十分廣泛,大量語義分割技術被應用於自動駕駛中。可以認為,在圖像分割領域,部分最重要的貢獻應該歸功於 FAIR 實驗室。自 2015 年起,他們便展開了名為 DeepMask[46] 的研究項目。
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    SN 在 ImageNet 大規模圖像識別數據集和 Microsoft COCO 大規模物體檢測數據集的準確率,還超過了最近由 Facebook 何愷明等人提出的組歸一化 GN(Group Normalization)。原論文請參考 arXiv:1806.10779 和代碼 Github。背景解讀:*ImageNet 是大規模圖像識別資料庫。
  • 華為雲2篇論文被MICCAI2020收錄,醫學圖像邊緣分割新突破
    近日,第23屆醫學圖像計算和計算機輔助介入國際會議(The 23th Medical Image Computing Computer Assisted Intervention,MICCAI 2020)論文錄用結果公布,華為雲醫療AI團隊的2篇科研成果被收錄,在醫學圖像邊緣分割領域實現了人工智慧技術的新突破。
  • 學界| 雙重注意力網絡:中科院自動化所提出新的自然場景圖像分割...
    為了有效完成場景分割任務,需要區分一些容易混淆的類別,並考慮不同外觀的物體。本文提出了一個新的自然場景圖像分割框架,稱為雙重注意力網絡(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。基於 NAS 的圖像分類遷移到高解析度的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰:(1)神經網絡的搜索空間和基本運算單元有本質不同。(2)架構搜索必須固有地在高解析度圖像上運行,因此不能實現從低解析度圖像訓練模型遷移到高解析度圖像。
  • 腦部MR圖像的Sigma-IFCM分割算法分析
    圖像分割是把圖像分割成互不相交的區域,使每個區域內的像素具有某種相似的特徵,以便對圖像進行後續處理。圖像分割是圖像分析的難點之一,至今沒有一個通用且有效的圖像分割方法能夠滿足不同的需求。在腦部MR圖像分析中該問題尤為突出。 在諸多的圖像分割算法中,模糊C均值(FCM)分割算法是目前應用最廣泛的分割算法之一。最早由Dunn提出,後經Bezdek改進。