何愷明等最新論文:實例分割全新方法TensorMask,效果比肩 Mask R-CNN

2021-02-23 新智元

【新智元導讀】FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask,首次在定性和定量上都接近於 Mask R-CNN 框架,為探索密集實例分割方法提供基礎。

現代實例分割方法主要是先檢測對象邊界框,然後進行裁剪和分割, Mask R-CNN 是目前這類方法中最優秀的。

近日,來自 FAIR 的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar 等人發表一篇新論文「TensorMask: A Foundation for Dense Object Segmentation」,從一個新的方向解決實例分割問題,並提出了一個名為 TensorMask 的通用框架。

論文地址:

https://arxiv.org/pdf/1903.12174.pdf

作者表示,TensorMask 達到了與 Mask R-CNN 相當的結果,有助於更全面地理解這項任務。

Ross Girshick、何愷明、Piotr Dollar 三人也是 Mask R-CNN 的作者,一作陳鑫磊博士畢業於 CMU,導師是 Tom Mitchell 教授,並曾在谷歌雲 AI 李飛飛、李佳的指導下實習。

在密集、規則的網格上生成邊界框對象預測的滑動窗口目標檢測器 (sliding-window object detectors) 已經得到迅速發展,並得到了廣泛的應用。

與此相反,現代的實例分割方法主要是先檢測對象邊界框,然後進行裁剪和分割,Mask R-CNN 推廣了這種方法。

在這項工作中,我們研究了密集滑動窗口實例分割 (dense sliding-window instance segmentation) 的範例,令人驚訝的是,這方面的研究十分不足。

我們的核心發現是,這項任務與其他的密集預測任務 (如語義分割或邊界框對象檢測) 有本質的不同,因為每個空間位置的輸出本身就是一個幾何結構,具有自己的空間維度。

為了形式化地說明這一點,我們將密集實例分割視為一個 4D 張量 (4D tensors) 的預測任務,並提出了一個名為 TensorMask 的通用框架,該框架顯式地捕獲這種幾何圖形,並支持對 4D tensors 使用新的操作符。

圖 1:TensorMask 的輸出。我們將密集實例分割作為一種基於結構化 4D 張量的預測任務。除了獲得具有競爭力的定量結果,TensorMask 還獲得了定性上合理的結果。圖中小的和大的物體都被很好地描繪出來,並且,重疊的物體也被正確地處理了。

我們證明了 tensor 這種想法可以相比 baseline 獲得較大的增益,並且可以得到與Mask R-CNN 相當的結果。這些結果表明, TensorMask 可以作為密集掩碼預測的新進展的基礎,有助於更全面地理解這項任務。我們將發布本研究的代碼。

滑動窗口 (sliding-window) 範例 —— 通過查看放置在一組密集圖像位置上的每個窗口來查找對象 —— 是計算機視覺中最早、也是最成功的概念之一,並且這個概念自然地與卷及網絡相關。

然而,儘管目前性能最好的對象檢測器依賴於滑動窗口預測來生成初始候選區域,但獲得更準確的預測主要來自對這些候選區域進行細化的階段,如 Faster R-CNN 和 Mask R-CNN,分別用於邊界框目標檢測和實例分割。這類方法已經主導了 COCO 目標檢測挑戰賽。

近年來,諸如 SSD 和 RetinaNet 之類的邊界框目標檢測器,避開了 「細化」 這個步驟,專注於直接的滑動窗口預測,已經有了復甦的趨勢,並顯示出有希望的結果。

相比之下,該領域在密集滑動窗口實例分割方面並沒有取得同等的進展;對於 mask prediction,沒有類似於 SSD / RetinaNet 這樣的直接、密集的方法。

為什麼密集的方法在邊界框檢測方面進展迅速,而在實例分割方面卻完全缺失?這是一個基本科學上的問題。這項工作的目標就是彌補這一差距,並為探索密集實例分割方法提供基礎

我們的主要觀點是,定義 dense mask representations 的核心概念,以及這些概念在神經網絡中的有效實現,都是缺乏的。

與邊界框不同,邊界框具有固定的低維表示而不考慮比例,分割掩碼 (segmentation masks) 可以從更豐富、更結構化的表示中獲益。例如,每個 mask 本身是一個 2D 空間映射,較大對象的 mask 可以受益於較大空間映射的使用。為 dense masks 開發有效的表示是實現密集實例分割的關鍵步驟。

為了解決這個問題,我們定義了一組用高維張量表示 mask 的核心概念,這些概念允許探索用於 dense mask prediction 的新穎網絡架構。為了證明所提出的表示的優點,我們提出了幾個這樣的網絡並進行了實驗。

我們的框架稱為 TensorMask,它建立了第一個密集滑動窗口實例分割系統,其結果接近於 Mask R-CNN。

左:自然表示。右:對齊表示 (Aligned representation)。

TensorMask 表示的核心想法是使用結構化的 4D tensors 表示空間域上的 mask

與以前的面向通道的方法不同,我們建議利用形狀 (V, U, H, W) 的 4D tensors,其中(H, W) 表示目標位置,(V, U) 表示對應的 mask 的位置,它們都是幾何子張量,也就是說,它們的軸有明確定義的 units 和關於圖像的幾何意義。

這種從非結構化通道軸上的 encoding masks 到使用結構化幾何子張量的視角轉變,使得定義新的操作和網絡架構成為可能。這些網絡可以以幾何上有意義的方式直接作用於(V, U) 子張量,包括坐標變換、up-/downscaling 和金字塔的使用。

在 TensorMask 框架的支持下,我們在一個 4D tensors 的標度索引列表上建立了一個金字塔結構,我們稱之為張量雙金字塔 ( tensor bipyramid)。與特徵金字塔類似,tensor bipyramid 是一個多尺度特徵映射列表,它包含一個形狀為 2kV、2ku、12kh、12kw 的 4D 張量列表,其中 k≥0 個索引尺度。這種結構在 (H, W) 和 (V, U) 幾何子張量上都呈金字塔形狀,但方向相反。這種設計捕捉了大對象具有粗糙空間定位的高解析度 mask(大 k) 和小對象具有精細空間定位的低解析度 mask(小 k) 的理想特性。

feature pyramid 和 tensor bipyramid 的比較

我們將這些組件組合成一個網絡骨幹和訓練程序,類似 RetinaNet,其中我們的 dense mask predictor 擴展了原始的密集邊界框預測器。

通過詳細的消融實驗,我們評估了 TensorMask 框架的有效性,並證明了明確捕捉該任務的幾何結構的重要性。最後,我們展示了 TensorMask 與對應的 Mask R-CNN 產生了相似的結果 (見圖 1 和圖 2)。

TensorMask 框架的核心思想是使用結構化的高維張量來表示一組密集滑動窗口中的圖像內容 (例如 masks)。

圖 2:使用 ResNet-101-FPN 骨幹的 TensorMask 和 Mask R-CNN 的示例結果 (與圖 6中使用的 Mask R-CNN 的圖像相同)。結果在定量和質量上都很相似,表明密集滑動窗口範式確實可以有效地用於實例分割任務。請讀者猜猜哪些結果是 TensorMask 生成的(答案見文末)。

TensorMask架構

我們已經展示了採用 TensorMask representations 的模型。這些模型有一個在滑動窗口中生成 masks 的 mask prediction head,以及一個用於預測對象類別的classification head,類似於滑動窗口目標檢測器中的 box regression 和 classification heads。

我們報告了 COCO 實例分割的結果。所有的模型都在 ~118k train2017 圖像上進行訓練,並在 5k val2017 圖像上進行測試。最終結果在 test-dev 上。我們使用 COCO mask 的平均精度 (用 AP 表示)。box AP 用 APbb 表示。

TensorMask 表示

首先,我們研究了使用 V =U=15 和 ResNet-50-FPN 骨幹的 mask 的各種張量表示。表2 報告了定量結果,圖 2 和圖 9 顯示了定性比較。

表2

與 Mask R-CNN 的比較

表 3 總結了 test-dev 上最好的 TensorMask 模型,並將其與當前用於 COCO 實例分割的主流方法 Mask RCNN 進行了比較。

表3

如上表所示,最好的 TensorMask 在 test-dev 上達到了 35.5 mask AP,接近於 mask R-CNN 的 36.8。

在 ResNet-101 中,TensorMask 實現了 37.3 mask AP,與 mask R-CNN 相比只有 1.0 AP 差距。

這些結果表明,密集滑動窗口方法可以縮小與 「先檢測後分割」 方法的差距。定性結果如圖 2、10、11 所示。

TensorMask 是一個 dense sliding-window 實例分割框架,首次在定性和定量上都接近於 Mask R-CNN 框架。TensorMask 為實例分割研究建立了一個概念互補的方向。

(圖2答案:第一行是Mask R-CNN的結果,第二行是TensorMask的結果。)

論文地址:

https://arxiv.org/pdf/1903.12174.pdf

更多閱讀

【2019新智元 AI 技術峰會精彩回顧

2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術峰會。峰會以「智能雲•芯世界「為主題,聚焦智能雲和AI晶片的發展,重塑未來AI世界格局。

同時,新智元將在峰會現場權威發布若干AI白皮書,聚焦產業鏈的創新活躍,評述AI獨角獸影響力,助力中國在世界級的AI競爭中實現超越。

現場精彩回顧:

愛奇藝(全天):

https://live.iqiyi.com/s/19rsj6q75j.html

頭條科技(上午):

m.365yg.com/i6672243313506044680/

頭條科技(下午):

m.365yg.com/i6672570058826550030/

相關焦點

  • 何愷明團隊:從特徵金字塔網絡、Mask R-CNN到學習分割一切
    圖來自Learning to Segment Everything來源:skrish13.github.io作者:krish 編譯:肖琴【新智元導讀】這篇文章介紹了FAIR何愷明、Tsung-Yi Lin等人的團隊在計算機視覺領域最新的一些創新,包括特徵金字塔網絡、RetinaNet、Mask R-CNN以及用於實例分割的弱半監督方法
  • Facebook 最新論文:Mask R-CNN實例分割通用框架,檢測,分割和特徵...
    近日, FAIR部門的研究人員在這一領域又有了新的突破——他們提出一種目標實例分割(object instance segmentation)框架Mask R-CNN,該框架較傳統方法操作更簡單、更靈活。研究人員把實驗成果《Mask R-CNN》發布在了arXiv上,並表示之後會開源相關代碼。以下為AI科技評論據論文內容進行的部分編譯。
  • CVPR 2020 | 美團提出CenterMask,實例分割新網絡!速度/精度更均衡
    如何保留像素級的位置信息,這是two-stage和one-stage的實例分割面臨的普遍問題。分割本質上是像素級的任務,物體邊緣像素的分割精細程度對最終的效果有較大影響。而現有的實例分割方法大多將固定大小的特徵轉換到原始物體的大小,或者利用固定個數的點對輪廓進行描述,這些方式都無法較好的保留原始圖像的空間信息。
  • 何愷明團隊計算機視覺最新進展:從特徵金字塔網絡、Mask R-CNN到學習分割一切
    、Tsung-Yi Lin等人的團隊在計算機視覺領域最新的一些創新,包括特徵金字塔網絡、RetinaNet、Mask R-CNN以及用於實例分割的弱半監督方法。,作者Tsung-Yi Lin,何愷明等人。
  • 何愷明團隊新作:圖像分割精細度空前,邊緣自帶抗鋸齒,算力僅需Mask R-CNN的2.6%
    其團隊最新論文一出,圖像分割又往前一大步:消耗的資源變得更少,算力僅需Mask R-CNN的2.6%。不僅能實現準確的分割,甚至連張開的五指都能精準摳出:秀長腿的長頸鹿,分割後腿也能保持修長的模樣了:△右為新方法如此效果,已然超越了默認mask head的Mask R-CNN。
  • mask rcnn訓練自己的數據集
    3D視覺工坊的第67篇文章前言最近迷上了mask rcnn,也是由於自己工作需要吧,特意研究了其原始碼,並基於自己的數據進行訓練~本博客參考:https://blog.csdn.net/disiwei1012/article/details/79928679#commentsedit實驗目的
  • 【前沿】何愷明大神ICCV2017最佳論文Mask R-CNN的Keras/TensorFlow/Pytorch 代碼實現
    spm=5176.8067841.wnnow.14.ZrBcrm新智元AI World 2017世界人工智慧大會開場視頻來源:專知【新智元導讀】何愷明大神的論文Mask R-CNN 獲得ICCV最佳論文 ,而關於這篇論文的TensorFlow\Pytorch\Keras
  • 輕鬆學Pytorch –Mask-RCNN圖像實例分割
    Pytorch中使用Mask-RCNN實現實例分割,是基於torchvision的預訓練模型庫,首先需要下載預訓練模型,並檢查是否可以支持GPU推理,相關的代碼如下:model = torchvision.models.detection.maskrcnn_resnet50_fpn(pretrained=True)model.eval
  • 愷明大神 Mask R-CNN 超實用教程
    對象檢測器,如yolo、faster r-cnn和ssd,生成四組(x,y)坐標,表示圖像中對象的邊界框。從獲取對象的邊界框開始挺好的,但是邊界框本身並不能告訴我們(1)哪些像素屬於前景對象,(2)哪些像素屬於背景。是否可以為圖像中的每個對象生成一個MASK,從而允許我們從背景分割前景對象?
  • 實例分割算法之Mask RCNN
    論文在此:https://arxiv.org/pdf/1703.06870.pdfMask RCNN是在Faster RCNN基礎上的改進算法
  • 愷明大神 Mask R-CNN 超實用教程
    直接跳到下載(https://www.pyimagesearch.com/2018/11/19/mask-r-cnn-with-opencv/#)。在本教程的第一部分中,我們將討論圖像分類、對象檢測、實例分割和語義分割之間的區別。 這裡,我們將簡要回顧Mask R-CNN架構及其與Faster R-CNN的關係。
  • MaskRCNN源碼解讀
    沒有多餘的問文件,源碼都放在mrcnn中,readme裡面有詳細的介紹,為了了解maskrcnn的運行流程,最好的辦法就是將代碼邊運行邊調試。從samples下面的coco文件開始運行:首先要看的就是模型的搭建,也就是maskrcnn的基礎網絡結構。1--模型搭建
  • 字節跳動實習生提出實例分割新方法:性能超過何愷明Mask R-CNN
    這是字節跳動實習生提出的實例分割新方法,名為SOLO。核心在於通過引入「實例類別」的概念,把實例分割問題轉化為分類問題。與Mask R-CNN相比,架構更加簡單,是一種單階段實例分割的方法:但在性能上卻強得多。
  • 如何使用Mask RCNN模型進行圖像實體分割?
    傳統的目標檢測流程採用滑動窗口進行區域選擇,然後採用 SIFT、HOG 等方法進行特徵提取,最後採用 SVM、Adaboost 進行類別判斷。但是傳統的目標檢測方法面臨的主要問題有:特徵提取魯棒性差,不能反應光照變化、背景多樣等情況;區域選擇沒有針對性,時間複雜度高,窗口冗餘。
  • 從零開始 Mask RCNN 實戰:基於 Win10 + Anaconda 的 Mask RCNN 環境搭建
    Mask RCNN 是何愷明基於以往的 Faster RCNN 架構提出的新的卷積網絡,實現高效地檢測圖中的物體,並同時生成一張高質量的每個個體的分割掩碼,即有效地目標的同時完成了高質量的語義分割。同時下載 Mask RCNN 的預訓練模型 「mask_rcnn_coco.h5」,放置於本地 Mask_RCNN 開源庫的根目錄下。
  • 【從零開始學Mask RCNN】二,Mask RCNN框架整體把握
    ,    [batch, num_rois, NUM_CLASSES] classifier probabilities# mrcnn_bbox,     [batch, num_rois, NUM_CLASSES, (dy, dx, log(dh), log(dw))]# mrcnn_mask,     [batch, num_detections, MASK_POOL_SIZE,
  • 輕鬆學Pytorch – 行人檢測Mask-RCNN模型訓練與使用
    大家好,這個是輕鬆學Pytorch的第20篇的文章分享,主要是給大家分享一下,如何使用數據集基於Mask-RCNN訓練一個行人檢測與實例分割網絡。這個例子是來自Pytorch官方的教程,我這裡是根據我自己的實踐重新整理跟解讀了一下,分享給大家。前面一篇已經詳細分享了關於模型本身,格式化輸入與輸出的結果。
  • 一個maskrcnn的目標檢測和實例分割的小例子
    關於如何利用遷移學習來訓練自己的數據集,這裡也給出兩個超讚的教程:教程一:TORCHVISION 目標檢測網絡微調教程二:手把手教你訓練自己的Mask R-CNN圖像實例分割模型(PyTorch官方教程)教程三:TorchVision之MaskRCNN訓練(推薦)看完以上三個教程,基本上利用Pytorch中的Torchvision.model
  • 輕鬆學 Pytorch:行人檢測 Mask-RCNN 模型訓練與使用
    大家好,這個是輕鬆學Pytorch的第20篇的文章分享,主要是給大家分享一下,如何使用數據集基於Mask-RCNN訓練一個行人檢測與實例分割網絡。這個例子是來自Pytorch官方的教程,我這裡是根據我自己的實踐重新整理跟解讀了一下,分享給大家。前面一篇已經詳細分享了關於模型本身,格式化輸入與輸出的結果。
  • 【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!
    本次會議涵蓋三維立體視覺、醫學圖像分析、人臉與姿態學習、底層視覺與圖像、運動與跟蹤、目標檢測與識別、優化方法、圖像的分割與邊緣提取、統計方法與學習、視頻事件檢測與行為識別等領域。該會自1987年創辦以來,每兩年召開一次,有著在世界各大洲輪換舉辦的慣例。各領域專家和工業界人士積極參與,推動了計算機視覺技術從萌芽到發展,從實驗室原型到實際應用的進程。