...2020 | 打破傳統Grid限制, 建模高階關係的圖像檢測和分割方法...

2021-01-10 網易

  

  作者:西安交通大學人工智慧學院二年級博士生 宋林

  NeurIPS 2020 文章專題

  第·14·期

  本文是西安交通大學人工智慧學院聯合香港中文大學中國科學院自動化研究所發表於NeurIPS 2020的一項工作。本工作拋棄了圖像中常用的網格 (Grid) 結構形式,利用樹形結構實現了線性複雜度的高階關係建模和特徵變換。在保證全局感受野的同時,保留物體的結構信息和細節特徵。可學習的模塊被靈活地應用在了目標檢測、語意分割、實例分割和全景分割上。

  本工作有效地彌補了傳統二元關係建模方法的不足之處,從而在更低的複雜度下,即可取得更為顯著的性能提升。此外,本工作提供了高效的GPU實現和PyTorch代碼,只需要兩行代碼即可使用。

  

  論文連結:

  https://arxiv.org/abs/2012.03482

  代碼連結:

  https://github.com/Megvii-BaseDetection/TreeFilter-Torch

  https://github.com/StevenGrove/LearnableTreeFilterV2

  更多參考資料:

  https://arxiv.org/pdf/1909.12513.pdf

  一、傳統長距離關係建模方法

  首先說一下研究背景,為了解決卷積神經網絡的有效感受野受限的問題,很多基於視覺上下文建模的方法被提出來。它們大體上可以被分為兩類,一類是local-based,一類是global based。其中local-based通過增大卷積的感受野來實現,包括dilation convolution,deformable convolution,aspp等等,而global based則利用attention機制,通過建模二元關係來獲得全局感受野。然而,這些建模一元或二元關係的方法,無法感知其他物體的影響。例如,當兩個同類物體被背景隔離,這對於instance相關的任務而言,期望兩者具有較低的相關性。但是,在沒有position encoding的前提下,這些方法會輸出較高的相關性。這反映在可視化上,即很難保留物體的細節或者結構化信息。

  

  圖1:傳統的上下文建模方法分為local-based (左) 和global-based (右)

  二、建模高階關係的樹形特徵變換器

  為了解決這個問題,我們提出了一篇工作Learnable Tree Filter(https://arxiv.org/pdf/1909.12513.pdf)。它利用具有豐富細節信息的低層級特徵來構建一顆最小生成樹,而最小生成樹具有一些很好的特性。如圖2中右側,k點和n點分別屬於人和車兩種不同物體,理想情況下我們希望它們之間具有很低的特徵相似度。但是由於空間距離相近,如果只依靠二元關係建模,則很難將兩者有效地區分開。

  

  圖2:Learnable Tree Filter的示意圖,在樹上同一物體內不同節點的距離被拉近,而不同物體間的節點則被拉遠。

  而最小生成樹的構建過程保證了它會優先連接最相近的節點,也就是說它會先在人和車的內部進行連接,最後再將兩者之間進行連接。從而,可以看到圖上k到n的紅色箭頭,它表示的是k到n在樹上的路徑。這個路徑的距離等於其中每條邊距離的總和,因此能夠很好地將兩者區分開,從而達到結構保留的效果。這裡區別於傳統的二元關係建模,樹上k到n的路徑是涉及到多節點間的高階關係,即改變路徑中任意一個節點的特徵,都會改變k到n之間的相關性。除此之外,由於樹是一個無環圖,因此可以通過動態規划算法來實現線性的計算複雜度 (GPU上實際效率也很高,具體請參考下文) 。

  三、靈活的即插即用的模塊

  

  圖3:利用Learnable Tree Filter的語義分割網絡示意圖

  當learnable tree filter被打包成一個可微的即插即用的模塊,就可以很方便地用於各種神經網絡的某一層上。例如,對於語義分割任務,我們可以將learnable tree filter (也就是圖3中的綠圓) 放在FPN的decoder上。

  

  圖4:右側Heatmap表示與一個錨點 (紅色十字叉) 之間的相關性

  圖4給出了一些相關性的效果展示,可以看到左邊火車上的兩個紅色十字差表示兩個錨點位置,右邊的熱力圖表示與其中一個錨點位置的相似度。可以看到,採用二元關係建模的non-local (右邊NL所示) 它對兩個錨點的相似度幾乎一致,而我們的模型則通過建模結構保留了高階關係,從而有效地將兩者進行區分。此外,對於圖4中的細長物體 (旗杆) ,二元關係建模的non-local會被背景信息淹沒,而我們的方法則可以很好地保留結構細節。

  

  圖5:基於改進的Markov Random Field形式的LTF-V2獲得了更強大的長距離特徵表達能力

  四、進一步提升長距離特徵表達能力

  然而learnable tree filter依然存在一些問題,由於樹自身具有幾何約束,導致濾波過程會被限制在一個局部區域內,很難與遠方的節點進行有效交互。另外,最小生成樹過程是一個不可微的,從而降低了模型的通用性和靈活性。為了解決第一個問題,我們首先利用MRF對learnable tree filter做了重新的建模 (這部分請參考原論文) ,然後我們發現對應的MRF的一元項是一個定值,而這直接導致了learnable tree filter很難具有長距離的感受野。

  為此,我們引入了一個data-dependent的一元項建模形式。並利用belief propagation算法得到了閉式解,這種新形式的learnable tree filter可以緩解幾何約束,並且可以高效地與遠方節點進行交互。另外,為了解決最小生成樹不可微的問題,我們提出了一種可學習的生成樹過程,從而實現完全的端到端的訓練。

  五、目標檢測、語意分割和實例分割的應用

  

  圖6:ground-truth、mask-rcnn和learnable tree filter在COCO實例分割的效果圖

  有了上面的技術,本文給出了實際的運行效果。圖6是instance segmentation和object detection的效果圖,左邊是ground-truth,中間是mask-rcnn的結果,右邊是mask-rcnn+learnable tree filter的結果。可以看到learnable tree filter在杯子和勺子的邊緣有明顯的提升,另外檢測和分類能力也得到了增強。

  

  圖7:learnable tree filter在VOC2012語意分割的效果圖

  圖7給出了語意分割上的效果,第一行是輸入圖片,第二行為learnable tree filter的預測,第三行為ground-truth。其中有個非常有意思的現象,比如圖中的自行車,可以看到即使ground-truth上沒有給出輻條的標註,利用結構保留的建模,我們的算法依然可以將其分割出來。另外,旗杆、馬背、馬身的細節也可以有效地保留。

  

  表1:各方法在mask-rcnn (resnet-50,1x) 下COCO val set的結果

  

  表2:左側為cityscapes val set右側為cityscapes test set,只使用fine數據訓練

  除此之外,這裡給出了定量的結果,表1的COCO數據集顯示,我們的算法相當於其他方法,只需要用很少的資源就可以實現更高的性能。表2顯示,cityscapes的語義分割,我們使用簡單的FPN結構就可以達到SOTA的結果。

  六、高效靈活,兩行PyTorch代碼即可使用

  

  圖7:在Tesla V100上的實際運行時間

  有些人可能會質疑,learnable tree filter這種序列操作在GPU這樣的並行設備上效率不高。我們對cuda代碼做了仔細的優化,實現batch、channel和同深度節點間的並行,並行效率很好。下圖是我們在一塊tesla v100的實測結果,可以看到隨著節點數的增多,我們的算法實現線性的時間增長,這在具有大量節點的應用中,我們的算法會有很大的優勢。

  另外,我們還給出了一個很簡單的pytorch代碼,大家只用在原有的pytorch代碼中加入兩行就可以用learnable tree filter的模塊。

  七、豐富的潛在應用場景

  

  圖8:豐富的潛在應用,包括替換transformer,解迷宮問題和視頻特徵增強

  我們相信learnable tree filter還有很多的潛在應用場景,圖8給出了三個例子:1) 替換transformer中的attention模塊;2) 由於我們算法可以建模高階關係,這可能對因果推斷,解迷宮也會有幫助;3) 高效的推斷可能會幫助視頻分析類任務提取高解析度的時序信息。

  //

  作者簡介

  宋林,西安交通大學人工智慧學院二年級博士生,導師為孫劍和孫宏濱。他目前的研究興趣是通用物體檢測、圖像分割和視頻行為識別與檢測。

  個人主頁: linsong.me

  NeurlPS 2020 論文解讀 ●●

  // 1

  // 2

  // 3

  // 4

  // 5

  // 6

  // 7

  // 8

  // 9

  // 10

  // 11

  // 12

  // 13

  本周上新!

  掃碼觀看!

  關於我「門」

  

  將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務將門技術社群以及將門創投基金

  將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

  如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給「門」:

  bp@thejiangmen.com

  

  讓創新獲得認可!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 計算機視覺:圖像檢測和圖像分割有什麼區別?
    字幕組雙語原文:計算機視覺:圖像檢測和圖像分割有什麼區別?英語原文:What is the difference between Object Detection and Image Segmentation?翻譯:雷鋒字幕組(明明知道)人工智慧中的圖像處理人工智慧對於圖像處理有不同的任務。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    新智元專欄 作者:張皓【新智元導讀】本文作者來自南京大學計算機系機器學習與數據挖掘所(LAMDA),本文直觀系統地梳理了深度學習在計算機視覺領域四大基本任務中的應用,包括圖像分類、定位、檢測、語義分割和實例分割。
  • 機器視覺和智能圖像處理技術之間的關係
    人工智慧、機器視覺和智能圖像處理技術之間的關係如圖1所示。在圖像中常見的特徵有灰度、彩色、紋理、邊緣、角點等。例如,對汽車裝配流水線圖像進行分割,分成背景區域和工件區域,提供給後續處理單元對工件安裝部分的處理。 圖像分割多年來一直是圖像處理中的難題,至今已有種類繁多的分割算法,但是效果往往並不理想。近來,人們利用基於神經網絡的深度學習方法進行圖像分割,其性能勝過傳統算法。
  • 入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些
    圖像理解的關鍵在於將一個整體場景分解成幾個單獨的實體,這也有助於我們推理目標的不同行為。當然,目標檢測方法可以幫助我們繪製某些確定實體的邊框,但人類對場景的理解能以像素級的精細程度對每一個實體進行檢測並標記精確的邊界。我們已經開始發展自動駕駛汽車和智慧機器人,這些都需要深入理解周圍環境,因此精確分割實體變得越來越重要。
  • 如何提高交互式圖像分割算法的效率?
    現有的交互式圖像分割算法雖然能迭代式地更新分割結果,但很大程度上忽略了對連續交互之間動態性的探索,造成分割效率大大降低。在 CVPR 2020 的一篇論文中,來自上海交大和華師大的團隊聯合提出了一種基於多智能體深度強化學習(MARL)的新型交互式三維醫療圖像分割算法(IteR-MRL)。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    引言 圖像分割是許多視覺理解系統的重要組成部分。它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,增強現實等。
  • 利用基於幾何關係的擴增技術從OCT圖像進行病理視網膜區域分割
    傳統的數據擴增由於不能完全代表訓練集的基本分布,因此在對不同來源的圖像進行測試時,影響了模型的魯棒性。使用生成性對抗網絡(GAN)進行數據擴增的方法在醫學圖像分類方面取得了一定的成功。然而,由於它們不能模擬不同器官之間的幾何關係,而且大多數擴增方法不能區分正常和病變樣本,因此它們對分割的相關性有限。
  • 圖像語義分割之特徵整合和結構預測
    餘昌黔華中科技大學碩士研究方向為圖像語義分割知乎專欄https://zhuanlan.zhihu.com/semantic-segmentation前言近來閱讀了 PASCAL VOC 2012 排行榜上前幾的文章,包括 PSPNet 和林國省老師的幾篇論文,覺得現在在 semantic segmentation 領域對於 Multi-scale Features
  • 2020入坑圖像分割,我該從哪兒入手?
    初識圖像分割顧名思義,圖像分割就是指將圖像分割成多個部分。在這個過程中,圖像的每個像素點都和目標的種類相關聯。圖像分割方法主要可分為兩種類型:語義分割和實例分割。語義分割會使用相同的類標籤標註同一類目標(下圖左),而在實例分割中,相似的目標也會使用不同標籤進行標註(下圖右)。
  • U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)
    在RoR中,通過使用長短跳躍連接,圖像分類準確性得到提高。實驗結果證明了使用長短跳躍連接的有效性。這一次,作者還提供了一種通過分析網絡中的權重來展示其有效性的方法,而不僅僅是展示實驗結果。儘管這項工作的目的是進行生物醫學圖像分割,但通過觀察網絡內的權重,我們可以更好地理解長短跳躍連接。它發布於2016年DLMIA(醫學圖像分析中的深度學習),引用次數超過100次。
  • 贈書|圖像分類問題建模方案探索實踐
    與其他分類問題相比,主要的區別在於輸入是圖像,這就導致其特徵工程方法相對單一,通過圖像的像素值進行特徵提取。圖像分類問題可以用圖1來形象的描述。圖1 圖像分類之「貓狗大戰」圖像分類同時是其他很多高層視覺問題的基礎,例如目標檢測、圖像分割、目標追蹤、行為分析等等。
  • 基於OpenCV的區域分割、輪廓檢測和閾值處理
    重磅乾貨,第一時間送達 OpenCV是一個巨大的開源庫,廣泛用於計算機視覺,人工智慧和圖像處理領域 在輸入幀中定義ROI的過程稱為ROI分割。 在「 ROI細分」中,(此處)我們選擇框架中的特定區域,並以矩形方法提供其尺寸,以便它將在框架上繪製矩形的ROI。
  • 學界| 雙重注意力網絡:中科院自動化所提出新的自然場景圖像分割...
    為了有效完成場景分割任務,需要區分一些容易混淆的類別,並考慮不同外觀的物體。本文提出了一個新的自然場景圖像分割框架,稱為雙重注意力網絡(DANet),引入了一種自注意力機制來分別捕捉空間維度和通道維度上的視覺特徵關聯。
  • 3D視覺:一張圖像如何看出3D效果?
    除了連續卷積外,該研究還添加了 Point-Pooling 和 Attentive Aggregation 等組件,以使融合特徵更具表達力。此外,基於 PACF 模塊,研究人員提出了一個叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多傳感器多任務網絡,該網絡負責圖像分割和 3D 目標檢測任務。
  • 電院徐奕副教授團隊在MICCAI 2019「消化道病理圖像檢測與分割...
    Detection and Segmentation Challenge 2019(「消化道病理圖像檢測與分割」國際挑戰賽)中獲佳績,分別摘得印戒細胞檢測競賽的第二名(1st Runner Up)和結腸鏡檢查組織分割競賽的第四名。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    剛剛,谷歌開源了語義圖像分割模型 DeepLab-v3+,DeepLab-v3+結合了空間金字塔池化模塊和編碼器-解碼器結構的優勢,是自三年前的 DeepLab 以來的最新、性能最優的版本。GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • 基於LS-SVR建模的高階粒子濾波器的故障預示方法
    摘要:本發明提供一種基於LS-SVR建模的高階粒子濾波機械故障預示方法,目的是通過提取從正常狀態演化到故障狀態的信號特徵,用數據驅動的方式建立狀態方程,並能夠實現在線實時的預測。
  • 2020「水下目標檢測算法賽」賽題解析——聲學圖像
    聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先後請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業講座。
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    車載攝像頭探查到圖像,後臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。接下來的分享首先會為大家介紹圖像分割具體是做什麼的,圖像分割有哪些應用場景以及做圖像分割實驗經常用到的幾個數據集。最後再講解圖像分割的幾個方法。分為兩個部分,第一部分是傳統視覺的圖分割算法,雖然現在很少用,但自認為算法比較優美。第二部分是深度學習算法,會介紹最近幾年流行的經典技巧。什麼是圖像分割?