...2020 | 打破傳統Grid限制, 建模高階關係的圖像檢測和分割方法...

2021-01-10 網易

　　作者：西安交通大學人工智慧學院二年級博士生宋林

　　NeurIPS 2020 文章專題

　　第·14·期

　　本文是西安交通大學人工智慧學院聯合香港中文大學、中國科學院自動化研究所發表於NeurIPS 2020的一項工作。本工作拋棄了圖像中常用的網格 (Grid) 結構形式，利用樹形結構實現了線性複雜度的高階關係建模和特徵變換。在保證全局感受野的同時，保留物體的結構信息和細節特徵。可學習的模塊被靈活地應用在了目標檢測、語意分割、實例分割和全景分割上。

　　本工作有效地彌補了傳統二元關係建模方法的不足之處，從而在更低的複雜度下，即可取得更為顯著的性能提升。此外，本工作提供了高效的GPU實現和PyTorch代碼，只需要兩行代碼即可使用。

　　論文連結：

　　https://arxiv.org/abs/2012.03482

　　代碼連結：

　　https://github.com/Megvii-BaseDetection/TreeFilter-Torch

　　https://github.com/StevenGrove/LearnableTreeFilterV2

　　更多參考資料：

　　https://arxiv.org/pdf/1909.12513.pdf

　　一、傳統長距離關係建模方法

　　首先說一下研究背景，為了解決卷積神經網絡的有效感受野受限的問題，很多基於視覺上下文建模的方法被提出來。它們大體上可以被分為兩類，一類是local-based，一類是global based。其中local-based通過增大卷積的感受野來實現，包括dilation convolution，deformable convolution，aspp等等，而global based則利用attention機制，通過建模二元關係來獲得全局感受野。然而，這些建模一元或二元關係的方法，無法感知其他物體的影響。例如，當兩個同類物體被背景隔離，這對於instance相關的任務而言，期望兩者具有較低的相關性。但是，在沒有position encoding的前提下，這些方法會輸出較高的相關性。這反映在可視化上，即很難保留物體的細節或者結構化信息。

　　圖1：傳統的上下文建模方法分為local-based (左) 和global-based (右)

　　二、建模高階關係的樹形特徵變換器

　　為了解決這個問題，我們提出了一篇工作Learnable Tree Filter(https://arxiv.org/pdf/1909.12513.pdf)。它利用具有豐富細節信息的低層級特徵來構建一顆最小生成樹，而最小生成樹具有一些很好的特性。如圖2中右側，k點和n點分別屬於人和車兩種不同物體，理想情況下我們希望它們之間具有很低的特徵相似度。但是由於空間距離相近，如果只依靠二元關係建模，則很難將兩者有效地區分開。

　　圖2：Learnable Tree Filter的示意圖，在樹上同一物體內不同節點的距離被拉近，而不同物體間的節點則被拉遠。

　　而最小生成樹的構建過程保證了它會優先連接最相近的節點，也就是說它會先在人和車的內部進行連接，最後再將兩者之間進行連接。從而，可以看到圖上k到n的紅色箭頭，它表示的是k到n在樹上的路徑。這個路徑的距離等於其中每條邊距離的總和，因此能夠很好地將兩者區分開，從而達到結構保留的效果。這裡區別於傳統的二元關係建模，樹上k到n的路徑是涉及到多節點間的高階關係，即改變路徑中任意一個節點的特徵，都會改變k到n之間的相關性。除此之外，由於樹是一個無環圖，因此可以通過動態規划算法來實現線性的計算複雜度 (GPU上實際效率也很高，具體請參考下文) 。

　　三、靈活的即插即用的模塊

　　圖3：利用Learnable Tree Filter的語義分割網絡示意圖

　　當learnable tree filter被打包成一個可微的即插即用的模塊，就可以很方便地用於各種神經網絡的某一層上。例如，對於語義分割任務，我們可以將learnable tree filter (也就是圖3中的綠圓) 放在FPN的decoder上。

　　圖4：右側Heatmap表示與一個錨點 (紅色十字叉) 之間的相關性

　　圖4給出了一些相關性的效果展示，可以看到左邊火車上的兩個紅色十字差表示兩個錨點位置，右邊的熱力圖表示與其中一個錨點位置的相似度。可以看到，採用二元關係建模的non-local (右邊NL所示) 它對兩個錨點的相似度幾乎一致，而我們的模型則通過建模結構保留了高階關係，從而有效地將兩者進行區分。此外，對於圖4中的細長物體 (旗杆) ，二元關係建模的non-local會被背景信息淹沒，而我們的方法則可以很好地保留結構細節。

　　圖5：基於改進的Markov Random Field形式的LTF-V2獲得了更強大的長距離特徵表達能力

　　四、進一步提升長距離特徵表達能力

　　然而learnable tree filter依然存在一些問題，由於樹自身具有幾何約束，導致濾波過程會被限制在一個局部區域內，很難與遠方的節點進行有效交互。另外，最小生成樹過程是一個不可微的，從而降低了模型的通用性和靈活性。為了解決第一個問題，我們首先利用MRF對learnable tree filter做了重新的建模 (這部分請參考原論文) ，然後我們發現對應的MRF的一元項是一個定值，而這直接導致了learnable tree filter很難具有長距離的感受野。

　　為此，我們引入了一個data-dependent的一元項建模形式。並利用belief propagation算法得到了閉式解，這種新形式的learnable tree filter可以緩解幾何約束，並且可以高效地與遠方節點進行交互。另外，為了解決最小生成樹不可微的問題，我們提出了一種可學習的生成樹過程，從而實現完全的端到端的訓練。

　　五、目標檢測、語意分割和實例分割的應用

　　圖6：ground-truth、mask-rcnn和learnable tree filter在COCO實例分割的效果圖

　　有了上面的技術，本文給出了實際的運行效果。圖6是instance segmentation和object detection的效果圖，左邊是ground-truth，中間是mask-rcnn的結果，右邊是mask-rcnn+learnable tree filter的結果。可以看到learnable tree filter在杯子和勺子的邊緣有明顯的提升，另外檢測和分類能力也得到了增強。

　　圖7：learnable tree filter在VOC2012語意分割的效果圖

　　圖7給出了語意分割上的效果，第一行是輸入圖片，第二行為learnable tree filter的預測，第三行為ground-truth。其中有個非常有意思的現象，比如圖中的自行車，可以看到即使ground-truth上沒有給出輻條的標註，利用結構保留的建模，我們的算法依然可以將其分割出來。另外，旗杆、馬背、馬身的細節也可以有效地保留。

　　表1：各方法在mask-rcnn (resnet-50，1x) 下COCO val set的結果

　　表2：左側為cityscapes val set右側為cityscapes test set，只使用fine數據訓練

　　除此之外，這裡給出了定量的結果，表1的COCO數據集顯示，我們的算法相當於其他方法，只需要用很少的資源就可以實現更高的性能。表2顯示，cityscapes的語義分割，我們使用簡單的FPN結構就可以達到SOTA的結果。

　　六、高效靈活，兩行PyTorch代碼即可使用

　　圖7：在Tesla V100上的實際運行時間

　　有些人可能會質疑，learnable tree filter這種序列操作在GPU這樣的並行設備上效率不高。我們對cuda代碼做了仔細的優化，實現batch、channel和同深度節點間的並行，並行效率很好。下圖是我們在一塊tesla v100的實測結果，可以看到隨著節點數的增多，我們的算法實現線性的時間增長，這在具有大量節點的應用中，我們的算法會有很大的優勢。

　　另外，我們還給出了一個很簡單的pytorch代碼，大家只用在原有的pytorch代碼中加入兩行就可以用learnable tree filter的模塊。

　　七、豐富的潛在應用場景

　　圖8：豐富的潛在應用，包括替換transformer，解迷宮問題和視頻特徵增強

　　我們相信learnable tree filter還有很多的潛在應用場景，圖8給出了三個例子：1) 替換transformer中的attention模塊；2) 由於我們算法可以建模高階關係，這可能對因果推斷，解迷宮也會有幫助；3) 高效的推斷可能會幫助視頻分析類任務提取高解析度的時序信息。

　　作者簡介

　　宋林，西安交通大學人工智慧學院二年級博士生，導師為孫劍和孫宏濱。他目前的研究興趣是通用物體檢測、圖像分割和視頻行為識別與檢測。

　　個人主頁： linsong.me

　　NeurlPS 2020 論文解讀 ●●

　　// 1

　　// 2

　　// 3

　　// 4

　　// 5

　　// 6

　　// 7

　　// 8

　　// 9

　　// 10

　　// 11

　　// 12

　　// 13

　　本周上新!

　　掃碼觀看！

　　關於我「門」

　　▼

　　將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。

　　將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

　　如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給「門」:

　　bp@thejiangmen.com

　　讓創新獲得認可！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

...2020 | 打破傳統Grid限制, 建模高階關係的圖像檢測和分割方法...

相關焦點

計算機視覺:圖像檢測和圖像分割有什麼區別?

「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理

機器視覺和智能圖像處理技術之間的關係

入門| 一文了解什麼是語義分割及常用的語義分割方法有哪些

如何提高交互式圖像分割算法的效率?

100個深度圖像分割算法,紐約大學UCLA等最新綜述論文

利用基於幾何關係的擴增技術從OCT圖像進行病理視網膜區域分割

圖像語義分割之特徵整合和結構預測

2020入坑圖像分割,我該從哪兒入手?

U-Net 和 ResNet:長短跳躍連接的重要性(生物醫學圖像分割)

贈書|圖像分類問題建模方案探索實踐

基於OpenCV的區域分割、輪廓檢測和閾值處理

學界| 雙重注意力網絡:中科院自動化所提出新的自然場景圖像分割...

3D視覺:一張圖像如何看出3D效果?

電院徐奕副教授團隊在MICCAI 2019「消化道病理圖像檢測與分割...

谷歌開源語義圖像分割模型:該領域當前最優模型

基於LS-SVR建模的高階粒子濾波器的故障預示方法

2020「水下目標檢測算法賽」賽題解析——聲學圖像

浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結