作者:西安交通大學人工智慧學院二年級博士生 宋林
NeurIPS 2020 文章專題
第·14·期
本文是西安交通大學人工智慧學院聯合香港中文大學、中國科學院自動化研究所發表於NeurIPS 2020的一項工作。本工作拋棄了圖像中常用的網格 (Grid) 結構形式,利用樹形結構實現了線性複雜度的高階關係建模和特徵變換。在保證全局感受野的同時,保留物體的結構信息和細節特徵。可學習的模塊被靈活地應用在了目標檢測、語意分割、實例分割和全景分割上。
本工作有效地彌補了傳統二元關係建模方法的不足之處,從而在更低的複雜度下,即可取得更為顯著的性能提升。此外,本工作提供了高效的GPU實現和PyTorch代碼,只需要兩行代碼即可使用。
論文連結:
https://arxiv.org/abs/2012.03482
代碼連結:
https://github.com/Megvii-BaseDetection/TreeFilter-Torch
https://github.com/StevenGrove/LearnableTreeFilterV2
更多參考資料:
https://arxiv.org/pdf/1909.12513.pdf
一、傳統長距離關係建模方法
首先說一下研究背景,為了解決卷積神經網絡的有效感受野受限的問題,很多基於視覺上下文建模的方法被提出來。它們大體上可以被分為兩類,一類是local-based,一類是global based。其中local-based通過增大卷積的感受野來實現,包括dilation convolution,deformable convolution,aspp等等,而global based則利用attention機制,通過建模二元關係來獲得全局感受野。然而,這些建模一元或二元關係的方法,無法感知其他物體的影響。例如,當兩個同類物體被背景隔離,這對於instance相關的任務而言,期望兩者具有較低的相關性。但是,在沒有position encoding的前提下,這些方法會輸出較高的相關性。這反映在可視化上,即很難保留物體的細節或者結構化信息。
圖1:傳統的上下文建模方法分為local-based (左) 和global-based (右)
二、建模高階關係的樹形特徵變換器
為了解決這個問題,我們提出了一篇工作Learnable Tree Filter(https://arxiv.org/pdf/1909.12513.pdf)。它利用具有豐富細節信息的低層級特徵來構建一顆最小生成樹,而最小生成樹具有一些很好的特性。如圖2中右側,k點和n點分別屬於人和車兩種不同物體,理想情況下我們希望它們之間具有很低的特徵相似度。但是由於空間距離相近,如果只依靠二元關係建模,則很難將兩者有效地區分開。
圖2:Learnable Tree Filter的示意圖,在樹上同一物體內不同節點的距離被拉近,而不同物體間的節點則被拉遠。
而最小生成樹的構建過程保證了它會優先連接最相近的節點,也就是說它會先在人和車的內部進行連接,最後再將兩者之間進行連接。從而,可以看到圖上k到n的紅色箭頭,它表示的是k到n在樹上的路徑。這個路徑的距離等於其中每條邊距離的總和,因此能夠很好地將兩者區分開,從而達到結構保留的效果。這裡區別於傳統的二元關係建模,樹上k到n的路徑是涉及到多節點間的高階關係,即改變路徑中任意一個節點的特徵,都會改變k到n之間的相關性。除此之外,由於樹是一個無環圖,因此可以通過動態規划算法來實現線性的計算複雜度 (GPU上實際效率也很高,具體請參考下文) 。
三、靈活的即插即用的模塊
圖3:利用Learnable Tree Filter的語義分割網絡示意圖
當learnable tree filter被打包成一個可微的即插即用的模塊,就可以很方便地用於各種神經網絡的某一層上。例如,對於語義分割任務,我們可以將learnable tree filter (也就是圖3中的綠圓) 放在FPN的decoder上。
圖4:右側Heatmap表示與一個錨點 (紅色十字叉) 之間的相關性
圖4給出了一些相關性的效果展示,可以看到左邊火車上的兩個紅色十字差表示兩個錨點位置,右邊的熱力圖表示與其中一個錨點位置的相似度。可以看到,採用二元關係建模的non-local (右邊NL所示) 它對兩個錨點的相似度幾乎一致,而我們的模型則通過建模結構保留了高階關係,從而有效地將兩者進行區分。此外,對於圖4中的細長物體 (旗杆) ,二元關係建模的non-local會被背景信息淹沒,而我們的方法則可以很好地保留結構細節。
圖5:基於改進的Markov Random Field形式的LTF-V2獲得了更強大的長距離特徵表達能力
四、進一步提升長距離特徵表達能力
然而learnable tree filter依然存在一些問題,由於樹自身具有幾何約束,導致濾波過程會被限制在一個局部區域內,很難與遠方的節點進行有效交互。另外,最小生成樹過程是一個不可微的,從而降低了模型的通用性和靈活性。為了解決第一個問題,我們首先利用MRF對learnable tree filter做了重新的建模 (這部分請參考原論文) ,然後我們發現對應的MRF的一元項是一個定值,而這直接導致了learnable tree filter很難具有長距離的感受野。
為此,我們引入了一個data-dependent的一元項建模形式。並利用belief propagation算法得到了閉式解,這種新形式的learnable tree filter可以緩解幾何約束,並且可以高效地與遠方節點進行交互。另外,為了解決最小生成樹不可微的問題,我們提出了一種可學習的生成樹過程,從而實現完全的端到端的訓練。
五、目標檢測、語意分割和實例分割的應用
圖6:ground-truth、mask-rcnn和learnable tree filter在COCO實例分割的效果圖
有了上面的技術,本文給出了實際的運行效果。圖6是instance segmentation和object detection的效果圖,左邊是ground-truth,中間是mask-rcnn的結果,右邊是mask-rcnn+learnable tree filter的結果。可以看到learnable tree filter在杯子和勺子的邊緣有明顯的提升,另外檢測和分類能力也得到了增強。
圖7:learnable tree filter在VOC2012語意分割的效果圖
圖7給出了語意分割上的效果,第一行是輸入圖片,第二行為learnable tree filter的預測,第三行為ground-truth。其中有個非常有意思的現象,比如圖中的自行車,可以看到即使ground-truth上沒有給出輻條的標註,利用結構保留的建模,我們的算法依然可以將其分割出來。另外,旗杆、馬背、馬身的細節也可以有效地保留。
表1:各方法在mask-rcnn (resnet-50,1x) 下COCO val set的結果
表2:左側為cityscapes val set右側為cityscapes test set,只使用fine數據訓練
除此之外,這裡給出了定量的結果,表1的COCO數據集顯示,我們的算法相當於其他方法,只需要用很少的資源就可以實現更高的性能。表2顯示,cityscapes的語義分割,我們使用簡單的FPN結構就可以達到SOTA的結果。
六、高效靈活,兩行PyTorch代碼即可使用
圖7:在Tesla V100上的實際運行時間
有些人可能會質疑,learnable tree filter這種序列操作在GPU這樣的並行設備上效率不高。我們對cuda代碼做了仔細的優化,實現batch、channel和同深度節點間的並行,並行效率很好。下圖是我們在一塊tesla v100的實測結果,可以看到隨著節點數的增多,我們的算法實現線性的時間增長,這在具有大量節點的應用中,我們的算法會有很大的優勢。
另外,我們還給出了一個很簡單的pytorch代碼,大家只用在原有的pytorch代碼中加入兩行就可以用learnable tree filter的模塊。
七、豐富的潛在應用場景
圖8:豐富的潛在應用,包括替換transformer,解迷宮問題和視頻特徵增強
我們相信learnable tree filter還有很多的潛在應用場景,圖8給出了三個例子:1) 替換transformer中的attention模塊;2) 由於我們算法可以建模高階關係,這可能對因果推斷,解迷宮也會有幫助;3) 高效的推斷可能會幫助視頻分析類任務提取高解析度的時序信息。
//
作者簡介
宋林,西安交通大學人工智慧學院二年級博士生,導師為孫劍和孫宏濱。他目前的研究興趣是通用物體檢測、圖像分割和視頻行為識別與檢測。
個人主頁: linsong.me
NeurlPS 2020 論文解讀 ●●
// 1
// 2
// 3
// 4
// 5
// 6
// 7
// 8
// 9
// 10
// 11
// 12
// 13
本周上新!
掃碼觀看!
關於我「門」
▼
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。
將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給「門」:
bp@thejiangmen.com
讓創新獲得認可!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.