論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds
由於大多數現有的點雲對象檢測方法不能充分適應點雲的特徵(例如稀疏性),所以一些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基於層級圖網絡(HGNet)的圖卷積(GConv),可以直接將點雲作為輸入來預測 3D 的邊界框。形狀注意圖卷積(SA-GConv)可以通過劍魔點的位置星系來描述物體形狀,基於 SA-GConv 的 U 形網絡可以通過改進的 voting 模塊獲取多層級的特徵進而生成候選,然後一個基於圖卷積的候選推理模塊考慮全局的場景語義來對邊界框進行預測。該框架在兩個大規模點雲數據上的表現超過了目前最先進的模型。
論文背景
由於點雲的稀疏性,一些已有的為網格形式數據設計的方法(如CNN)在點雲上的表現並不好,為解決這一問題,最近有一些對點雲數據的方法被提出,例如基於投影的方法、基於體卷積的方法和基於 PointNet 的方法。前兩種試圖將點雲數據嚴格轉換為網格結構數據,而後一種則在不明確考慮點的幾何位置的情況下聚合特徵。
與其他方法相比,PointNet++ 可以保留點的稀疏特點,因此被廣泛作為框架的骨架。當目前仍有一些未能很好解決的挑戰,首先由於沒有考慮點的相對幾何位置,因此使用 PointNet++ 作為主幹忽略了一些局部形狀信息。其次,框架的結構沒有充分利用多級語義,這可能會忽略一些有助於目標檢測的信息。
本文提出了一個基於圖卷積(GCONV)的層級圖網絡(HGNet)用於基於點雲的 3D 目標檢測。HGNet 包含三部分:一個基於圖卷積的 U 形網絡(GUnet)、一個候選生成器以及一個候選推理模塊(ProRe Module)。基於層級圖網絡(HGNet)的圖卷積
整個 HGNet 以端到端的方式進行培訓。在本文的框架中,點雲的局部形狀信息、多級語義和全局場景信息(候選的特徵)已被層級圖模型充分捕獲、聚合和合併,充分考慮了點雲數據的特徵。
本文的主要貢獻如下:
(A)開發了一種新的層級圖網絡(HGNet),用於在點雲上進行 3D 對象檢測,其表現好於已有方法。
(B)提出了一種新穎的 SA-(De)GConv,它可以有效地聚合特徵並捕獲點雲中對象的形狀信息。
(C)構建了一個新的 GU-net,用於生成多級特徵,這對於 3D 對象檢測至關重要。
(D)利用全局信息,ProRe 模塊通過對候選進行推理來提高效果。
論文模型
融合採樣
3D 目標檢測有基於點和基於體素兩種框架,前者更加耗時,由候選生成與預測細化兩個階段組成。
在第一個階段,SA 用於降採樣以獲得更高的效率以及擴大感受野,FP 用來為降採樣過程中丟掉的點傳播特徵。在第二階段,一個優化模塊最優化 RPN 的結果以獲得更準確的預測。SA 對於提取點的特徵是必需的。但 FP 和優化模塊會限制效率。
形狀注意圖卷積
點雲通常不能清楚地表示出物體的形狀,可以使用其相鄰點的相對幾何位置來描述點周圍的局部形狀。本文介紹了一種新穎的形狀注意圖卷積,它通過對點的幾何位置建模來捕獲對象形狀。
對於一個點集 X,其中每一個點由其集合位置 p_i 以及 D 維的特徵 f_i 組成,我們想要生成一個 X』,本文設計了圖卷積用於聚合從 X 到 X』 的特徵。與 PointNet++的採樣層相類似,本文首先從 n 個點中採樣 n』 個點,通常 K 最近鄰(KNN)被用來在採樣中保留局部信息將其作為中心點特徵。
其中 g 表示 i 和 j 的相對位置,通過一個卷積將三維變為一維,f 是 mlp,然後二者的乘積就是中心點的 knn,其中最大的作為 i 的特徵。形狀注意操作不同於簡單的基於 mlp 的操作主要就是因為這個 g 函數。雖然形式上沒有 attention 中的 softmax 這樣的歸一化,但是 g 的輸出就和 attention一樣,每個點的 weights,然後對應的乘以特徵。