基於層級圖網絡的圖卷積:用點雲完成3D目標檢測

2020-12-08 OFweek維科網

論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds

由於大多數現有的點雲對象檢測方法不能充分適應點雲的特徵(例如稀疏性),所以一些關鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基於層級圖網絡(HGNet)的圖卷積(GConv),可以直接將點雲作為輸入來預測 3D 的邊界框。形狀注意圖卷積(SA-GConv)可以通過劍魔點的位置星系來描述物體形狀,基於 SA-GConv 的 U 形網絡可以通過改進的 voting 模塊獲取多層級的特徵進而生成候選,然後一個基於圖卷積的候選推理模塊考慮全局的場景語義來對邊界框進行預測。該框架在兩個大規模點雲數據上的表現超過了目前最先進的模型。

論文背景

由於點雲的稀疏性,一些已有的為網格形式數據設計的方法(如CNN)在點雲上的表現並不好,為解決這一問題,最近有一些對點雲數據的方法被提出,例如基於投影的方法、基於體卷積的方法和基於 PointNet 的方法。前兩種試圖將點雲數據嚴格轉換為網格結構數據,而後一種則在不明確考慮點的幾何位置的情況下聚合特徵。

與其他方法相比,PointNet++ 可以保留點的稀疏特點,因此被廣泛作為框架的骨架。當目前仍有一些未能很好解決的挑戰,首先由於沒有考慮點的相對幾何位置,因此使用 PointNet++ 作為主幹忽略了一些局部形狀信息。其次,框架的結構沒有充分利用多級語義,這可能會忽略一些有助於目標檢測的信息。

本文提出了一個基於圖卷積(GCONV)的層級圖網絡(HGNet)用於基於點雲的 3D 目標檢測。HGNet 包含三部分:一個基於圖卷積的 U 形網絡(GUnet)、一個候選生成器以及一個候選推理模塊(ProRe Module)。基於層級圖網絡(HGNet)的圖卷積

整個 HGNet 以端到端的方式進行培訓。在本文的框架中,點雲的局部形狀信息、多級語義和全局場景信息(候選的特徵)已被層級圖模型充分捕獲、聚合和合併,充分考慮了點雲數據的特徵。

本文的主要貢獻如下:

(A)開發了一種新的層級圖網絡(HGNet),用於在點雲上進行 3D 對象檢測,其表現好於已有方法。

(B)提出了一種新穎的 SA-(De)GConv,它可以有效地聚合特徵並捕獲點雲中對象的形狀信息。

(C)構建了一個新的 GU-net,用於生成多級特徵,這對於 3D 對象檢測至關重要。

(D)利用全局信息,ProRe 模塊通過對候選進行推理來提高效果。

論文模型

融合採樣

3D 目標檢測有基於點和基於體素兩種框架,前者更加耗時,由候選生成與預測細化兩個階段組成。

在第一個階段,SA 用於降採樣以獲得更高的效率以及擴大感受野,FP 用來為降採樣過程中丟掉的點傳播特徵。在第二階段,一個優化模塊最優化 RPN 的結果以獲得更準確的預測。SA 對於提取點的特徵是必需的。但 FP 和優化模塊會限制效率。

形狀注意圖卷積

點雲通常不能清楚地表示出物體的形狀,可以使用其相鄰點的相對幾何位置來描述點周圍的局部形狀。本文介紹了一種新穎的形狀注意圖卷積,它通過對點的幾何位置建模來捕獲對象形狀。

對於一個點集 X,其中每一個點由其集合位置 p_i 以及 D 維的特徵 f_i 組成,我們想要生成一個 X』,本文設計了圖卷積用於聚合從 X 到 X』 的特徵。與 PointNet++的採樣層相類似,本文首先從 n 個點中採樣 n』 個點,通常 K 最近鄰(KNN)被用來在採樣中保留局部信息將其作為中心點特徵。

其中 g 表示 i 和 j 的相對位置,通過一個卷積將三維變為一維,f 是 mlp,然後二者的乘積就是中心點的 knn,其中最大的作為 i 的特徵。形狀注意操作不同於簡單的基於 mlp 的操作主要就是因為這個 g 函數。雖然形式上沒有 attention 中的 softmax 這樣的歸一化,但是 g 的輸出就和 attention一樣,每個點的 weights,然後對應的乘以特徵。

相關焦點

  • 深度學習閱讀導航 | 03 FPN:基於特徵金字塔網絡的目標檢測
    這說明當前基於單層特徵的檢測系統還是具有一定的局限性。(c)金字塔型特徵層級然而,圖像金字塔並不是計算多尺度特徵表示的唯一方法。深度卷積神經網絡逐層計算特徵層次,對於子採樣層,特徵層次具有固有的多尺度、金字塔形狀。這種網絡內要素層次結構生成了不同空間解析度的特徵圖,但由於深度不同導致了較大的語義鴻溝。
  • 賈佳亞等提出Fast Point R-CNN,利用點雲快速高效檢測3D目標
    選自arXiv作者:Yilun Chen、Shu Liu、Xiaoyong Shen、Jiaya Jia機器之心編譯參與:韓放、一鳴本文提出了一個統一、高效且有效的,基於點雲的三維目標檢測框架。其兩階段方法採用體素表示和原始點雲數據並充分利用了它們的優勢。
  • 基於卷積神經網絡的目標檢測算法簡介
    ,降低特徵維數e) 利用特徵分類器對特徵進行分類,判定候區是否包含了目標及其類別f) 合併判定為統一類別的相交候選區,計算出每個目標的邊界框,完成目標檢測。池化層具有類似於特徵選擇的功能,根據一定規則從卷積特徵圖的局部區域計算出重要的特徵值,通常情況下,池化層會無重疊地選擇局部區域,因此,池化操作降低了特徵維度,同時保證了特徵具有抗形變的能力。池化層與卷積層的特徵圖是一一對應,因此,池化層的特徵圖個數與卷積層的特徵圖個數一致。
  • 三維變二維,港中文提出用於點雲卷積的局域展平網絡模塊FPConv
    From:arxiv;編譯:T.R點雲是三維目標最為重要的表示形式之一,但高效地處理需要面臨點雲非規則、無序性和稀疏性的特點。為了克服三維卷積帶來的計算資源消耗和解析度限制,來自香港中文大學深圳分校等機構的研究人員們提出了一種基於局域展平的二維平面卷積方法FPConv,將點雲非線性投影到特殊平面上,而後在利用2D卷積進行有效地特徵抽取。這種方法將點雲轉換到二維平面上的投影過程和插值過程簡化為一個權重矩陣的學習。
  • 看了這篇文章,了解深度卷積神經網絡在目標檢測中的進展
    回顧從 2014 到 2016 這兩年多的時間,先後湧現出了 R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD 等越來越快速和準確的目標檢測方法。1.
  • 從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡 (二)
    在從圖(Graph)到圖卷積(Graph Convolution): 漫談圖神經網絡 (一)中,我們簡單介紹了基於循環圖神經網絡的兩種重要模型,在本篇中,我們將著大量筆墨介紹圖卷積神經網絡中的卷積操作。接下來,我們將首先介紹一下圖卷積神經網絡的大概框架,藉此說明它與基於循環的圖神經網絡的區別。
  • Fast Point R-CNN | 一個跟Point R-CNN和Fast R-CNN都沒啥關係的點雲目標檢測網絡
    三者唯一的相似點就是它們三個都是two-stage網絡。如果要強行歸類的話,Fast Point R-CNN應該算是VoxelNet一派的。這一點從網絡結構圖中可以看出。網絡的第一階段叫做VoxelRPN,類似於VoxelNet/SECOND的網絡結構,用來對體素化的點雲進行處理,網絡由3D卷積層+2D的2D的RPN構成;網絡的第二階段是RefinerNet,將原始點雲加入進來,並融入注意力機制,提高檢測效果。從這個角度來看,這個網絡應該叫Refiner-VoxelNet或許更為貼切(我胡說的)。
  • 混合時空圖卷積網絡:更精準的時空預測模型|KDD2020
    基於複合鄰接矩陣的圖卷積從合併後的通行時間信號中捕捉空間依賴信息。H-STGCN經由端到端的訓練,可具備基於計劃中交通流量信息預測未來擁堵的能力。利用真實交通數據集進行實驗可驗證,H-STGCN的效果顯著優於各種前沿模型。2混合時空圖卷積網絡,獨創域轉換器和複合鄰接矩陣1、整體框架圖 4 展示了H-STGCN的整體框架。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。  2  動機  1、現有的基於關鍵點的目標檢測網絡(如CornerNet、CenterNet、ExtremeNet等)通過使用關聯嵌入向量進行物體關鍵點的匹配,然而關聯嵌入向量具有訓練難度大且容易混淆同類物體的缺點,這會造成許多錯誤的關鍵點匹配從而導致錯誤的檢測結果。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • CVPR 2019 | PointConv:在點雲上高效實現卷積操作
    3D 點雲是一種不規則且無序的數據類型,傳統的卷積神經網絡難以處理點雲數據。來自俄勒岡州立大學機器人技術與智能系統(CoRIS)研究所的研究者提出了 PointConv,可以高效的對非均勻採樣的 3D 點雲數據進行卷積操作,該方法在多個數據集上實現了優秀的性能。
  • 丟棄Transformer,全卷積網絡也可以實現E2E檢測
    機器之心轉載作者:王劍鋒在近來研究人員熱衷於探索 Transformer 用於目標檢測的嘗試時,這篇論文提出了一種全新的觀點,即利用全卷積網絡也可以實現良好的端到端目標檢測效果。目標檢測是計算機視覺領域的一個基礎研究主題,它利用每張圖像的預定義類標籤來預測邊界框。
  • 一文概覽目標檢測領域進展(數據集/2D/3D
    這類框架首先生成候選區域(region proposal),然後將其分類成不同的目標類別,所以這也被稱為「基於區域的方法」。這類模型主要包括 R-CNN [22]、Fast R-CNN [23]、Faster R-CNN [24]、基於區域的全卷積網絡(R-FCN)等。 在單階段框架中,模型將目標檢測任務視為一個統一的端到端回歸問題。
  • CVPR 2020 目標檢測論文精選
    字幕組雙語原文:CVPR 2020 目標檢測論文精選英語原文:CVPR 2020: The Top Object Detection Papers翻譯:雷鋒字幕組(李珺毅、沫年惜雪)一、基於在點雲上的3D目標檢測的分層圖形網絡原文標題:A Hierarchical Graph Network for 3D Object
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    使用雷射雷達傳感器獲得的 3D 點雲數據描述了周圍環境,使得 3D 目標檢測能夠比單純使用 RBG 攝像頭提供更多的目標信息(不僅有位置信息,還有距離信息)。該研究指出,以往使用 CNN 的方法處理點雲數據時往往需要在空間劃分 Grids,會出現大量的空白矩陣元素,並不適合稀疏點雲;近來出現的類似 PointNet 的方法對點雲數據進行分組和採樣,取得了不錯的結果,但計算成本太大。
  • 要想了解卷積神經網絡,首先需要了解三種基本架構
    基本的比如人臉識別,人臉關鍵點,全景圖像的重建等等一般的可以用於圖像的物體識別(如人臉和汽車圖像),以及圖像的圖像變換(如人臉和人臉圖像),視頻編碼(如視頻監控和圖像目標識別)等。通過卷積神經網絡提取數據表徵特徵。要想了解卷積神經網絡,首先需要了解三種基本架構:全連接,池化和卷積。基於全連接架構的卷積神經網絡用於圖像和3d立體視覺等識別問題,可直接使用relu激活函數。
  • 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網絡模型 | AAAI 2018
    Temporal Graph Convolution Networks for Skeleton Based Action Recognition」提出了一種新的 ST-GCN,即時空圖卷積網絡模型,用於解決基於人體骨架關鍵點的人類動作識別問題。
  • 一種基於點雲的Voxel(三維體素)特徵的深度學習方法
    需要注意的是,在無人車環境感知問題中,很多情況下並不需要對目標進行精確的語義分割,只需將目標以一個三維的Bounding Box準確框出即可(即Detection)。 本文介紹一種基於點雲的Voxel(三維體素)特徵的深度學習方法,實現對點雲中目標的準確檢測,並提供一個簡單的ROS實現,供大家參考。
  • 深度| 一文概覽圖卷積網絡基本結構和最新進展
    大綱神經網絡圖模型的簡要介紹譜圖卷積和圖卷積網絡(GCNs)演示:用一個簡單的一階 GCN 模型進行圖嵌入將 GCNs 視為 Weisfeiler-Lehman 算法的可微泛化如果你已經對 GCNs 及其相關方法很熟悉了的話,你可以直接跳至「GCNs 第 Ⅲ 部分:嵌入空手道俱樂部網絡」部分。
  • 從數據集到2D和3D方法,一文概覽目標檢測領域進展
    雷達數據對目標檢測問題也很有用。雷達數據的收集方式是:先向目標表面發射聲波,然後使用反射信息來計算目標的速度以及與目標的距離。但是,僅靠雷達可無法收集到用於檢測和分類的信息,因此不同類型數據的融合是非常重要的。點雲數據是三維坐標系中的一組向量。這些向量通常用 X、Y、Z 的三維坐標表示,是一種常用的外表面形狀表示方式。