CVPR2020曠視提出PVN3D:針對6D位姿估計的3D關鍵點投票網絡

2020-12-17 鄉村音悅臺

1 摘要

本文中,我們提出了一種新的數據驅動方法,從單一RGBD穩健估計物體6D位姿。與直接回歸位姿不同,我們使用基於關鍵點的方法來處理這個具有挑戰性的任務。具體而言,我們提出了一個深度霍夫投票網絡來檢測物體的3D關鍵點然後使用最小二乘擬合的方式下估計6D位姿。我們的方法是基於2D關鍵點方法的擴展,它在RGB圖上估計6D位姿取得了成功。它充分利用具有額外深度信息的剛體的幾何約束,易於網絡學習和優化。該方法達到了sota的性能。

論文連結:https://arxiv.org/abs/1911.04231

論文代碼:https://github.com/ethnhe/PVN3D.git

2 介紹

本文研究的是6D位姿估計,即在標準框架下識別物體的3D位置和方向。該技術在現實中有很多應用,比如機器人抓取、自動駕駛、增強現實等。

由於光線變化、傳感器噪聲、場景遮擋及物體截斷等,6D位姿估計是一個挑戰性的問題。傳統方法使用手工設計的特徵,提取圖像與物體網格模型之間的對應關係,但是這些人工設計的特徵在光線變化及嚴重遮擋的場景下性能較差。近期,隨著機器學習與深度學習技術的發展,深度神經網絡(DNN)被用於解決這一任務,並取得顯著效果。一些方法直接使用 DNN 回歸物體的旋轉R和平移矩陣T,但是由於旋轉空間是非線性的,這些方法的泛化性往往較差。另一些方法則通過DNN檢測一個物體的2D關鍵點,再通過PnP算法計算 6D 位姿參數。儘管這種兩階段的方法更加穩定,但PnP算法構建在2D投影誤差上,而2D空間的小誤差在真實的3D空間中會被放大很多,而且,3D空間中的不同關鍵點可能會在2D投影后發生重疊,變得難以區分;更重要的,剛體的幾何約束信息會由於相機的投影而部分缺失。

另一方面,隨著RGBD傳感器和數據集的普及,額外的深度信息允許將2D算法擴展至3D空間,並在3D物品檢測等問題上取得了良好的性能,如pointnet系列和votenet等。本文充分利用了剛體的幾何約束信息,將基於2D關鍵點的方法擴展基於3D關鍵點,提升6D位姿測量精度。具體而言,本文提出一種基於霍夫投票(Hough voting)的神經網絡,以學習逐點到3D關鍵點的偏移為3D關鍵點投票,如圖 1 所示。本文的其中一個關鍵發現是一個簡單的幾何特性,即在3D空間中,一個剛體上任意兩點之間的相對位置關係是固定的。因此,給定物體表面的一個可見點,它的坐標和方向可由深度信息獲得,其相對於剛體上預選關鍵點的平移偏移量也是確定且可學習的。同時,深度神經網絡學習逐點歐幾裡得偏移直截了當,且易於優化

圖一 pipeline:(a)輸入RGBD圖片;(b)使用一個深度霍夫投票網絡預測每個點相對於關鍵點的平移偏移;(c)在同一個對象上每一個點為選擇的關鍵點投票,和將集群的中心選為預測關鍵點;(d)-(e)最小二乘擬合方法應用於估計6D位姿參數;(f)由估計的6D位姿參數轉換後的模型

當場景有多個物體時,本文在網絡中引入一個實例語義分割模塊,並和關鍵點投票任務聯合優化。本文發現,聯合訓練這些任務可以讓網絡學出更好的表徵從而提升網絡在每一個任務上的性能。具體來說,語義分割通過確認一個點屬於物品的哪一部分從而幫助判斷該點到關鍵點的平移偏移;另一方面,平移偏移量包含的物品的尺度信息有助於模型區分外表相似但大小不同的物體。

我們在YCB和LineMOD數據集上驗證方法的可行性,達到了sota效果。

貢獻如下

提出了一種基於實例語義分割的深度3D關鍵點霍夫投票網絡,用於單RGBD圖像的6D位姿估計;在YCB和LineMOD數據集上性能達到sota;深入分析基於3D關鍵點的方法,並與之前的方法進行了比較,表明3D關鍵點是提高6D位姿估計性能的關鍵因素。我們還證明,聯合訓練3D關鍵點和語義分割可以進一步提高性能。

3 相關工作

整體法基於關鍵點的方法密集對應方法

4 方法

給定一張RGBD圖像,物體6D位姿估計任務旨在將其從物體坐標系轉換到相機坐標系的剛性變換,包含一個3D旋轉變換和一個3D平移變換。

4.1 概述

圖2 概覽:特徵提取模塊從RGBD圖像中提取每個點的特徵。分別輸入模塊M_k、M_c和M_s來預測每個點到關鍵點、中心點的平移偏移和語義標籤。然後使用聚類算法來區分具有相同語義標籤的不同實例,和同一實例上的點對其目標關鍵點的投票。最後,用最小二乘法應預測關鍵點,估計出6D位姿參數。

如圖2所示,這是一種兩階段方法,在檢測出目標的3D關鍵點之後使用最小二乘法擬合位姿。具體而言,輸入RGBD圖像,通過特徵提取模塊融合表面特徵和幾何信息獲得逐點特徵這些特徵被送至一個3D關鍵點檢測模塊以預測逐點到 3D 關鍵點的偏移(以投票出3D關鍵點)。另外,本文提出一個實例分割模塊用於處理多物體場景,其中包含一個語義分割模塊用以預測逐點的語義標籤一個中心投票模塊用以預測逐點相對其物體中心的平移偏移量。藉助已學習的逐點到其所在物品中心點的偏移,應用聚類算法區分具有相同語義標籤的不同實例然後使用相同實例上的點投票並聚類出該物品的3D關鍵點。最後,利用相機坐標系下的目標關鍵點坐標和目標坐標系下的3D關鍵點坐標的對應關係,使用最小二乘法估算出目標的6D位姿參數。

4.2學習算法

本文學習算法的目標是訓練一個3D關鍵點檢測模塊M_k,用於預測逐點到3D關鍵點的偏移;以及一個語義分割模塊M_s中心點投票模塊M_c,用於實例語義分割。這樣網絡訓練自然形成一個多任務學習任務。本文使用一個多任務監督損失函數和若干個訓練細節來實現。

4.2.1 3D關鍵點檢測模塊

如圖2所示,在特徵提取模塊提取逐點的特徵之後,3D關鍵點檢測模塊檢測每個物體的3D關鍵點,具體而言,該模塊預測從可見點到目標關鍵點的歐幾裡得平移偏移量。通過這些可見點的坐標預測的偏移量為目標關鍵點的位置投票。這些投票的點由聚類算法進行聚類以消除離群點的幹擾,群集的中心點被選為投票選出的關鍵點。關鍵點平移量學習模塊M_k使用 L1 loss進行監督:

4.2.2 實例語義分割模塊

為了處理多目標問題,以前的方法利用已有的檢測或者語義分割結構預處理照片,然後獲得僅包含單一目標的RoIS。然後將RoIS作為輸入,建立位姿估計模型以簡化問題。但是,我們提出的位姿估計問題,首先檢測目標關鍵點的平移偏移,到關鍵點學習模塊,我們認為這兩個任務可以互相提高性能。一方面,語義分割模塊迫使模型提取實例的全局和局部特徵來區分不同的對象,這有助於在目標上定位一個點,有利於關鍵點偏移的推理過程;另一方面,為預測關鍵點的偏移量而學習的大小信息,有助於區分外觀相似但大小不同的對象。在此基礎上,我們將一個逐點實例語義分割模塊M_s引入到網絡中,並與M_k模塊進行了聯合優化。

具體而言,給定提取出的逐點特徵,語義分割模塊 M_s 預測每點的語義標籤,本文使用 Focal Loss監督這一模塊:

同時,中心點投票模塊M_c投票出不同物體的中心點,以區分相同語義的不同實例(為什麼不直接用實例分割,區分不同的實例呢?-消融實驗解釋:語義模塊提取全局和局部特徵來區分不同的對象。這些特徵還有助於模型識別出點屬於對象的哪一部分,並改善平移預測。。在CenterNet啟發下,進一步將2D中心點擴展到3D,3D中心點不會受遮擋的影響。由於中心點可視為一種特殊的物體關鍵點,該模塊和M_k類似,利用逐點特徵預測到目標中心的歐幾裡得平移偏移,使用L1 loss進行監督學習:

4.2.3 多任務學習

本文使用一個多任務損失函數聯合監督 M_k、M_s、M_c 的學習:

4.3訓練

4.3.1 網絡結構

如圖2所示:在這個模塊中,第一部分是特徵提取模塊,使用帶有ImageNet預訓練的ResNet34的PSPNet來提取RGB圖像中的外觀信息。用PointNet++提取點雲及其法線映射中的幾何信息,再通過DenseFusion進一步融合,以獲得每個點的組合特徵。處理後,每個點p_i有特徵f_i。

4.3.2 關鍵點選取

3D關鍵點是3D模型上選取的。以前的3D關鍵點選的都是目標的8個角點,然而,這些邊界框角是虛擬點,它們遠離物體上的點,不利於6D位姿參數估計。參考PVNet,用FPS(最遠點採樣)算法選取。具體來說,我們通過在一個空的關鍵點集合中添加對象模型的中心點來初始化選擇過程,然後通過在網格上重複添加一個距離所有選擇的關鍵點最遠的點來更新它,直到獲得M個關鍵點。

4.3.3 最小二乘法擬合

給定一個對象的兩個點集,其中一個點集來自相機坐標系中檢測到的M個關鍵點{kp_j}j=1~M,另一個點來自目標坐標系對應的點,6D位姿估計模塊採用最小二乘擬合算法對位姿參數(R, t)進行計算,通過最小化以下平方損失來求得R和t。

5 實驗

5.1 數據集

6D位姿估計算法中常用的數據集:YCB-Video和LineMOD數據集

5.2 評價指標

1. 平均距離(ADD)是計算真值姿勢和估計姿勢轉換的兩個3D模型中對應點之間距離的平均值。均值小於預設閾值(3D模型直徑的10%),認為6D位姿估計正確。

2. 對於對稱物體(ADD-S):對稱目標的的某些點匹配不明確,使用最近點

5.3 在YCB-Video和LineMOD基準上的實驗結果

下表給出了在YCB-Video數據集上的量化評估結果。如表所示,本文方(PVN3D即使在沒有藉助任何迭代優化算法時也能大幅超越其他方法;而在迭代優化算ICP的加持下,本文方法(PVN3D+ICP)取得了更好的性能;且對於遮擋情況的魯棒性也很好。

下表給出使用ground truth分割的評估結果,PVN3D依然取得最佳性能。

下圖可視化了在YCB-Video數據集上的一些預測結果,PVN3D比先前方法更準確。

下圖展示隨著物品被遮擋比例的增加,不同方法的表現性能曲線。可見本文方法在物品被大量遮擋的場景下表現更加穩定。

下表給出了在 LineMOD 數據集上的量化結果,本文模型同樣取得當前最佳性能。

5.4 消融實驗

下表對比了基於3D關鍵點範式的方法和基於其他範式方法的性能,在相同的輸入和神經網絡架構下,基於3D關鍵點的方法(3D KP)性能遠超直接回歸位姿參數的方法(RT),基於2D關鍵點的方法2D KP;2D KPC;PVNet)以及基於稠密對應關係的方法(Corr)。本文相信基於3D關鍵點的位姿估計範式是一個極具潛力的研究方向,值得更多深入的研究。

下表對比了不同關鍵點選擇方式以及關鍵點數目對性能的影響,可見使用FPS算法選擇的關鍵點優於3D檢測框的8個角點,並且預測8個關鍵點是網絡輸出空間大小和最小二乘擬合位姿參數誤差的一個較好的平衡。

下表的內容表示,聯合訓練兩種任務的三個模塊(M_k,M_s,M_c)能讓網絡學出更好的表徵(多任務聯合訓練互相促進,這個現象很常見),從而在語義分割和位姿估計任務上能相互促進,彼此提升性能。

下圖展示了聯合訓練對外觀相似,大小不同的物品的區分作用。

結論

提出一種新的基於深度3D關鍵點投票網絡的6D位姿估計算法,其性能在兩大公開基準上大幅超越先前所有方法。本文同樣表明,通過聯合訓練語義分割和3D關鍵點兩種任務可以學出更好的表徵從而提升各個任務的性能。在解決6D位姿估計問題上,基於3D關鍵點的方法是一個極具潛力且值得深入研究的方向。

寫在最後:

看到這的都是最可愛的人!

相關焦點

  • PointConv:基於3D點雲的深度卷積網絡
    因此,在點雲數據上使用卷積是困難的。本文將動態濾波器拓展為一種新的卷積操作——PointConv。PointConv可以應用於點雲進而搭建深度卷積網絡。我們把卷積核視作一個作用在局部三維點坐標系上的由權重和密度函數組成的非線性函數。給定一個點,權重函數可以通過多層感知網絡習得,而密度函數可以通過核密度估計來得到。本文最重要的貢獻是:提出了一種新穎的高效的計算權重函數的方法。
  • 【綜述專欄】2020 Pose Estimation人體骨骼關鍵點檢測綜述筆記
    MSCOCO:多人人體關鍵點檢測數據集,關鍵點個數為17,樣本數多於30W,多人關鍵點檢測的主要數據集,主流數據集;AI Challenger:多人人體關鍵點檢測數據集,關鍵點個數為14,樣本數約38W,競賽數據集;human3.6M:是3D人體姿勢估計的最大數據集,由360萬個姿勢和相應的視頻幀組成,這些視頻幀包含11位演員從4個攝像機視角執行15項日常活動的過程。數據集龐大將近100G。
  • Open3D中文教程-彩色點雲的配準
    它實現了 [[Park2017]] (http://www.open3d.org/docs/release/tutorial/reference.html#park2017) 裡的算法。顏色信息的對齊是沿切線平面的。與已有的點雲配準算法相比,該算法具有更高的精度和魯棒性,同時運行速度與ICP配準算法相當。本教程使用 Open3D中文教程-點雲ICP配準中的符號。
  • 人體姿態估計的過去、現在和未來
    下面是單人姿態估計的結果圖(圖片來源於CPM的paper):單人姿態估計算法往往會被用來做多人姿態估計。多人姿態估計的輸入是一張整圖,可能包含多個行人,目的是需要把圖片中所有行人的關鍵點都能正確的做出估計。針對這個問題,一般有兩種做法,分別是top-down以及bottom-up的方法。
  • 人體姿態估計、識別與生成最新技術一覽
    以及【Single-Stage Multi-Person Pose Machines】將 top-down 中用人體中心點的估計視作人整體的定位,並以此來進行後續的其他關節的估計,從而實現 localization 與 pose estimation 兩階段的整合。
  • 3d列印房子的弊端_3D列印食品的利弊
    打開APP 3d列印房子的弊端_3D列印食品的利弊 網絡整理 發表於 2020-03-21 11:00:08   什麼是3d列印房屋   2013年紐約Softkill Design工程建築個人工作室初次明確提出了3D複印房子定義,並將在2013年夏季修建實體模型。
  • NeurIPS 2020 | 生成式的基於動態圖網絡學習的三維部件拼裝
    如圖1所示,三維部件拼裝在數學上可以形式化為對於各個輸入部件的位姿估計(pose estimation)問題,即給定各個部件在各自規範空間(canonical space)中的布局,目標是組成一個完整的形狀。三維部件拼裝有著很廣泛的應用,比如從家具城買回來一堆家具的部件,或者工廠當中有一堆雜亂擺放的零件,這時候則需要機器人把這些零散的部件組裝成完整的、可供使用的整體。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構 2020-06-29 17:08 來源:澎湃新聞·澎湃號·湃客
  • 呼吸機缺關鍵零件,義大利小哥用3D列印救命,卻面臨起訴風險!
    3月13日,義大利北部倫巴第大區布雷西亞省基亞裡的一家地方醫院就陷入了呼吸機閥消耗殆盡的絕望,多位患者的生命面臨威脅。緊急情況下,他們與一家3D列印公司Isinnova取得聯繫,希望能夠利用他們的列印技術提供幫助。
  • Pytorch:分步實施3D卷積神經網絡(附代碼教程!)
    如何編寫3d CNN的PyTorch教程首先,我們需要簡單解釋一下什麼是3d CNN,以及它與通用2d CNN的區別。然後,我們將逐步分析如何使用Pytorch實現3D卷積神經網絡。什麼是3D卷積神經網絡?無論我們說的CNN與2d CNN非常相似,都保留3d CNN。
  • 3d全景是什麼意思?3d全景圖怎麼做的
    3d全景便是如此,它的出現給我們帶來很多以往圖文視頻所不能達到的體驗。3d全景是什麼呢意思?3d全景圖又被很多人稱為三維全景和vr全景,實際上是一種新的展現方式,不同以往的是能夠給人帶來很好的沉浸感,對所展現的空間有一種仿佛身臨其境般的體驗。
  • 3D列印課程的探索與實踐
    隨著創客教育的興起,3d列印也開始在教育界打開一片天地。儘管3d列印技術還不夠成熟,不能大批量生產,也不能直接用於數字時代的工業生產,但其普及為普通人無邊的創造力和想像力插上了一對有力的翅膀,3d列印,讓想像變成現實。
  • 3d立體牆貼怎麼樣 3d立體牆貼多少錢一平方 3d立體牆貼多久會掉
    其中3d立體牆貼是近幾年比較流行的一種牆面裝飾材料,與普通的牆貼相比,這種裝飾材料更有立體感,給人的視覺感受更加逼真,所以受到很多業主的喜愛。接下來,我們就一起來了解一下3d立體牆貼怎麼樣,3d立體牆貼多少錢一平方以及3d立體牆貼多久會掉的相關內容,希望可以幫助到大家。
  • 3D列印SLS尼龍椅子,針對3D列印的結構設計!
    採用3d列印的尼龍列印,sls工藝,可以無支撐列印 ,特殊孔洞結構可以列印。 以上就是為大家介紹的有關3D列印SLS尼龍椅子,針對3D列印的結構設計的分析,希望可以給大家提供參考。
  • CVPR 2019|奪取6項冠軍的曠視如何築起算法壁壘
    論文方面,來自全球的 14,104 位作者提交了 5000 多篇論文。比如,來自曠視研究院檢測組的論文《Shape Robust Text Detection with Progressive Scale Expansion Network》提出了一種新穎的漸進式尺度可拓展網絡 PSENet 模型,針對場景文字檢測中任意形狀文本問題。
  • CVPR 2019|曠視斬獲6冠,彰顯深度學習算法引擎優勢
    當地時間6月16日,全球計算機視覺頂會 CVPR 2019在美國長灘拉開帷幕,超過9200位相關人士共赴盛會,推進計算機視覺技術的交流與落地。曠視通過 Oral、Poster、Workshop、Demo、Booth等形式,同世界分享在計算機視覺理論與應用領域的最新進展。
  • 3D版CenterNet: CenterPoint,小修小改也能刷爆榜單
    在文中,作者論述了採用這種center-based representation 對檢測任務的兩點好處:首先,點沒有內在的方向。這大大減少了檢測器的搜索空間,同時有利於網絡學習對象的(rotational invariance)和等變性(rotational equivariance)。其次,在三維檢測中,目標定位比對目標的其他三維屬性進行更重要。
  • 圖像特徵點|SIFT特徵點之圖像金字塔
    ,但SIFT除了計算比較耗時以外,其他方面的優點讓其成為特徵點提取算法中的一顆璀璨的明珠。它用來偵測與描述影像中的局部性特徵,它在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變量,此算法由 David Lowe在1999年所發表,2004年完善總結。其應用範圍包含物體辨識、機器人地圖感知與導航、影像縫合、3D模型建立、手勢辨識、影像追蹤和動作比對。局部影像特徵的描述與偵測可以幫助辨識物體,SIFT特徵是基於物體上的一些局部外觀的興趣點而與影像的大小和旋轉無關。
  • 印度一大學舉行3D畢業典禮 來看3d動畫製作的意義
    3D畢業典禮伴隨計算機軟硬體技術的發展,3d動畫製作已經成為全球性的產業,它所帶來的經濟效益和影響力日益增長,是增強競爭力的關鍵之一從事3d動畫製作需要創新的精神和堅定的信念,3d動畫公司要以創造本土品牌為己任,發揮出動畫製作的魅力。接下來,藝虎動畫便根據自身經驗為大家介紹,3d動畫製作的發展意義。3d動畫製作作為能夠帶動經濟發展的一個重要產業,是文化實力的證明,我們如今的動畫技術存在一定的差距,應該大立提倡和鼓勵發展3d動畫製作,引領新的發展趨勢。
  • CVPR 2018 | 8篇論文、10+Demo、雙料挑戰賽冠軍,曠視科技掀起CVPR...
    包括 ShuffleNet 移動端低功耗設備模型、語義分割的判別特徵網絡 DFN、優化解決密集遮擋問題的 RepLoss、通過角點定位和區域分割檢測場景文本的全新算法,以及能復原扭曲文檔圖像的 DocUNet 等多項技術,向與會學者們展現了他們在學術研究上的實力。