CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型

2020-12-01 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是Momenta高級研究員陳亮對此次大會收錄的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation  一文進行的解讀。

隨著雷射雷達,RGBD相機等3D傳感器在機器人,無人駕駛領域的廣泛應用。針對三維點雲數據的研究也逐漸從低層次幾何特徵提取( PFH, FPFH,VFH等)向高層次語義理解過渡(點雲識別,語義分割)。與圖像感知領域深度學習幾乎一統天下不同,針對無序點雲數據的深度學習方法研究則進展緩慢。分析其背後的原因,不外乎三個方面:

1.點雲具有無序性。受採集設備以及坐標系影響,同一個物體使用不同的設備或者位置掃描,三維點的排列順序千差萬別,這樣的數據很難直接通過End2End的模型處理。

2.點雲具有稀疏性。在機器人和自動駕駛的場景中,雷射雷達的採樣點覆蓋相對於場景的尺度來講,具有很強的稀疏性。在KITTI數據集中,如果把原始的雷射雷達點雲投影到對應的彩色圖像上,大概只有3%的像素才有對應的雷達點。這種極強的稀疏性讓基於點雲的高層語義感知變得尤其困難。

3.點雲信息量有限。點雲的數據結構就是一些三維空間的點坐標構成的點集,本質是對三維世界幾何形狀的低解析度重採樣,因此只能提供片面的幾何信息。

面對以上困難,來自史丹福大學的學者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無序點雲數據的深度神經網絡。一般情況下,深度神經網絡要求輸入信息具有規範化的格式,比如二維的圖像,時序性的語音等。而原始的三維點雲數據往往是空間中的一些無序點集,假設某一個點雲中包含N個三維點,每一個點用(x,y,z)三維坐標表示,即使不考慮遮擋,視角等變化,單就這些點的先後順序排列組合,就有 N! 種可能。因此,我們需要設計一個函數,使得函數值與輸入數據的順序無關。實際上,在代數組合學中,這類函數被稱為對稱函數。PointNet 中,作者使用了Max Pooling 層做為主要的對稱函數,這種處理雖然簡單,但是實驗證明效果較好。

上圖是PointNet的網絡架構,輸入是包含n個點的三維點雲(nx3) , 原始數據通過一個3D 空間變換矩陣預測網絡 T-Net(3),估計出3x3的變換矩陣T(3) 並作用在原始數據上,實現數據的對齊。對齊後的數據會以點為單位,通過一個共享參數的雙層感知機模型進行特徵提取 。每個點提取出64維的特徵,再通過特徵空間變換矩陣預測網絡 T-Net(64) 預測64x64的變換矩陣,作用到特徵上,實現對特徵的對齊。然後繼續利用三層感知機(64,128,1024)進行以特徵點為單位的特徵提取,直到把特徵的維度變為1024,繼而在特徵空間的維度上進行Max Pooling,提取出點雲的全局特徵向量。

在點雲分類任務中,可直接利用特徵向量訓練SVM或者多層感知機來進行分類,而在以點為單位的點雲分割或者分塊任務中,需要結合每一點的局部特徵和全局特徵進行特徵融合和處理,實現逐點的分類。PointNet中把經過特徵對齊之後的64維特徵看成是點的局部特徵,把最後的1024維特徵看成是點的全局特徵,因此通過一個簡單的拼接,把局部和全局的特徵捆綁在一起,利用多層感知機進行融合,最後訓練分類器實現逐點的分類。 

 

PointNet是第一個可以直接處理原始三維點雲的深度神經網絡,這種新穎的網絡設計可以直接對原始點雲進行處理,進而完成高層次的點雲分類和語義分割的任務,而且完全依賴於數據。從實驗驗證的結果來看,其效果和當前最好的結果具有可比性,在一些方面甚至超過了state-of-the-art,值得進一步挖掘和研究。

論文作者問答: 

Q:輸入的原始三維點雲數據需要做歸一化嗎? 

A:和其他網絡的輸入一樣,輸入點雲數據需要做零均值的歸一化,這樣才能保證比較好的實驗性能。

Q:深層神經網絡處理三維離散點雲的難點在哪裡?PointNet是如何解決這些難點的?

A:深度神經網絡處理三維離散點雲數據的難點主要在於點雲的無序性和輸入維度變化。在本篇文章中,我使用了深度神經網絡中的常用對稱函數 :Max Pooling 來解決無序性問題,使用共享網絡參數的方式來處理輸入維度的變化,取得了比較好的效果。

Q:是否可以使用RNN/LSTM來處理三維點雲數據? 

A:RNN/LSTM可以處理序列數據,可以是時間序列也可以是空間序列。因此從輸入輸出的角度來講,他們可以用來處理三維點雲數據。但是點雲數據是無序的,這種點和點之間的先後輸入順序並沒有規律,因此直接使用RNN/LSTM效果不會太好。

Q:T-Net在網絡結構中起的本質作用是什麼?需要預訓練嗎? 

A:T-Net 是一個預測特徵空間變換矩陣的子網絡,它從輸入數據中學習出與特徵空間維度一致的變換矩陣,然後用這個變換矩陣與原始數據向乘,實現對輸入特徵空間的變換操作,使得後續的每一個點都與輸入數據中的每一個點都有關係。通過這樣的數據融合,實現對原始點雲數據包含特徵的逐級抽象。

Q:PointNet 與 MVCNN 的實驗結果比較中,有些指標稍差,背後的原因是什麼? 

A:PointNet提取的是每一個獨立的點的特徵描述以及全局點雲特徵的描述,並沒有考慮到點的局部特徵和結構約束,因此與MVCNN相比,在局部特徵描述方面能力稍弱。面對這樣的問題,我們基於PointNet已經做了一些改進和提升,新的網絡命名為 PointNet++,已經上傳到Arxiv,歡迎大家閱讀並討論交流。

論文地址:https://arxiv.org/abs/1612.00593

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。  不久之前,谷歌發布了 2017 版學術指標。
  • CVPR2017精彩論文解讀:結合序列學習和交叉形態卷積的3D生物醫學...
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是宜遠智能的首席科學家劉凱對此次大會收錄的《結合序列學習和交叉形態卷積的3D生物醫學圖像分割》(Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation)一文進行的解讀。
  • CVPR論文解讀:非常高效的物體檢測Mimic方法
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。傳統的Mimic過程,一般使用一個已經訓練好的大模型,固定該模型的weights不變,設計一個小模型,學習大模型的soft targets 或者logits的輸出;大模型學習到有效的信息可以傳遞給小模型,使得小模型也可以有較為不錯的性能表現,其Loss函數如下:
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    論文連結:http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf通過對抗訓練從模擬的和無監督的圖像中學習Learning from Simulated and Unsupervised Images
  • CVPR 2017精彩論文解讀:綜合使用多形態核磁共振數據的3D生物醫學...
    論文的故事還在繼續相對於 CVPR 2017收錄的共783篇論文,即便雷鋒網(公眾號:雷鋒網)(公眾號:雷鋒網) AI 科技評論近期挑選報導的獲獎論文、業界大公司論文等等是具有一定特色和代表性的,也仍然只是滄海一粟,其餘的收錄論文中仍有很大的價值等待我們去挖掘,生物醫學圖像、3D視覺、運動追蹤、場景理解、視頻分析等方面都有許多新穎的研究成果
  • 深度解析:一文看懂CVPR 2017五大研究前沿
    事實上,SfM算法涉及到對二維特徵點進行矩陣分解,而添加對稱性約束後,我們並不能直接對兩個對稱的二維特徵點矩陣直接進行矩陣分解,因為這樣不能保證矩陣分解得到同樣的攝像機矩陣以及對稱的三維特徵點坐標。在文章中,作者通過進一步利用對稱性信息進行坐標軸旋轉解決了這個問題。實驗證明,該方法的物體三維結構重建及攝像機角度估計均超出了之前的最好結果。
  • CVPR 2017論文解讀:特徵金字塔網絡FPN
    近日,CVPR 2017獲獎論文公布,引起了業內極大的關注。但除了這些獲獎論文,還有眾多精彩的論文值得一讀。因此在大會期間,國內自動駕駛創業公司 Momenta 聯合機器之心推出 CVPR 2017 精彩論文解讀專欄,本文是此系列專欄的第二篇,作者為 Momenta 高級研發工程師李俊。
  • 基於生成對抗網絡的三維點雲自動修復
    在數字幾何處理和3D計算機視覺中, 離散點雲數據由於其數據獲取容易、能夠有效表示複雜三維形狀、無需維護拓撲連接關係等優點得到廣泛應用。 二、原理簡述 受生成對抗網絡在二維圖像生成領域方面工作的啟發, 本文使用生成對抗網絡框架提出了一種三維點雲形狀的修復補全網絡結構.
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    但是,由於生成的圖像和真實圖像的分布有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。
  • 一種基於點雲的Voxel(三維體素)特徵的深度學習方法
    蘭州大學在讀碩士研究生,主要研究方向無人駕駛,深度學習;蘭大未來計算研究院無人車團隊負責人,自動駕駛全棧工程師。 之前我們提到使用SqueezeSeg進行了三維點雲的分割,由於採用的是SqueezeNet作為特徵提取網絡,該方法的處理速度相當迅速(在單GPU加速的情況下可達到100FPS以上的效率),然而,該方法存在如下的問題: 第一,雖然採用了CRF改進邊界模糊的問題,但是從實踐結果來看,其分割的精度仍然偏低; 第二,該模型需要大量的訓練集,而語義分割數據集標註困難
  • 輪廓檢測論文解讀 | Richer Convolutional Features| CVPR | 2017
    0 概述論文名稱:「Richer Convolutional Features for Edge Detection」論文連結:https://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_Richer_Convolutional_Features_CVPR_2017_paper.pdf
  • CVPR 2020論文收錄揭曉:百度22篇論文入選 涵蓋全視覺領域
    本文提出了一種領域自適應的方法來增強稀疏點雲特徵的魯棒性。更具體地說,是將來自真實場景的特徵(感知域特徵)和從包含豐富細節信息的完整虛擬點雲特徵(概念域特徵)進行了關聯。這種域適應特徵關聯的方法實際上是模擬在人腦進行物體感知時的聯想關聯功能。這種三維目標檢測算法在訓練過程中增強了特徵提取能力,在推理階段不需要引入任何額外的組件,使得該框架易於集成到各種三維目標檢測算法中。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    FaceScape資料庫包含約18000個高精度三維面部模型,每個模型包含基底模型和4K解析度的置換圖及紋理貼圖,能夠表徵出面部極細微的三維結構和紋理。與現有公開的三維人臉資料庫相比,FaceScape在模型數量和質量上均處於世界最高水準。在FaceScape資料庫的基礎之上,本文還探索了一項具有挑戰性的新課題:以單幅人臉圖像為輸入,預測高精度、表情可操控的三維人臉模型。
  • 港城大提出任意比例的上採樣方法, 實現自由三維點雲稠密重建
    針對需要上採樣的點雲,模型首先通過獲取現有點在切平面上的領域點,學習局域幾何信息獲取插值權重、生成分布在凸包區域內的鄰域點雲,隨後利用稀疏點雲的法向量通過數據驅動的方式來優化點雲結果,獲取最終上採樣後的點雲。  這種方式在一次訓練後可以應用於多個尺度的上採樣過程中,並能夠生成較為精細的幾何結構,具有更強的可解釋性和更好的內存效率。
  • 專欄| 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解...
    原標題:專欄 | 阿里IJCAI 2017 Workshop論文:使用深度強化學習方法求解一類新型三維裝箱問題 機器之心專欄 阿里菜鳥物流人工智慧部> 據機器之心了解,阿里巴巴有 11 篇論文入選如今正在墨爾本進行的 IJCAI 2017 大會,其中 6 篇來自阿里巴巴-浙大前沿技術聯合研究中心,3 篇來自螞蟻金服,均被主會收錄。
  • ...CVPR 2020 論文推薦:元轉移學習;ABCNet;動態圖像檢索;點雲分類...
    2020 | Sketch Less for More:基於細粒度草圖的動態圖像檢索CVPR 2020 | PointAugment:一種自動增強的點雲分類框架12-in-1: 多任務視覺和語言表示學習論文名稱:12-in-1: Multi-Task Vision and Language Representation Learning
  • 中國AI「再戰」視覺頂會CVPR:百度全方位參與 入選論文達22篇
    本文提出了一種領域自適應的方法來增強稀疏點雲特徵的魯棒性。更具體地說,是將來自真實場景的特徵(感知域特徵)和從包含豐富細節信息的完整虛擬點雲特徵(概念域特徵)進行了關聯。這種域適應特徵關聯的方法實際上是模擬在人腦進行物體感知時的聯想關聯功能。這種三維目標檢測算法在訓練過程中增強了特徵提取能力,在推理階段不需要引入任何額外的組件,使得該框架易於集成到各種三維目標檢測算法中。
  • 突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割...
    牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
  • 深度學習新應用:在PyTorch中用單個2D圖像創建3D模型
    優勢: 從 2D 表徵到 3D 表徵,可以直接應用 CNN。劣勢:容易浪費,要在細節和資源(計算力、內存)之間好好權衡。幾何形式:不能直接應用 CNN椅子的點雲表徵多邊形網格:是三維空間中定義對象表面的頂點、邊和面的集合。它可以在相當緊湊的表徵中捕獲粒度細節。