CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型

2021-01-19 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是Momenta高級研究員陳亮對此次大會收錄的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation  一文進行的解讀。

隨著雷射雷達,RGBD相機等3D傳感器在機器人,無人駕駛領域的廣泛應用。針對三維點雲數據的研究也逐漸從低層次幾何特徵提取( PFH, FPFH,VFH等)向高層次語義理解過渡(點雲識別,語義分割)。與圖像感知領域深度學習幾乎一統天下不同,針對無序點雲數據的深度學習方法研究則進展緩慢。分析其背後的原因,不外乎三個方面:

1.點雲具有無序性。受採集設備以及坐標系影響,同一個物體使用不同的設備或者位置掃描,三維點的排列順序千差萬別,這樣的數據很難直接通過End2End的模型處理。

2.點雲具有稀疏性。在機器人和自動駕駛的場景中,雷射雷達的採樣點覆蓋相對於場景的尺度來講,具有很強的稀疏性。在KITTI數據集中,如果把原始的雷射雷達點雲投影到對應的彩色圖像上,大概只有3%的像素才有對應的雷達點。這種極強的稀疏性讓基於點雲的高層語義感知變得尤其困難。

3.點雲信息量有限。點雲的數據結構就是一些三維空間的點坐標構成的點集,本質是對三維世界幾何形狀的低解析度重採樣,因此只能提供片面的幾何信息。

面對以上困難,來自史丹福大學的學者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無序點雲數據的深度神經網絡。一般情況下,深度神經網絡要求輸入信息具有規範化的格式,比如二維的圖像,時序性的語音等。而原始的三維點雲數據往往是空間中的一些無序點集,假設某一個點雲中包含N個三維點,每一個點用(x,y,z)三維坐標表示,即使不考慮遮擋,視角等變化,單就這些點的先後順序排列組合,就有 N! 種可能。因此,我們需要設計一個函數,使得函數值與輸入數據的順序無關。實際上,在代數組合學中,這類函數被稱為對稱函數。PointNet 中,作者使用了Max Pooling 層做為主要的對稱函數,這種處理雖然簡單,但是實驗證明效果較好。

上圖是PointNet的網絡架構,輸入是包含n個點的三維點雲(nx3) , 原始數據通過一個3D 空間變換矩陣預測網絡 T-Net(3),估計出3x3的變換矩陣T(3) 並作用在原始數據上,實現數據的對齊。對齊後的數據會以點為單位,通過一個共享參數的雙層感知機模型進行特徵提取 。每個點提取出64維的特徵,再通過特徵空間變換矩陣預測網絡 T-Net(64) 預測64x64的變換矩陣,作用到特徵上,實現對特徵的對齊。然後繼續利用三層感知機(64,128,1024)進行以特徵點為單位的特徵提取,直到把特徵的維度變為1024,繼而在特徵空間的維度上進行Max Pooling,提取出點雲的全局特徵向量。

在點雲分類任務中,可直接利用特徵向量訓練SVM或者多層感知機來進行分類,而在以點為單位的點雲分割或者分塊任務中,需要結合每一點的局部特徵和全局特徵進行特徵融合和處理,實現逐點的分類。PointNet中把經過特徵對齊之後的64維特徵看成是點的局部特徵,把最後的1024維特徵看成是點的全局特徵,因此通過一個簡單的拼接,把局部和全局的特徵捆綁在一起,利用多層感知機進行融合,最後訓練分類器實現逐點的分類。 

 

PointNet是第一個可以直接處理原始三維點雲的深度神經網絡,這種新穎的網絡設計可以直接對原始點雲進行處理,進而完成高層次的點雲分類和語義分割的任務,而且完全依賴於數據。從實驗驗證的結果來看,其效果和當前最好的結果具有可比性,在一些方面甚至超過了state-of-the-art,值得進一步挖掘和研究。

論文作者問答: 

Q:輸入的原始三維點雲數據需要做歸一化嗎? 

A:和其他網絡的輸入一樣,輸入點雲數據需要做零均值的歸一化,這樣才能保證比較好的實驗性能。

Q:深層神經網絡處理三維離散點雲的難點在哪裡?PointNet是如何解決這些難點的?

A:深度神經網絡處理三維離散點雲數據的難點主要在於點雲的無序性和輸入維度變化。在本篇文章中,我使用了深度神經網絡中的常用對稱函數 :Max Pooling 來解決無序性問題,使用共享網絡參數的方式來處理輸入維度的變化,取得了比較好的效果。

Q:是否可以使用RNN/LSTM來處理三維點雲數據? 

A:RNN/LSTM可以處理序列數據,可以是時間序列也可以是空間序列。因此從輸入輸出的角度來講,他們可以用來處理三維點雲數據。但是點雲數據是無序的,這種點和點之間的先後輸入順序並沒有規律,因此直接使用RNN/LSTM效果不會太好。

Q:T-Net在網絡結構中起的本質作用是什麼?需要預訓練嗎? 

A:T-Net 是一個預測特徵空間變換矩陣的子網絡,它從輸入數據中學習出與特徵空間維度一致的變換矩陣,然後用這個變換矩陣與原始數據向乘,實現對輸入特徵空間的變換操作,使得後續的每一個點都與輸入數據中的每一個點都有關係。通過這樣的數據融合,實現對原始點雲數據包含特徵的逐級抽象。

Q:PointNet 與 MVCNN 的實驗結果比較中,有些指標稍差,背後的原因是什麼? 

A:PointNet提取的是每一個獨立的點的特徵描述以及全局點雲特徵的描述,並沒有考慮到點的局部特徵和結構約束,因此與MVCNN相比,在局部特徵描述方面能力稍弱。面對這樣的問題,我們基於PointNet已經做了一些改進和提升,新的網絡命名為 PointNet++,已經上傳到Arxiv,歡迎大家閱讀並討論交流。

論文地址:https://arxiv.org/abs/1612.00593

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    CVPR 2020已落下帷幕,共計投稿6656篇,錄用1470篇,涵蓋的方向包括目標檢測、目標跟蹤、圖像分割、人臉識別、姿態估計、三維點雲、視頻分析、模型加速、GAN、OCR等。
  • CVPR 2017論文精選|不可思議的研究: EEG腦電波深度學習在視覺分類中的應用
    來自:crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf這裡的ENCODER就是抽取特徵的核心.來自:crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf這3種架構文章中分別稱為:a)Common,把所有的腦電波通道同時輸入到一個個LSTM
  • 騰訊AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017
    在《實時視頻風格轉化實現》這篇論文中,作者介紹到,他們所使用的前饋網絡是通過強制執行連續幀的輸出既保持原有的風格又具有良好的連續性進行的訓練得到的。更具體的,作者提出了一種混合損失(hybrid loss)理論,充分利用輸入畫面幀的畫面信息,圖像的風格信息和連續幀的時間信息對圖像進行處理。為了計算在訓練階段的時間損失,作者提出了一種全新的兩幀協同訓練的機制。與
  • 計算機視覺「奧斯卡」CVPR 2020公布收錄論文
    該論文發布大尺度高精度人臉三維模型資料庫FaceScape,並首次提出從單幅圖像預測高精度、可操控人臉三維模型的方法。FaceScape資料庫包含約18000個高精度三維面部模型,每個模型包含基底模型和4K解析度的置換圖及紋理貼圖,能夠表徵出面部極細微的三維結構和紋理。與現有公開的三維人臉資料庫相比,FaceScape在模型數量和質量上均處於世界最高水準。在FaceScape資料庫的基礎之上,本文還探索了一項具有挑戰性的新課題:以單幅人臉圖像為輸入,預測高精度、表情可操控的三維人臉模型。
  • CVPR 2020 重磅:百度Apollo自動駕駛安全相關論文實力入選
    基於單幀點雲的3D目標檢測器通常無法應對目標遮擋、遠距離和非均勻採樣等情況,而點雲視頻(由多個點雲幀組成)通常包含豐富的時空信息,可以改善上述情況下的檢測效果,因此本文提出一個端到端的在線3D點雲視頻目標檢測器。
  • 百度17篇論文入選全球頂尖視覺盛會CVPR 百度大腦實力超群成幕後贏家
    圖像中每輛車使用工業級高精度的三維車輛模型進行三維與二維的匹配獲取車輛姿態。本數據集的規模是目前自動駕駛領域相關數據集的 20 倍左右,如 PASCAL3D+,KITTI 等;(2) 基於此數據集,本文提出了不同的方法進行車輛三維姿態估計,包括基於關鍵點的方法和非關鍵點的方法;(3) 本文提出了完整的車輛三維信息評估方法,包括車輛的形狀和姿態信息,相比目前自動駕駛領域相關數據集的評估標準,本文的評估更加全面。
  • 一文帶你了解 CVPR 2020 上的工作,提前雲參會!
    一:論文解讀公開課二:1466篇論文合集下載三:文字論文解讀四:有獎分享,本工作提出一種順序貪心決策的搜索算法減輕了模型性能排名不一致的問題,同時支持CNN和GCN的網絡結構搜索,並應用到了CNN圖像分類,GCN點雲分類和GCN生物圖數據節點分類上。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    近年來,深度神經網絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基於單人的外觀信息,其在處理跨攝像頭下行人外觀出現姿態變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基於上下文信息的行人檢索模型。所提出的模型將場景中同時出現的其他行人作為上下文信息,並使用卷積圖模型建模這些上下文信息對目標行人的影響。
  • 深度學習論文TOP10,2019一季度研究進展大盤點
    過去的100多天裡,在深度學習領域,每天都有大量的新論文產生。所以深度學習研究在2019年開了怎樣一個頭呢?Open Data Science對第一季度的深度學習研究進行了盤點總結,推出了這一季度的十佳論文。一起來看看,TOP10都花落誰家吧。
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    此次騰訊優圖入選的論文提出了諸多亮點:全球首個AI卸妝效果的算法;現今最準確的單張圖像深度估計算法;完美解決多幀信息融合困難的多幀超解析度視頻結果;史無前例的手機雙攝圖像匹配和分割研究成果。新智元此前曾報導,騰訊優圖是騰訊AI的三大核心支柱之一,與微信AI團隊和新成立的騰訊AI Lab共同驅動騰訊的 AI 發展。
  • Facebook在CVPR2020分享最新AR/VR研究成果
    現有的數位化三維人體方法難以處理姿勢變化和恢復細節,而且它們無法生成可馬上用於動畫的模型。相比之下,ARCH是一種經過學習的姿勢感知模型,可以從一個無約束的RGB圖像生成詳細的3D Rigged虛擬化身。我們利用參數化三維體估計器建立語義空間和語義變形場。它們允許將身穿2D/3D服裝的人類轉換成一個規範化空間,並減少由姿勢變化和訓練數據中的遮擋而造成的幾何模糊。
  • 推薦系統之YouTube深度學習經典論文解讀
    這篇論文提出的背景主要有三點,也就是當時YouTube視頻推薦面臨的問題:Scale: 用戶基數多、數據量龐大;導致很多在小數據上表現好的算法在YouTube推薦場景下失效。上面其實和文本分類中由word embedding到doc embedding是一樣的,直接將歷史觀看視頻的embedding做加法平均還是比較暴力的,對比阿里DIN論文,這一塊其實是可以優化的。
  • 論文|2017CIKM-Network Embedding專題論文分享
    原標題:論文|2017CIKM-Network Embedding專題論文分享 導讀: ACM CIKM 2017全稱是The 26th ACM International Conference on Information and Knowledge
  • NeurIPS 2020|生成式的基於動態圖網絡學習的三維部件拼裝
    新智元報導來源:北京大學前沿計算研究中心作者:Hyperplane&VCL【新智元導讀】本文是NeurIPS 2020入選論文《生成式的基於動態圖網絡學習的三維部件拼裝(Generative 3D Part Assembly via Dynamic Graph
  • 中國原創再次震撼全球頂會,6篇CVPR硬核論文解析前沿突破
    商湯科技CVPR 2020錄用論文在多個領域實現突破,包括:對抗式生成模型、三維點雲理解與分析、訓練加速與模型量化、視頻理解與分析、網絡結構搜索等。以下為商湯及商湯聯合實驗室入選CVPR 2020的代表性論文。
  • 阿里 CVPR 論文用全新幾何角度構建 GAN 模型
    我們試圖從一個全新的幾何角度,用局部的觀點建立一種與之前經典 GAN 模型所採用的整體方法不同的理論和模型,並以此建立和半監督機器學習中 Laplace-Beltrami 算子的聯繫,使之不再局限於傳統的圖模型 (Graph) 方法,並在用少量標註樣本訓練深度學習模型上取得了優異的性能;同時,我們還展示了如果用 Localized
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 今日Paper | 依賴性解析器;DNNs對圖像損壞;高效人臉特徵學習...
    Manning發表時間:2014/10/25論文連結:https://paper.yanxishe.com/review/9621推薦原因核心問題:這是一篇通過神經網絡完成依存分析的開創性研究創新點:這篇文章是陳丹琦關於依存句法分析的工作,這是使用深度學習基礎的開創性研究,該成果實現了一個準確快速的依存句法分析器
  • 告別2019:屬於深度學習的十年,那些我們必須知道的經典
    在這十年中,伴隨著計算能力和大數據方面的發展,深度學習已經攻克了許多曾經讓我們感到棘手的問題,尤其是計算機視覺和自然語言處理方面。此外,深度學習技術也越來越多地走進我們的生活,變得無處不在。這篇文章總結了過去十年中在深度學習領域具有影響力的論文,從 ReLU、AlexNet、GAN 到 Transformer、BERT 等。
  • 機器學習必讀TOP 100論文清單:高引用、分類全、覆蓋面廣丨GitHub...
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI想要入門機器學習,奈何領域的新論文太多,不知道該看哪一篇?自2017年以來,超越SOTA的方法天天有,但往往針對性非常強,不一定是顛覆機器學習圈的重要成果。