CVPR2017精彩論文解讀:直接處理三維點雲的深度學習模型

2020-12-12 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是Momenta高級研究員陳亮對此次大會收錄的 PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation  一文進行的解讀。

隨著雷射雷達,RGBD相機等3D傳感器在機器人,無人駕駛領域的廣泛應用。針對三維點雲數據的研究也逐漸從低層次幾何特徵提取( PFH, FPFH,VFH等)向高層次語義理解過渡(點雲識別,語義分割)。與圖像感知領域深度學習幾乎一統天下不同,針對無序點雲數據的深度學習方法研究則進展緩慢。分析其背後的原因,不外乎三個方面:

1.點雲具有無序性。受採集設備以及坐標系影響,同一個物體使用不同的設備或者位置掃描,三維點的排列順序千差萬別,這樣的數據很難直接通過End2End的模型處理。

2.點雲具有稀疏性。在機器人和自動駕駛的場景中,雷射雷達的採樣點覆蓋相對於場景的尺度來講,具有很強的稀疏性。在KITTI數據集中,如果把原始的雷射雷達點雲投影到對應的彩色圖像上,大概只有3%的像素才有對應的雷達點。這種極強的稀疏性讓基於點雲的高層語義感知變得尤其困難。

3.點雲信息量有限。點雲的數據結構就是一些三維空間的點坐標構成的點集,本質是對三維世界幾何形狀的低解析度重採樣,因此只能提供片面的幾何信息。

面對以上困難,來自史丹福大學的學者提出了PointNet,給出了自己的的解決方案。PointNet是第一種直接處理無序點雲數據的深度神經網絡。一般情況下,深度神經網絡要求輸入信息具有規範化的格式,比如二維的圖像,時序性的語音等。而原始的三維點雲數據往往是空間中的一些無序點集,假設某一個點雲中包含N個三維點,每一個點用(x,y,z)三維坐標表示,即使不考慮遮擋,視角等變化,單就這些點的先後順序排列組合,就有 N! 種可能。因此,我們需要設計一個函數,使得函數值與輸入數據的順序無關。實際上,在代數組合學中,這類函數被稱為對稱函數。PointNet 中,作者使用了Max Pooling 層做為主要的對稱函數,這種處理雖然簡單,但是實驗證明效果較好。

上圖是PointNet的網絡架構,輸入是包含n個點的三維點雲(nx3) , 原始數據通過一個3D 空間變換矩陣預測網絡 T-Net(3),估計出3x3的變換矩陣T(3) 並作用在原始數據上,實現數據的對齊。對齊後的數據會以點為單位,通過一個共享參數的雙層感知機模型進行特徵提取 。每個點提取出64維的特徵,再通過特徵空間變換矩陣預測網絡 T-Net(64) 預測64x64的變換矩陣,作用到特徵上,實現對特徵的對齊。然後繼續利用三層感知機(64,128,1024)進行以特徵點為單位的特徵提取,直到把特徵的維度變為1024,繼而在特徵空間的維度上進行Max Pooling,提取出點雲的全局特徵向量。

在點雲分類任務中,可直接利用特徵向量訓練SVM或者多層感知機來進行分類,而在以點為單位的點雲分割或者分塊任務中,需要結合每一點的局部特徵和全局特徵進行特徵融合和處理,實現逐點的分類。PointNet中把經過特徵對齊之後的64維特徵看成是點的局部特徵,把最後的1024維特徵看成是點的全局特徵,因此通過一個簡單的拼接,把局部和全局的特徵捆綁在一起,利用多層感知機進行融合,最後訓練分類器實現逐點的分類。 

 

PointNet是第一個可以直接處理原始三維點雲的深度神經網絡,這種新穎的網絡設計可以直接對原始點雲進行處理,進而完成高層次的點雲分類和語義分割的任務,而且完全依賴於數據。從實驗驗證的結果來看,其效果和當前最好的結果具有可比性,在一些方面甚至超過了state-of-the-art,值得進一步挖掘和研究。

論文作者問答: 

Q:輸入的原始三維點雲數據需要做歸一化嗎? 

A:和其他網絡的輸入一樣,輸入點雲數據需要做零均值的歸一化,這樣才能保證比較好的實驗性能。

Q:深層神經網絡處理三維離散點雲的難點在哪裡?PointNet是如何解決這些難點的?

A:深度神經網絡處理三維離散點雲數據的難點主要在於點雲的無序性和輸入維度變化。在本篇文章中,我使用了深度神經網絡中的常用對稱函數 :Max Pooling 來解決無序性問題,使用共享網絡參數的方式來處理輸入維度的變化,取得了比較好的效果。

Q:是否可以使用RNN/LSTM來處理三維點雲數據? 

A:RNN/LSTM可以處理序列數據,可以是時間序列也可以是空間序列。因此從輸入輸出的角度來講,他們可以用來處理三維點雲數據。但是點雲數據是無序的,這種點和點之間的先後輸入順序並沒有規律,因此直接使用RNN/LSTM效果不會太好。

Q:T-Net在網絡結構中起的本質作用是什麼?需要預訓練嗎? 

A:T-Net 是一個預測特徵空間變換矩陣的子網絡,它從輸入數據中學習出與特徵空間維度一致的變換矩陣,然後用這個變換矩陣與原始數據向乘,實現對輸入特徵空間的變換操作,使得後續的每一個點都與輸入數據中的每一個點都有關係。通過這樣的數據融合,實現對原始點雲數據包含特徵的逐級抽象。

Q:PointNet 與 MVCNN 的實驗結果比較中,有些指標稍差,背後的原因是什麼? 

A:PointNet提取的是每一個獨立的點的特徵描述以及全局點雲特徵的描述,並沒有考慮到點的局部特徵和結構約束,因此與MVCNN相比,在局部特徵描述方面能力稍弱。面對這樣的問題,我們基於PointNet已經做了一些改進和提升,新的網絡命名為 PointNet++,已經上傳到Arxiv,歡迎大家閱讀並討論交流。

論文地址:https://arxiv.org/abs/1612.00593

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。  不久之前,谷歌發布了 2017 版學術指標。
  • CVPR論文解讀:非常高效的物體檢測Mimic方法
    2017已經落下帷幕,但對精彩論文的解讀還在繼續。本文提出了一種學習feature map來實現Object Detection任務上mimic的方法。傳統的Mimic過程,一般使用一個已經訓練好的大模型,固定該模型的weights不變,設計一個小模型,學習大模型的soft targets 或者logits的輸出;大模型學習到有效的信息可以傳遞給小模型,使得小模型也可以有較為不錯的性能表現,其Loss函數如下:
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    但是,由於生成的圖像和真實圖像的分布有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標註的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標註信息。
  • 萬字長文詳解騰訊優圖 CVPR 2019 入選論文
    近年來,深度神經網絡在行人檢索任務中取得了較大的成功。但是這些方法往往只基於單人的外觀信息,其在處理跨攝像頭下行人外觀出現姿態變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基於上下文信息的行人檢索模型。所提出的模型將場景中同時出現的其他行人作為上下文信息,並使用卷積圖模型建模這些上下文信息對目標行人的影響。
  • 三維掃描為異形鋼結構橋梁幕牆裝飾提供三維點雲數據及三維模型
    對於異形鋼構測量來說,傳統的技術手段較難快速、準確完成測繪工作,而三維雷射掃描技術的出現,解決了這一難題。根據三維掃描的點雲數據,可以快速重建現場鋼構模型,並可根據要求提取圓柱形鋼構中心線數據。本次掃描中,滬敖3D的三維掃描技術人員利用架站式三維掃描儀對現場進行三維點雲數據的採集,實際進行3D掃描的時間在2小時左右。
  • HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
    而事實上,多種真實應用場景如自動駕駛和雲數據處理等,都會面臨著多個目標域混合的域適應問題(如圖一b)。在多個目標域混合下,每一個目標數據都可以來自其中一個子目標域,但來自於哪一個子域都是不可知的。因此如果直接使用一般的域適應算法去解決混合域適應問題,訓練出來的遷移學習模型會忽略混合子域之間的域偏移(domain shift)。這會導致負遷移現象從而損害模型的效果。
  • 學界| 點內科技、華東醫院及上海交大合著論文:3D深度學習在CT影像...
    機器之心發布來源:點內科技本研究利用高效的、多任務的 3D 卷積神經網絡 DenseSharp,同時進行分類和分割,旨在研究從 CT 影像預測早期腫瘤病理浸潤深度學習和放射專家的準確度。《Cancer Research》創辦於 1916 年,為國際腫瘤研究領域引用率最高的權威期刊之一,主要發表包括基礎研究、臨床前及臨床、腫瘤預防及生物治療在內的腫瘤學原創研究論文和綜述文章,具有很高的國際影響力,2017 年影響因子高達 9.13。
  • 谷歌在CVPR2020分享最新AR/VR研究成果
    Local Deep Implicit Functions for 3D Shape這個項目的目標是通過深度攝像頭視圖推斷來學習一個實現精確表面重建,緊湊存儲,高效計算,相似形狀一致性,以及不同形狀類別歸納的3D形狀表示。為此,我們引入了局部深隱函數(LDIF),一種將空間分解為一組結構化的學習隱函數的三維形狀表示。
  • Hinton、Bengio、何愷明等經典論文貢獻:機器學習必讀TOP100論文
    這要求圖片模型易表達、易處理、可拓展。16、Improved techniques for training GANs (2016), T. Salimans et al.https://arxiv.org/pdf/1511.06434v2這篇論文旨在幫助縮小監督學習和非監督學習成功運用於CNN上的差距。論文介紹了CNN的一個類,稱為深度卷積生成對抗網絡(DCGANs),這個網絡有著明確的結構約束,並且表明他們對非監督學習有著強烈的可信度。
  • 7 Papers|Hinton、李飛飛各有新作;深度學習硬體性能評價
    機器之心整理參與:一鳴、思源本周 Hinton、李飛飛都有新論文面世。Hinton 等提出了新的優化算法,而李飛飛等在視頻預測任務上實現了新的 SOTA 模型。此外還有自然語言理解評價方法、文本+圖像數據融合任務的綜述,以及對深度學習的硬體進行評價的文章等。
  • Facebook 今年被 CVPR 收錄的論文都說了啥?
    此外,該方法在學習 3D 形狀表徵和補充方面展示出了最先進的性能,和之前的研究相比,模型尺寸減小了一個數量級。我們深入研究使用 3D 點雲、RGB 圖像或其組合的導航策略。我們對這些模型的分析揭示了幾個關鍵的發現。我們發現,兩個看似簡單的導航基線(僅向前導航和隨機導航)都是強大的導航者,並且由於具身問答所採用的評估設置的特定選擇,它們也很難被超越。我們發現了一種新的損失加權方法,我們稱之為拐點加權法,在用行為克隆訓練循環導航模型時非常重要,並且能夠用這種技術完成基線。
  • 三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇
    PointNet 中的處理思想是尋找點到點之間的對應關係,但對應關係並不具有旋轉不變性;另一種思路是把點雲映射到球面上,這樣具有了旋轉不變性,但點與點之間的對應關係就無法保留,這是球面 CNN 的做法。
  • 萬字長文,深度解讀11篇 EMNLP 2017 被錄用論文
    8月16日,在北京中科院軟體研究所舉辦的「自然語言處理前沿技術研討會暨EMNLP2017論文報告會」上,邀請了國內部分被 EMNLP 2017錄用論文的作者來報告研究成果。整場報告會分為文本摘要及情感分析、機器翻譯、信息抽取及自動問答、文本分析及表示學習四個部分。感覺上次的 CCF-GAIR 參會筆記寫的像流水帳,這次換一種方式做筆記。
  • NeurIPS 2020|生成式的基於動態圖網絡學習的三維部件拼裝
    新智元報導來源:北京大學前沿計算研究中心作者:Hyperplane&VCL【新智元導讀】本文是NeurIPS 2020入選論文《生成式的基於動態圖網絡學習的三維部件拼裝(Generative 3D Part Assembly via Dynamic Graph
  • 從語言學到深度學習NLP,一文概述自然語言處理
    本文從兩篇論文出發先簡要介紹了自然語言處理的基本分類和基本概念,再向讀者展示了深度學習中的 NLP。這兩篇論文都是很好的綜述性入門論文,希望詳細了解自然語言處理的讀者可以進一步閱讀這兩篇論文。第二部分描述的是基於深度學習的 NLP,該論文首先描述了深度學習中的詞表徵,即從 one-hot 編碼、詞袋模型到詞嵌入和 word2vec 等,我們首先需要數字表徵詞彙才能進一步做自然語言處理。
  • 保護臺北歷史文化 | 航空攝影測量與地面掃描點雲融合,構建實景三維模型
    點雲以其承載豐富細節與信息和容易被進一步分析處理的特點,作為測繪中間成果和最終成果越來越多地被採用。點雲有多種來源,如來自雷射測量的:地面三維雷射掃描儀、車載LiDAR、機載LiDAR和手持/背包SLAM掃描等;有來自攝影測量的,如無人機航攝、無人機傾斜攝影和近景攝影測量等。不同來源點雲的融合成為當下熱門課題。
  • ICCV19開源論文 DeepGCNs: Can GCNs Go as Deep as CNNs?
    因此本文介紹的是一種更加普適於點雲任務的GCN網絡結構模塊 2.1點雲 點雲與三維圖像的關係:三維圖像是一種特殊的信息表達形式,其特徵是表達的空間中三個維度的數據,表現形式包括:深度圖(以灰度表達物體與相機的距離),幾何模型(由CAD軟體建立),點雲模型(所有逆向工程設備都將物體採樣成點雲)。
  • AAAI 2020 論文解讀:關於生成模型的那些事
    本文介紹的三篇論文就包含了三種生成模型(GNN、RL、VAE,即怎麼生成),同時也介紹了這些生成模型各自當前的應用場景(場景圖生成、序列生成、任務型對話生成,即生成什麼)。機器學習模型的一種分類方式就是將模型分為分類模型和生成模型,GAN 的出現使得生成模型一度大火,GAN 也開始被應用於各個領域,但是生成模型並不只是 GAN。
  • 2019年十大精彩AI學術論文盤點
    雷鋒網 AI 科技評論參考 TopBots、Heartbeat、New World AI 等機構的 2019 論文榜單,總結出 2019 年發表的具有研究風向代表性的、有學術影響力、內容也精彩的 AI 論文。其中一些論文把現有的技術思路改進得更加完善,有一些加深了我們對機器學習/深度學習整件事的理解,也有的嘗試了全新的假說、打開了新的探索方向。
  • 126篇殿堂級深度學習論文分類整理 從入門到應用 | 乾貨
    本文將試圖解決這個問題——文章標題本來是:「從入門到絕望,無止境的深度學習論文」。請諸位備好道具,開啟頭懸梁錐刺股的學霸姿勢。開個玩笑。但對非科班出身的開發者而言,讀論文的確可以成為一件很痛苦的事。但好消息來了——為避免初學者陷入迷途苦海,暱稱為 songrotek 的學霸在 GitHub 發布了他整理的深度學習路線圖,分門別類梳理了新入門者最需要學習的 DL 論文,又按重要程度給每篇論文打上星星。截至目前,這份 DL 論文路線圖已在 GitHub 收穫了近萬顆星星好評,人氣極高。