基於3D數據卷積神經網絡的物體識別

2020-12-11 電子發燒友

基於3D數據卷積神經網絡的物體識別

退思 發表於 2020-01-16 16:36:00

在增強現實(AR)與自動駕駛的時代來臨之際,3D數據呈現爆炸式增長。在不久的將來,處理3D數據的算法將應用於像機器人自動巡航、基於AR的智能用戶界面等應用程式上。受此啟發,我們在Matroid公司所著的論文提出了FusionNet,這一框架用於在一個名為Princeton ModelNet的標準數據集上做3D CAD物體分類。

FusionNet的核心是全新的、應用於3D物體的三維卷積神經網絡(Convolutional Neural Networks, CNN)。我們必須在多個方面調整傳統的CNN以使其有效。為了解釋得清楚些,我們不妨先看一下用於圖像分類的二維CNN。這個思路是,機器學習研究者會構建數個隱層形成的模型,每一層與前一層都以不同的形式連接。在第一層,你會擁有一個在二維圖像上滑動的一塊窗口區域作為輸入。因為這個區域執行了卷積操作——在窗口滑動時它交疊其上,因此它被稱為卷積層。其後還有幾層不同形式的隱層,最後一層用於預測潛在的輸出;每一種輸出對應著圖像標註中的某種分類。在ModelNet40 Challenge數據集中,存在40個分類,因此模型中最後一層有40個神經元。第一類可能是「貓」,第二類可能是「車輛」,以此類推遍歷數據集包含的所有分類。如果第一個神經元在40個中激發的最厲害,那麼輸入樣本就會被判別為第一類,一隻貓。

整個模型假設輸入是圖片形式,即二維數據。你該如何將它拓展到三維呢?一種可能的方法是,就像顯示器顯示三維物體那樣,先把物體通過投影處理成二維圖像,然後在其上運行標準的二維CNN算法。實際上,現在在Princeton ModelNet Challenge數據集上已提交的最優算法的思路是,把任何3D物體在多個角度上對物體進行一組2D投影進行「像素表達」,然後使用卷積神經網絡。FusionNet確實也基於像素表達使用了CNN,但關鍵是,它同時還增加了一種新式的三維CNN。

與在二維圖像上滑動一個區域不同的是,我們可以在物體上滑動一塊三維空間了!在這種表達之下,沒有必要做投影這一步。這種方法用「體積表達」來處理物體。

在我們的體積表達中,3D物體被離散化為30*30*30的體素(譯者註:volumepixel,文中簡稱voxel)網格。如果物體的任何部分位於1*1*1的體素中,就給體素賦值為1,反之則賦值為0. 與之前的工作不同的是,我們在學習物體特徵的過程中同時用到了像素表達和體素表達,這種方法對分類3D CAD物體而言,比單獨使用其中一種要好。其中一些例子如下:

圖 1. 兩種表達。 左圖:浴缸、高腳凳、坐便器與衣櫥的2D投影。右圖:體素化之後的浴缸、高腳凳、坐便器與衣櫥。 感謝Reza Zadeh提供圖片

我們建立了兩種處理體素數據的卷積神經網絡(V-CNN I與V-CNN II),以及一種處理像素數據的網絡(MV-CNN)。 下圖顯示了這些網絡是如何結合在一起工作,並給出對於物體分類的最終判斷的。處理2D圖像的標準CNN就不一樣了,它們只能從圖像中學到一些空間局部特徵。

圖2. FusionNet是三種神經網絡的混合,它們分別是V-CNN I, V-CNN II, and MV-CNN (最後一種神經網絡是基於AlexNet結構構建的,並經過ImageNet數據集預訓練過 ) 這三種網絡在評分層進行了融合,通過計算打分的線性組合找到最終所預測的分類。前兩個網絡使用了體素化的CAD模型,最後一種網絡則使用2D投影作為輸入。感謝Reza Zadeh提供圖片

我們使用了標準預訓練神經網絡模型(AlexNet)作為2D網絡MV-CNN的基礎,對3D物體2D投影的網絡進行暖啟動(warm-start)預訓練基於大規模2D像素圖片數據集ImageNet。受預訓練影響,許多用於2D圖像分類的特徵不需要從頭開始訓練了。下圖所描繪的框架是我們使用的V-CNN之一種(V-CNN I):

圖 3. 感謝Reza Zadeh提供圖片

V-CNN I所使用的框架受到GoogLeNet(www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf)啟發, 使用了Inception模塊。Inception模塊對不同大小的核處理結果進行了拼接,它有助於神經網絡學習不同尺度的特徵,並在緊接著Inception模塊的下一層卷積層中共享參數。

概括來說,FusionNet是三種神經網絡的融合,其中一種基於像素表達,兩種基於物體的體素化表達。它利用了每一種網絡的強項,提高了分類器性能。FusionNet中的每一個網絡組分都在對物體分類之前以多個角度、方向觀察物體。儘管從直覺來說,對物體的多角度觀察確實能比單角度觀察帶來更多信息,但是將信息整合到一起以提高預測精度並不顯而易見。我們使用了20個像素表達特徵與60個CAD物體體素表達特徵這麼多信息用於進行物體分類。FusionNet的效果超越了在Princeton ModelNet 40類數據集榜單上排名第一的提交方案,展示了其獨到的能力。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 基於PVANet卷積神經網絡模型的交通標誌識別算法
    針對這一瓶頸問題, 採用對PVANet網絡的淺層特徵提取層、深層特徵提取層和HyperNet層(多層特徵信息融合層)進行改進的措施, 提出了一種適用於小目標物體檢測的改進PVANet卷積神經網絡模型, 並在TT100K(Tsinghua-Tencent 100K)數據集上進行了交通標誌檢測算法驗證實驗。
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    學習視頻的特徵表達是幾乎所有視頻處理和分析的基礎,其中包括視頻標註、動作識別、視頻監控、視頻檢索、視頻場景識別、視頻分割、視頻自然語言描述和基於視頻的人機互動等等。然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。
  • 深度學習資訊|用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 深度學習資訊 | 用於人體動作識別的26層卷積神經網絡
    諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果,包括那些涉及識別圖像中特定人物或物體的任務。基於視覺的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務,它特別需要識別圖像或視頻中捕獲的人類動作。
  • 從圖像識別到物體識別
    在增強現實(AR)與自動駕駛的時代來臨之際,3D數據呈現爆炸式增長。在不久的將來,處理3D數據的算法將應用於像機器人自動巡航、基於AR的智能用戶界面等應用程式上。受此啟發,我們在Matroid公司所著的論文提出了FusionNet,這一框架用於在一個名為Princeton ModelNet的標準數據集上做3D CAD物體分類。
  • 解析卷積神經網絡的應用
    只有當使用圖像數據集對計算機進行訓練後,其方可識別對象 不過,情況正發生變化。近年來,一個稱之為「深度學習」的領域大幅提升了計算機理解所見事物的能力。深度學習,尤其是卷積神經網絡的使用,並沒有依賴傳統的圖像處理技術,而是賦予計算機理解世界的能力,且這方面已取得重大進展。
  • Vuforia sdk 4.0之物體識別
    啟動app進入,這裡需要手機連接網絡,如果不連接網絡會提示你沒有連接,不能提供服務。第一個是葫蘆,表面比較光滑,第一次測試,識別的點不多.不建議使用3d物體識別,可以用vuforia的Cylinder 識別,會有專門教程進行講解。杯子蓋測試也是識別點比較少,這個可以與光線、周圍環境都有影響。
  • 人工智慧TensorFlow(十三)讀懂CNN卷積神經網絡
    TensorFlow神經網絡  那什麼是卷積神經網絡呢,這就要我們追溯一下人類識別圖像的原理  人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細胞發現邊緣和方向
  • 計算機視覺(及卷積神經網絡)簡史
    世界範圍內的計算機方面的科學家在過去的六十年一直嘗試尋找使得機器能夠在視覺數據中提取出含義,計算機視覺的歷史是非常令人著迷的,這個方面是大多數人所不了解的。在這篇文章中,我將會嘗試介紹現代計算機視覺系統是如何通過卷積神經網絡驅動的。我將會從一個二十世紀五十年代出現的,和軟體工程毫不相關的作品開始。
  • 卷積神經網絡的卷積到底是什麼
    卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。它們專門處理具有網格狀拓撲結構的數據。例如,時間序列數據和圖像數據可以看作是一個二維像素網格。
  • Pytorch:分步實施3D卷積神經網絡(附代碼教程!)
    如何編寫3d CNN的PyTorch教程首先,我們需要簡單解釋一下什麼是3d CNN,以及它與通用2d CNN的區別。然後,我們將逐步分析如何使用Pytorch實現3D卷積神經網絡。什麼是3D卷積神經網絡?
  • ...人工智慧地震信息挖掘——基於高效分類多尺度濾波卷積神經網絡...
    耿智等-NC:人工智慧地震信息挖掘——基於高效分類多尺度濾波卷積神經網絡的自動化設計人工神經網絡(ANN)在數據驅動的自然和信息科學研究領域(例如圖像圖形學、材料、生物學和醫學、天文地理以及地球科學)的應用正在迅猛發展。
  • ...信息挖掘——基於高效分類多尺度濾波卷積神經網絡的自動化設計
    耿智等-NC:人工智慧地震信息挖掘——基於高效分類多尺度濾波卷積神經網絡的自動化設計人工神經網絡(ANN)在數據驅動的自然和信息科學研究領域(例如圖像圖形學、材料、生物學和醫學、天文地理以及地球科學)的應用正在迅猛發展。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    此時,深度學習的三種常用的基本架構就是DBN結構、SAE結構與1998年LeCun提出的卷積神經網絡結構(Convolutional Neural Network, CNN)。在學術界和工業界引起了廣大的關注,另外在人臉識別上、自然圖像Imagenet任務識別上取得了非常大的的成果。
  • 基於深度學習的無人機識別算法研究
    採用傳統的識別方法,靈活性不足,精度也不夠高。為此提出一種基於深度學習的無人機識別算法,通過訓練一個基於卷積神經網絡(CNNs)的學習網絡,得出一個高效的識別模型,實現無人機和非無人機間的分類。模型的測試結果表明,該方法具有較高的識別率。
  • 卷積神經網絡預測模型:提前24個月預測ENSO
    通過不斷探索,研究團隊選取相對成熟的卷積神經網絡進行ENSO 預測。近年來,卷積神經網絡在多個方向得到應用,在語音識別、人臉識別、通用物體識別等方面均有突破。在人工智慧領域,它是比較成熟的方法,並且有很多的開源程序和網站,可以直接使用。「卷積神經網絡的優點是可以處理大量數據。其實,這既是優點,也是缺點。
  • 卷積神經網絡預測模型:提前24個月預測ENSO
    羅京佳表示,「『阿爾法狗』用的深度神經網絡與傳統的神經網絡不一樣,它有很強大的自我學習能力。」通過不斷探索,研究團隊選取相對成熟的卷積神經網絡進行ENSO 預測。近年來,卷積神經網絡在多個方向得到應用,在語音識別、人臉識別、通用物體識別等方面均有突破。
  • 讓你的電腦擁有「視力」,用卷積神經網絡就可以!
    卷積神經網絡極大地提升了圖像識別模型的精度,在生活中也有很多的應用。在這篇文章中,我將描述它的工作原理、一些實際應用,以及如何用Python和Keras是實現一個卷積神經網絡。在識別不同的模式和物體上,我們已經變得十分在行。許多技術都是基於自然機制的。用相機舉個例子:快門控制光線的量,就像我們眼睛裡的瞳孔,鏡頭和眼睛聚焦並翻轉圖像。相機和眼睛都通過一些方式感知光線並將它轉化為可被理解的信號。
  • 要想了解卷積神經網絡,首先需要了解三種基本架構
    卷積網絡是研究關於圖像(紋理,圖像尺度等)的抽象層面的一種網絡,跟傳統網絡不同的是,它不僅可以根據一個固定尺寸圖像生成物體識別數據,還可以對圖像其他部分進行其他操作。卷積可以有多個,它的作用是「放大」和「增強」圖像的抽象空間。那麼卷積可以用於哪些場景呢?
  • 卷積神經網絡(CNN)新手指南
    我們可以毫不猶豫迅速識別出我們周圍的環境以及物體,當我們看到一張圖片或者觀察周遭環境時,大部分時間我們都能馬上對場景做出判斷並且給每個物體都打上標識,這些甚至都不需要刻意去觀察。這些技能能夠迅速識別其模式,從我們以前的經驗中做出推論,然後將其運用至不同的圖片或者環境中——這些都是我們與機器不同的地方。