退思 發表於 2020-01-16 16:36:00
在增強現實(AR)與自動駕駛的時代來臨之際,3D數據呈現爆炸式增長。在不久的將來,處理3D數據的算法將應用於像機器人自動巡航、基於AR的智能用戶界面等應用程式上。受此啟發,我們在Matroid公司所著的論文提出了FusionNet,這一框架用於在一個名為Princeton ModelNet的標準數據集上做3D CAD物體分類。
FusionNet的核心是全新的、應用於3D物體的三維卷積神經網絡(Convolutional Neural Networks, CNN)。我們必須在多個方面調整傳統的CNN以使其有效。為了解釋得清楚些,我們不妨先看一下用於圖像分類的二維CNN。這個思路是,機器學習研究者會構建數個隱層形成的模型,每一層與前一層都以不同的形式連接。在第一層,你會擁有一個在二維圖像上滑動的一塊窗口區域作為輸入。因為這個區域執行了卷積操作——在窗口滑動時它交疊其上,因此它被稱為卷積層。其後還有幾層不同形式的隱層,最後一層用於預測潛在的輸出;每一種輸出對應著圖像標註中的某種分類。在ModelNet40 Challenge數據集中,存在40個分類,因此模型中最後一層有40個神經元。第一類可能是「貓」,第二類可能是「車輛」,以此類推遍歷數據集包含的所有分類。如果第一個神經元在40個中激發的最厲害,那麼輸入樣本就會被判別為第一類,一隻貓。
整個模型假設輸入是圖片形式,即二維數據。你該如何將它拓展到三維呢?一種可能的方法是,就像顯示器顯示三維物體那樣,先把物體通過投影處理成二維圖像,然後在其上運行標準的二維CNN算法。實際上,現在在Princeton ModelNet Challenge數據集上已提交的最優算法的思路是,把任何3D物體在多個角度上對物體進行一組2D投影進行「像素表達」,然後使用卷積神經網絡。FusionNet確實也基於像素表達使用了CNN,但關鍵是,它同時還增加了一種新式的三維CNN。
與在二維圖像上滑動一個區域不同的是,我們可以在物體上滑動一塊三維空間了!在這種表達之下,沒有必要做投影這一步。這種方法用「體積表達」來處理物體。
在我們的體積表達中,3D物體被離散化為30*30*30的體素(譯者註:volumepixel,文中簡稱voxel)網格。如果物體的任何部分位於1*1*1的體素中,就給體素賦值為1,反之則賦值為0. 與之前的工作不同的是,我們在學習物體特徵的過程中同時用到了像素表達和體素表達,這種方法對分類3D CAD物體而言,比單獨使用其中一種要好。其中一些例子如下:
圖 1. 兩種表達。 左圖:浴缸、高腳凳、坐便器與衣櫥的2D投影。右圖:體素化之後的浴缸、高腳凳、坐便器與衣櫥。 感謝Reza Zadeh提供圖片
我們建立了兩種處理體素數據的卷積神經網絡(V-CNN I與V-CNN II),以及一種處理像素數據的網絡(MV-CNN)。 下圖顯示了這些網絡是如何結合在一起工作,並給出對於物體分類的最終判斷的。處理2D圖像的標準CNN就不一樣了,它們只能從圖像中學到一些空間局部特徵。
圖2. FusionNet是三種神經網絡的混合,它們分別是V-CNN I, V-CNN II, and MV-CNN (最後一種神經網絡是基於AlexNet結構構建的,並經過ImageNet數據集預訓練過 ) 這三種網絡在評分層進行了融合,通過計算打分的線性組合找到最終所預測的分類。前兩個網絡使用了體素化的CAD模型,最後一種網絡則使用2D投影作為輸入。感謝Reza Zadeh提供圖片
我們使用了標準預訓練神經網絡模型(AlexNet)作為2D網絡MV-CNN的基礎,對3D物體2D投影的網絡進行暖啟動(warm-start)預訓練基於大規模2D像素圖片數據集ImageNet。受預訓練影響,許多用於2D圖像分類的特徵不需要從頭開始訓練了。下圖所描繪的框架是我們使用的V-CNN之一種(V-CNN I):
圖 3. 感謝Reza Zadeh提供圖片
V-CNN I所使用的框架受到GoogLeNet(www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf)啟發, 使用了Inception模塊。Inception模塊對不同大小的核處理結果進行了拼接,它有助於神經網絡學習不同尺度的特徵,並在緊接著Inception模塊的下一層卷積層中共享參數。
概括來說,FusionNet是三種神經網絡的融合,其中一種基於像素表達,兩種基於物體的體素化表達。它利用了每一種網絡的強項,提高了分類器性能。FusionNet中的每一個網絡組分都在對物體分類之前以多個角度、方向觀察物體。儘管從直覺來說,對物體的多角度觀察確實能比單角度觀察帶來更多信息,但是將信息整合到一起以提高預測精度並不顯而易見。我們使用了20個像素表達特徵與60個CAD物體體素表達特徵這麼多信息用於進行物體分類。FusionNet的效果超越了在Princeton ModelNet 40類數據集榜單上排名第一的提交方案,展示了其獨到的能力。
打開APP閱讀更多精彩內容
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴