深度學習不是萬靈藥!神經網絡3D建模其實只是圖像識別?

2020-12-05 新智元

新智元原創

來源:arXiv

編輯:金磊、大明

【新智元導讀】隨著深度學習的大熱,許多研究都致力於如何從單張圖片生成3D模型。但近期一項研究表明,幾乎所有基於深度神經網絡的3D中重建工作,實際上並不是重建,而是圖像分類。深度學習並不是萬能的!

深度學習並不是萬靈藥。

近幾年,隨著深度學習的大熱,許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible

但是,最近一篇文章卻對此提出了質疑:幾乎所有這些基於深度神經網絡的3D重建的工作,實際上並不是進行重建,而是進行圖像分類

arXiv地址:

https://arxiv.org/pdf/1905.03678.pdf

在這項工作中,研究人員建立了兩種不同的方法分別執行圖像分類和檢索。這些簡單的基線方法在定性和定量上都比最先進的方法產生的結果要更好。

正如伯克利馬毅教授評價:

幾乎所有這些基於深度神經網絡的3D重建的工作(層出不窮令人眼花繚亂的State of the Art top conferences 論文),其實還比不上稍微認真一點的nearest neighbor baselines。沒有任何工具或算法是萬靈藥。至少在三維重建問題上,沒有把幾何關係條件嚴格用到位的算法,都是不科學的——根本談不上可靠和準確。

並非3D重建,而只是圖像分類?

基於對象(object-based)的單視圖3D重建任務是指,在給定單個圖像的情況下生成對象的3D模型。

如上圖所示,推斷一輛摩託車的3D結構需要一個複雜的過程,它結合了低層次的圖像線索、有關部件結構排列的知識和高層次的語義信息。

研究人員將這種情況稱為重建和識別:

重構意味著使用紋理、陰影和透視效果等線索對輸入圖像的3D結構進行推理。識別相當於對輸入圖像進行分類,並從資料庫中檢索最合適的3D模型。

雖然在其它文獻中已經提出了各種體系結構和3D表示,但是用於單視圖3D理解的現有方法都使用編碼器——解碼器結構,其中編碼器將輸入圖像映射到潛在表示,而解碼器執行關於3D的非平凡(nontrivial)推理,並輸出空間的結構。

為了解決這一任務,整個網絡既要包含高級信息,也要包含低級信息。

而在這項工作中,研究人員對目前最先進的編解碼器方法的結果進行了分析,發現它們主要依靠識別來解決單視圖3D重建任務,同時僅顯示有限的重建能力。

為了支持這一觀點,研究人員設計了兩個純識別基線:一個結合了3D形狀聚類和圖像分類,另一個執行基於圖像的3D形狀檢索。

在此基礎上,研究人員還證明了即使不需要明確地推斷出物體的3D結構,現代卷積網絡在單視圖3D重建中的性能是可以超越的。

在許多情況下,識別基線的預測不僅在數量上更好,而且在視覺上看起來更有吸引力。

研究人員認為,卷積網絡在單視圖3D重建任務中是主流實驗程序的某些方面的結果,包括數據集的組成和評估協議。它們允許網絡找到一個快捷的解決方案,這恰好是圖像識別

純粹的識別方法,性能優於先進的神經網絡

實驗基於現代卷積網絡,它可以從一張圖像預測出高解析度的3D模型。

方法的分類是根據它們的輸出表示對它們進行分類:體素網格(voxel grids)、網格(meshes)、點雲和深度圖。為此,研究人員選擇了最先進的方法來覆蓋主要的輸出表示,或者在評估中已經清楚地顯示出優於其他相關表示。

研究人員使用八叉樹生成網絡(Octree Generating Networks,OGN)作為直接在體素網格上預測輸出的代表性方法。

與早期使用這種輸出表示的方法相比,OGN通過使用八叉樹有效地表示所佔用的空間,可以預測更高解析度的形狀。

還評估了AtlasNet作為基於表面的方法的代表性方法。AtlasNet預測了一組參數曲面,並在操作這種輸出表示的方法中構成了最先進的方法。它被證明優於直接生成點雲作為輸出的唯一方法,以及另一種基於八叉樹的方法。

最後,研究人員評估了該領域目前最先進的Matryoshka Networks。該網絡使用由多個嵌套深度圖組成的形狀表示,,這些深度圖以體積方式融合到單個輸出對象中。

對於來自AtlasNet的基於IoU的表面預測評估,研究人員將它們投影到深度圖,並進一步融合到體積表示。 對於基於表面的評估指標,使用移動立方體算法從體積表示中提取網格。

研究人員實現了兩個簡單的基線,僅從識別的角度來處理問題。

第一種方法是結合圖像分類器對訓練形狀進行聚類;第二個是執行資料庫檢索。

在聚類方面的基線中,使用K-means算法將訓練形狀聚類為K個子類別。

在檢索基線方面,嵌入空間由訓練集中所有3D形狀的兩兩相似矩陣構造,通過多維尺度將矩陣的每一行壓縮為一個低維描述符。

研究人員根據平均IoU分數對所有方法進行標準比較。

研究人員發現,雖然最先進的方法有不同體系結構的支持,但在執行的時候卻非常相似。

有趣的是,檢索基線是一種純粹的識別方法,在均值和中位數IoU方面都優於所有其他方法。簡單的聚類基線具有競爭力,性能優於AtlasNet和OGN。

但研究人員進一步觀察到,一個完美的檢索方法(Oracle NN)的性能明顯優於所有其他方法。值得注意的是,所有方法的結果差異都非常大(在35%到50%之間)。

這意味著僅依賴於平均IoU的定量比較不能提供這種性能水平的全貌。 為了更清楚地了解這些方法的行為,研究人員進行了更詳細的分析。

每類mIoU比較。

總的來說,這些方法在不同的類之間表現出一致的相對性能。檢索基線為大多數類生成最佳重構。所有類和方法的方差都很大。

mIoU與每個類的訓練樣本數量。

研究人員發現一個類的樣本數量和這個類的mIoU分數之間沒有相關性。所有方法的相關係數c均接近於零。

定性的結果

聚類基線產生的形狀質量與最先進的方法相當。 檢索基線通過設計返回高保真形狀,但細節可能不正確。 每個樣本右下角的數字表示IoU。

左:為所選類分配IoU。 基於解碼器的方法和顯式識別基線的類內分布是類似的。 Oracle NN的發行版在大多數類中都有所不同。 右圖:成對Kolmogorov-Smirnov檢驗未能拒絕兩個分布的無效假設的類數的熱圖。

研究中的一些問題

參照系的選擇

我們嘗試使用視角預測網絡對聚類基線方法進行擴展,該方法將重點回歸攝像頭的方位角和仰角等規範框架,結果失敗了,因為規範框架對每個對象類都有不同的含義,即視角網絡需要使用類信息來解決任務。我們對檢索基線方法進行了重新訓練,將每個訓練視圖作為單獨樣本來處理,從而為每個單獨的對象提供空間。

量度標準

平均IoU通常在基準測試中被用作衡量單視圖圖像重建方法的主要量化指標。如果將其作為最優解的唯一衡量指標,就可能會出現問題,因為它在對象形狀的質量值足夠高時才能有效預測。如果該值處於中低水平,表明兩個對象的形狀存在顯著差異。

如上圖所示,將一個汽車模型與數據集中的不同形狀的對象進行了比較,只有 IoU分數比較高(最右兩張圖)時才有意義,即使IoU=0.59,兩個目標可能都是完全不同的物體,比較相似度失去了意義。

倒角距離(Chamfer distance)

如上圖所示,兩者目標椅子與下方的椅子的下半部分完美匹配,但上半部分完全不同。但是根據得分,第二個目標要好於第一個。由此來看,倒角距離這個量度會被空間幾何布局顯著幹擾。為了可靠地反映真正的模型重建性能,好的量度應該具備對幾何結構變化的高魯棒性。

F-score

我們繪製了以觀察者為中心的重建方式的F分數的不同距離閾值d(左)。在 d =重建體積邊長的2%的條件下,F分數絕對值與當前範圍的 mIoU分數相同,這並不能有效反映模型的預測質量。

因此,我們建議將距離閾值設為重建模型體積邊長的1%以下來考察F值。如上圖(右)中所示,在閾值d = 1%時,F分數為0.5以上。只有一小部分模型的形狀被精確構建出來,預設任務仍然遠未解決。我們的檢索基線方法不再具有明顯的優勢,進一步表明使用純粹的識別方法很難解決這個問題。

現有的基於CNN的方法在精度上表現良好,但丟失了目標的部分結構

未來展望

在這項研究中,研究人員通過重建和識別來推斷單視圖3D重建方法的範圍。

工作展示了簡單的檢索基線優於最新、最先進的方法。分析表明,目前最先進的單視圖3D重建方法主要用於識別,而不是重建。

研究人員確定了引起這種問題的一些因素,並提出了一些建議,包括使用以視圖為中心的坐標系和魯棒且信息量大的評估度量(F-score)。

另一個關鍵問題是數據集組合,雖然問題已經確定,但沒有處理。研究人員正努力在以後的工作中糾正這一點。

參考連結:

https://arxiv.org/pdf/1905.03678.pdf

相關焦點

  • 深度學習與圖像識別 圖像檢測
    來源:http://blog.csdn.net/omenglishuixiang1234/article/details/53305842  點擊閱讀原文直接進入主要做了基於深度學習的圖像識別與檢測的研究,下面是一些整理內容1、深度學習的優勢(1)從統計,計算的角度看,DL
  • 3D列印出來的深度神經網絡,光速求解AI數學運算
    來自加州大學洛杉磯分校(UCLA)的研究人員利用 3D 列印技術列印出了固態的神經網絡,並且利用層級傳播的光衍射來執行計算,實現了手寫數字的圖像識別,相關成果已發表在《science》雜誌上。這一想法看似新奇,其實也很自然。神經網絡中執行的是線性運算,恰好和光衍射的線性相互作用對應,神經元的權重、激活值概念也能和光的振幅、相位對應(可調)。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習是近十年來人工智慧領域取得的重要突破。它在語音識別、自然語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領域的應用取得了巨大成功。現有的深度學習模型屬於神經網絡。神經網絡的起源可追溯到20世紀40年代,曾經在八九十年代流行。神經網絡試圖通過模擬大腦認知的機理解決各種機器學習問題。
  • 如何通過人工神經網絡實現圖像識別?
    模式識別、智能控制及系統建模等領域得到越來越廣泛的應用。模式識別領域的一項傳統的課題,這是因為目標識別不是一個孤立的問題,而是這裡討論的是將要識別的目標物體用成像頭(紅外或可見光等)攝入後形成的圖像信號序列送入計算機,用神經網絡識別圖像的問題。一、BP 神經網絡BP 網絡是採用Widrow-Hoff 學習算法和非線性可微轉移函數的多層網絡。
  • 3D列印深度學習神經網絡用光子而不是電子進行計算
    加州大學洛杉磯分校的研究人員創造了一個獨特的全光學平臺,以光速執行機器學習任務。這是一個新穎的想法,使用光線通過多個板而不是電子衍射。對某些人來說,這可能看起來有點像用算盤替換計算機,但加州大學洛杉磯分校的研究人員對他們的古怪,閃亮,光速的人工神經網絡寄予厚望。
  • 深度學習技術和卷積神經網絡(CNN)讓機器視覺識別更智能
    隨著人工智慧技術的進步,深度學習技術(DL)和卷積神經網絡技術(CNN)領域的人工智慧(AI)被引入到機器視覺圖像處理系統的應用中來,從而幫助機器學習和機器檢測缺陷更加高效,使機器視覺識別的過程更加精確。也讓使用這些技術的企業可以從智能化中獲得更高的生產經營效益。
  • Python深度學習之圖像識別
    作者 | 周偉能 來源 | 小叮噹講SAS和Python Python在機器學習(人工智慧,AI)方面有著很大的優勢。談到人工智慧,一般也會談到其實現的語言Python。前面有幾講也是關於機器學習在圖像識別中的應用。今天再來講一個關於運用google的深度學習框架tensorflow和keras進行訓練深度神經網絡,並對未知圖像進行預測。
  • 如何用Python和深度神經網絡識別圖像?
    沒有機器對圖像的辨識,能做到嗎?你的好友可能(不止一次)給你演示如何用新買的iPhone X做面部識別解鎖了吧?沒有機器對圖像的辨識,能做到嗎?一個有用的規律是,隨著層數不斷向右推進,一般結果圖像(其實正規地說,應該叫做矩陣)會變得越來越小,但是層數會變得越來越多。只有這樣,我們才能把圖片中的規律信息抽取出來,並且儘量掌握足夠多的模式。如果你還是覺得不過癮,請訪問這個網站。它為你生動解析了卷積神經網絡中,各個層次上到底發生了什麼。
  • 神經網絡和深度學習簡史(全)
    以給數字圖像分類為例,隱藏變量就是實際的數字值,可見變量是圖像的像素;給定數字圖像「1」作為輸入,可見單元的值就可知,隱藏單元給圖像代表「1」的概率進行建模,而這應該會有較高的輸出概率。玻爾茲曼機器實例。每一行都有相關的權重,就像神經網絡一樣。注意,這裡沒有分層——所有事都可能跟所有事相關聯。
  • .| 深度學習理論與實戰:提高篇(5)——深度學習在語音識別中的應用
    提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。
  • Facebook 開源 3D 深度學習函數庫 PyTorch3D
    通過上述的功能,研究人員可以立即將這些函數導入至當前最先進的深度學習系統中。研究人員和工程師可以利用PyTorch3D進行各種3D深度學習研究(無論是3D重構、集束調整,乃至3D推理),以及改進在二維空間下的識別任務。對三維空間的認知,在人工智慧與真實世界的互動過程中扮演著十分重要的角色。例如機器人在物理空間中的導航、改進虛擬實境體驗,以及識別2D內容中被遮擋的物體等。
  • 深度學習:神經網絡算法的昨天、今天和明天
    神經網絡算法得名於其對於動物神經元傳遞信息方式的模擬,而深度學習這一「俗稱」又來自於多層級聯的神經元:眾多的層讓信息的傳遞實現了「深度」。在動物身上,神經一端連接感受器,另一端連接大腦皮層,中間通過多層神經元傳導信號。神經元之間也不是一對一連接,而是有多種連接方式(如輻射式、聚合式等),從而形成了網絡結構。這一豐富的結構最終不僅實現了信息的提取,也使動物大腦產生了相應的認知。
  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 推薦| 九本不容錯過的深度學習和神經網絡書籍
    搭建你自己的神經網絡(Make Your Own Neural Network)價格:45 美元一步步讓你了解神經網絡的數學原理並用 Python 搭建自己的神經網絡。神經網絡是深度學習和人工智慧的關鍵元素。然而,幾乎很少有人真正了解神經網絡如何運作。本書從非常簡單的思想開始,讓你在趣味和從容不迫中,逐漸了解神經網絡的運作原理。2.
  • 機器學習算法盤點:人工神經網絡、深度學習
    機器學習算法盤點:人工神經網絡、深度學習 佚名 發表於 2016-08-01 16:26:33   機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的算法。
  • 第85講 Python深度學習之圖像識別
    Python在機器學習(人工智慧,AI)方面有著很大的優勢。
  • 深度學習之卷積神經網絡經典模型
    AlexNet模型AlexNet簡介2012年Imagenet圖像識別大賽中,Alext提出的alexnet網絡模型一鳴驚人,引爆了神經網絡的應用熱潮,並且贏得了2012屆圖像識別大賽的冠軍,這也使得卷積神經網絡真正意義上成為圖像處理上的核心算法。
  • 人工智慧、機器學習、神經網絡和深度學習之間是什麼樣的關係?
    ,深度學習之間的關係。飲鹿網(innov100)產業研究員認為神經網絡可以簡單的分為單層,雙層,以及多層網絡。神經網絡在之前有非常多的問題,層數無法深入過多,有太多的參數需要調節,樣本數據量過小等問題。總之,其之前是一門並不被看好的技術。直到2006年,Hinton在《Science》和相關期刊上發表了論文,首次提出了「深度信念網絡」的概念。
  • 一場深度學習引發的圖像壓縮革命
    AlexNet 開啟了深度學習黃金時代,隨之而來是深度學習在圖像識別上的蓬勃發展:2013 年,ZF Net 以 11.2% 的低失誤率奪得 ILSVRC 冠軍;2014 年,VGG Net 在ILSVRC「分類及定位」比賽單項賽上的失誤率為 7.3%,同年,GoogLeNet以 6.7% 的失誤率取得 ILSVRC 冠軍
  • 機器學習算法匯總:人工神經網絡、深度學習及其它
    常見算法包括Q-Learning以及時間差學習(Temporal difference learning)在企業數據應用的場景下, 人們最常用的可能就是監督式學習和非監督式學習的模型。 在圖像識別等領域,由於存在大量的非標識的數據和少量的可標識數據, 目前半監督式學習是一個很熱的話題。 而強化學習更多的應用在機器人控制及其他需要進行系統控制的領域。