華中大提出新型採樣與重建算法, 提升稀疏深度稠密補全任務性能

2021-01-09 網易

  

  編譯: T.R From: HUST

  深度補全的主要任務是利用稀疏的深度測量和單RGB重建出稠密準確的深度圖。

  在本文中研究人員主要從數據和先驗的角度來改進算法,一方面與傳統採樣方法不同, 提出了一種基於泊松disk的採樣方式 ;另一方面與先前使用的規則處理核不同, 利用了圖卷積動態重建的方法 更好地恢復出稠密的深度結果。

  實驗表明這種策略可以在更少的測量點情況下獲取更好的重建結果,同時對於室內和室外的場景都具有良好的泛化性。

  深度補全

  深度測量與感知在機器人技術、無人駕駛和增強現實等領域都有著重要的應用。近年來出現了多種多樣的深度傳感器、豐富了我們對於真實世界的尺度感知,但這些傳感器卻有著不同的局限性。

  例如,高質量的雷射雷達售價較為昂貴、採樣的點比較稀疏;結構光傳感器會受到陽光的影響僅限於室內使用,處理高亮反射表面也較為困難;雙目相機則需要複雜的標定過程和較長的基線才能獲得滿意的結果。

  
傳感器層面的限制讓人們逐漸將目光轉向了算法上,譬如稀疏的深度圖通常可以從低成本的雷射雷達或SLAM中獲取,如果有高性能的深度補全算法就能獲得令人滿意的結果。

  稀疏深度補全的任務主要是補充出缺失的點,並儘可能精確地計算出這些點的深度。先前開發的算法主要利用的是隨機採樣來獲取稀疏深度,但這與雷射雷達等傳感器的工作機制不符,其採集的深度點取決於機械電子結構,有著一定的規律性。

  另外絕大多數的重建算法,包括深度學習算法,都在使用規則的、標準的旋轉不變性的核來處理圖像,但顯然不同鄰域信息對於深度重建的重要性是不同的。如何自適應地選取鄰域信息進行重建,並保證計算效率和精度成為了深度補全任務的研究關鍵。

  採樣與補全

  為了解決這些問題,在這篇文章中研究人員對採樣策略和重建方法進行了系統地研究,結合泊松圓採樣和低差異序列構建了一種新的準隨機採樣方法,其空間分布更為均勻;同時基於在kNN和GNN的基礎上,提出了一種具有空間變化特性的圖結構,通過kNN來計算駐點特徵並饋入GNN中,最後利用MLP在GNN中構建傳播過程來實現深度補全結果。

  研究人員首先比較了先前方法中低差異性序列和準隨機採樣方法,在差異性的基礎上提出了一種基於最小半徑的標準(細節見論文第三節),下圖展示了幾種常見隨機採樣方法模式和性能,可以看到四種準隨機方法的差異性都很小,但隨著半徑的不同每種算法的均勻性有著細微的變化。

  

  隨後研究人員基於自適應的圖神經網絡模型構建深度補全模型。具有空間變化的處理方式最早來源於引導濾波,而後在動態濾波器網絡中得到了進一步發展。

  本文首先構建了一套基準模型,分別是兩個具有相似U-Net結構的全卷積子網絡構成。其中一個子網絡(濾波器生成)輸入為引導的圖像,隨後生成不同尺度的特徵圖、並會被用於空間各異的濾波器。另一個濾波器(深度補全)子網絡輸入為稀疏深度測量結果,並最終生成稠密的深度圖。

  兩個子網絡都具有相同的結構但參數不同,下圖中通過將兩個子網絡的特徵圖相乘來實現引導和自適應。與GuideNet中使用卷積核加權的方式不同,本文中使用的簡單的逐點乘法代替避免了龐大的計算量。

  

  用於深度補全的基準模型架構,值得注意的是在編碼器部分中利用了基礎殘差結構代替了普通的卷積。

  為了更好地探索空間各向異性機制,研究人員在此基礎上針對性地提出了3D拓展用於深度補全任務。

  值得注意的是,與彩色圖不同,深度圖攜帶有重要的深度信息,如果利用小孔模型將這些信息映射到圖像平面上,就會造成2D圖像平面上的領域信息與真實三維世界中的領域信息間較大的差異。

  如圖三所示,三維空間中的鄰域信息是目標點在空間中的領域,而針對二維圖像來說卻沒有輔助信息來獲取完整的領域信息。這些原因促使研究人員利用基於圖的方法來表示空間各向異性的鄰域信息,並在後續進行有效處理。

  

  三維和二維鄰域的對比

  針對圖網絡的輸入,研究人員利用基準模型計算出的逐點特徵作為GNN輸入。圖卷積的過程可以用下面的方程組表示,其中M負責融合領域信息、F負責狀態轉移。其中U,f,h分別代表鄰域表示、輸入特徵和隨時間變換的狀態。

  在實際使用中,使用了原始尺寸1/8的特徵圖、中值池化,隨後利用下面的方法將稀疏輸入DI和基準模型輸出DR進行融合:

  隨後利用DN構建出圖結構,其中[u,v]表示圖像平面上的點,[x,y,z]則是這一點在相機坐標系下的三維坐標,利用標準的小孔相機模型可以方便地在2D和3D坐標間進行轉換。

  為了構建出適合於三維深度補全任務的GNN,首先需要在彩色圖像上識別出每一個對應的鄰域點。在3DGNN的啟發下,將每一個圖像點作為一個節點來搜索其三維空間中的k個最鄰近點(K=64),同時利用有向圖來表示每個節點如何從其他點處獲得信息的。

  下圖中詳細描述了生成稠密深度圖的過程,通過搜索3D鄰域和GNN的信息傳輸來實現補全。

  

  包含圖卷積模塊的完整模型架構

  GNN中信息的傳播過程是通過MLP多層感知機實現的,可以被表達為下面的形式:

  

  其中g代表了多層感知機MLP,在傳播過程圖中每一個節點首先從鄰域收集信息,而後計算出特徵得到全部鄰域的平均特徵m,最後每個節點基於先前的信息更新狀態,這裡使用的狀態更新函數F有MLP構成,原因是在RNN中比較常用的更新函數。

  實驗結果

  研究人員分別在KITTI,NYUDv2以及Matterport3D數據集上進行了實驗。在訓練過程中使用MSE作為損失函數,並利用RMSE,MAE和REL作為評測的指標。首先在NYUv2上對基準模型和圖網絡的該改進模型在不同採樣情況下進行了性能測評。

  

  隨後,為了分析不同改進對於模型的影響,研究人員分別就GNN的鄰域信息獲取與不同採樣方式進行了分析。

  與基準模型相比,基於GNN抽取鄰域信息的方法實現了更好的效果,並且在不同採樣方式下都具有穩定的性能提升。此外,通過比較發現Golden方式的準隨機採樣具有更好的性能,這也與前面採樣一致性的評價相符,Golden具有小的差異性。

  此外,在不同數據集上與目前先進的算法相比,本文提出的方法都具有非常明顯地提升,證明了這種方法的有效性。

  

  下圖還展示了在NYUDv2和KITTI下的深度補全結果,可以看到補全的深度圖在結果上更為完整和準確,並對與細長的細節有著更好的恢復能力。

  

  第四列到第六列分別是基準模型、完整圖模型和使用Golden採樣策略的模型補全結果
最後一行是完整模型的結果

  如果想要了解更多詳細算法,請查看論文:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660681.pdf

  Ref:

  http://faculty.hust.edu.cn/caozhiguo1/zh_CN/lwcg/52086/list/index.htm
https://par.nsf.gov/biblio/10169232

  掃碼觀看!

  本周上新!

  徵稿啦!

  想讓你的工作獲得更多關注?

  想與更多大佬進行學術交流?

  一鍵獲取投稿方式!

  關於我「門」

  

  將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務將門技術社群以及將門創投基金

  將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

  如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給「門」:

  bp@thejiangmen.com

  

  微信:thejiangmen

  bp@thejiangmen.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關焦點

  • 港城大提出任意比例的上採樣方法, 實現自由三維點雲稠密重建
    針對點雲上採樣問題, 目前學術界主要從兩個角度來解決問題,分別是優化方法和基於深度學習的方法 。基於優化的方法通常利用局域特徵來對局部幾何信息進行擬合,在平滑的曲面上可以得到非常好的效果。但這種方法無法保留多尺度的細節,無法有效重建較為細微的形貌信息。
  • 當隨機採樣遇見插值,微軟亞研提出節省推理計算量的新範式
    在一篇 ECCV 2020 Oral 論文中,來自微軟亞洲研究院等機構的研究者提出了一種隨機採樣與插值相結合的新方法,可以有效降低節省推理的計算量。近年來,隨著深度學習的不斷發展,視覺領域出現了越來越多的高精度模型,但這些模型所需的計算量也越來越大。因此,如何在推理階段避免冗餘的計算在近年來成為研究熱點。
  • 谷歌大腦提出簡化稀疏架構,預訓練速度可達T5的7倍
    為了解決這些問題,Google Brain 的研究者提出了 Switch Transformer。在 Switch Transformer 的設計中,它們簡化了 MoE 的路由算法(routing algorithm),設計了直觀的改進模型,新模型的通信成本和計算成本都大大降低。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    下圖展示了不同參數構成的上採樣結構,涵蓋了特徵上採樣算法、特徵轉換、卷積核尺寸、擴充比例和激活函數等五種不同的結構參數。    上採樣部分的搜索空間  整個上採樣操作被解構為了特徵圖空間解析度的提升和特徵轉換(transform)兩個過程。
  • 中科院蘇州醫工所在基於字典學習方法的CT圖像重建算法研究中取得...
    中科院蘇州醫工所在基於字典學習方法的CT圖像重建算法研究中取得進展   目前,X射線的計算機斷層成像(computed tomography, CT)技術依然是一種重要的醫學成像手段,能夠清晰地呈現病人的幾何解剖結構。
  • 別擔心,這只是3D深度估計做出的特效|深度圖|...
    這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統的 structure-from-motion(SfM)方法來重建像素的幾何約束。與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。
  • ICML 2020|提升神經網絡架構搜索穩定性,UCLA提出新型NAS算法
    為此,UCLA 基於隨機平滑(random smoothing)和對抗訓練(adversarial training),提出新型 NAS 算法。可微網絡架構搜索(DARTS)能夠大幅縮短搜索時間,但是其穩定性受到質疑。隨著搜索進行,DARTS 生成的網絡架構性能會逐漸變差。最終生成的結構甚至全是跳過連接(skip connection),沒有任何卷積操作。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    ,判斷當前車輛與周圍車輛、行人和障礙物的距離,距離判斷的精度對自動駕駛系統的安全性有著決定性的影響,商湯科技在CVPR 2018發表亮點報告(Spotlight)論文,提出基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度,進一步提升自動駕駛系統的安全性。
  • 你的廚房被水淹了:別擔心,這只是3D深度估計做出的特效
    這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統的 structure-from-motion(SfM)方法來重建像素的幾何約束。與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。
  • CVPR2017精彩論文解讀:效果更顯著的模型壓縮算法和泛化優化算法
    下文是優必選雪梨AI研究院對其入選CVPR 2017的兩篇論文《基於低秩稀疏分解的深度模型壓縮算法》和《利用奇異值界定提升深度神經網絡訓練效果和識別精度》進行的解讀,除此之外他們還對會上Workshop競賽的進行了相關介紹。
  • DL時代的代碼補全利器,北大出品,效果遠超語言模型
    這樣一個流程基本上是深度學習開發者所知曉的,但是按照流程寫下來非常繁瑣。在 aiXcoder 的提示下,開發速度得到了提升。但是研究者很快發現,只有語言模型是行不通的,它總會提出一些毫無意義、很不科學的補全建議。為此,aiXcoder 融合了基於序列的程序代碼語言模型、基於抽象語法樹和程序邏輯關係的圖神經網絡等方法,共同打造一個完整的系統。為什麼直接生成代碼是困難的如果深度學習模型能根據開發者的意圖,以端到端的方式直接生成對應的代碼,那麼這樣的模型會很「優雅」。
  • 1.6萬億參數的語言模型:谷歌大腦提出Switch Transformer,預訓練...
    此外,他們提出的訓練技術還提高了訓練的穩定性,首次表明大型稀疏模型也可以用低精度(bfloat16)進行訓練。唯一沒有觀察到性能提升的基準是 AI2 推理挑戰賽(ARC)數據集:在 ARC challenge 數據集上 T5-Base 的性能超過 Switch-Base;在 ARC easy 數據集上,T5-Large 的性能超過 Switch-Large。整體而言,Switch Transformer 模型在多項推理和知識任務中帶來了顯著性能提升。
  • 聽說你了解深度學習最常用的學習算法:Adam優化算法?
    Adam優化算法是隨機梯度下降算法的擴展式,近來其廣泛用於深度學習應用中,尤其是計算機視覺和自然語言處理等任務。本文分為兩部分,前一部分簡要介紹了Adam優化算法的特性和其在深度學習中的應用,後一部分從Adam優化算法的原論文出發,詳細解釋和推導了它的算法過程和更新規則。
  • 卷積層非常稀疏存在採樣誤差
    這是因為,在一般地,要實現多層卷積層,需要採用上一層的上一層的結果作為結果損失進行梯度下降的輸入,但卷積層非常稀疏,存在採樣誤差。因此對於多層的卷積網絡來說,通常需要採用中間層的卷積,以放棄採樣誤差。循環神經網絡是現代很多神經網絡都基於神經元之間的依賴關係進行的組合傳播。卷積不能用,則採用循環網絡作為通道。其中循環層通常採用中間層的第一個循環節的低維表達。
  • 社區發現的深度學習方法:進展、挑戰...
    隨後,最大池化操作被用於特徵提取,這保證了 CNN 的魯棒性。得益於 CNN 的發展,Xin 等人設計了一種用於社區發現的新型 CNN,並提出了一種用於拓撲結構不完整的網絡的有監督算法。由於社區發現被廣泛看做一種無監督聚類任務,科研人員對基於無監督 CNN 的社區發現進行了研究。人們研發出了在 CNN 框架下的係數矩陣卷積,從而專門進行對高度稀疏的鄰接矩陣的表徵。
  • 深度森林第三彈:周志華組提出可做表徵學習的多層梯度提升決策樹
    自去年周志華等研究者提出了「深度森林」以後,這種新型的層級表徵方式吸引了很多研究者的關注。今日,南京大學的馮霽、俞揚和周志華提出了多層梯度提升決策樹模型,它通過堆疊多個回歸 GBDT 層作為構建塊,並探索了其學習層級表徵的能力。此外,與層級表徵的神經網絡不同,他們提出的方法並不要求每一層都是可微,也不需要使用反向傳播更新參數。