編譯: T.R From: HUST
深度補全的主要任務是利用稀疏的深度測量和單RGB重建出稠密準確的深度圖。
在本文中研究人員主要從數據和先驗的角度來改進算法,一方面與傳統採樣方法不同, 提出了一種基於泊松disk的採樣方式 ;另一方面與先前使用的規則處理核不同, 利用了圖卷積動態重建的方法 更好地恢復出稠密的深度結果。
實驗表明這種策略可以在更少的測量點情況下獲取更好的重建結果,同時對於室內和室外的場景都具有良好的泛化性。
深度補全
深度測量與感知在機器人技術、無人駕駛和增強現實等領域都有著重要的應用。近年來出現了多種多樣的深度傳感器、豐富了我們對於真實世界的尺度感知,但這些傳感器卻有著不同的局限性。
例如,高質量的雷射雷達售價較為昂貴、採樣的點比較稀疏;結構光傳感器會受到陽光的影響僅限於室內使用,處理高亮反射表面也較為困難;雙目相機則需要複雜的標定過程和較長的基線才能獲得滿意的結果。
傳感器層面的限制讓人們逐漸將目光轉向了算法上,譬如稀疏的深度圖通常可以從低成本的雷射雷達或SLAM中獲取,如果有高性能的深度補全算法就能獲得令人滿意的結果。
稀疏深度補全的任務主要是補充出缺失的點,並儘可能精確地計算出這些點的深度。先前開發的算法主要利用的是隨機採樣來獲取稀疏深度,但這與雷射雷達等傳感器的工作機制不符,其採集的深度點取決於機械電子結構,有著一定的規律性。
另外絕大多數的重建算法,包括深度學習算法,都在使用規則的、標準的旋轉不變性的核來處理圖像,但顯然不同鄰域信息對於深度重建的重要性是不同的。如何自適應地選取鄰域信息進行重建,並保證計算效率和精度成為了深度補全任務的研究關鍵。
採樣與補全
為了解決這些問題,在這篇文章中研究人員對採樣策略和重建方法進行了系統地研究,結合泊松圓採樣和低差異序列構建了一種新的準隨機採樣方法,其空間分布更為均勻;同時基於在kNN和GNN的基礎上,提出了一種具有空間變化特性的圖結構,通過kNN來計算駐點特徵並饋入GNN中,最後利用MLP在GNN中構建傳播過程來實現深度補全結果。
研究人員首先比較了先前方法中低差異性序列和準隨機採樣方法,在差異性的基礎上提出了一種基於最小半徑的標準(細節見論文第三節),下圖展示了幾種常見隨機採樣方法模式和性能,可以看到四種準隨機方法的差異性都很小,但隨著半徑的不同每種算法的均勻性有著細微的變化。
隨後研究人員基於自適應的圖神經網絡模型構建深度補全模型。具有空間變化的處理方式最早來源於引導濾波,而後在動態濾波器網絡中得到了進一步發展。
本文首先構建了一套基準模型,分別是兩個具有相似U-Net結構的全卷積子網絡構成。其中一個子網絡(濾波器生成)輸入為引導的圖像,隨後生成不同尺度的特徵圖、並會被用於空間各異的濾波器。另一個濾波器(深度補全)子網絡輸入為稀疏深度測量結果,並最終生成稠密的深度圖。
兩個子網絡都具有相同的結構但參數不同,下圖中通過將兩個子網絡的特徵圖相乘來實現引導和自適應。與GuideNet中使用卷積核加權的方式不同,本文中使用的簡單的逐點乘法代替避免了龐大的計算量。
用於深度補全的基準模型架構,值得注意的是在編碼器部分中利用了基礎殘差結構代替了普通的卷積。
為了更好地探索空間各向異性機制,研究人員在此基礎上針對性地提出了3D拓展用於深度補全任務。
值得注意的是,與彩色圖不同,深度圖攜帶有重要的深度信息,如果利用小孔模型將這些信息映射到圖像平面上,就會造成2D圖像平面上的領域信息與真實三維世界中的領域信息間較大的差異。
如圖三所示,三維空間中的鄰域信息是目標點在空間中的領域,而針對二維圖像來說卻沒有輔助信息來獲取完整的領域信息。這些原因促使研究人員利用基於圖的方法來表示空間各向異性的鄰域信息,並在後續進行有效處理。
三維和二維鄰域的對比
針對圖網絡的輸入,研究人員利用基準模型計算出的逐點特徵作為GNN輸入。圖卷積的過程可以用下面的方程組表示,其中M負責融合領域信息、F負責狀態轉移。其中U,f,h分別代表鄰域表示、輸入特徵和隨時間變換的狀態。
在實際使用中,使用了原始尺寸1/8的特徵圖、中值池化,隨後利用下面的方法將稀疏輸入DI和基準模型輸出DR進行融合:
隨後利用DN構建出圖結構,其中[u,v]表示圖像平面上的點,[x,y,z]則是這一點在相機坐標系下的三維坐標,利用標準的小孔相機模型可以方便地在2D和3D坐標間進行轉換。
為了構建出適合於三維深度補全任務的GNN,首先需要在彩色圖像上識別出每一個對應的鄰域點。在3DGNN的啟發下,將每一個圖像點作為一個節點來搜索其三維空間中的k個最鄰近點(K=64),同時利用有向圖來表示每個節點如何從其他點處獲得信息的。
下圖中詳細描述了生成稠密深度圖的過程,通過搜索3D鄰域和GNN的信息傳輸來實現補全。
包含圖卷積模塊的完整模型架構
GNN中信息的傳播過程是通過MLP多層感知機實現的,可以被表達為下面的形式:
其中g代表了多層感知機MLP,在傳播過程圖中每一個節點首先從鄰域收集信息,而後計算出特徵得到全部鄰域的平均特徵m,最後每個節點基於先前的信息更新狀態,這裡使用的狀態更新函數F有MLP構成,原因是在RNN中比較常用的更新函數。
實驗結果
研究人員分別在KITTI,NYUDv2以及Matterport3D數據集上進行了實驗。在訓練過程中使用MSE作為損失函數,並利用RMSE,MAE和REL作為評測的指標。首先在NYUv2上對基準模型和圖網絡的該改進模型在不同採樣情況下進行了性能測評。
隨後,為了分析不同改進對於模型的影響,研究人員分別就GNN的鄰域信息獲取與不同採樣方式進行了分析。
與基準模型相比,基於GNN抽取鄰域信息的方法實現了更好的效果,並且在不同採樣方式下都具有穩定的性能提升。此外,通過比較發現Golden方式的準隨機採樣具有更好的性能,這也與前面採樣一致性的評價相符,Golden具有小的差異性。
此外,在不同數據集上與目前先進的算法相比,本文提出的方法都具有非常明顯地提升,證明了這種方法的有效性。
下圖還展示了在NYUDv2和KITTI下的深度補全結果,可以看到補全的深度圖在結果上更為完整和準確,並對與細長的細節有著更好的恢復能力。
第四列到第六列分別是基準模型、完整圖模型和使用Golden採樣策略的模型補全結果
最後一行是完整模型的結果
如果想要了解更多詳細算法,請查看論文:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123660681.pdf
Ref:
http://faculty.hust.edu.cn/caozhiguo1/zh_CN/lwcg/52086/list/index.htm
https://par.nsf.gov/biblio/10169232
掃碼觀看!
本周上新!
徵稿啦!
想讓你的工作獲得更多關注?
想與更多大佬進行學術交流?
一鍵獲取投稿方式!
關於我「門」
▼
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。
將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給「門」:
bp@thejiangmen.com
微信:thejiangmen
bp@thejiangmen.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.