From: 香港城市大學 編譯: T.R
近日,來自香港城市大學的研究人員提出了一種基於線性近似的網絡模型MAPU-Net,可以在一次訓練後對輸入的稀疏點雲實現任意「放大比例」的上採樣。
針對需要上採樣的點雲,模型首先通過獲取現有點在切平面上的領域點,學習局域幾何信息獲取插值權重、生成分布在凸包區域內的鄰域點雲,隨後利用稀疏點雲的法向量通過數據驅動的方式來優化點雲結果,獲取最終上採樣後的點雲。
這種方式在一次訓練後可以應用於多個尺度的上採樣過程中,並能夠生成較為精細的幾何結構,具有更強的可解釋性和更好的內存效率。
詳情請參見論文:
https://arxiv.org/pdf/2011.12745.pdf
3D點雲對於複雜幾何形貌的目標和場景有著非常強大的表達能力,被廣泛應用於機器人操作、無人駕駛、沉浸式感知和文物遺蹟保護等領域。但在現有技術條件下,獲取準確稠密的三維點雲還是一項耗時耗力的工作。這一領域的研究人員一直致力於利用軟體的計算手段來代替硬體,從稀疏的低解析度的點雲中獲取稠密的高解析度的點雲結果。
3D點雲上採樣問題通常被視為圖像超分辨在三維領域的對應問題,人們從圖像超分辨領域借鑑了很多技術處理這一領域的問題。但由於點雲與生俱來的非規則性和非均勻性,這些基於規則圖像的方法無法發揮出應有的能力。此外,三維點雲代表的是目標或場景表面的幾何形貌信息,而圖像則記錄了目標或場景的反射光強信息,這樣的差異使得圖像領域的超分辨技術無法有效應用於三維點雲的處理上來。
針對點雲上採樣問題, 目前學術界主要從兩個角度來解決問題,分別是優化方法和基於深度學習的方法 。基於優化的方法通常利用局域特徵來對局部幾何信息進行擬合,在平滑的曲面上可以得到非常好的效果。但這種方法無法保留多尺度的細節,無法有效重建較為細微的形貌信息。 而利用神經網絡的方法從數據中學習出幾何形狀點雲表達會比基於優化的方法表現更好,但現有的深度學習方法對於點雲的幾何特性考慮較少,限制了深度學習對於這一問題的處理能力。
此外,很多深度學習方法的上採樣率保持固定,這意味著每當需要改變上採樣率的時候就需要重新對網絡進行訓練,消耗大量的調參和訓練時間。所以人們開始研究 只需要訓練一次就能對任意上採樣率進行處理的網絡模型 。
近日,來自香港城市大學的研究人員提出了一種基於線性近似的網絡模型 MAPU-Net ,可以在一次訓練後對輸入的稀疏點雲實現任意「放大比例」的上採樣。這種方式在一次訓練後可以應用於多個尺度的上採樣過程中,並能夠生成較為精細的幾何結構,具有更強的可解釋性和更好的內存效率。
理論分析
針對輸入的點雲,在用戶給定的上採樣尺度下需要進行稠密的上採樣,並保持重建後的幾何細節。具體來講,針對每個輸入的點,需要通過某種插值的方式有效獲取其R個鄰近的點。
為了從理論上定義這一問題,研究人員首先定義了輸入稀疏點集以及其鄰域內的k個最鄰近點。首先假設輸入點周圍所要重建的目標表面是局部平滑的,這意味著這一部分可以表達為函數形式:
那麼周圍鄰域點也可以表示為同樣的方程
如果梯度連續可以將這一局部的曲面表示為高度的隱函數的形式
利用泰勒展開進行一階近似後高度函數可表示為:
此時可以將需要生成的上採樣點的坐標表示成輸入鄰域點的仿射組合,
上面的式子就可以改寫為:
此時可以定義:
第一項需要估計切平面,第二項是採樣點的線性組合,所以使用第二項來進行最終點的估計,同時再加入一項誤差項來進行優化。所以最終點的結果可以表達為下面的式子:
以上的理論分析意味著 三維點雲插值可以被簡化為對於插值權重的估計和對於誤差修正項的優化過程 ,所以本文提出的網絡結構也針對這兩部分展開實現點雲上採樣。
MAPU-Net
在理論分析的指導下,研究人員提出了點雲上採樣MAPU-Net模型,可通過輸入點雲自適應地學習插值權重和優化誤差。整套模型的結構框架如下圖所示,其中 主要包含了三個主要部分:局域特徵抽取、插值權重學習以及坐標優化。
在稀疏點輸入的前提下,MAPU-Net首先為每個點學習到了D維的高維特徵,同時包含最鄰近K個點位置信息。最後兩種高維特徵被融合得到插值權重,輸入稀疏點雲得到稠密結果。最後,利用基於法向量引導的誤差估計結果對稠密化的點雲進行優化。在一次訓練後,這種方法可以用於熱議上採樣率的點雲加密任務中去(
首先,輸入點雲被投影到高維特徵空間中,利用局域特徵抽取獲得有效的特徵表達;隨後,利用三維特徵進行回歸學習獲取插值權重,得到較為粗糙的上採樣點雲結果;最後,利用採樣點稀疏法向量引導的優化方式來獲取最終優化後的點雲。在實際使用時,逐區域地進行處理上採樣處理。
在 局域特徵抽取 階段,研究人員採用了動態圖網絡將每個輸入點投影到高維特徵空間進行處理。與先前方法對點表述不同的是,這種基於動態圖網絡的方法基於先前層得到特徵間的距離來定義鄰域,並使用了全連接來聚合多層特徵。通過在特徵空間中對鄰域進行處理,使得最終的編碼同時包含了局域和非局域特徵,以及擾動不變性。
在 上採樣 階段,利用多層感知機對學習出的特徵進行處理以得到從輸入點到上採樣點間的插值函數。為了處理任意比例的上採樣任務,研究人員還將得到的R個權重歸一化到Rmax,以便根據不同上採樣比例選取不同的上採樣權重進行處理。最終輸出的權重大小為權重的數量與尺度數量Rmax的乘積。在實際使用過程中,針對上採樣率R,只需從權重矩陣中選出Top-R個權重,生成R倍的點即可。
在最後的 法向量引導優化 階段,由於生成的點與潛在的幾何表面還有一定距離的誤差,需要利用法向量引導的方法來優化這一誤差結果。首先利用前一步獲取的點的高維特徵對此處的法向量進行估計,而後利用另一個多層感知機來獲取插值點處的誤差,最終利用獲取到的誤差與法向量進行點乘來得到生成點最終需要獲取的位移結果。
最終在訓練時引入了Chamfer距離、投影距離和法向量間的誤差來作為最終的損失進行訓練。
實驗結果
實驗最終在Sketchfab雕塑數據集,體素化人體數據集8iVFB,以及KITTI點雲數據集上進行,研究人員與xxx等先進的算法在Chamfer距離、Hausdorff距離、點到表面的距離以及J-S散度等指標上進行了比較。
下圖展示了重建後的細節,輸入點雲數量為5000,GT的點雲數量為4萬(最後一列為GT,倒數第二紅色列為本文結果)。
同時還驗證了雷射雷達上的測量結果,上採樣因子分別是4和8:
對真實世界中的人體房屋也進行了重建研究,R分別為4,8,12,16:
下圖還展示了在噪聲輸入的情況下0%,0.5%,1.0%,1.5%(左圖),以及對應4倍上採樣的結果。
如果想要了解更多數學細節和訓練的過程,請參看原論文。
本周上新!掃碼觀看!
關於我「門」
▼
將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。
將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
掃二維碼|關注我們
讓創新獲得認可!
微信號:thejiangmen
點擊「?在看」,讓更多朋友們看到吧~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.