計算機視覺方向簡介 | 深度學習視覺三維重建

2022-01-27 3D視覺初學者

點擊上方「3D視覺初學者」，選擇加"星標"或「置頂」

重磅乾貨，第一時間送達

作者：Moonsmile

三維重建作為環境感知的關鍵技術之一，可用於自動駕駛、虛擬實境、運動目標監測、行為分析、安防監控和重點人群監護等。現在每個人都在研究識別，但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別，感知三維環境。我們活在三維空間裡，要做到交互和感知，就必須將世界恢復到三維。所以，在識別的基礎上，計算機視覺下一步必須走向三維重建。本文筆者將帶大家初步了解三維重建的相關內容以及算法。

在計算機視覺中, 三維重建是指根據單視圖或者多視圖的圖像重建三維信息的過程. 由於單視頻的信息不完全,因此三維重建需要利用經驗知識. 而多視圖的三維重建(類似人的雙目定位)相對比較容易, 其方法是先對攝像機進行標定, 即計算出攝像機的圖象坐標系與世界坐標系的關係.然後利用多個二維圖象中的信息重建出三維信息。

常規的3D shape representation有以下四種：深度圖（depth）、點雲（point cloud）、體素（voxel）、網格（mesh）。

深度圖

深度圖其每個像素值代表的是物體到相機xy平面的距離，單位為 mm。

體素

體素是三維空間中的一個有大小的點，一個小方塊，相當於是三維空間種的像素。

點雲

點雲是某個坐標系下的點的數據集。點包含了豐富的信息，包括三維坐標X，Y，Z、顏色、分類值、強度值、時間等等。在我看來點雲可以將現實世界原子化，通過高精度的點雲數據可以還原現實世界。萬物皆點雲，獲取方式可通過三維雷射掃描等。

用三角網格重建

三角網格就是全部由三角形組成的多邊形網格。多邊形和三角網格在圖形學和建模中廣泛使用，用來模擬複雜物體的表面，如建築、車輛、人體，當然還有茶壺等。任意多邊形網格都能轉換成三角網格。

三角網格需要存儲三類信息：

頂點：每個三角形都有三個頂點，各頂點都有可能和其他三角形共享。.

邊：連接兩個頂點的邊，每個三角形有三條邊。

面：每個三角形對應一個面，我們可以用頂點或邊列表表示面。

三角網格

根據採集設備是否主動發射測量信號，分為兩類：基於主動視覺理論和基於被動視覺的三維重建方法。

主動視覺三維重建方法：主要包括結構光法和雷射掃描法。

被動視覺三維重建方法：被動視覺只使用攝像機採集三維場景得到其投影的二維圖像，根據圖像的紋理分布等信息恢復深度信息，進而實現三維重建。

其中，雙目視覺和多目視覺理論上可精確恢復深度信息，但實際中，受拍攝條件的影響，精度無法得到保證。單目視覺只使用單一攝像機作為採集設備，具有低成本、易部署等優點，但其存在固有的問題：單張圖像可能對應無數真實物理世界場景（病態），故使用單目視覺方法從圖像中估計深度進而實現三維重建的難度較大。

Depth, NIPS 2014, Cited by 1011

這篇論文思路很簡單，算是用深度學習做深度圖估計的開山之作，網絡分為全局粗估計和局部精估計，對深度由粗到精的估計，並且提出了一個尺度不變的損失函數。

主體網絡Scale-invariant Mean Squared Error

本文總結

（1）提出了一個包含分為全局粗估計和局部精估計，可以由粗到精估計的網絡。

（2）提出了一個尺度不變的損失函數。

Voxel, ECCV 2016, Cited by 342

這篇文章挺有意思，結合了LSTM來做，如果輸入只有一張圖像，則輸入一張，輸出也一個結果。如果是多視圖的，則將多視圖看作一個序列，輸入到LSTM當中，輸出多個結果。

FrameworkFramework

如主框架所示，這篇文章採用深度學習從2D圖像到其對應的3D voxel模型的映射: 首先利用一個標準的CNN結構對原始input image 進行編碼；再利用一個標準 Deconvolution network 對其解碼。中間用LSTM進行過渡連接, LSTM 單元排列成3D網格結構, 每個單元接收一個feature vector from Encoder and Hidden states of neighbors by convolution，並將他們輸送到Decoder中. 這樣每個LSTM單元重構output voxel的一部分。總之，通過這樣的Encoder-3DLSTM-Decoder 的網絡結構就建立了2D images -to -3D voxel model 的映射。

3D LSTM 和 3D GRU

損失函數採用的是二分類的交叉熵損失，類似於在三維空間做分割，類別是兩類，分別是佔有或者不佔有。

損失函數

除了交叉熵loss可以用作評價指標，還可以把預測結果跟標籤的IoU作為評價指標，如下圖所示：

IoU可作為評價指標Single Real-World Image ReconstructionReconstructing From Different Views.

本文總結

（1）採用深度學習從2D圖像到其對應的3D voxel模型的映射，模型設計為Encoder+3D LSTM + Decoder。

（2）既適用單視圖，也適用多視圖。

（3）以體素的表現形式做的三維重建。

（4）缺點是需要權衡體素解析度大小（計算耗時）和精度大小。

Point Cloud, CVPR 2017, Cited by 274

大多數現存的工作都在使用深度網絡進行3D 數據採用體積網格或圖像集合（幾何體的2D視圖）。然而，這種表示導致採樣解析度和淨效率之間的折衷。在這篇論文中，作者利用深度網絡通過單張圖像直接生成點雲，解決了基於單個圖片對象生成3D幾何的問題。

點雲是一種簡單，統一的結構，更容易學習，點雲可以在幾何變換和變形時更容易操作，因為連接性不需要更新。該網絡可以由輸入圖像確定的視角推斷的3D物體中實際包含點的位置。

模型最終的目標是：給定一張單個的圖片（RGB或RGB-D），重構出完整的3D形狀，並將這個輸出通過一種無序的表示——點雲（Point cloud）來實現。點雲中點的個數，文中設置為1024，作者認為這個個數已經足夠表現大部分的幾何形狀。

主框架

鑑於這種非正統的網絡輸出，作者面臨的挑戰之一是如何在訓練期間構造損失函數。因為相同的幾何形狀可能在相同的近似程度上可以用不同的點雲來表示，因此與通常的L2型損失不同。

本文使用的 loss

倒角距離搬土距離

對於解決2D圖片重構後可能的形狀有很多種這個問題，作者構造了一個 Min-of-N loss (MoN) 損失函數。

Min-of-N loss 的意思是，網絡G通過n個不同的r擾動項進行n次預測，作者認為從直覺上來看，我們會相信n次中會至少有一次預測會非常接近真正的答案，因此可以認為這n次預測與真正的答案的距離的最小值應該要最小。

實驗可視化結果實驗可視化結果實驗數值結果

本文總結

該文章的貢獻可歸納如下：

（1）開創了點雲生成的先例（單圖像3D重建）。

（2）系統地探討了體系結構中的問題點生成網絡的損失函數設計。

（3）提出了一種基於單圖像任務的三維重建的原理及公式和解決方案。

總體來說，該篇文章開創了單個2D視角用點雲重構3D物體的先河，是一篇值得一看的文章。

根據各種不同的表示方法我們可以知道volume受到解析度和表達能力的限制，會缺乏很多細節；point cloud 的點之間沒有連接關係，會缺乏物體的表面信息。相比較而言mesh的表示方法具有輕量、形狀細節豐富的特點。

不同表現形式的對比

Mesh: 我不是針對誰，我是想說在座的各位都是垃圾（depth、volume、point cloud）

由於後邊的內容使用了圖卷積神經網絡（GCN），這裡簡要介紹一下：

f(p,l), f(p,l+1)分別表示頂點p在卷積操作前後的特徵向量；

N(p)指頂點p的鄰居節點；

W1,W2表示待學習的參數；

Mesh, ECCV 2018, cited by 58

這篇文章提出的方法不需要藉助點雲、深度或者其他更加信息豐富的數據，而是直接從單張彩色圖片直接得到 3D mesh。

主框架

1、給定一張輸入圖像：Input image

2、為任意的輸入圖像都初始化一個橢球體作為其初始三維形狀：Ellipsoid Mesh

整個網絡可以大概分成上下兩個部分：

1、上面部分負責用全卷積神經網絡提取輸入圖像的特徵；

2、下面部分負責用圖卷積神經網絡來表示三維mesh，並對三維mesh不斷進行形變，目標是得到最終的輸出（最後邊的飛機）。

主框架中的部分內容詳細的解釋

1、C表示三維頂點坐標，P表示圖像特徵，F表示三維頂點特徵；

2、perceptual feature pooling層負責根據三維頂點坐標C(i-1)去圖像特徵P中提取對應的信息；

3、以上提取到的各個頂點特徵再與上一時刻的頂點特徵F(i-1)做融合，作為G-ResNet的輸入；

4、G-ResNet(graph-based ResNet)產生的輸出又做為mesh deformable block的輸出，得到新的三維坐標C(i)和三維頂點特徵F(i)。

除了剛剛提到的mesh deformation，下面這部分還有一個很關鍵的組成是graph uppooling。文章提出這個圖上採樣層是為了讓圖節點依次增加，從圖中可以直接看到節點數是由156-->628-->2466變換的，這其實就是coarse-to-fine的體現，如下圖：

graph uppooling

這篇文章定義了四種loss來約束網格更好的形變：

lossloss

本文的實驗結果

本文總結

該文章的貢獻可歸納如下：

（1）文章實現用端到端的神經網絡實現了從單張彩色圖直接生成用mesh表示的物體三維信息；

（2）文章採用圖卷積神經網絡來表示3D mesh信息，利用從輸入圖像提到的特徵逐漸對橢圓盡心變形從而產生正確的幾何形狀；

（3）為了讓整個形變的過程更加穩定，文章還採用coarse-to-fine從粗粒度到細粒度的方式；

（4）文章為生成的mesh設計了幾種不同的損失函數來讓整個模型生成的效果更加好；

文章的核心思路就是給用一個橢球作為任意物體的初始形狀，然後逐漸將這個形狀變成目標物體。

由於相關內容涉及到mask-rcnn，先回顧一下：

mask-rcnn是對 faster rcnn 的擴展或者說是改進，其增加了一個用於分割的分支，並且將RoIpooling 改成了 RoIAlign。

mask rcnn

Mask RCNN可以看做是一個通用實例分割架構;。

Mask RCNN以Faster RCNN原型，增加了一個分支用於分割任務。

Mask RCNN比Faster RCNN速度慢一些，達到了5fps。

可用於人的姿態估計等其他任務；

首先介紹一篇2019年做三維重建的文章——Mesh R-CNN

這篇文章使用的正是mask rcnn 的框架，本篇文章提出了一種基於現實圖片的物體檢測系統，同時為每個檢測物體生成三角網格給出完整三維形狀。文中的系統mesh-rcnn是基於mask-rcnn的增強網絡，添加了一個網格預測分支，通過先預測轉化為物體的粗體素分布並轉化為三角形網格表示，然後通過一系列的圖卷積神經網絡改進網格的邊角輸出具有不同拓撲結構的網格。

基本的pipeline

模型目標：輸入一個圖像，檢測圖像中的所有對象，並輸出所有對象的類別標籤，邊界框、分割掩碼以及三維三角形網格。

模型主框架基於mask-rcnn，使用一個額外的網格預測器來獲得三維形狀，其中包括體素預測分支和網格細化分支。先由體素預測分支通過預選框對應的RoIAlign預測物體的粗體素分布，並將粗體素轉化為初始的三角形網格，然後網格細化分支使用作用在網格頂點上的圖卷積層調整這個初始網格的定點位置。總框架圖如下所示：

總框架圖分支細節

1、Box/Mask 分支：和mask-rcnn中的兩個分支一樣

2、體素預測分支：類似於mask-rcnn中的mask分支，輸入是RoIAlign，將預選框假設位於一個分割成 G*G*G個粗體素的空間，然後預測分割出來的粗體素佔用率。使用一個小的全卷積網絡來保持輸入特徵和體素佔用預測概率之間的對應關係。最後輸出用G個通道生成G*G的特徵圖，為每個位置提供一列體素佔用率分數。

3、體素佔用轉化為網格表示：將體素佔用概率轉化為二值化體素佔用之後，將每個被佔用的體素被替換為具有8個頂點、18個邊和12個面的立方體三角形網格（如上圖Cubify所示），然後合併相鄰佔用體元之間的共享頂點和邊，消除共享內面就可以形成了一個拓撲結構依賴於體素預測的密集網格了。

網格細化分支

網格細化分支將初始的網格結構經過一系列精化階段（在文中作者使用了三個階段）來細化裡面的頂點位置。每個精化階段都是輸入一個三角形網格)，然後經過三個步驟獲得更精細的網格結構：頂點對齊（獲得頂點位置對應的圖像特徵）；圖卷積（沿著網格邊緣傳播信息）；頂點細化（更新頂點位置）。網絡的每一層都為網格的每個頂點維護一個三維坐標以及特徵向量。

網格細化分支

1、頂點對齊：利用攝像機的內在矩陣將每個頂點的三維坐標投影到圖像平面上。根據獲取的RoIAlign，在每個投影的頂點位置上計算一個雙線性插值圖像特徵來作為對應頂點的圖像特徵。

2、圖卷積：圖卷積用於沿著網格邊緣傳播頂點信息，公式定義如下：

其中N(i)表示頂點i的鄰點集合，使用多個圖卷積層在局部網格區域上聚合信息。

3、頂點精化：使用2中更新後的頂點特徵使用下面公式來更新頂點位置：

只更改頂點位置，不更改三角形平面。

模型損失函數

網格細化損失（從三個方面定義了三個損失函數）

網格細化損失

論文實驗

論文在兩個數據集上驗證模型：在ShapeNet數據集上對網格預測器進行了基準測試與最先進的方法進行比較並且對模型中的各個模塊進行單獨分析；在Pix3D數據集上測試完整Mesh R-Cnn模型在複雜背景下的物體三維網格預測結果。

在ShapeNet數據集：Mesh R-Cnn與其他的模型比較結果如圖下：

其中Ours(Best)表示去掉形狀正則化損失後的結果，在後面的實驗中可以發現，去掉形狀正則化損失後儘管在標準度量上有好的表現，但是在視覺層面上生成的網格並不如加上後的結果（Ours(Pretty)）。

表格中比較了模型的完整版本以及不同去除模塊版本的表現，其中Full Test Set表示在完整測試集上的表現，Holes Test Set表示在打孔對象測試集中的表現；Voxel-Only表示不適用網格細化分支；Best和Perry分別表示不使用形狀正則化損失和使用形狀正則化損失；Ours(light)表示在網格細化分支中使用較輕量的非殘差架構。

儘管不使用邊長正則化器的訓練結果在標準度量中有更好的表現，但是會產生退化的預測網格，會導致輸出的網格出現許多重疊的面。對比Pixel2Mesh模型，Pixel2Mesh模型的輸出結果是從一個標準橢圓變形得到的，不能正確地建模有孔的物體。相反，Mesh R-Cnn可以對任意拓撲結構的物體進行建模。

Pix3D數據集

可視化結果

本文總結

該文章的貢獻可歸納如下：

（1）借鑑mask rcnn 框架；

（2）由粗到細調整的思想；

（3）使用圖卷積神經網絡；

（4）使用多種損失來約束訓練；

CVPR 2019, cited by 0

這篇文章同樣是既可以對單視圖，也可以對多視圖進行重建，只不過這篇文章的重點不在這，而在於它可以對不可見部分（不確定性）進行建模。

基本思想就是，每個輸入圖像都可以預測出多個重建結果，然後取交集就是最終結果。

下圖是主框架，左邊是訓練階段，右邊是測試階段。

主框架

左邊訓練階段的意思是，輸入一張圖像 I，對其加入多個噪聲(r)，生成多個重建結果(S)（類似於條件生成模型）。對改模型的訓練要加約束，這裡提出了front constraint和diversity constraint。

右邊是測試階段，提出了一個一致性損失（consistency loss）來進行在線優化。

Distance Metric:

度量距離（這篇文章是基於點雲做的，所以需要用度量距離衡量兩個點雲集的距離）

Diversity Constraint: 目的是讓條件生成器生成的重建結果更具有多樣性。

Diversity Constraint:

Front Constraint: 對圖像前邊部分（部分點）有監督訓練，所以這裡有一個採樣過程，具體內容如下圖所示：

Front Constraint對Front Constraint採樣部分的解釋

對於條件生成器生成的結果，用一個判別器去判斷這個形狀是否合理，公式如下：

Latent Space Discriminator（判別器是直接從WGAN-GP中拿來的）

判別器

訓練總的損失：

Inference (consistency constraint):

公式中Si 和 Sj 代表兩個點雲集合。

consistency constraint

條件生成器的構：

條件生成器的結構（簡約版本）條件生成器的結構（詳細版本）

實驗結果

本文總結

該文章的貢獻可歸納如下：

（1）提出對不可見部分的不確定性進行建模；

（2）使用了條件生成模型；

（3）提出了三種約束；

計算機視覺方向簡介 | 深度學習視覺三維重建

相關焦點

計算機視覺方向簡介 | 多視角立體視覺MVS

計算機視覺方向簡介 | 人臉顏值打分

計算機視覺方向簡介 | 基於RGB-D的3D目標檢測

三維視覺、SLAM方向國內外頂尖實驗室匯總

最強戰隊 | 三維視覺、SLAM方向全球頂尖實驗室匯總

一分鐘詳解三維重建學習路線

深度學習(計算機視覺方向)小白入門的一些建議

深度學習在計算機視覺領域應用一覽(附連結)

一文全覽深度學習在計算機視覺領域的應用

計算機視覺中的雙目立體視覺和體積度量

計算機視覺系統學習書籍/綜述(免費領取啦~)

探秘人工智慧 | 計算機視覺

CVTE中央研究院招實習生:機器人視覺/空間感知方向

3D視覺CV界的終極體現形式,計算機如何「看」這個三維世界

深度學習—計算機視覺學習路線【從學術到工作】

深度學習在計算機視覺領域(包括圖像,視頻,3-D點雲,深度圖)的應用一覽

DF-SLAM:基於深層局部特徵的深度學習視覺SLAM系統

計算機視覺中的深度學習專題(2020) |《中國科學:信息科學》英文版

結構光三維重建原理

語義分割方向知乎、公眾號、博客有哪些大V值得關注?