計算機視覺方向簡介 | 深度學習視覺三維重建

2022-01-27 3D視覺初學者

點擊上方「3D視覺初學者」,選擇加"星標"或「置頂

重磅乾貨,第一時間送達

作者:Moonsmile

三維重建作為環境感知的關鍵技術之一,可用於自動駕駛、虛擬實境、運動目標監測、行為分析、安防監控和重點人群監護等。現在每個人都在研究識別,但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別,感知三維環境。我們活在三維空間裡,要做到交互和感知,就必須將世界恢復到三維。所以,在識別的基礎上,計算機視覺下一步必須走向三維重建。本文筆者將帶大家初步了解三維重建的相關內容以及算法。

在計算機視覺中, 三維重建是指根據單視圖或者多視圖的圖像重建三維信息的過程. 由於單視頻的信息不完全,因此三維重建需要利用經驗知識. 而多視圖的三維重建(類似人的雙目定位)相對比較容易, 其方法是先對攝像機進行標定, 即計算出攝像機的圖象坐標系與世界坐標系的關係.然後利用多個二維圖象中的信息重建出三維信息。

常規的3D shape representation有以下四種:深度圖(depth)、點雲(point cloud)、體素(voxel)、網格(mesh)。

深度圖

深度圖其每個像素值代表的是物體到相機xy平面的距離,單位為 mm。

體素

體素是三維空間中的一個有大小的點,一個小方塊,相當於是三維空間種的像素。

點雲

點雲是某個坐標系下的點的數據集。點包含了豐富的信息,包括三維坐標X,Y,Z、顏色、分類值、強度值、時間等等。在我看來點雲可以將現實世界原子化,通過高精度的點雲數據可以還原現實世界。萬物皆點雲,獲取方式可通過三維雷射掃描等。

用三角網格重建

三角網格就是全部由三角形組成的多邊形網格。多邊形和三角網格在圖形學和建模中廣泛使用,用來模擬複雜物體的表面,如建築、車輛、人體,當然還有茶壺等。任意多邊形網格都能轉換成三角網格。

三角網格需要存儲三類信息:

頂點:每個三角形都有三個頂點,各頂點都有可能和其他三角形共享。.

邊:連接兩個頂點的邊,每個三角形有三條邊。

面:每個三角形對應一個面,我們可以用頂點或邊列表表示面。

三角網格

根據採集設備是否主動發射測量信號,分為兩類:基於主動視覺理論和基於被動視覺的三維重建方法。

主動視覺三維重建方法:主要包括結構光法和雷射掃描法。

被動視覺三維重建方法:被動視覺只使用攝像機採集三維場景得到其投影的二維圖像,根據圖像的紋理分布等信息恢復深度信息,進而實現三維重建。

其中,雙目視覺和多目視覺理論上可精確恢復深度信息,但實際中,受拍攝條件的影響,精度無法得到保證。單目視覺只使用單一攝像機作為採集設備,具有低成本、易部署等優點,但其存在固有的問題:單張圖像可能對應無數真實物理世界場景(病態),故使用單目視覺方法從圖像中估計深度進而實現三維重建的難度較大。


Depth, NIPS 2014, Cited by 1011

這篇論文思路很簡單,算是用深度學習做深度圖估計的開山之作,網絡分為全局粗估計和局部精估計,對深度由粗到精的估計,並且提出了一個尺度不變的損失函數。

主體網絡Scale-invariant Mean Squared Error

本文總結

(1)提出了一個包含分為全局粗估計和局部精估計,可以由粗到精估計的網絡。

(2)提出了一個尺度不變的損失函數。

Voxel, ECCV 2016, Cited by 342

這篇文章挺有意思,結合了LSTM來做,如果輸入只有一張圖像,則輸入一張,輸出也一個結果。如果是多視圖的,則將多視圖看作一個序列,輸入到LSTM當中,輸出多個結果。

FrameworkFramework

如主框架所示,這篇文章採用深度學習從2D圖像到其對應的3D voxel模型的映射: 首先利用一個標準的CNN結構對原始input image 進行編碼;再利用一個標準 Deconvolution network 對其解碼。中間用LSTM進行過渡連接, LSTM 單元排列成3D網格結構, 每個單元接收一個feature vector from Encoder and Hidden states of neighbors by convolution,並將他們輸送到Decoder中. 這樣每個LSTM單元重構output voxel的一部分。總之,通過這樣的Encoder-3DLSTM-Decoder 的網絡結構就建立了2D images -to -3D voxel model 的映射。

3D LSTM 和 3D GRU

損失函數採用的是二分類的交叉熵損失,類似於在三維空間做分割,類別是兩類,分別是佔有或者不佔有。

損失函數

除了交叉熵loss可以用作評價指標,還可以把預測結果跟標籤的IoU作為評價指標,如下圖所示:

IoU可作為評價指標Single Real-World Image ReconstructionReconstructing From Different Views.

本文總結

(1)採用深度學習從2D圖像到其對應的3D voxel模型的映射,模型設計為Encoder+3D LSTM + Decoder。

(2)既適用單視圖,也適用多視圖。

(3)以體素的表現形式做的三維重建。

(4)缺點是需要權衡體素解析度大小(計算耗時)和精度大小。

Point Cloud, CVPR 2017, Cited by 274

大多數現存的工作都在使用深度網絡進行3D 數據採用體積網格或圖像集合(幾何體的2D視圖)。然而,這種表示導致採樣解析度和淨效率之間的折衷。在這篇論文中,作者利用深度網絡通過單張圖像直接生成點雲,解決了基於單個圖片對象生成3D幾何的問題。

點雲是一種簡單,統一的結構,更容易學習,點雲可以在幾何變換和變形時更容易操作,因為連接性不需要更新。該網絡可以由輸入圖像確定的視角推斷的3D物體中實際包含點的位置。

模型最終的目標是:給定一張單個的圖片(RGB或RGB-D),重構出完整的3D形狀,並將這個輸出通過一種無序的表示——點雲(Point cloud)來實現。點雲中點的個數,文中設置為1024,作者認為這個個數已經足夠表現大部分的幾何形狀。

主框架

鑑於這種非正統的網絡輸出,作者面臨的挑戰之一是如何在訓練期間構造損失函數。因為相同的幾何形狀可能在相同的近似程度上可以用不同的點雲來表示,因此與通常的L2型損失不同。

本文使用的 loss

倒角距離搬土距離

對於解決2D圖片重構後可能的形狀有很多種這個問題,作者構造了一個 Min-of-N loss (MoN) 損失函數。

Min-of-N loss 的意思是,網絡G通過n個不同的r擾動項進行n次預測,作者認為從直覺上來看,我們會相信n次中會至少有一次預測會非常接近真正的答案,因此可以認為這n次預測與真正的答案的距離的最小值應該要最小。

實驗可視化結果實驗可視化結果實驗數值結果

本文總結

該文章的貢獻可歸納如下:

(1)開創了點雲生成的先例(單圖像3D重建)。

(2)系統地探討了體系結構中的問題點生成網絡的損失函數設計。

(3)提出了一種基於單圖像任務的三維重建的原理及公式和解決方案。

總體來說,該篇文章開創了單個2D視角用點雲重構3D物體的先河,是一篇值得一看的文章。

根據各種不同的表示方法我們可以知道volume受到解析度和表達能力的限制,會缺乏很多細節;point cloud 的點之間沒有連接關係,會缺乏物體的表面信息。相比較而言mesh的表示方法具有輕量、形狀細節豐富的特點。

不同表現形式的對比

Mesh: 我不是針對誰,我是想說在座的各位都是垃圾(depth、volume、point cloud)

由於後邊的內容使用了圖卷積神經網絡(GCN),這裡簡要介紹一下:

f(p,l), f(p,l+1)分別表示頂點p在卷積操作前後的特徵向量;

N(p)指頂點p的鄰居節點;

W1,W2表示待學習的參數;

Mesh, ECCV 2018, cited by 58

這篇文章提出的方法不需要藉助點雲、深度或者其他更加信息豐富的數據,而是直接從單張彩色圖片直接得到 3D mesh。

主框架

1、給定一張輸入圖像:Input image

2、為任意的輸入圖像都初始化一個橢球體作為其初始三維形狀:Ellipsoid Mesh

整個網絡可以大概分成上下兩個部分:

1、上面部分負責用全卷積神經網絡提取輸入圖像的特徵;

2、下面部分負責用圖卷積神經網絡來表示三維mesh,並對三維mesh不斷進行形變,目標是得到最終的輸出(最後邊的飛機)。

主框架中的部分內容詳細的解釋

1、C表示三維頂點坐標,P表示圖像特徵,F表示三維頂點特徵;

2、perceptual feature pooling層負責根據三維頂點坐標C(i-1)去圖像特徵P中提取對應的信息;

3、以上提取到的各個頂點特徵再與上一時刻的頂點特徵F(i-1)做融合,作為G-ResNet的輸入;

4、G-ResNet(graph-based ResNet)產生的輸出又做為mesh deformable block的輸出,得到新的三維坐標C(i)和三維頂點特徵F(i)。

除了剛剛提到的mesh deformation,下面這部分還有一個很關鍵的組成是graph uppooling。文章提出這個圖上採樣層是為了讓圖節點依次增加,從圖中可以直接看到節點數是由156-->628-->2466變換的,這其實就是coarse-to-fine的體現,如下圖:

graph uppooling

這篇文章定義了四種loss來約束網格更好的形變:

lossloss

本文的實驗結果

本文總結

該文章的貢獻可歸納如下:

(1)文章實現用端到端的神經網絡實現了從單張彩色圖直接生成用mesh表示的物體三維信息;

(2)文章採用圖卷積神經網絡來表示3D mesh信息,利用從輸入圖像提到的特徵逐漸對橢圓盡心變形從而產生正確的幾何形狀;

(3)為了讓整個形變的過程更加穩定,文章還採用coarse-to-fine從粗粒度到細粒度的方式;

(4)文章為生成的mesh設計了幾種不同的損失函數來讓整個模型生成的效果更加好;

文章的核心思路就是給用一個橢球作為任意物體的初始形狀,然後逐漸將這個形狀變成目標物體。

由於相關內容涉及到mask-rcnn,先回顧一下:

mask-rcnn是對 faster rcnn 的擴展或者說是改進,其增加了一個用於分割的分支,並且將RoIpooling 改成了 RoIAlign。

mask rcnn

Mask RCNN可以看做是一個通用實例分割架構;。

Mask RCNN以Faster RCNN原型,增加了一個分支用於分割任務。

Mask RCNN比Faster RCNN速度慢一些,達到了5fps。

可用於人的姿態估計等其他任務;

首先介紹一篇2019年做三維重建的文章——Mesh R-CNN


這篇文章使用的正是mask rcnn 的框架,本篇文章提出了一種基於現實圖片的物體檢測系統,同時為每個檢測物體生成三角網格給出完整三維形狀。文中的系統mesh-rcnn是基於mask-rcnn的增強網絡,添加了一個網格預測分支,通過先預測轉化為物體的粗體素分布並轉化為三角形網格表示,然後通過一系列的圖卷積神經網絡改進網格的邊角輸出具有不同拓撲結構的網格。

基本的pipeline

模型目標:輸入一個圖像,檢測圖像中的所有對象,並輸出所有對象的類別標籤,邊界框、分割掩碼以及三維三角形網格。

模型主框架基於mask-rcnn,使用一個額外的網格預測器來獲得三維形狀,其中包括體素預測分支和網格細化分支。先由體素預測分支通過預選框對應的RoIAlign預測物體的粗體素分布,並將粗體素轉化為初始的三角形網格,然後網格細化分支使用作用在網格頂點上的圖卷積層調整這個初始網格的定點位置。總框架圖如下所示:

總框架圖分支細節

1、Box/Mask 分支: 和mask-rcnn中的兩個分支一樣

2、體素預測分支:類似於mask-rcnn中的mask分支,輸入是RoIAlign,將預選框假設位於一個分割成 G*G*G個粗體素的空間,然後預測分割出來的粗體素佔用率。使用一個小的全卷積網絡來保持輸入特徵和體素佔用預測概率之間的對應關係。最後輸出用G個通道生成G*G的特徵圖,為每個位置提供一列體素佔用率分數。

3、體素佔用轉化為網格表示:將體素佔用概率轉化為二值化體素佔用之後,將每個被佔用的體素被替換為具有8個頂點、18個邊和12個面的立方體三角形網格(如上圖Cubify所示),然後合併相鄰佔用體元之間的共享頂點和邊,消除共享內面就可以形成了一個拓撲結構依賴於體素預測的密集網格了。

網格細化分支

網格細化分支將初始的網格結構經過一系列精化階段(在文中作者使用了三個階段)來細化裡面的頂點位置。每個精化階段都是輸入一個三角形網格),然後經過三個步驟獲得更精細的網格結構:頂點對齊(獲得頂點位置對應的圖像特徵);圖卷積(沿著網格邊緣傳播信息);頂點細化(更新頂點位置)。網絡的每一層都為網格的每個頂點維護一個三維坐標以及特徵向量。

網格細化分支

1、頂點對齊:利用攝像機的內在矩陣將每個頂點的三維坐標投影到圖像平面上。根據獲取的RoIAlign,在每個投影的頂點位置上計算一個雙線性插值圖像特徵來作為對應頂點的圖像特徵。

2、圖卷積:圖卷積用於沿著網格邊緣傳播頂點信息,公式定義如下:

其中N(i)表示頂點i的鄰點集合,使用多個圖卷積層在局部網格區域上聚合信息。

3、頂點精化:使用2中更新後的頂點特徵使用下面公式來更新頂點位置:

只更改頂點位置,不更改三角形平面。

模型損失函數

模型損失函數

網格細化損失(從三個方面定義了三個損失函數)

網格細化損失

論文實驗

論文在兩個數據集上驗證模型:在ShapeNet數據集上對網格預測器進行了基準測試與最先進的方法進行比較並且對模型中的各個模塊進行單獨分析;在Pix3D數據集上測試完整Mesh R-Cnn模型在複雜背景下的物體三維網格預測結果。

在ShapeNet數據集:Mesh R-Cnn與其他的模型比較結果如圖下:

其中Ours(Best)表示去掉形狀正則化損失後的結果,在後面的實驗中可以發現,去掉形狀正則化損失後儘管在標準度量上有好的表現,但是在視覺層面上生成的網格並不如加上後的結果(Ours(Pretty))。

表格中比較了模型的完整版本以及不同去除模塊版本的表現,其中Full Test Set表示在完整測試集上的表現,Holes Test Set表示在打孔對象測試集中的表現;Voxel-Only表示不適用網格細化分支;Best和Perry分別表示不使用形狀正則化損失和使用形狀正則化損失;Ours(light)表示在網格細化分支中使用較輕量的非殘差架構。

儘管不使用邊長正則化器的訓練結果在標準度量中有更好的表現,但是會產生退化的預測網格,會導致輸出的網格出現許多重疊的面。對比Pixel2Mesh模型,Pixel2Mesh模型的輸出結果是從一個標準橢圓變形得到的,不能正確地建模有孔的物體。相反,Mesh R-Cnn可以對任意拓撲結構的物體進行建模。

Pix3D數據集

Pix3D數據集

可視化結果

本文總結

該文章的貢獻可歸納如下:

(1)借鑑mask rcnn 框架;

(2)由粗到細調整的思想;

(3)使用圖卷積神經網絡;

(4)使用多種損失來約束訓練;

CVPR 2019, cited by 0

這篇文章同樣是既可以對單視圖,也可以對多視圖進行重建,只不過這篇文章的重點不在這,而在於它可以對不可見部分(不確定性)進行建模。

基本思想就是,每個輸入圖像都可以預測出多個重建結果,然後取交集就是最終結果。

下圖是主框架,左邊是訓練階段,右邊是測試階段。

主框架

左邊訓練階段的意思是,輸入一張圖像 I,對其加入多個噪聲(r),生成多個重建結果(S)(類似於條件生成模型)。對改模型的訓練要加約束,這裡提出了front constraint和diversity constraint。

右邊是測試階段,提出了一個一致性損失(consistency loss)來進行在線優化。

Distance Metric:

度量距離(這篇文章是基於點雲做的,所以需要用度量距離衡量兩個點雲集的距離)

Diversity Constraint: 目的是讓條件生成器生成的重建結果更具有多樣性。

Diversity Constraint:

Front Constraint: 對圖像前邊部分(部分點)有監督訓練,所以這裡有一個採樣過程,具體內容如下圖所示:

Front Constraint對Front Constraint採樣部分的解釋

對於條件生成器生成的結果,用一個判別器去判斷這個形狀是否合理,公式如下:

Latent Space Discriminator(判別器是直接從WGAN-GP中拿來的)

判別器

訓練總的損失:

Inference (consistency constraint):

公式中Si 和 Sj 代表兩個點雲集合。

consistency constraint

條件生成器的構:

條件生成器的結構(簡約版本)條件生成器的結構(詳細版本)

實驗結果

本文總結

該文章的貢獻可歸納如下:

(1)提出對不可見部分的不確定性進行建模;

(2)使用了條件生成模型;

(3)提出了三種約束;

相關焦點

  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    早就是優勢,學習切忌單打獨鬥,這裡有教程資料、練習作業、答疑解惑等,優質學習圈幫你少走彎路,快速入門!推薦閱讀前段時間參加了個線下交流會(附SLAM入門視頻)計算機視覺方向簡介 | 從全景圖恢復三維結構計算機視覺方向簡介 | 陣列相機立體全景拼接計算機視覺方向簡介 |
  • 計算機視覺方向簡介 | 人臉顏值打分
    基於深度學習的方法,由於已經沒有了手設特徵的一步,所以就只剩下優化目標的選擇和網絡的選擇。更強大的網絡,通常都有更好的性能,我們看看文【2】訓練的結果。實驗結果表明符合我們的預測,網絡最強大的ResNext-50取得最優性能,同時,所有的網絡都優於最好的傳統方法。基於深度學習的方法沒有太多可以說的地方,懟數據就是正確答案。最後我們做一個總結。
  • 計算機視覺方向簡介 | 基於RGB-D的3D目標檢測
    3D目標檢測在定位這一任務上的目標是返回3D bounding boxes,而其需要的信息除了2D的RGB圖像以外,還包含了與之對應的深度信息Depth Map:RGB-D = 普通的RGB三通道彩色圖像 + Depth Map在3D計算機圖形中,Depth Map(深度圖
  • 三維視覺、SLAM方向國內外頂尖實驗室匯總
    計算機視覺life的讀者群和後臺經常收到大家的提問,關於讀碩博選擇、研究方向選擇、出國留學等各種問題。他們還在tango項目上與谷歌合作,負責視覺慣導的裡程計,基於視覺的定位和深度重建算法。這包括深度學習,生成模型,對抗性學習,記憶網絡和元學習。主要研究深度學習在語義圖像理解同步定位和建圖(SLAM)和3D場景重建、視頻理解問答、醫學影像等領域的應用。
  • 最強戰隊 | 三維視覺、SLAM方向全球頂尖實驗室匯總
    :Active Vision實驗室主攻計算視覺,特別是傳統和深度圖像的3D場景重建。他們還在tango項目上與谷歌合作,負責視覺慣導的裡程計,基於視覺的定位和深度重建算法。:主要研究算機視覺,圖像處理和模式識別等一系列方向,即基於圖像的3D重建,光流估計,機器人視覺,視覺SLAM等。
  • 一分鐘詳解三維重建學習路線
    三維重建在計算機視覺中是十分重要的,其中涉及很多的技術內容,為了後來人能少走彎路,也為了對自己的知識框架系統總結,特記錄自己的學習路線。
  • 深度學習(計算機視覺方向)小白入門的一些建議
    地址:莫煩Pythonhttps://morvanzhou.github.io/opencv也要學一下,有c++和python版的,原理基本一樣,只是實現的語言不同,很猛的開源視覺庫,可以買一本opencv3教程看一下,這個書網上比較統一,大部分都是這本。在學完這些,我就要開始了解深度學習和卷積神經網絡了,這時,一位大神的視頻映入眼帘,他就是——吳恩達!
  • 深度學習在計算機視覺領域應用一覽(附連結)
    這是一份深度學習在計算機視覺領域的超全應用預覽~簡單回顧的話,2006年Geoffrey Hinton的論文點燃了「這把火」,現在已經有不少人開始潑「冷水」了,主要是AI泡沫太大,而且深度學習不是包治百病的藥方。
  • 一文全覽深度學習在計算機視覺領域的應用
    已經是很熱的深度學習,大家都看到不少精彩的故事,我就不一一重複。簡單的回顧的話,2006年Geoffrey Hinton的論文點燃了「這把火」,現在已經有不少人開始潑「冷水」了,主要是AI泡沫太大,而且深度學習不是包治百病的藥方。計算機視覺不是深度學習最早看到突破的領域,真正讓大家大吃一驚的顛覆傳統方法的應用領域是語音識別,做出來的公司是微軟,而不是當時如日中天的谷歌。
  • 計算機視覺中的雙目立體視覺和體積度量
    大多數三維相機模型都是基於立體視覺理論和技術的。兩臺攝像機之間設置一定的距離,這樣它們就可以從不同的角度「看」物體。評估兩個圖像之間的對應關係,人工智慧確定到目標的距離,分析,並建立目標的3D結構。因此,3D場景重建可以用來測量物體或產品的體積。在實踐中,立體視覺通過兩臺攝像機分四個階段實現:1、畸變校正 — 一種去除圖像上透鏡的徑向和切向畸變的數學方法,以獲得未失真的圖像。2、在校正過程中調整相機之間的角度和距離。結果是直線對齊和細化圖像,即同一平面的兩幅圖像共面,其直線對齊方向相同,具有相同的y坐標。
  • 計算機視覺系統學習書籍/綜述(免費領取啦~)
    計算機視覺入門的一些綜述類文章和經典pdf書籍,【3D視覺工坊】按照不同領域幫大家劃分了下
  • 探秘人工智慧 | 計算機視覺
    馬爾視覺計算理論包含二個主要觀點:首先,馬爾認為人類視覺的主要功能是復原三維場景的可見幾何表面,即三維重建問題;其次,馬爾認為這種從二維圖像到三維幾何結構的復原過程是可以通過計算完成的,並提出了從圖像初始略圖(sketch)à物體2.5維描述—>物體3維描述一套完整的計算理論和方法。
  • CVTE中央研究院招實習生:機器人視覺/空間感知方向
    中央研究院-空間感知組研究院簡介:CVTE中央研究院是研究基礎技術及應用技術的機構,旨在為公司的技術促增長戰略提供強力支撐。目前的研究方向主要包括視覺計算(人臉感知、計算攝影、三維視覺、醫療影像、文檔圖像分析與識別)、語音信號信息處理、機器人感知與控制、自然語言處理、醫學信號處理、數據挖掘、電機及控制等。我們希望通過營造進取、包容和開放的科研環境,鼓勵研究人員積極與外界交流學習,緊跟前沿技術趨勢,並促進研究成果在未來教育、企業服務、智能硬體、健康醫療等行業領域的落地轉化,充分實現技術的產業價值和社會價值。
  • 3D視覺CV界的終極體現形式,計算機如何「看」這個三維世界
    打開手機進行人臉解鎖;VR、AR 技術帶來如此虛擬卻真實的場景……3D 視覺幾乎無所不能,在智能家居、智能安防、汽車電子、工業測量、新零售、智能物流等領域發揮重要作用,堪稱賦能產業創新的最大推力。這些技術的背後涉及了 3D 視覺相關內容,那麼計算機是如何「看」這個三維世界的?
  • 深度學習—計算機視覺學習路線【從學術到工作】
    近年來,隨著深度學習技術的革新、計算存儲的擴大、可視化數據集的激增,計算機視覺領域的研究開始蓬勃發展,如火如荼。在自動駕駛、智能安防、智慧城市、醫療保健、商業零售、航空能源、虛擬實境等諸多人工智慧熱門領域,計算機視覺技術落地開花,熠熠生輝。計算機視覺研究工作在學術界和工業界取得的巨大成功,每年吸引著數以萬計的研究人員蜂擁而至,加入煉丹師的序列。
  • 深度學習在計算機視覺領域(包括圖像,視頻,3-D點雲,深度圖)的應用一覽
    已經是很熱的深度學習,大家都看到不少精彩的故事,我就不一一重複。簡單的回顧的話,2006年Geoffrey Hinton的論文點燃了「這把火」,現在已經有不少人開始潑「冷水」了,主要是AI泡沫太大,而且深度學習不是包治百病的藥方。計算機視覺不是深度學習最早看到突破的領域,真正讓大家大吃一驚的顛覆傳統方法的應用領域是語音識別,做出來的公司是微軟,而不是當時如日中天的谷歌。
  • DF-SLAM:基於深層局部特徵的深度學習視覺SLAM系統
    同時,數據驅動技術——深度學習——讓許多計算機視覺任務(例如分類和匹配)快速發展。這些成就反映出深度學習可能是解決數據關聯(data association)問題的最佳選擇之一。因此,越來越多人認為,圖像之間像素級或更高級別的關聯(我們上面提到的SLAM系統的瓶頸)也可以藉助神經網絡來處理。
  • 計算機視覺中的深度學習專題(2020) |《中國科學:信息科學》英文版
    深度學習技術在許多研究領域都取得了巨大的成功, 尤其在計算機視覺領域取得了顯著的進展.
  • 結構光三維重建原理
    對比雙目立體視覺重建方法,結構光也是利用兩個位姿的光學元件通過三角測量實現三維重建,但由於主 動投射結構光圖案至被測物體,使得像素點之間的匹配更加容易和準確。本文所 述結構光方法均選擇多頻外差原理實現絕對相位求解,相較於其它結構光方法, 該方法測量的精度和抗幹擾能力更高。
  • 語義分割方向知乎、公眾號、博客有哪些大V值得關注?
    已發布一系列原創文章包括:三維視覺、SLAM、深度/機器學習、深度相機、入門科普、CV方向簡介、手機雙攝、全景相機、相機標定、醫學圖像、前沿會議、機器人、ARVR、行業趨勢等。非常適合從事計算機視覺領域的人關注。