3D視覺:一張圖像如何看出3D效果?

2020-12-10 澎湃新聞

原創 Synced 機器之心

機器之心原創

作者:陳萍

不同於人類,計算機「看待」世界有自己的方式。為了達到類似人類的視覺水平,各種算法層出不窮,本篇就來窺探其冰山一角。

我們生活的世界是一個三維物理空間。直觀而言,三維視覺系統有助於機器更好地感知和理解真實的三維場景。三維視覺作為計算機視覺的一個比較重要的研究方向,在過去幾十年間得到了紮實和系統地發展,形成了一套完整的理論體系。近年來,隨著三維成像技術如雷射雷達、TOF 相機及結構光等的快速發展,三維視覺研究再次成為研究熱點。

在中,我們對 3D 視覺基礎相關內容進行了概括性總結,本文我們將進行比較深層次的介紹,主要涉及 3D 視覺算法及其應用領域。

3D 目標檢測多模態融合算法

基於視覺的目標檢測是環境感知系統的重要組成,也是計算機視覺、機器人研究等相關領域的研究熱點。三維目標檢測是在二維目標檢測的基礎上,增加目標尺寸、深度、姿態等信息的估計。相比於二維目標檢測,三維目標檢測在準確性、實時性等方面仍有較大的提升空間。

在目標檢測領域,2D 目標檢測方面發展迅速,出現了以 R-CNN、Fast RCNN、Mask RCNN 為代表的 two-stage 網絡架構,以及以 YOLO、SSD 為代表的 one-stage 網絡架構。然而由於 2D 圖像缺乏深度、尺寸等物理世界參數信息,在實際應用中存在一定局限性,往往需要結合雷射雷達、毫米波等傳感器實現多模態融合算法,以增強系統的可靠性。

因此,研究者們提出了許多 3D 目標檢測方法,根據傳感器的不同大致可分為視覺、雷射點雲以及多模態融合三大類。其中視覺又包括單目視覺和雙目視覺(深度視覺)兩類;雷射點雲包括三維點雲投影和三維空間體素特徵;而多模態融合實現了雷射點雲與視覺的融合。下面將對現階段比較流行的 3D 目標檢測多模態融合算法研究進行介紹。

論文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模態特徵融合。

論文地址:https://arxiv.org/pdf/2004.12636

該研究提出的網絡整體結構如下所示。可以看出上下兩層分別是對雷射雷達點雲信息的特徵提取 (voxel-backbone) 和對多張圖像信息的特徵提取與模態轉換。這裡需要提及的是由於圖像信息僅僅只有一個方向的視野,但是多個攝像頭的圖像存在視野重疊,所以多張圖像的信息融合是為了保證整個環視點雲場景的特徵都被涉及到。

論文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模態融合方法。

論文地址:https://arxiv.org/pdf/1911.06084.pdf

該研究提出了一種新穎的融合方法——基於點的 Attentive Cont-conv Fusion(PACF)模塊,該模塊將多傳感器特徵直接融合在 3D 點上。除了連續卷積外,該研究還添加了 Point-Pooling 和 Attentive Aggregation 等組件,以使融合特徵更具表達力。

此外,基於 PACF 模塊,研究人員提出了一個叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多傳感器多任務網絡,該網絡負責圖像分割和 3D 目標檢測任務。PI-RCNN 使用分段子網從圖像中提取全解析度語義特徵圖,然後通過功能強大的 PACF 模塊融合多傳感器特徵。受益於 PACF 模塊的效果和分段模塊的有表達力的語義特徵,PI-RCNN 使 3D 目標檢測的性能大大改善。在 KITTI 3D 檢測基準測試中的實驗揭示了 PACF 模塊和 PI-RCNN 的有效性,並且該方法可以在 3D AP 的度量標準上達到最新水平。

網絡框架如上圖所示,實現過程可分為以下四步:

1. 使用圖像語義分割網絡,獲得圖像的語義特徵;

2. 檢測子網絡 - 1 從原始點雲中得到目標的三維候選框;

3. PACF 模塊融合點雲特徵和圖像語義特徵;

4. 檢測子網絡 - 2 得到最終的三維檢測結果。

論文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一種新的融合模塊,在不需要任何圖像注釋的情況下,對具有語義特徵的點特徵進行逐點增強。該研究設計了一個端到端的可學習框架 EPNet 來集成兩個組件。在 KITTI 和 SUN-RGBD 數據集上進行的大量實驗表明,EPNet 優於當前最優方法。其網絡結構點雲分支是 point encoder-decoder 結構,圖像分支則是一個逐步 encoder 的網絡,並且逐層做特徵融合。

論文地址:https://arxiv.org/pdf/2007.08856.pdf

網絡整體框架如下圖所示:

點雲特徵和圖像特徵融合過程如下圖所示:

融合過程由三部分組成:grid generator、image sampler 和 LI-Fusion layer。

1. 根據三維雷射與圖像的外參,grid generator 將三維雷射的每一個點投影到原始圖像上;

2. image sampler 利用圖像特徵圖與原始圖像的比例關係以及雙線性插值,得到對應的圖像特徵圖;

3. 為了減少圖像的遮擋以及深度不確定性對融合造成的影響,LI-Fusion layer 利用點雲特徵估計對應圖像特徵的重要程度並篩選,具體是將點雲特徵與圖像特徵經過若干操作學習得到權重值,權重值與圖像特徵相乘再與點雲特徵串聯作為最後的融合特徵。

論文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一種新穎的 Camera-LiDAR 目標候選(CLOC)融合網絡。CLOC 融合提供了一種低複雜度的多模態融合架構,顯著提高了單模態檢測器的性能。CLOC 在非最大抑制 (NMS) 之前對任意 2D 和任意 3D 的組合輸出候選項進行操作,並被訓練利用它們的幾何和語義一致性,以產生更準確的最終 3D 和 2D 檢測結果,最後採用 maxpooling 的方式選擇最終的融合結果。

論文地址:https://arxiv.org/pdf/2009.00784.pdf

網絡架構圖如下所示:

該網絡由三個階段完成:1)2D 和 3D 的目標檢測器分別提出 proposal;2)將兩種模態的 proposal 編碼成稀疏張量;3)對於非空的元素採用二維卷積做對應的特徵融合。

3D 人臉檢測基本流程

人臉識別技術在國家安全、軍事安全、金融安全、共同安全等領域具有廣泛的應用前景。人的大腦具備天生的人臉識別能力,可以輕易地分辨出不同的人。但是計算機自動識別人臉技術卻面臨著巨大的挑戰。由於二維人臉識別不可避免地受到光照、姿態和表情的影響,這些因素已成為二維人臉識別技術向前發展的最大障礙。

隨著結構光和立體視覺等三維成像技術的日益成熟,越來越多的人臉識別研究人員將目光投向了三維人臉識別技術領域。

目前 3D 人臉識別技術的主要技術流程如下:

(1) 3D 人臉數據獲取;

(2) 3D 人臉數據的預處理,包括人臉的檢測、切割、去噪等;

(3) 3D 人臉數據的特徵提取;

(4) 構建適合的分類器對人臉數據進行判別。

目前 3D 人臉識別算法分為如下幾個類別:

1. 基於空域匹配的識別算法

2. 基於局部特徵匹配的識別算法

3. 基於整體特徵匹配的識別算法

4. 基於模型擬合的識別算法

5. 基於 3D+2D 雙模態的識別算法

3D 數據集簡介

目前 3D 公開數據少,遠少於 2D 圖片;3D 高精度數據集只能靠昂貴的設備採集,過程繁瑣。這裡我們來了解一下現有的 3D 數據集。

1. BU-3DFE (Binghamton University 3D Facial Expression) 數據集:該資料庫目前包含 100 位受試者(女性 56%,男性 44%),年齡從 18 歲到 70 歲不等,包含各種種族,包括白人、黑人、東亞人、中東人等。

下載地址:http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html

2. KITTI 數據集:由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評估 3D 目標檢測和 3D 跟蹤等計算機視覺技術在車載環境下的性能。

下載地址:http://www.cvlibs.net/datasets/kitti/raw_data.php

3. Cityscapes 數據集:這是一個較新的大規模數據集,它包含 50 個不同城市的街道場景中所記錄的各種立體視頻序列,除了一組較大的 20000 個弱注釋幀外,還具有 5000 幀的高質量像素級注釋。

下載地址:https://www.cityscapes-dataset.com/

4. Matterport 3D 重建數據集:該數據集包含 10800 個對齊的三維全景視圖(RGB + 每個像素的深度),來自 90 個建築規模場景的 194400 個 RGB + 深度圖像。

下載地址:https://matterport.com/

5. 3D 人臉重建相關數據集:該數據集包含用 iPhone X 拍攝的 100 名受試者的 2054 張 2D 圖像,以及每個受試者的單獨 3D 頭部掃描。

下載地址:https://ringnet.is.tue.mpg.de/challenge

6. TUM 數據集:主要包含多視圖數據集、3D 物體的識別分割、場景識別、3D 模型匹配、vSALM 等各個方向的數據。

下載地址:https://vision.in.tum.de/

人臉資料庫匯總官網指路:http://www.face-rec.org/databases/

面部 3D 重建

人臉重建是計算機視覺領域中一個比較熱門的方向,3D 人臉相關應用也是近年來短視頻領域的新玩法。不管是 Facebook 收購的 MSQRD,還是 Apple 研發的 Animoji,底層技術都與三維人臉重建有關。

面部 3D 重建,可以理解為從一張或多張 2D 圖像中重建出人臉的 3D 模型。對於面部 3D 重建,我們先來直觀地感受一下效果。

如下動圖所示,最右邊的重建人臉除了沒有皺紋以外,身份特徵和面部表情都和原圖相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神。

論文《FML: Face Model Learning from Videos》效果展示

下圖中的合成效果也很不錯,表情動態很到位。只是可能實驗者的眼神實在太有戲,AI 表示無力模仿。

論文《FML: Face Model Learning from Videos》效果展示

論文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》效果展示

論文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》效果展示

直觀感受完面部 3D 重建效果後,我們再來探究模型背後的算法。

傳統 3D 人臉重建方法,大多立足於圖像信息,如基於圖像亮度、邊緣信息、線性透視、顏色、相對高度、視差等一種或多種信息建模技術進行 3D 人臉重建。

三維變形模型(3DMM)

隨著技術的發展,研究者們又提出了基於模型的 3D 人臉重建方法,這是目前較為流行的 3D 人臉重建方法。3D 模型主要用三角網格或點雲來表示,現下流行的模型有通用人臉模型(CANDIDE-3)和三維變形模型(3DMM)及其變種模型,基於它們的 3D 人臉重建算法既有傳統算法也有深度學習算法。

三維變形模型(3DMM)是一個通用的三維人臉模型,用固定的點數來表示人臉。其核心思想是人臉可以在三維空間中一一匹配,並且可以由其他許多幅人臉正交基加權線性相加而來。三維空間中的每一點 (x, y, z) 實際上都是由三維空間三個方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加權相加所得,只是權重分別為 x,y,z。

每一個三維人臉都可以在一個資料庫中的所有人臉組成的基向量空間中進行表示,而求解任意三維人臉的模型,實際上等價於求解各個基向量的係數問題。每一張人臉可以表示為形狀向量和紋理向量的線性疊加。

任意人臉模型均可以由數據集中的 m 個人臉模型進行加權組合,如下:

其中 Si、Ti 表示資料庫中第 i 張人臉的形狀向量和紋理向量。但是我們實際在構建模型的時候不能使用這裡的 Si、Ti 作為基向量,因為它們之間並非正交相關,所以接下來需要使用 PCA 進行降維分解。

(1) 首先計算形狀和紋理向量的平均值;

(2) 中心化人臉數據;

(3) 分別計算協方差矩陣;

(4) 求得形狀和紋理協方差矩陣的特徵值α、β和特徵向量 si、ti。

上式可以轉換為下式:

其中第一項是形狀和紋理的平均值,而 si、ti 則是 Si、Ti 減去各自平均值後的協方差矩陣的特徵向量,它們對應的特徵值按照大小進行降序排列。

等式右邊仍然是 m 項,但是累加項降了一維,減少了一項。si、ti 都是線性無關的,取其前幾個分量可以對原始樣本做很好地近似,因此能夠大大減少需要估計的參數數目,並不損失準確率。

基於 3DMM 的方法都是在求解這幾個係數,隨後的很多模型在這個基礎上添加了表情、光照等係數,但是原理與之類似。

參考連結:

https://zhuanlan.zhihu.com/p/101330861

https://my.oschina.net/u/4304462/blog/4557678

https://cloud.tencent.com/developer/article/1419949

https://blog.csdn.net/u011681952/article/details/82623328

https://huailiang.github.io/blog/2020/face/

https://yongqi.blog.csdn.net/article/details/107679240

https://blog.csdn.net/u011681952/article/details/82623328

2020 NeurIPS MeetUp

12月6日北京,機器之心將舉辦2020 NeurIPS MeetUp。活動設置4個Keynote、 12篇論文報告與30個Poster,邀請頂級專家、論文作者與現場參會觀眾共同交流。

原標題:《3D視覺:一張圖像如何看出3D效果?》

閱讀原文

相關焦點

  • 3d全景地圖怎麼製作的丨全景地圖製作流程
    3d全景地圖相信如今大家都不陌生了,隨著近幾年的發展,國內主流地圖導航軟體基本都支持了3d全景地圖。例如:百度地圖、騰訊地圖、高德地圖等等等……而一些暫時沒有的,相信在後續也會逐漸支持。3d全景地圖已經是趨勢所在,它所能帶來的真實感和沉浸感都是傳統地圖所不能比擬的。對於用戶體驗更加的好,不僅能精準導航使路痴不會迷路,還能實現目的地周邊環境提前預覽。結合與商鋪拍攝VR全景,還能實現「雲上」逛街,逛商鋪等。3d全景地圖這麼方便,是如何製作的呢?下面這裡就為大家講解一下全景地圖的製作流程。
  • H5和CSS3裡面3D動畫的運用
    現在的H5真是越來越強大 , 2D已經滿足不了網絡的需求 ,越來越多的網站為了享受視覺體驗都開始使用3D效果來做網頁了那麼CSS3給我們提供了哪些3D的屬性效果呢 ?像圖片上的效果應該怎麼來實現呢?,想要看到,可以使用下面的 視距 屬性設置那我們就必須開啟透視了(perspective)通過改變z軸的值 ,讓我們的眼睛來看出不同的視覺效果(3)視距 perspertive(透視)在2D平面產生近大遠小視覺立體,但是效果是二維的 ,如果想要在網頁產生
  • 2D卷積和3D卷積的區別及pytorch實現
    1.1.1 單通道卷積Pytorch實現直接使用torchvision.datasets.MNIST()導入MNIST數據集,取其中一張圖像為例,使用3×3的卷積核進行卷積:import torchimport torchvisionimport torch.nn as nninput_2d=dataprint
  • 全彩LED顯示屏適合於哪種3D方案?主動式3D還是偏光3D立體
    而主動快門式3D眼鏡,它主要是靠液晶鏡片來實現的,它的鏡片實質上是電可控液晶屏,通過接收來自3D同步信號發射器的信號,由電路控制液晶開關狀態,使左眼鏡片控制只讓左眼圖像透過,右眼鏡片讓右眼圖像透過。從而分離左右眼圖像,在大腦裡合成有視差的3D立體圖像。
  • 計算機圖形學遇上深度學習,針對3D圖像的TensorFlowGraphics面世
    相比之下,計算機視覺系統從圖像開始,推理場景的參數,對場景中的物體及其材質、三維位置和方向進行預測。訓練能夠解決這些複雜 3D 視覺任務的機器學習系統通常需要大量數據。由於標註數據的過程既昂貴又複雜,因此設計能夠理解三維世界且訓練時無需太多監督的機器學習模型非常重要。結合計算機視覺和計算機圖形學技術後,我們得以利用大量可用的無標註數據。
  • 3d立體牆貼怎麼樣 3d立體牆貼多少錢一平方 3d立體牆貼多久會掉
    在家居裝修中,牆面裝飾材料有很多,業主可以根據自己想要的裝修效果來選擇裝飾材料。其中3d立體牆貼是近幾年比較流行的一種牆面裝飾材料,與普通的牆貼相比,這種裝飾材料更有立體感,給人的視覺感受更加逼真,所以受到很多業主的喜愛。
  • Open3d 學習計劃—13(Azure Kinect)
    點雲PCL公眾號作為免費的3D視覺,點雲交流社區,期待有使用Open3D或者感興趣的小夥伴能夠加入我們的翻譯計劃,貢獻免費交流社區,為使用Open3D提供中文的使用教程。注意:Azure Kinect只支持在Windows和Ubuntu 18.04下使用.
  • 全景3d製作方法,全景3d效果圖多少錢一張?
    一、全景3d製作方法1、全景3d拍攝由於全景相機太過昂貴,這裡就推薦大家使用單眼相機加全景雲臺以及魚眼鏡頭和三角架搭配拍攝的方法。全景3d既然是全景,必然需要對周圍都要進行拍攝,不過需要注意的是不同角度之間的照片的曝光度,以及為拼接預留的區域。
  • 什麼是3d投影機 3d投影機怎麼使用【使用方法】
    TI 的3D投影方案是使用了3D Link技術的立體三維, 採用立體的圖像數據格式,在圖像幀間插入同步脈衝,不需要一個單獨的外部發射器,利用DMD的快速切換(120Hz)的特點,使眼鏡通過投影圖像進行同步,實現3D效果。DLP晶片具有極快切換微鏡的特點,能夠左眼和右眼同時呈現出不同的圖片,從而在大腦形成具有3D效果的畫面。
  • PPT的3D旋轉效果如何更好的使用?
    PPT的3D旋轉效果如何來更好的使用?其實這種3d旋轉效果感覺比較花哨,建議大家不要太頻繁的使用,但是適當的使用還可以增加這個幻燈片的質感,一起來看看操作了。1.首先我們插入圖片,點擊格式,找到圖片效果。
  • 為什麼現在很多國漫都是3D的呢,有人說3D比2D省錢,是真的嗎
    同樣的價錢製作3d和2d,對比一下看看他們花多少錢不就知道哪個省錢了?為什麼大部分2d國產動畫還不錯,怎麼3d動畫就不如2d了,為什麼呢?因為三維做好了比二維比2d難出效果,所以對比2d《刺客五六十》那種的一集15萬,3d想做出那種效果保底20萬甚至50萬都達不到二維動畫感覺的效果,所以有些感覺是沒法子比較的,從製作的流程和燒錢的程度比較同一時期目前肯定是3d燒錢做得越複雜越燒錢。
  • 簡單3D翻頁效果相冊教程
    3D效果看起來總是要比平面的圖形看起來視覺效果要好的多,今天來教大家製作簡單的3D翻頁效果的視頻。那麼3D視頻製作軟體哪個好?推薦使用會聲會影2018哦,因為用到了翻頁的特效,所以需要用到G濾鏡,還沒有的小夥伴可以去貼吧尋找。
  • 奇幻的街頭3D立體畫欣賞
    如今街頭3d立體畫已經遍布世界,在很多地方,在街頭上,你隨處可以見到一些優秀的街頭3d立體畫。藝術家驚人的創作令人震撼。在圖集中,你將看到來自世界各地最優秀、最令人嘆為觀止的街頭3d立體畫。3d立體畫是利用平面透視的原理,製造出視覺上的虛擬立體效果,令參觀者有一種身臨其境的感覺。景物立體、細膩、逼真,以假亂真,這些驚人的3d立體畫栩栩如生,紙上的動物仿佛真的一樣,欣賞著它們就猶如身臨其境,太夢幻了。迷幻的3d畫在平面上展示出匪夷所思的立體效果。
  • 2D相機與3D相機的機器視覺
    機器視覺與計算機視覺並沒有一個明顯的定義去劃分。但在實際應用中,應用於工業檢測的時候更多地被稱為機器視覺而非計算機視覺。這時候,機器視覺更多地偏向或者專指以圖像傳感器為採集軟體,輔助以光源,PLC甚至機器人等外部設備,以實現特定的檢測或定位等特定目的。如果你從事的是機器視覺行業則避免不了PCL,機器人,編碼器,光柵尺,光源,鏡頭等這些圖像之外的硬體設備打交道。
  • 3d動漫是怎麼製作的
    現在3d技術發展迅速,平均每上映的三部動畫裡就有一部是3d動畫,那麼這個動畫到底是怎麼做出來的?怎麼樣才能get這項技能呢?首先我們要有一個劇本,劇本裡的主人公可以是動物也可以是人,這叫做角色設定,有劇本跟角色還是不夠的,那只是腦補劇情,我們要將它變成圖像,讓參與製作的人都能懂要表達的故事和劇情。2、建模根據前期畫師們的人設圖和場景圖,建場景模型、角色模型、道具模型。
  • 中國第一彩色村莊,僅耗費12萬元,就打造了3D彩色村莊,引人無數
    在國外,這樣的色彩設計很多,大面積的色彩拼接在一起,可以產生強烈的視覺衝擊,畫更逼真的3d圖像的話,視覺效果會更好,在我國,過去與其他村莊一樣平凡的村莊通過使用廣闊的色彩和3d圖像,提高了外觀水平,羅源村位於浙江省浦江縣,被稱為「中國第一彩色村」,這個村子雖然沒有特別的地方,但是因為村子的建築充滿了色彩和3d畫,這個村子突然變得非常有魅力,3d畫一般在城市中常見
  • 印度一大學舉行3D畢業典禮 來看3d動畫製作的意義
    3D畢業典禮伴隨計算機軟硬體技術的發展,3d動畫製作已經成為全球性的產業,它所帶來的經濟效益和影響力日益增長,是增強競爭力的關鍵之一從事3d動畫製作需要創新的精神和堅定的信念,3d動畫公司要以創造本土品牌為己任,發揮出動畫製作的魅力。接下來,藝虎動畫便根據自身經驗為大家介紹,3d動畫製作的發展意義。3d動畫製作作為能夠帶動經濟發展的一個重要產業,是文化實力的證明,我們如今的動畫技術存在一定的差距,應該大立提倡和鼓勵發展3d動畫製作,引領新的發展趨勢。
  • 前端頁面如何實現2d3d動態效果詳解
    ;a href="">關於我們</a></li> <li><a href="">產品中心</a></li> <li><a href="">新聞中心</a></li> </ul> </div>形成下面的案例3d
  • Github霸榜:從零開始學3D著色器編程
    通過這些技術,你的遊戲視覺效果將提升到新的高度。 對於著色器之間的粘合劑,作者選擇了神器Panda3D遊戲引擎和OpenGL著色語言(GLSL)。Panda3D是一個強大的渲染引擎。核心渲染模塊基於C++開發。Panda3D提供了Python的腳本化實用接口。
  • 3D智能噴繪機,3D智能噴塗機3D智能牆畫彩繪機
    隨著現在牆體彩繪市場的發展,牆體噴繪機誕生了,它不需要精湛的繪畫技術,隨時都能噴繪出高難度的牆體藝術作品,甚至還出現了一款可以繪製出立體效果的3d牆體噴繪機。由深圳眾合智能設備有限公司通過持續不斷的投入人力、物力等進行全力的研發,一款搬運輕便、操作簡單、智能高效、價格低廉且符合市場需求的3d牆體噴繪機成功問世。