3D視覺:一張圖像如何看出3D效果?

2020-12-04 澎湃新聞

原創 Synced 機器之心

機器之心原創

作者:陳萍

不同於人類,計算機「看待」世界有自己的方式。為了達到類似人類的視覺水平,各種算法層出不窮,本篇就來窺探其冰山一角。

我們生活的世界是一個三維物理空間。直觀而言,三維視覺系統有助於機器更好地感知和理解真實的三維場景。三維視覺作為計算機視覺的一個比較重要的研究方向,在過去幾十年間得到了紮實和系統地發展,形成了一套完整的理論體系。近年來,隨著三維成像技術如雷射雷達、TOF 相機及結構光等的快速發展,三維視覺研究再次成為研究熱點。

在中,我們對 3D 視覺基礎相關內容進行了概括性總結,本文我們將進行比較深層次的介紹,主要涉及 3D 視覺算法及其應用領域。

3D 目標檢測多模態融合算法

基於視覺的目標檢測是環境感知系統的重要組成,也是計算機視覺、機器人研究等相關領域的研究熱點。三維目標檢測是在二維目標檢測的基礎上,增加目標尺寸、深度、姿態等信息的估計。相比於二維目標檢測,三維目標檢測在準確性、實時性等方面仍有較大的提升空間。

在目標檢測領域,2D 目標檢測方面發展迅速,出現了以 R-CNN、Fast RCNN、Mask RCNN 為代表的 two-stage 網絡架構,以及以 YOLO、SSD 為代表的 one-stage 網絡架構。然而由於 2D 圖像缺乏深度、尺寸等物理世界參數信息,在實際應用中存在一定局限性,往往需要結合雷射雷達、毫米波等傳感器實現多模態融合算法,以增強系統的可靠性。

因此,研究者們提出了許多 3D 目標檢測方法,根據傳感器的不同大致可分為視覺、雷射點雲以及多模態融合三大類。其中視覺又包括單目視覺和雙目視覺(深度視覺)兩類;雷射點雲包括三維點雲投影和三維空間體素特徵;而多模態融合實現了雷射點雲與視覺的融合。下面將對現階段比較流行的 3D 目標檢測多模態融合算法研究進行介紹。

論文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模態特徵融合。

論文地址:https://arxiv.org/pdf/2004.12636

該研究提出的網絡整體結構如下所示。可以看出上下兩層分別是對雷射雷達點雲信息的特徵提取 (voxel-backbone) 和對多張圖像信息的特徵提取與模態轉換。這裡需要提及的是由於圖像信息僅僅只有一個方向的視野,但是多個攝像頭的圖像存在視野重疊,所以多張圖像的信息融合是為了保證整個環視點雲場景的特徵都被涉及到。

論文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模態融合方法。

論文地址:https://arxiv.org/pdf/1911.06084.pdf

該研究提出了一種新穎的融合方法——基於點的 Attentive Cont-conv Fusion(PACF)模塊,該模塊將多傳感器特徵直接融合在 3D 點上。除了連續卷積外,該研究還添加了 Point-Pooling 和 Attentive Aggregation 等組件,以使融合特徵更具表達力。

此外,基於 PACF 模塊,研究人員提出了一個叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多傳感器多任務網絡,該網絡負責圖像分割和 3D 目標檢測任務。PI-RCNN 使用分段子網從圖像中提取全解析度語義特徵圖,然後通過功能強大的 PACF 模塊融合多傳感器特徵。受益於 PACF 模塊的效果和分段模塊的有表達力的語義特徵,PI-RCNN 使 3D 目標檢測的性能大大改善。在 KITTI 3D 檢測基準測試中的實驗揭示了 PACF 模塊和 PI-RCNN 的有效性,並且該方法可以在 3D AP 的度量標準上達到最新水平。

網絡框架如上圖所示,實現過程可分為以下四步:

1. 使用圖像語義分割網絡,獲得圖像的語義特徵;

2. 檢測子網絡 - 1 從原始點雲中得到目標的三維候選框;

3. PACF 模塊融合點雲特徵和圖像語義特徵;

4. 檢測子網絡 - 2 得到最終的三維檢測結果。

論文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一種新的融合模塊,在不需要任何圖像注釋的情況下,對具有語義特徵的點特徵進行逐點增強。該研究設計了一個端到端的可學習框架 EPNet 來集成兩個組件。在 KITTI 和 SUN-RGBD 數據集上進行的大量實驗表明,EPNet 優於當前最優方法。其網絡結構點雲分支是 point encoder-decoder 結構,圖像分支則是一個逐步 encoder 的網絡,並且逐層做特徵融合。

論文地址:https://arxiv.org/pdf/2007.08856.pdf

網絡整體框架如下圖所示:

點雲特徵和圖像特徵融合過程如下圖所示:

融合過程由三部分組成:grid generator、image sampler 和 LI-Fusion layer。

1. 根據三維雷射與圖像的外參,grid generator 將三維雷射的每一個點投影到原始圖像上;

2. image sampler 利用圖像特徵圖與原始圖像的比例關係以及雙線性插值,得到對應的圖像特徵圖;

3. 為了減少圖像的遮擋以及深度不確定性對融合造成的影響,LI-Fusion layer 利用點雲特徵估計對應圖像特徵的重要程度並篩選,具體是將點雲特徵與圖像特徵經過若干操作學習得到權重值,權重值與圖像特徵相乘再與點雲特徵串聯作為最後的融合特徵。

論文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一種新穎的 Camera-LiDAR 目標候選(CLOC)融合網絡。CLOC 融合提供了一種低複雜度的多模態融合架構,顯著提高了單模態檢測器的性能。CLOC 在非最大抑制 (NMS) 之前對任意 2D 和任意 3D 的組合輸出候選項進行操作,並被訓練利用它們的幾何和語義一致性,以產生更準確的最終 3D 和 2D 檢測結果,最後採用 maxpooling 的方式選擇最終的融合結果。

論文地址:https://arxiv.org/pdf/2009.00784.pdf

網絡架構圖如下所示:

該網絡由三個階段完成:1)2D 和 3D 的目標檢測器分別提出 proposal;2)將兩種模態的 proposal 編碼成稀疏張量;3)對於非空的元素採用二維卷積做對應的特徵融合。

3D 人臉檢測基本流程

人臉識別技術在國家安全、軍事安全、金融安全、共同安全等領域具有廣泛的應用前景。人的大腦具備天生的人臉識別能力,可以輕易地分辨出不同的人。但是計算機自動識別人臉技術卻面臨著巨大的挑戰。由於二維人臉識別不可避免地受到光照、姿態和表情的影響,這些因素已成為二維人臉識別技術向前發展的最大障礙。

隨著結構光和立體視覺等三維成像技術的日益成熟,越來越多的人臉識別研究人員將目光投向了三維人臉識別技術領域。

目前 3D 人臉識別技術的主要技術流程如下:

(1) 3D 人臉數據獲取;

(2) 3D 人臉數據的預處理,包括人臉的檢測、切割、去噪等;

(3) 3D 人臉數據的特徵提取;

(4) 構建適合的分類器對人臉數據進行判別。

目前 3D 人臉識別算法分為如下幾個類別:

1. 基於空域匹配的識別算法

2. 基於局部特徵匹配的識別算法

3. 基於整體特徵匹配的識別算法

4. 基於模型擬合的識別算法

5. 基於 3D+2D 雙模態的識別算法

3D 數據集簡介

目前 3D 公開數據少,遠少於 2D 圖片;3D 高精度數據集只能靠昂貴的設備採集,過程繁瑣。這裡我們來了解一下現有的 3D 數據集。

1. BU-3DFE (Binghamton University 3D Facial Expression) 數據集:該資料庫目前包含 100 位受試者(女性 56%,男性 44%),年齡從 18 歲到 70 歲不等,包含各種種族,包括白人、黑人、東亞人、中東人等。

下載地址:http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html

2. KITTI 數據集:由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評估 3D 目標檢測和 3D 跟蹤等計算機視覺技術在車載環境下的性能。

下載地址:http://www.cvlibs.net/datasets/kitti/raw_data.php

3. Cityscapes 數據集:這是一個較新的大規模數據集,它包含 50 個不同城市的街道場景中所記錄的各種立體視頻序列,除了一組較大的 20000 個弱注釋幀外,還具有 5000 幀的高質量像素級注釋。

下載地址:https://www.cityscapes-dataset.com/

4. Matterport 3D 重建數據集:該數據集包含 10800 個對齊的三維全景視圖(RGB + 每個像素的深度),來自 90 個建築規模場景的 194400 個 RGB + 深度圖像。

下載地址:https://matterport.com/

5. 3D 人臉重建相關數據集:該數據集包含用 iPhone X 拍攝的 100 名受試者的 2054 張 2D 圖像,以及每個受試者的單獨 3D 頭部掃描。

下載地址:https://ringnet.is.tue.mpg.de/challenge

6. TUM 數據集:主要包含多視圖數據集、3D 物體的識別分割、場景識別、3D 模型匹配、vSALM 等各個方向的數據。

下載地址:https://vision.in.tum.de/

人臉資料庫匯總官網指路:http://www.face-rec.org/databases/

面部 3D 重建

人臉重建是計算機視覺領域中一個比較熱門的方向,3D 人臉相關應用也是近年來短視頻領域的新玩法。不管是 Facebook 收購的 MSQRD,還是 Apple 研發的 Animoji,底層技術都與三維人臉重建有關。

面部 3D 重建,可以理解為從一張或多張 2D 圖像中重建出人臉的 3D 模型。對於面部 3D 重建,我們先來直觀地感受一下效果。

如下動圖所示,最右邊的重建人臉除了沒有皺紋以外,身份特徵和面部表情都和原圖相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神。

論文《FML: Face Model Learning from Videos》效果展示

下圖中的合成效果也很不錯,表情動態很到位。只是可能實驗者的眼神實在太有戲,AI 表示無力模仿。

論文《FML: Face Model Learning from Videos》效果展示

論文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》效果展示

論文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》效果展示

直觀感受完面部 3D 重建效果後,我們再來探究模型背後的算法。

傳統 3D 人臉重建方法,大多立足於圖像信息,如基於圖像亮度、邊緣信息、線性透視、顏色、相對高度、視差等一種或多種信息建模技術進行 3D 人臉重建。

三維變形模型(3DMM)

隨著技術的發展,研究者們又提出了基於模型的 3D 人臉重建方法,這是目前較為流行的 3D 人臉重建方法。3D 模型主要用三角網格或點雲來表示,現下流行的模型有通用人臉模型(CANDIDE-3)和三維變形模型(3DMM)及其變種模型,基於它們的 3D 人臉重建算法既有傳統算法也有深度學習算法。

三維變形模型(3DMM)是一個通用的三維人臉模型,用固定的點數來表示人臉。其核心思想是人臉可以在三維空間中一一匹配,並且可以由其他許多幅人臉正交基加權線性相加而來。三維空間中的每一點 (x, y, z) 實際上都是由三維空間三個方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加權相加所得,只是權重分別為 x,y,z。

每一個三維人臉都可以在一個資料庫中的所有人臉組成的基向量空間中進行表示,而求解任意三維人臉的模型,實際上等價於求解各個基向量的係數問題。每一張人臉可以表示為形狀向量和紋理向量的線性疊加。

任意人臉模型均可以由數據集中的 m 個人臉模型進行加權組合,如下:

其中 Si、Ti 表示資料庫中第 i 張人臉的形狀向量和紋理向量。但是我們實際在構建模型的時候不能使用這裡的 Si、Ti 作為基向量,因為它們之間並非正交相關,所以接下來需要使用 PCA 進行降維分解。

(1) 首先計算形狀和紋理向量的平均值;

(2) 中心化人臉數據;

(3) 分別計算協方差矩陣;

(4) 求得形狀和紋理協方差矩陣的特徵值α、β和特徵向量 si、ti。

上式可以轉換為下式:

其中第一項是形狀和紋理的平均值,而 si、ti 則是 Si、Ti 減去各自平均值後的協方差矩陣的特徵向量,它們對應的特徵值按照大小進行降序排列。

等式右邊仍然是 m 項,但是累加項降了一維,減少了一項。si、ti 都是線性無關的,取其前幾個分量可以對原始樣本做很好地近似,因此能夠大大減少需要估計的參數數目,並不損失準確率。

基於 3DMM 的方法都是在求解這幾個係數,隨後的很多模型在這個基礎上添加了表情、光照等係數,但是原理與之類似。

參考連結:

https://zhuanlan.zhihu.com/p/101330861

https://my.oschina.net/u/4304462/blog/4557678

https://cloud.tencent.com/developer/article/1419949

https://blog.csdn.net/u011681952/article/details/82623328

https://huailiang.github.io/blog/2020/face/

https://yongqi.blog.csdn.net/article/details/107679240

https://blog.csdn.net/u011681952/article/details/82623328

2020 NeurIPS MeetUp

12月6日北京,機器之心將舉辦2020 NeurIPS MeetUp。活動設置4個Keynote、 12篇論文報告與30個Poster,邀請頂級專家、論文作者與現場參會觀眾共同交流。

原標題:《3D視覺:一張圖像如何看出3D效果?》

閱讀原文

相關焦點

  • 3d全景地圖怎麼製作的丨全景地圖製作流程
    3d全景地圖相信如今大家都不陌生了,隨著近幾年的發展,國內主流地圖導航軟體基本都支持了3d全景地圖。例如:百度地圖、騰訊地圖、高德地圖等等等……而一些暫時沒有的,相信在後續也會逐漸支持。3d全景地圖已經是趨勢所在,它所能帶來的真實感和沉浸感都是傳統地圖所不能比擬的。
  • 神奇的3D立體圖片,試試自己的眼力
    這裡的一系列圖片,展示了神奇的「裸眼3D」視覺效果。
  • 3D全息投影、裸眼3D以及VR各自的區別
    3D全息投影也稱為虛擬成像技術,是一種利用幹涉和衍射原理來記錄和再現物體真實3D圖像的技術。全息投影技術不僅能產生立體空中幻覺,還能使幻像與表演者互動,共同完成表演,產生震撼的表演效果。3d全息投影技術裸眼3D是一種三維圖形,裸眼3D使用戶無需戴3D眼鏡就能看到3D圖片。
  • 3d全息投影機哪家強_深圳市暻億科技有限公司
    3d全息投影機哪家強,深圳市暻億科技有限公司,配備完整的SMT貼片和DIP插件生產線,有著各崗位經驗豐富的技術精英,能獨立自主完成集成電路板的研發以及生修改 產。
  • 3d常見知識科普二:3d眼鏡的類型
    說的3d眼鏡,細心的朋友可能發現,有的眼鏡很薄,有的眼鏡很厚重,需要充電。這是為什麼呢?與什麼有關呢?其實3d眼鏡的類型,和播放設備有關。首先,3d眼鏡主要分為三兩種:1,快門式快門式需要充電,工作原理是左右眼同一時間只有其中一隻眼可以看到,另一隻眼被擋住,通過快速的交替產生視覺延遲,產生3d的效果。
  • 創想三維:如何讓新手快速上手使用小型3D印表機
    堅信大伙兒選購一臺小型3d印表機,心裡是很喜悅的,拿到一臺小型3d印表機,新手該怎樣使用小型3d印表機?合理方法,是按時用酒精擦拭列印平臺,我們使用過程多多少少沾東西在列印平臺,影響3d列印效果。      四、應用小型3d印表機之前必須認識3d列印材料性能      我們挑選使用3d列印材料時,必須認識3d列印材料性能,如融化的溫度、放電速度。每個3d列印材料性能不一樣,你使用3d印表機時候,針對它特性,設定小型3d印表機參數,能夠提升列印效果。
  • 全彩LED顯示屏適合於哪種3D方案?主動式3D還是偏光3D立體
    而主動快門式3D眼鏡,它主要是靠液晶鏡片來實現的,它的鏡片實質上是電可控液晶屏,通過接收來自3D同步信號發射器的信號,由電路控制液晶開關狀態,使左眼鏡片控制只讓左眼圖像透過,右眼鏡片讓右眼圖像透過。從而分離左右眼圖像,在大腦裡合成有視差的3D立體圖像。
  • 3d立體畫(介紹)
    市場上出現一種以地毯材質即麻,通過設計師調整已有的具有立體效果的圖片,進而通過機器加工製作,形成具有立體感、空間感的3D立體畫,又稱3D立體畫毯、3D立體壁畫,該技術僅出自於蘇州約克郡東帝士地毯廠。中文名3d立體畫別 稱三維立體畫、全景奇畫分 類PP、PET、PS原 理兩眼視覺差別和光學折射發 展3D魔幻藝術展目錄1概念要了解3D立體畫成像原理,首先必須正確認識立體圖像的概念。
  • NBA球場的黑科技之3D投影技術
    NBA的球場一直是世界籃球賽事的頂級球館,3d全息投影技術在2014年就已經引入聯盟。到現在已經有5年時間,現在大家通過電視轉播偶爾也能看到絢麗奪目的球場開場表演,其中的球場的3d全息投影更加是讓人覺得震撼。這項技術目前應用範圍非常廣泛。
  • 3d仿真車間有什麼震撼的效果?
    隨著數字信息化的發展,企業大力發展三維仿真技術成為必然的趨勢,3d仿真車間發展對國民經濟的發展進步具有重要的作用,因此商迪3D在企業工廠中大力推行3d虛擬實境技術成為重要戰略。主要為企業提供先進的信息化管理技術和平臺,幫助企業降低成本,促進生產管理方式和業務流程的變革。
  • 一張圖實現3D人臉建模!中科院博士ECCV的新研究
    但是,如果只有測試者的一張靜態圖片呢那麼,3DDFA-V2最關鍵的照片轉小視頻的功能是如何實現的呢?那麼還有其他什麼辦法能改善靜態圖像轉化視頻的穩定性?具體來說,以小批量的方式對多張靜止圖像進行採樣,對於每張靜止圖像x0,對其進行稍微平滑的變換,生成一個有n個相鄰幀的合成視頻:
  • 什麼是3d投影機 3d投影機怎麼使用【使用方法】
    TI 的3D投影方案是使用了3D Link技術的立體三維, 採用立體的圖像數據格式,在圖像幀間插入同步脈衝,不需要一個單獨的外部發射器,利用DMD的快速切換(120Hz)的特點,使眼鏡通過投影圖像進行同步,實現3D效果。DLP晶片具有極快切換微鏡的特點,能夠左眼和右眼同時呈現出不同的圖片,從而在大腦形成具有3D效果的畫面。
  • 2D相機與3D相機的機器視覺
    機器視覺與計算機視覺並沒有一個明顯的定義去劃分。但在實際應用中,應用於工業檢測的時候更多地被稱為機器視覺而非計算機視覺。這時候,機器視覺更多地偏向或者專指以圖像傳感器為採集軟體,輔助以光源,PLC甚至機器人等外部設備,以實現特定的檢測或定位等特定目的。如果你從事的是機器視覺行業則避免不了PCL,機器人,編碼器,光柵尺,光源,鏡頭等這些圖像之外的硬體設備打交道。
  • 超音速飛行3d
    超音速飛行3d是一款賽車競速遊戲,休閒玩法,安裝包小,不佔內存,與其它的競速賽車遊戲不同,遊戲中增加了飛船的懸浮性,玩家所駕駛的車輛是以低空的狀態向前行駛的,增強了玩家的視覺享受,喜歡賽車競技的玩家,可以來試一下。
  • 3d投影儀怎麼樣 3d投影儀推薦【圖文】
    投影儀隨著人們的需求加大還設計出了3d版的,視覺效果更加顯著,接著就為大家推薦幾款不錯的3d投影儀。  Vivitek(麗訊)DX864  Vivitek DX864最大的特點就是具備了無線WIFI投影功能,能將投影機像智慧型手機、 平板電腦 等行動裝置一樣實現無線連接,徹底擺脫複雜數據線的困擾,而且還支持3D功能,讓用戶可以享受到震撼的視覺效果,是一款名副其實的「全能型」投影機。
  • 智能3d投影儀如何安裝 智能3d投影儀安裝方法【詳解】
    智能3d投影儀是一款全智能化的投影儀,並且具備了3d效果,令顯示的效果十分逼真,智能3d投影儀正確安裝也很重要,下邊,小編將為大家介紹智能3d投影儀的安裝注意事項。  當你入手智能微投後,比如我這款酷樂視x5,第一個要考慮的問題可能就是,要將它擺放在哪裡。擺放在茶几或者桌子上面可能是大多數消費者的選擇,不過也經常會出現桌子的高度太低,造成投影畫面的位置不合適的情況。
  • 索尼3d電視機價格怎麼樣?索尼3d電視價格【詳解】
    索尼 3D電視 就是這其中之一,將3D 影院 帶回家已經成為了現在的電視的一種趨勢,讓視覺畫面與我們更接近。下面來介紹些索尼3d電視價格的相關內容。   3D電視已經成為了一種趨勢,帶上 電視機 附帶的3D 眼鏡 ,打開3D影片,在家中體驗影院的3D視覺體驗,這樣的感覺是不是很爽。
  • 3D電影來襲!DIY電腦也能過一把3D癮-七彩虹 ——快科技(驅動之家旗...
    安裝說明第二步 設置啟動3D立體視覺 正確安裝驅動和控制面板插件後,在NVIDIA控制面板中我們能夠看到會多出"3D立體視覺"選項,在該選項下又有"設置3D立體視覺"和"查看與遊戲的兼容性設置3D立體視覺在"設置3D立體視覺"選項卡中,一定要在"啟動3D立體視覺"前勾選對勾(默認關閉) 第三步 查看與遊戲的兼容性 在"查看與遊戲的兼容性"中,我們能夠看到
  • 「3d掃描儀結合3d列印技術」學校3d創新教育的一把利器
    解決好如何培養創新型人才這個問題,關乎民族未來,國運興衰,意義重大而深遠。隨著社會的不斷發展,對創新型人才素質提出了更高的要求。3d創新教育是以培養學生創新精神、創新能力、動手實踐能力為價值取向的新型教育。在3d創新教育中,我們要如何讓「3d掃描儀、3d列印技術」這兩把利器發揮重要作用呢?
  • Github霸榜:從零開始學3D著色器編程
    通過這些技術,你的遊戲視覺效果將提升到新的高度。 對於著色器之間的粘合劑,作者選擇了神器Panda3D遊戲引擎和OpenGL著色語言(GLSL)。Panda3D是一個強大的渲染引擎。核心渲染模塊基於C++開發。Panda3D提供了Python的腳本化實用接口。本項目code在以下環境下測試通過。