三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇

2020-11-26 雷鋒網

雷鋒網(公眾號：雷鋒網) AI 科技評論按：我們生活在一個三維立體的世界，三維信息的感知也就總是一件有趣的事，三維感知也能帶來比平面感知帶來更多信息。全民 AR / VR /立體視覺的熱潮雖然暫時過去了，但這個領域的學術研究和學術交流還在持續進行著。

1 月 23 日，學術交流活動「AI 之眼，智見未來——3D 傳感&人工智慧前沿科技論壇」在深圳南山舉行。論壇由奧比中光承辦，中國自動化學會模式識別與機器智能專委會、中國人工智慧學會模式識別專委會主辦，指導單位是深圳市南山區科技創新局。論壇邀請了清華大學、浙江大學、國防科技大學、上海交通大學、廈門大學、四川大學、北京航空航天大學等知名大學的7位頂尖專家學者發表主題演講，分享他們在三維計算機視覺領域的最新科研成果，也給參會的各知名 AI 企業的技術骨幹、科研機構重要研發人員、相關專業的高校學生等提供了一個交流討論的機會。

參會專家合影留念

論壇承辦方奧比中光是深圳的 3D 感知技術企業，提供軟體、硬體的全套解決方案。OPPO Find X 手機上使用的三維人臉識別模組就來自奧比中光。借著承辦論壇的機會，奧比中光的許多研發技術人員在座聆聽並參與討論。多位演講嘉賓在論壇間隙參觀了奧比中光的展廳，而後在演講中提到不同企業的 3D 感知解決方案間的對比時也對奧比中光表示了認可。

雷鋒網 AI 科技評論記者現場參與了全天的學術交流活動，我們把七個論壇報告的梗概內容介紹如下。

從左至右：肖振中，張漢國，賈偉

奧比中光聯合創始人 & CTO 肖振中，深圳市南山區科協常務副主席張漢國，中國自動化學會模式識別與機器智能專委會副秘書長、合肥工業大學計算機與信息學院副研究員賈偉發表開幕致辭，預祝論壇成功。

劉燁斌 - 「人體動態重建技術前沿」

論壇第一個學術報告來自清華大學自動化系副教授、博導劉燁斌。他的報告題目是「人體動態重建技術前沿」。報告對人體動態重建這一研究課題，圍繞便捷性和實時性兩大目標的學術界相關研究成果回顧了技術發展歷程，做了全方位的技術介紹。

劉燁斌副教授首先介紹了人體動態重建課題中的一些基本概念。在人體動態重建中，需要捕捉的信息有三維的幾何+紋理，還有它們的運動；運動包括幾何體表面的運動和內部骨架的運動。

人體動態重建技術的應用包括：全息通信與全息直播，三維虛擬試衣，智能便捷娛樂（信息採集重建、便攜發布），自由視角視頻，實時三維運動捕捉，高精度數字內容記錄與製作等。

人體建模需要的核心技術是實時深度數據採集以及深度數據處理。

根據輸入數據不同，可以分為單視點人體建模和多視點人體建模兩大共性技術，對應六大基礎應用。劉燁斌副教授從十幾年前開始做這方面的研究，單視點、多視點技術都有涉及。

人體動態重建技術可以分成幾類：

早期的做法是不做先驗約束，基於多視角數據求取點雲；

然後發展出了基於三維模版的方法，這類方法需要先人工建立骨架模版或非剛性形變模版（作為先驗），三維點雲的求解可以依託模版，降低了求解的難度、提高了穩定性；

基於統計模版的方法無需提前由人工建模，系統根據數據學習統計模版然後應用。這種方法的問題是難以重建複雜幾何拓撲形狀的表面，比如裙子等。

最後還有表面動態融合的方法，用深度相機採集點雲並進行融合。

劉燁斌副教授介紹了重建技術中的六大目標：精準重建、規模採集（多人，大採集範圍）、便捷獲取、實時計算、語義建模（以便建模後結果的遷移）、真實生成。

精準重建需要複雜的相機陣列+多光照，需要採集大量的高精度數據。劉燁斌副教授的早期研究就是在精準重建方面，他們設計了包含 40 個相機、680 個光源的採集裝置。精準重建對採集設備體系的高要求也限制了它的實際應用。

規模採集的難點在於處理多視角交疊的區域，也就是緊密交互的人體動作，比如左圖中三人腿部交叉。有更多視角、更高精度的採集系統自然可以更好地處理交疊區域，但這同時又限制了系統採集的規模（人數以及空間大小）。

多紅外相機（多視角）的動態三維重建可以進行實時的點雲融合，解決拓撲變化難題；單深度相機則無法支持拓撲變化與快速運動。圖中研究動態融合重建的論文《DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time》獲得了 CVPR 2015 的最佳論文獎。

劉燁斌副教授團隊在此基礎上進行了改進，他們用單深度相機實現實時動態融合重建，不使用模版，可以支持和物體交互，可以任意視點重建。最新成果可以魯棒地進行複雜人體動態重建，3x3米採集空間，5%到10%測量精度。

下一個技術目標是便捷獲取，其中一種是從單個相機視角進行動態三維重建。這時需要先掃描獲得靜態人體模版（具體做法可以是在鏡頭前以指定動作原地轉一圈），計算得到人體模型，之後用單個相機的視頻輸入就可以追蹤動作並進行重建。不過這有較高的計算複雜度，精度也有限。

另一種便捷獲取任務是從單圖像恢復體態模型，通過對圖像深度的學習重建體態模型以及同步恢復紋理。劉燁斌副教授團隊的近期工作 DeepHuman 有著不錯的效果。

語義建模是對人體與服裝分離建模，這樣可以進行轉移（把一個人的衣服轉移到另一個人身上），但同時還要保留高度的真實感。這樣，對象建模的內容就包括了紋理、幾何、材質、物理動力學屬性等等。衣物的物理動力學建模始終是一大挑戰。在劉燁斌副教授團隊的研究成果中，他們先採集人體模型，經過計算後以單視角輸入，服裝可以獨立解析，然後為服裝加入動力學仿真，服裝背側使用動力學計算生成；光影也可以重新重新布置。

最後，劉燁斌副教授介紹了自己對這項課題的展望。

盧策吾 - 「Behavior Understanding meets 3D Representation」

上午的第二個學術報告來自上海交通大學研究員、博導盧策吾。他演講的主題是三維表徵以及行為理解（Behavior Understanding meets 3D Representation），主要介紹了自己團隊在這兩個方向上的幾項近期工作。

盧策吾的演講內容主要分為兩個部分，介紹了自己團隊對三維表徵以及對行為感知的一些研究成果。

三維表徵部分

首先對於三維表徵，一種基礎的框架是取點的表徵，PointNet 就是一種常用的方法，但它無法編碼不同的點之間的關係。

對於臨近的點表徵問題，PointNet 和 PointCNN 有各自的處理思路，但也有各自的不足。

對於點的結構的表徵，有一些特點是我們希望它具備的，比如尺度不變性，比如空間方向編碼（從而可以在不同方向進行卷積）。SIFT 算子的引入就可以保留這些信息。

盧策吾團隊提出的 PointSIFT 就是利用了 SIFT 算子的一種多尺度表徵方式，克服了 PointNet++ 只取最近鄰的問題。

對於網絡架構的設計，他們使用了一個類似 U-Net 的結構，尺度先減小後增加。網絡有自動尺度選擇能力，其中也可以使用不同的模塊設計。PointSIFT 在多種測試中都取得了優秀的表現。

下一個問題是點的表示在空間旋轉不變性方面的表現。在基於點雲的物體部件分割任務中，PointNet++ 一般能取得不錯的效果，但是由於方法的設計沒有考慮空間旋轉不變性，對於旋轉/未見過的角度就效果不好。

PointNet 中的處理思想是尋找點到點之間的對應關係，但對應關係並不具有旋轉不變性；另一種思路是把點雲映射到球面上，這樣具有了旋轉不變性，但點與點之間的對應關係就無法保留，這是球面 CNN 的做法。

盧策吾團隊提出的 Pointwise Rotation-Invariant Network 就結合了點對點方法和球 CNN 的優點，在有空間旋轉的情況下也取得了良好表現。

盧策吾還介紹了基於三維點雲的端到端自動駕駛學習方面的計劃。他和其他研究人員合作採集了一個包含視頻、雷射雷達點雲、駕駛員行為的駕駛數據集 DBNet，對應的論文《LiDAR-Video Driving Dataset: Learning Driving Policies Effectively》也被 CVPR 2018 收錄。在這個數據集上訓練端到端自動駕駛系統，就是把三維點雲（或者二維錄像）作為輸入，通過模型預測人類駕駛員會有怎樣的駕駛行為。

目前這個數據集已經被 Facebook、谷歌、NVIDIA 等企業以及 MIT、斯坦福、CMU 等學校使用，盧策吾未來還計劃依託這個數據集在 ICCV 2019 舉辦大規模 SLAM 比賽以及在 CVPR 2020 舉辦大規模駕駛數據分割比賽。

行為識別部分

報告的第二部分是關於行為識別。此前他們的實時姿態估計系統 AlphaPose 兼具高表現和高運行速度，在學術研究和應用實踐中都非常火熱，許多工業界企業都向他們購買了使用許可。不僅如此，AlphaPose 還可以作為許多不同領域、面向多類不同物體的通用型關鍵點檢測器。

提出 AlphaPose 之後，盧策吾團隊關注的下一個難題是密集姿態檢測。相比於稀疏分布的物體的姿態檢測（比如 COCO 數據集中的圖像），密集人體識別實際上已經是另一種問題，它的難點在於不同目標的互相遮擋形成同構噪聲，所以人密集時各種算法的表現都有明顯的下降。

盧策吾團隊提出一個新的 CrowdPose 數據集，其中有大量密集人體場景，帶來很大的挑戰。傳統物體檢測方法此時就誤報率高，關節檢測容易錯誤。

根據盧策吾介紹，同樣是基於熱力圖辨別人體，傳統方法中對於主體和障礙物的置信度取值是二值化的，這樣的後果就是臨近主體的障礙物在辨別時容易取而代之。

他們提出的新方法中不再使用二值化的取值，並且用競爭式的框選擇整體優化，從而得到更好的表現。

運動識別的下一個問題是時間序列圖像作為輸入的識別。序列輸入我們很容易想到使用 RNN，但它難以直接用於圖像輸入的檢測。盧策吾團隊提出的方法是深度 RNN 架構的時序模型：RBM，它可以看作是一種通用型的 LSTM/RNN，根據一定條件簡化後就得到了我們熟悉的 LSTM。這種方案可以做到 15 層甚至更深的 RNN 疊加。

他們的改進思路是：時序信息和特徵分別學習；先學習空間表徵，再讓表徵在時間上流動（兩個方向的流動在圖中用兩個方向的連線表示）。

為了便於網絡的訓練，他們提出了 Temporal Dropout 等訓練加速技巧。在實驗中也取得了表現的明顯提升。

物體間的交互關係也是運動識別中需要關注的重要方面。盧策吾團隊提出的一種思路是把「是否有交互」的二值信息利用起來，輔助判斷交互類型，起到用先驗信息提高整體性能的效果。這也是一種通用可遷移到 Inter-Actioness Prior。

總結

盧策吾認為，目前雖然在運動理解和三維表徵方面都各自有不少的研究成果，但它們之間的結合還很少，還沒有產生有潛力的成果，這是未來的一個可能的方向。

目前的技術可以做交互判斷，而學習到的交互關係可以發展推理引擎。在這裡盧策吾展示了一個視頻，一個機械臂可以在與三維物體的互動（嘗試抓取）中學習先驗。對三維世界的理解可以輔助機器人工作，機器人與世界的交互也可以增進視覺理解。

對於整個 AI 範圍的總體看法，盧策吾認為目前我們取得了明顯成果的都屬於 Physical AI（視覺、語音、圖像、機器人），這些技術確實可以解決大多數問題；而未來更大的挑戰在於對抽象概念的理解和運用。

章國鋒 - 「視覺 SLAM 技術及應用」

浙江大學 CAD&CG 國家重點實驗室教授、博導章國鋒的報告主題是「視覺 SLAM 技術及應用」。報告中綜述介紹了視覺定位地圖重建跟蹤技術及應用的各方面研究工作。

基礎知識與技術

SLAM，同時定位與地圖構架，是機器人和計算機視覺領域的基本問題。

SLAM 技術的運行結果要計算設備自身在空間中的位置和朝向，同時還要構建周圍環境的地圖。根據構建的環境地圖包含的信息不同，可以分為稀疏 SLAM 和稠密 SLAM，前者只包含三維點雲，後者同時也要採集重建幾何和紋理。

經過幾十年的發展，SLAM 系統常用的技術框架已經基本成熟，主要可以分為輸入、前臺線程、後臺線程、輸出四個組成部分。

視覺 SLAM 自然是以視覺輸入為主，單目、雙目、多目攝像頭方案都有。如今也可以結合其他的輔助傳感器的信號，進一步提高解算精度。

視覺 SLAM 從視覺信號輸入，重建場景三維信息的基本原理是多視圖幾何方程求解。不過，高效、穩定的求解有一定難度，尤其在動態 SLAM 中，場景在變化，有outliner，甚至場景有遮擋。章國鋒教授介紹了幾個關鍵思路。

視覺 SLAM 研究工作

章國鋒教授設計的視覺 SLAM 解決方案是 RDSLAM。這個系統可以根據實時視頻信號輸入檢測、追蹤場景中的動態變化。

相比於更傳統的基於濾波器的 SLAM 方法，基於關鍵幀的方法有較多優點，但對強旋轉很敏感。RDSLAM 就是一種基於關鍵幀的方法。

機器人領域的應用中大量使用視覺慣性 SLAM，就是結合機器人 IMU （慣性測量單元）採集的數據計算視角運動，在它的幫助下提高魯棒性。那麼沒有搭載 IMU 的設備能否借鑑這種思路呢？由於絕大多數情況下攝像頭的移動線速度較低（米/秒級），影響不大，重點計算角速度即可，章國鋒教授認為這種思路是可行的。也就是在沒有真實 IMU 數據時，通過採集的數據數據模擬計算 IMU 數據。

根據這個思路，他們針對移動場景提出 RKSLAM。

而後還衍生出基於 RGB-D 輸入系統的視覺 SLAM 系統 RKD-SLAM，除 RGB 視覺信息之外增加的深度信息可以大幅提高魯棒性，得以實現非常快速的增量集束調整；基於關鍵幀的重融合，消除累積誤差；其中還使用了多種降低計算複雜度的方法，速度可以快一個數量級。

章國鋒教授著重介紹了系統中使用的集束調整方法，把長序列分成多個短序列，分段優化，收斂快。在演示視頻中，章國鋒教授在自家小區中一邊行走，一邊隨意用手機拍攝視頻，他們的方法就能很好地重建出周圍環境的三維模型，效果優於此前的方法。

視覺 SLAM 技術應用

視覺 SLAM 技術的應用有很多。對於視頻剪輯，可以移動、複製畫面中的對象，隱藏或者添加對象，還可以增加時間停止特效，進行景深變換等。（上圖視頻中，在桌面上複製了一個同樣的魔方）。

增強現實應用也是大家喜聞樂見的應用形式。圖中演示的是王者榮耀 AR 人物，可以讓遊戲中的英雄在真是桌面上做出各種動作；高德地圖有 AR 導航，可以在路面上顯示一個助手帶著你行走。AR 尺子也已經具備了一定的實用性，基於 RGB-D 慣性 SLAM 的 AR 測量，平均測量誤差只有 2.6%。基於 TOF （飛行時間）的技術還可以具有遮擋處理的能力。

最後，章國鋒教授展望了視覺 SLAM 的技術發展趨勢。一方面，我們需要更先進的方法緩解視覺 SLAM 中的特徵依賴，提高穩定性；另一方面，稠密 SLAM、TOF 做得還不夠好、應用還不多。最後，多傳感器融合也是一大發展方向。

黃迪 - 「基於三維人臉數據的身份識別與表情分類」

北京航空航天大學計算機學院院長聘副教授、博導黃迪的報告主題是「基於三維人臉數據的身份識別與表情分類」。報告從背景、三維人臉識別、三維表情識別、三維人臉分析的新挑戰幾個方面綜述介紹了這個領域的主要研究和應用脈絡。

背景

三維人臉分析的處理流程可以分為數據採集、預處理（移除尖點、填充孔洞等）、形狀表示、測量與匹配幾步。如今進入深度學習時代，傳統三維分析流程四步中的後兩步可以合二為一。

三維人臉分析的應用場景不外乎身份驗證、4D 表情分析，還可以分析身份和表情之外的額外信息，比如人種、性別、年齡等。一個典型應用是 iPhone FaceID，它採集人臉的三維數據進行記錄和比對。FaceID 的出現表明三維人臉已經可以在一些定製化的產品上進行應用，回應了一些對三維技術質疑的聲音。

二維、三維人臉分析技術的表現有較大不同。二維人臉分析解決不了光照問題；二維人臉識別無法很好解決姿態變化的問題（對於不同表情的人臉，做身份識別之前需要嘗試恢復到中性的表情，但信息的重加工可能會破壞身份信息）；三維人臉分析對化妝的容忍度更高。以及，對於照片、視頻、仿真面具三類攻擊的容忍程度上，三維對前兩種有天然的免疫（採集不到深度信息），而且對面具的抵抗性也要比二維方法好很多。

三維人臉分析起始於 1989年，2005年是三維人臉分析快速發展的一年。領域內的大牛 Kevin Bowyer 在 2006 年提出，三維人臉分析技術的發展面臨的三大挑戰是：更好的三維傳感器、更好的算法以及更好的實驗方法。

三維人臉分析的數據集有不少，常用數據集 FRGC、BU3DFE、BU-4DFE。不過所有這些數據集的數據量都不大，所以深度學習模型的表現並不突出。

三維人臉識別使用場景：純三維形狀對比，多模態人臉對比，以及二維三維不對稱識別

黃迪副教授說道，三維人臉識別的挑戰是，所有的人臉都很像！人臉這個大類的相似度很高，所有的臉人臉都有相同的結構。考慮不同身份的人構成的小類的話，類內有一定的變化，來自表情變化、姿態（收集時的不同姿態可能導致三維點雲不完整）、遮蓋、雙胞胎、低質量數據等。而類內的差異無法保證小於類間（不同的人之間）的差異。如今，表情變化的處理已經比較成熟穩定，其他的挑戰仍然等待解決。

三維人臉識別技術

三維人臉識別中的關鍵問題：要找到比較好的形狀表示。理想的表示要對不同的個體有區分度，也要能減少其他因素的幹擾。形狀表示有基於模版、等高線、剛體、不變區域等多種方法。後來公認使用 MeshSIFT 類等基於特徵的方法。

由於更早之前人臉數據集的樣本太小（資料庫中默認每張臉只有一個樣本），所以基於深度學習的研究工作 2018 年才出現。這項工作微小地改動了已有的 VGG-Face 模型，而創新點在於數據擴增，作者們創造了更多的虛擬 ID、更多的姿態，保證有足夠的數據，然後用二維卷積的方法得到比較好的結果。

根據黃迪副教授介紹，三維人臉識別的難點，早期一般在於採集，高精度的採集設備過於昂貴，能採集的數據規模小；後來才有低成本的採集設備，而消費級的採集設備一般還是有比較多的噪聲。

黃迪副教授利用消費級的 Kinect v2 採集大規模數據，提出 Lock3DFace 數據集，包含了 500 個人、每人 20 個視頻，其中有 200 人的數據採集時間間隔 7 個月。這個數據集的目的除了為每個身份提供充足的數據之外，也包含了豐富的表情、姿態、遮擋，尤其時間間隔造成的變化是任何此前的數據集都不包括的。Kinect v2 雖然只能採集到低精度的原始數據，但可以用多幀數據聯合重建，同樣得到可靠的結果。

最新研究中，他們提出了一套採集系統 Led3DFR，用移動級硬體，利用前端計算、小模型，達到高準確率、高識別速度。

三維表情識別技術

三維方法研究表情有天然優勢。傳統表情方法中的一種是肌肉分割。目前還解決的不好的案例是一些近似表情的分割，強度小，混淆性高。

另一種思路是在流形上做卷積，但對內存大小和計算複雜度要求很高。黃迪副教授團隊提出一種快速、輕計算量的新流形卷積方法，直接在 mesh 上計算，使用定製化的算法，手工定製的池化步驟，計算過程高效，得到的下採樣結果準確。

對於各種基於深度學習的方法，黃迪副教授的感受是，受限於訓練數據集大小，還是需要結合一些手工優化，但深度學習的方法仍有優勢。

三維人臉分析的挑戰

最後總結了三維人臉分析技術發展中遇到的挑戰：首先，三維重建、特徵計算都有高計算量，在行動裝置上有計算時間的問題；點雲數據是不規則分布的，空間中不同區域的點密度有很大區別，同時三維人臉數據集的數據量也不大，深度學習的應用就受到一定限制。

對於三維人臉識別，真實場景應用中也許多變異點，比如如何適應商業化的（低精度）深度傳感器、如何在行動裝置上運行、如何克服噪聲和遮擋等問題，以及如何與二維RGB數據有更好的融合，高效地發揮各自的優勢。

對於三維表情識別，也有表情的不確定性的問題，可以是不同的表情看起來很類似，也可以是不同的人對同樣的表情有不同的理解。嘗試其他表達形式，結合上下文、肢體語言判斷是一種思路。

趙啟軍 - 「三維人臉建模：由圖到形的人臉識別」

四川大學計算機學院副教授趙啟軍的報告主題是「三維人臉建模：由圖到形的人臉識別」。這個報告也是關於三維人臉的，不過趙啟軍副教授關注的重點是從二維圖像重建三維人臉，這不僅是二維三維信息之間的橋梁，也拓展了三維人臉技術的應用範圍。

二維圖像可以由三維實體生成，其中有很多因素影響；二維圖像除了紋理之外也有很多三維信息，尤其是在結合了物體的常識模型之後。二維和三維相比之下，全視角的三維面部模型含有更多的信息，也更加魯棒。

三維人臉一直不火熱的原因，趙啟軍副教授認為是高成本。專業的三維採集設備自然非常昂貴、使用不便，即便現在出現了低價的消費級 RGB-D 傳感器，但測量精度有限；其他原因還有，受限的應用場景（絕大部分三維應用在短距離測量和識別），帶來的額外收益受限（二維圖像在多數場景中都有足夠好的效果，佔據支配地位，不過實際上二維圖像方法也需要使用環境中有一些約束，才能達到滿意的性能）

趙啟軍副教授的科研路線圍繞的就是三維數據的重建和應用：在採集新的三維數據的同時，也要利用已有的二維數據。從二維數據重建三維數據，可以輔助無限定的二維人臉識別（角度、光照、姿態不做嚴格要求）。這也是本次報告的主要內容。

單張圖像人臉重建

從一張到多張圖像恢復完整的三維模型。這可以看作一個回歸問題。

解決這個問題的經典方法是 3DMM，這是一種統計方法，做法是收集許多人臉模型，用 PCA （降維）求出統計模型，然後把統計模型擬合到待求人臉。如今的深度學習方法也是用的同樣的核心思路，只是改變了求參過程。

對於這項方法的後續改進，研究人員們希望可以避免求解統計模型，直接在三維空間中求回歸，得到保留個性化特性的、而且有助於識別的人臉形狀。簡單直接的人臉重建有許多思路可以完成，但是我們希望重建結果能對人臉識別起到幫助，也就是保留有辨別性的細節。另外還希望這個過程可以是實時的。

趙啟軍副教授介紹了自己團隊的一項後續研究工作，從單張圖像重建三維人臉，同時目標讓重建結果幫助人臉識別，排除表情之類的對識別無幫助的信息。他們的思路是把每個面部三維模型看作平均模型+身份信息+表情信息的組合。他們把面部對齊（獲得更準確的特徵點）和面部重建（獲得更準確的三維模型）作為聯合任務，交替進行，多次迭代；最終輸出的三維重建結果不包含表情信息，也就是一個表情中性的人臉。

研究中他們也嘗試了基於深度學習的非線性模型，效果並不突出。他們猜測原因也是測試數據集規模較小，不足以發揮出深度學習方法的優勢。

經過三維重建得到了正面、表情中性的人臉模型之後，一種應用方式是輔助提升二維人臉識別的效果。重建後的三維模型與原始二維圖像補充成為融合模型後，可以提升較大角度下識別的性能，減小了姿態和光照對純二維方法人臉識別的影響。

趙啟軍副教授還做了其他思路的進一步研究，他們嘗試三維面部形狀特徵解耦，聯合人臉重建任務和識別任務，希望可以強化識別人臉需要的身份信息；根據他們的想法，這些信息可以在隱空間進行分解建模。

經過端到端聯合訓練後實現了預想的引導結果，達到了身份信息和表情信息的分離，不同人的身份信息有足夠的區分度。

他們也做了許多驗證研究，表明形狀重建的精度也達到了較好水平；Alabation study 表明，多層感知機學習到的基向量之間也有很高的區分度（單個基向量表示的面部特徵已經不可能在真實人臉上出現了，見上圖左側部分），說明了學習的有效性。

多圖人臉重建

單張圖像的人臉重建問題得到較好解決之後，多張圖像帶紋理重建也就是在單圖任務基礎上的自然延伸。一個典型的應用是，公安系統的罪犯存檔照片包含正面、左、右三種視圖，可以利用這些照片重建帶有紋理的三維人臉模型，與現有的二維圖像採集系統結合以後可以極大提升目標的前 n 位識別成功率，即便二維圖像採集系統的圖像可以是任意角度的人臉。趙啟軍副教授還介紹了一個三維人臉重建帶來目標犯罪嫌疑人的識別排序大幅提升的真實案例。

多張圖像的人臉重建也有一種令人十分頭疼的應用場景，就是長時間跨度的多張無限制圖像重建。如圖，六張不同年齡的萊昂納多，幾乎可以認為是好幾個不同的人了。這時我們希望重建出的人臉是一個平均形狀，能夠代表不同時期的面部特點。

這個問題目前還無法完美地解決，畢竟類內就有很大差異。不過相比以往的方法，趙啟軍副教授團隊提出的方法，減小了同類、類間區別的重疊（圖中黃色和藍色交疊部分）。

總結

趙啟軍副教授最後做了總結：三維人臉在許多任務中會有幫助，他們也提出了多種方法進行重建並應用重建成果。這個領域的挑戰是：缺乏大規模的 benchmark；數據採集精度需要更高，重建時希望可以有更多的紋理細節（甚至到可以捕捉皮膚缺陷的程度）；另外不同多種來源的數據可以用於多種不同的目的。

郭裕蘭 - 「三維場景智能感知與理解」

國防科技大學電子科學學院講師郭裕蘭的報告「三維場景智能感知與理解」介紹了他所在的研究小組在雙目深度估計、三維目標識別以及三維場景標註等方向的研究進展。

郭裕蘭首先介紹了三維數據獲取與處理的基本知識，介紹了雙目視覺深度計算的基本技術，以及這個任務中傳統算法的流程。

郭裕蘭所在的研究小組有一些新的嘗試，他們藉助深度學習，用一個網絡解決視差估計中的多個步驟。

在 CVPR 2018 的 ROB 挑戰賽中，他們的方法在不同的數據集中取得了均衡的表現，由此獲得了總成績第一名。

他們也對視差超解析度任務做了一些研究。視差超解析度是要利用雙目視覺兩個輸入之間的微小差異。

郭裕蘭還介紹了多種基於三維數據的深度學習場景理解（對象識別）方法。

紀榮嶸 - 「基於學習的場景信息重構」

論壇的壓軸報告嘉賓是來自廈門大學的「閩江學者」特聘教授、博導紀榮嶸。報告中介紹了課題組圍繞場景信息重構的一些研究工作以及技術應用。

報告一開始，紀榮嶸教授就感慨道，「雖然現在是深度學習時代，但是只會深度學習是不行的」。報告的第一項內容也就是一種非深度學習的方法。

基於搜索的單圖深度估計

單目視覺深度估計本身是一項比較簡單、如今也被深度學習解決得比較好的問題，傳統方法先估計初始深度圖，再用 CRF 優化、端到端，以及繼續加入各種技巧，也可以得到比較好的結果。

不過在這項研究中，紀榮嶸教授指導學生選擇了一種基於搜索的方法：把深度估計問題作為搜索問題，把圖片分為許多 patch（小塊），每個patch在現有的圖像-深度資料庫中搜索，得到的結果做上下文平滑。

這種做法的難點在於：1，跨模態檢索，2，大邊緣結構分析。由於這是一種非深度學習方法，它不需要訓練，只需要預先編碼一個字典即可（用於快速搜索）。這篇論文時間較早，但也被 ECCV 錄用。

基於序列預測的實時語義分割

下面就進入了深度學習時代，在各種任務中大家都開始嘗試基於深度學習的方法。紀榮嶸教授介紹的這項研究是針對視頻語義分割的（也就是時間序列語義分割）。

一般來說序列分割中都要考慮前後幀之間的聯繫，才能讓分割結果更穩定、魯棒，他們的思路是把編碼器先前的輸出用來預測，也嘗試了級聯、相加、Attention、Attention+級聯等多種融合策略，編碼器也使用了上下文殘差卷積。最後配合一些提速技巧，取得了性能和速度的很好均衡（在 TITAN Xp 上，2048x1024 的圖像解析度輸入，達到 18.5 幀/秒的運行速度；同時在精度上甚至優於一些不考慮速度的方法）。這篇論文 CVPR2019 在投。

基於語義信息和生成對抗的視覺裡程計

下一項研究是關於視覺裡程計的。這是首次把生成式對抗引入視覺裡程計的設計，但取得了不錯的效果。

方法的總體流程是，用一個特徵生成模塊 FGN 生成特徵，用一個 Discriminator 判別數據分布。這個 Discriminator 有三路輸入，分別是圖像、生成器輸出的特徵、語義圖，然後把用 SIFT 方法生成的特徵點和特徵描述作為 Ground Truth。這樣的做法解決了特徵點檢測和描述的問題。取特徵部分比直接使用 SIFT 和 ORB 快，精度也更高。而且也解決了 SIFT 作為裡程計時容易中斷的問題。

他們的方法在許多場景下都取得了不錯的表現，甚至最終的精度超過了作為監督信息的 SIFT 的精度。不過，由於方法中沒有加入閉環檢測，在高速、長路段的後期誤差會升高。

最後，紀榮嶸教授還簡單介紹了實驗室在視覺場景理解方面的多個項目，包括頭戴式顯示裝備、AR 快速定位、基於神經網絡壓縮的人工智慧晶片設計、端到端實時室內物體語義分割等，也是產學研結合的範例。

結束語

七場學術報告下來，這些在三維數據分析、場景感知、人工智慧技術方面有諸多經驗的專家學者們之間就一些觀點達成了共識，為臺下聽眾講解了重要的發展脈絡、關鍵技術體系和最新進展；借著聽眾提問的機會，嘉賓們也在一些問題上更具體深入地表達了自己的觀點。

三維數據的採集和表示、三維數據的分析和理解還有許多難點遺留，不過這同時也是巨大的空間，等待技術不斷發展去填補。奧比中光在三維數據採集設備的普及化、小型化方面做出的探索得到了專家們的關注和認可，也將成為這個領域的學術研究和應用普及的一股推動力量。

未來更豐富的三維信息、對三維信息的更充分利用，也會像現階段的人工智慧技術一樣帶來更多機會和生活便利。雷鋒網 AI 科技評論也會持續關注相關學術研究和技術普及應用，期待下一次的專家學者聚首以及最新學術成果討論。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇

參會專家合影留念

劉燁斌 - 「人體動態重建技術前沿」

盧策吾 - 「Behavior Understanding meets 3D Representation」

章國鋒 - 「視覺 SLAM 技術及應用」

黃迪 - 「基於三維人臉數據的身份識別與表情分類」

趙啟軍 - 「三維人臉建模：由圖到形的人臉識別」

紀榮嶸 - 「基於學習的場景信息重構」

結束語

相關焦點

2020年第3期「光學三維成像與傳感」特約專欄

三維天地受邀參加第二屆長三角CIO發展論壇

8月頂級 CV 大會:ICIG 2019——人工智慧時代的圖像圖形前沿研究

2020,暢想人工智慧3D感知技術的未來

讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

為機器配3D感知的「眼睛」,的盧深視展示三維全棧技術

3d物聯網之工業3D數字可視化三維仿真技術解決方案

奧比中光黃源浩:用最好的3D傳感技術賦能人工智慧時代

港科大教授權龍:三維視覺重新定義人工智慧安防

給城市高精度三維拍照，這個團隊震驚了世界

CT數據三維重建和可視化軟體開發獲進展

北京大學袁曉如:智能數據可視分析

三維量子霍爾效應入選「十大進展」

奧比中光線上workshop:3D視覺賦能動態三維重建技術革新升級

前沿熱點丨三維晶片成像

三維GIS技術,六大新進展

三維掃描儀在考古、文物保護領域有哪些作用呢?

人工智慧已可以用於三維醫學影像,快速準確的做出醫療診斷

基於中望3D的漸開線齒輪三維CAD建模

Excel是三維地圖可視化製作最佳選擇?

三維感知與三維數據分析最新進展 - 3D傳感&人工智慧前沿科技論壇

參會專家合影留念

劉燁斌 - 「人體動態重建技術前沿」

盧策吾 - 「Behavior Understanding meets 3D Representation」

章國鋒 - 「視覺 SLAM 技術及應用」

黃迪 - 「基於三維人臉數據的身份識別與表情分類」

趙啟軍 - 「三維人臉建模：由圖到形的人臉識別」

紀榮嶸 - 「基於學習的場景信息重構」

結束語

相關焦點

2020年第3期「光學三維成像與傳感」 特約專欄

三維天地受邀參加第二屆長三角CIO發展論壇

8月頂級 CV 大會:ICIG 2019——人工智慧時代的圖像圖形前沿研究

2020,暢想人工智慧3D感知技術的未來

讓機器理解三維世界,「商湯科技」暢想人工智慧3D視覺技術的未來

為機器配3D感知的「眼睛」,的盧深視展示三維全棧技術

3d物聯網之工業3D數字可視化三維仿真技術解決方案

奧比中光黃源浩:用最好的3D傳感技術賦能人工智慧時代

港科大教授權龍:三維視覺重新定義人工智慧安防

給城市高精度三維拍照，這個團隊震驚了世界

CT數據三維重建和可視化軟體開發獲進展

北京大學袁曉如:智能數據可視分析

三維量子霍爾效應入選「十大進展」

奧比中光線上workshop:3D視覺賦能動態三維重建技術革新升級

前沿熱點丨三維晶片成像

三維GIS技術,六大新進展

三維掃描儀在考古、文物保護領域有哪些作用呢?

人工智慧已可以用於三維醫學影像,快速準確的做出醫療診斷

基於中望3D的漸開線齒輪三維CAD建模

Excel是三維地圖可視化製作最佳選擇?

2020年第3期「光學三維成像與傳感」特約專欄