來源:映維網 作者 廣州客
2020年計算機視覺和模式識別大會(Conference on Computer Vision and Pattern Recognition;CVPR)正在如火如荼地進行中,來自世界各地的計算機視覺研究者和工程師都在這裡分享最新的進展。
對於今年的CVPR大會,谷歌人工智慧團隊共有近70份論文獲得了收錄,並介紹了在計算機視覺的一系列研究,包括對象映射與渲染,3D人類姿態生成,語義分割和透明對象關鍵點估計等等。
下面是或能用於增強現實/虛擬實境領域的論文及相關摘要整理:
1. Local Deep Implicit Functions for 3D Shape
這個項目的目標是通過深度攝像頭視圖推斷來學習一個實現精確表面重建,緊湊存儲,高效計算,相似形狀一致性,以及不同形狀類別歸納的3D形狀表示。為此,我們引入了局部深隱函數(LDIF),一種將空間分解為一組結構化的學習隱函數的三維形狀表示。我們提供從三維網格或姿勢深度圖像推斷空間分解和局部深度隱式函數的網絡。
相關論文:Local Deep Implicit Functions for 3D Shape
2. GHUM & GHUML: Generative 3D Human Shape and Articulated Pose Models
我們在一個完全可訓練的、模塊化的深度學習框架內提出了一個活節3D人類建模管道。通過以各種姿勢拍攝高解析度的人體三維掃描,再加上頭部和面部表情的特寫鏡頭,以及手部關節,以及初步的、由藝術家設計的、性別中立的四邊形網格,並且使用變分自編碼、位姿空間變形校正、骨架關節中心預測器和混合蒙皮函數,我們在一個一致的學習循環中訓練包括非線性形狀空間在內的所有模型參數。所述模型與所有的三維動態掃描數據同時進行訓練,從而獲取相關性並確保各種組件的一致性。模型支持面部表情分析,以及身體(手部細節)形狀和姿勢估計。我們提供了完全可訓練的,包含不同解析度的通用人體模型,對它們進行了比較,分析了不同組件的影響,並用圖像數據說明了它們的重建。
相關論文:GHUM & GHUML: Generative 3D Human Shape and Articulated Pose Models
3. Deep Homography Estimation for Dynamic Scenes
單應性估計是許多計算機視覺問題中的一個重要步驟。近年來,深層神經網絡方法比傳統方法更有利於解決所述問題。然而,新方法沒有考慮輸入圖像中的動態內容,只用可以完全對齊的圖像對來訓練神經網絡。本文探討了如何設計和訓練處理動態場景的深層神經網絡。我們首先收集一個具有動態內容的大型視頻數據集。然後我們開發了一個多尺度神經網絡,並證明當使用我們的新數據集進行適當訓練時,所述神經網絡能夠在一定程度上處理動態場景。為了估計動態場景的單應性,我們需要識別動態內容。由於動態內容檢測和單應性估計是兩個緊密耦合的任務,所以我們遵循多任務學習原理,擴展了我們的多尺度網絡,使之能夠聯合估計動態掩碼和單應性。實驗結果表明,所述方法能夠很好地估計具有動態場景、模糊偽影或缺少紋理的複雜場景的單應性。
相關論文:Deep Homography Estimation for Dynamic Scenes
4. 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation
我們提出了一種基於三維點雲的實例分割方法3D-MPA。在給定輸入點雲的情況下,我們提出了一種以對象為中心的方法,其中每個點為其對象中心投票。我們從預測的對象中心採樣對象建議。然後,我們從投票給同一對象中心的分組點特徵中學習建議特徵。圖卷積網絡引入了建議間關係,除了lower-level的點特徵外,還提供higher-level的特徵學習。每個proposal都包含一個語義標籤、一組關聯點,而我們在關聯點定義了一個前景背景掩碼、一個對象評分和聚合特性。以前的研究通常對proposal執行非最大抑制(NMS),以獲得最終的對象檢測或語義實例。然而,NMS可以丟棄潛在的正確預測。相反,我們的方法保留所有proposal,並根據所學的聚合特徵將它們組合在一起。在ScanNetV2基準和S3DIS數據集上,我們發現它在三維目標檢測和語義實例分割任務上優於NMS,並且優於現有的最新方法。
相關論文:3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation
5. KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects
估計桌面對象的三維姿態對於機器人操作等應用至關重要。解決這個問題的眾多現有方法都需要一個用於訓練和預測的對象深度映射。在這篇論文中,我們放棄使用深度傳感器,轉而使用原生立體輸入。我們解決了兩個問題:第一,我們建立了一個用RGB攝像頭在桌面對象捕捉和標記3D關鍵點的簡單方法;第二,我們開發了一個名為KeyPose的深層神經網絡,它可以從立體輸入中學習使用3D關鍵點來精確地預測對象姿勢,甚至可以用於透明對象。為了評估我們方法的性能,我們創建了一個由15個清晰對象組成的數據集。我們訓練實例和類別模型,並顯示對新紋理、姿勢和對象的歸納。KeyPose在3D姿勢估計方面超過了其他先進的方法。立體輸入對於這種性能至關重要,因為它比使用單目輸入提高了2倍的效果。我們將發布數據捕獲和標記管道、透明對象資料庫、KeyPose模型和評估代碼的公共版本。
相關論文:KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects
6. DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
我們提出了一種快速的單級三維目標檢測方法DOPS。以前的方法通常會做出特定領域的設計決策,例如在自動駕駛場景中將點投影到鳥瞰圖中。相比之下,我們提出了一種通用方法,它既適用於室內場景,也適用於室外場景。我們方法的核心之處是一種快速的單通道架構,它既能檢測三維對象,又能估計對象的形狀。三維邊界框參數在每一個點上一次估計,通過圖形卷積進行聚合,並輸入網絡的一個分支。在合成數據集上學習潛在形狀空間和形狀解碼器,並將其作為三維目標檢測管道端到端訓練的監督。因此,我們的模型能夠在不訪問目標數據集中的基本真實形狀信息的情況下提取形狀。
相關論文:DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes
原文連結:https://yivian.com/news/75720.html