在手機上實現實時的單目3D重建

2021-02-23 深話AI

回覆:OpenCV,下載OpenCV資料及練習代碼

回覆:MVG,下載計算機視覺中的多視圖幾何,英文原版及中譯本

回覆:ML,下載機器學習書籍及實戰資料

回覆:PCL,下載點雲庫PCL學習教程

本文轉自泡泡機器人,已授權

標題:Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone

作者:Xingbin Yang, Liyang Zhou, Hanqing Jiang, Zhongliang Tang, Yuanbo Wang, Hujun Bao, Member, IEEE, and Guofeng Zhang, Member, IEEE

機構:浙江大學;商湯科技

來源:ISMAR 2020

編譯 : 張海晗

審核:管培育

本文下載連結,請在後臺回覆:單目重建

大家好,今天為大家帶來的文章是Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone。在手機上實現實時的單眼3D重建

  這是一篇由浙江大學和商湯合作完成,在ISMAR2020 上獲得BestPaper的研究。

    本文展示了在手機上實現實時單眼3D重建的系統,稱為Mobile3DRecon。該系統使用嵌入式單眼相機,在後端提供了在線網格生成功能,並在前端提供了實時6DoF姿勢跟蹤,以供用戶在手機上實現具有真實感的AR效果。與大多數現有的僅使用基於點雲的3D模型在線生成技術或離線的表面網格生成技術不同,本文提供了一種全新的在線增量網格生成方法來實現快速的在線密集表面網格重建,以滿足實時的AR應用需求。對於6DoF跟蹤的每個關鍵幀,本文使用多視圖半全局匹配(SGM)的方法進行的單眼深度估計,然後進行深度細化處理。生成模塊將每個估計的關鍵幀深度圖融合到在線密集表面網格上,這對於實現逼真的AR效果(例如碰撞和遮擋等)。本文在兩個中距離移動平臺上驗證了實時重建的結果,通過定量和定性評估的實驗證明了所提出的單眼3D重建系統的有效性。該系統可以處理虛擬物體與真實物體之間的遮擋和碰撞場景以實現逼真的AR效果。

(1)本文提出了以中多視圖關鍵幀深度估計方法,該方法即使在具有一定姿態誤差的無紋理區域中也可以魯棒地估計密集深度,消除由姿勢誤差或無紋理區域引起的不可靠深度,並通過深度神經網絡進一步優化了噪聲深度。

(2)本文提出了以中有效的增量網格生成方法,該方法可以融合估計的關鍵幀深度圖以在線重建場景的表面網格,並逐步更新局部網格三角。這種增量網格方法不僅可以為前端的AR效果提供在線密集的3D表面重建,還可以確保將網格生成在後端CPU模塊上的實時性能。這對於以前的在線3D重建系統來說是有難度的。

(3)本文提出了帶有單眼相機的實時密集表面網格重建管線,在手機上實現了單眼關鍵幀深度估計和增量網格更新的執行速度不超過後端的125ms/關鍵幀,在跟蹤前端6DoF上快速到足以超過每秒25幀(FPS)。

整個系統的處理圖如圖1所示,當用戶使用手機上的單眼相機導航到他的環境時,本文提供的管道會使用基於關鍵幀的視覺慣性SLAM系統跟蹤手機的6DoF姿勢,該系統跟蹤前端的6DoF的同時,也可以保證關鍵幀後端具有全局優化模塊,以優化所有關鍵幀的姿勢,並將其反饋給前端跟蹤。本文在管道中使用了SenseAR SLAM進行姿勢跟蹤,並且任何基於關鍵幀的VIO或SLAM系統(例如谷歌的ARCore)目前都是適用的。

在前端正常初始化6DoF姿勢跟蹤之後,對於具有全局優化姿勢的關鍵幀池中的最新傳入關鍵幀,其密集深度圖是通過多視圖SGM在線估計的,其中先前的關鍵幀的一部分會被作為參考幀。卷積神經網絡和多視圖SGM被用來細化深度噪聲,然後通過融合細化的關鍵幀深度圖以生成周圍環境的密集表面網格。這裡的管道是用來執行增量在線網格生成,這更適合於手機平臺上AR應用程式對實時3D重建的要求,深度估計和增量網格劃分都作為後端模塊進行。隨著密集網格逐漸在後端被重建出來,高級別的AR應用程式可以使用這種實時的密集網格和6DoF SLAM的姿勢為前端用戶提供逼真的AR效果,比如遮擋和碰撞等。

1.單眼深度估計

單眼深度估計首先利用本文提出的多視圖SGM方法進行立體匹配,然後基於置信圖對深度信息進行濾波,最後利用深度學習細化深度信息。

立體匹配部分, 本文對深度空間的逆進行均勻採樣,然後利用人口普查變換(CT)作為特徵值描述子來計算補丁相似度(patch similarity)。這裡通過查找表來計算兩個人口普查位串之間的漢明距離,遍歷每個帶有標籤I的切片的像素,來計算立體匹配的成本。之後,會得到的大小為W * H * L尺寸的成本量,其中W和H是框架的寬度和高度。然後匯總成本量,採用Winner-Take-All的策略獲得初始深度圖。

本文通過懲罰像素鄰域的深度標記變化添加了額外的正則化來支持平滑度。對於帶有標籤l的圖像像素x,成本的匯總是通過遞歸計算相鄰方向的成本來完成的。

基於置信度的深度濾波利用SGM中的不確定度測量來計算置信度,同時也考慮了局部深度一致性。

深度信息的細化是基於深度神經網絡的,這是由一個兩階段的細化神經網絡來組成。第一階段是圖像引導子網絡CNNG,它將濾波後的深度與相應的關鍵幀上的灰度圖像相結合得到粗細化的結果Dct,其中,灰度圖像充當深度優化的引導,用以提供CNNG的物體邊緣和語義信息的先驗。第二階段是殘差U-Net CNNR,它可以進一步細化之前粗細化後的噪聲結果得到最終的精細化深度信息。U-Net結構主要有助於使學習過程更加穩定並克服特徵退化的問題。這裡的訓練集是採用Demon數據集進行訓練。

去除動態物體後,利用TSDF對體素進行融合。每一個估算出來的深度圖都被集成到TSDF體素上,然後通過連結生成和更新的體素來重建3D物體,生成漸進式網格。

實時的網格更新是將漸進式移動的立方體塊在單個CPU線程上集成,每一個關鍵幀只更新一部分立方體塊。除此之外,本文為每一個體素定義了一個狀態變量,用來判斷更新,添加,通用和刪除。更新和提取的三角網格只來自於添加和更新的立方體塊。最後,再利用深度細化神經網絡來提高平面網格的質量。

圖2.我們的單眼深度估計是根據序列「室內樓梯」和「沙發」的兩個代表性關鍵幀得出的:(a)原關鍵幀圖像及其兩個選定的參考關鍵幀圖像;「室內樓梯」參考幀中的兩個代表性像素及其極線繪製出從前端的6DoF跟蹤來證明某些相機姿態誤差的數據。(b)通過反投影進行的多視圖SGM和相應點雲的深度估計結果。(c)基於置信度的深度濾波後的結果及其對應的結果(d)在基於DNN的參考及其相應的點雲之後的最終深度估計結果。

圖3. OPPO R17 Pro捕獲的四個實驗序列「室內樓梯」,「沙發」,「桌面」和「內閣」的表面網格生成結果(A)顯示了每個序列的一些代表性關鍵幀。沒有基於DNN的深度細化的每個序列的生成的全局表面網格(C)我們的基於DNN的深度細化的生成的全局表面網格。

表1:我們報告了我們的Mobile3DRecon和[11,27,40]的深度和表面網格結果的RMSE和MAE,這些結果是由我們的五個實驗序列(由OPPO R17 Pro捕獲的,ToF深度測量為GT)進行深度評估的,僅像素在GT和估計深度圖中都有有效深度的情況下,將參與誤差計算;對於通用深度評估,所有方法和GT中只有具有有效深度相同的像素才參與評估;請注意,對於REMODE,我們僅考慮計算對於REMODE,由於深度小於35 cm,我們無法獲得深度融合結果;對於網格評估,我們使用CloudCompare 2通過將每種方法的深度融合到GT網格(通過融合ToF深度)來比較網格結果。對於REMODE,由於深度誤差嚴重,我們無法獲得深度融合結果。

表2:我們在所有子步驟中報告Mobile3DRecon的詳細每關鍵幀時間消耗(以毫秒為單位),時間統計信息在兩個移動平臺上給出:帶SDM710的OPPO R17 Pro和帶SDM845的MI8。

本文下載連結,請在後臺回覆:單目重建

最新電子書論文下載

相關焦點

  • 高精度3d重建是一個雙機融合模型
    而對於高精度地圖來說,一般包括2d地圖和3d地圖。2d地圖主要包括雷射雷達+imu等,而3d地圖是利用紅外+3d雷射雷達,高精度地圖主要是磁慣量傳感器的作用。雷射雷達用於高精度的一維地圖,通過雷射雷達獲取地面點雲;毫米波雷達用於高精度的3d地圖,將車輛的雷射雷達數據經過衍射、slam等多種方法得到的地圖數據與點雲進行匹配,求得運動模型,計算運動軌跡,一般用於自動駕駛。
  • 谷歌用MediaPipe實現手機高效實時3D對象檢測
    2D預測僅提供2D邊界框,但通過將預測擴展到3D,我們可以捕獲對象的現實世界大小,位置和方向,從而在機器人技術,自動駕駛汽車,圖像檢索和增強現實等領域實現一系列的用例。儘管2D對象檢測相對成熟並已在行業中廣泛應用,但由於缺乏數據,以及對象外觀和形狀的多樣性,基於2D圖像的3D對象檢測依然是一個十分具有挑戰性的課題。
  • 谷歌繼續開源新AI框架,可實現手機高效實時3D目標檢測
    3月12日,谷歌AI在其官方博客上發布了一款名為MediaPipe Objectron的算法框架,利用這個算法框架,只要一部手機,就能實時從2D視頻裡識別3D物品的位置、大小和方向。這一技術可以幫助機器人,自動駕駛汽車,圖像檢索和增強現實等領域實現一系列的應用。
  • 【譯文分享】HTML5實現多人實時3D遊戲
    原文:http://blog.artillery.com/2012/05/realtime-multiplayer-3d-gaming-html5
  • ECCV 2018論文解讀 | 基於三維重建的全新相機姿態估計方法
    從而將 2D 照片中的形變等效到了 3D 空間中,進而使用 Shape-from-Template 技術實時重建這個一直處於形變中的虛擬 3D template,最後使用已知的 template 和每一幀重建的形變 template 做 3d-3d 註冊,從而求解出了 RS 相機的姿態和瞬時自運動參數。
  • 2D卷積和3D卷積的區別及pytorch實現
    單通道2D卷積的過程可以視為上圖的中(a)的情況,卷積核在圖像中從左向右,從上到下滑動來提取特徵。卷積之後的output是2D的。1.1.1 單通道卷積Pytorch實現直接使用torchvision.datasets.MNIST()導入MNIST數據集,取其中一張圖像為例,使用3×3的卷積核進行卷積:import torchimport torchvisionimport torch.nn as nninput_2d=dataprint
  • 告別紙質填單 太平人壽「立保通」實現電子化實時承保
    經濟觀察網 記者 張雲 太平人壽近期在部分分支機構試點推出「立保通」電子投保系統,以無紙化、實時承保的方式,將壽險行業的電子化運營方式向前推進一大步。通過該電子投保系統,保險代理人可一邊與客戶面對面地溝通,一邊在電子投保系統中操作,幾分鐘內即可完成資料填寫、審核、交費及承保,投保過程方便快捷。
  • ORB-SLAM3 單目地圖初始化(終結篇)
    歡迎大家一起交流成長~一、前言請閱讀本文之前最好把ORB-SLAM3的單目初始化過程再過一遍(ORB-SLAM3 細讀單目初始化過程(上)、超詳細解讀ORB-SLAM3單目初始化(下篇)),以提高學習效率。單目初始化過程中最重要的是兩個函數實現,分別是構建幀(Frame)和初始化(Track)。
  • 廈理工學生發明3D列印軟體 手機拍照幾秒內實現3D建模
    日前,廈門理工學院計算機與信息工程學院學生於佳萍、塗智盛團隊(指導教師:劉利釗)發明的一款3D列印軟體《基於反射PIPEliNE的小型模型三維重建軟體》榮獲第20屆海峽兩岸高校資訊創新應用服務創新競賽「兩岸交流組」第一名。
  • 全彩LED顯示屏適合於哪種3D方案?主動式3D還是偏光3D立體
    全彩LED顯示屏由一個一個模塊RGB燈板拼裝而成的,原理上是可以實現3D的,但由於LED屏屬於大屏如做做成偏光立體就得在LED燈板前貼一片柵格式的偏光片,為了區分左右眼鏡圖像,只能把用個兩個點當一個點使用,從而會使像素減半,這就是類式於偏光3D電視的做法.我們建議採用主動立體3D方案比較好
  • ECCV 2020 | 實時人體運動捕捉,現在一顆普通攝像頭就足夠了
    Title本文作者來自南加州大學和 Pinscreen,作者提出了一個實時的單目人體動作捕捉方法,只需一顆普通攝像頭,外加兩塊 NVIDIA GV100s  顯卡,為此作者提出了一種新穎的表面重建和渲染方法:表面重建 方法以一種由粗到精的方式來逐步定位人體表面3D點,使得只需在少量點上計算便可以構建出 3D 佔據場 (3D occupancy fields)。其能夠在保持重建精度的基礎上,比基線方法快2個數量級。
  • 送貨單出貨單手機驅動列印軟體
    送貨單與出庫單在企業的運營過程中是比較常見的憑證、它能夠幫助加強企業管理、同樣客戶也需要這樣的操作流程、方便客戶與商家進行記錄。然而對於中小賣家或者是企業它們需要應對場景操作、而不是坐在辦公室列印出庫單、也沒有相對的辦公場地、所以採用手機來驅動列印就比較方便多了、比如批發門市部老闆只要打開手機點選客戶需要的產品就可以直接驅動列印熱敏小票印表機、這樣就方便的讓客戶拿到清單進行結帳。
  • 聖路易斯華盛頓大學劉晨:室內場景的結構化重建 | AI研習社68期大...
    與傳統底層密集重建方法不同,講者的研究集中在分析重建場景中的高層結構化信息。在本次AI研習社大講堂上,來自聖路易斯華盛頓大學的計算機系在讀博士劉晨分享了其結構化重建的最新工作。=Leiphone分享主題:室內場景的結構化重建分享提綱:結構化場景重建的定義及意義單目結構化重建俯視圖結構化重建
  • 3d建模軟體手機版有哪些?這3款好用的手機3d建模軟體你一定要有
    3d建模軟體手機版有哪些?對於一些三維設計師來說,能夠在手機上隨時隨地進行三維建模是一件很方便的事。本期,模型云為您整理了這3款好用的手機3d建模軟體介紹,快來和我們一起看看吧!3款好用的手機3d建模軟體3d建模軟體手機版一:MeshMixerMeshMixer是一款操作簡單的手機3d建模工具,其主要功能包括3D列印改進、製造切片工具、拖放及把原本組合在一起的多個不同的幾何體分成單獨的對象等,且支持PLY二進位格式、3Dconnexion
  • Facebook 又出黑科技,手機照片一鍵切成 3D 大片
    但是,這項功能依賴於高端智慧型手機才具備的雙鏡頭「肖像模式」功能,無法在尋常的行動裝置上使用。為了讓更多人體驗到這種新的視覺格式,Facebook 利用機器學習開發了一個系統。這個系統可以推斷出任何圖像的 3D 結構,任何設備、任何時間拍攝的圖像都可以被轉換成 3D 形式。這就可以讓人們輕鬆使用 3D 照片技術。不僅如此,它還可以處理幾十年前的家庭照片和其它珍貴圖像。
  • 邯鄲1200臺公交實現GPS定位 手機可查「實時公交」(圖)
    邯鄲手機可查「實時公交」。賀興明攝    河北新聞網訊(記者王文靜 通訊員賀興明)烈日炎炎,你還在為等公交車而煩惱嗎?近日,邯鄲公交微信公眾號「邯鄲巴士」推出「實時公交」功能,「邯鄲巴士」粉絲在手機上就可查到公交車行駛的具體位置,為等車安排好時間。目前,邯鄲1200餘臺公交車實現GPS智能定位,覆蓋90%以上的公交線路。
  • VR+3D列印技術結合,實現骨盆巨大腫瘤精準切除與重建
    術前3D列印模型及重建設計效果圖 骨盆巨大腫瘤,切除與重建的雙重挑戰據劉先生描述,偶發的盆腔不適感其實已有很長時間,但由於沒有明確的症狀,對司機的工作亦無明顯影響,所以並未給予重視。結果發現竟是骨盆上長了腫瘤,而且體積巨大,已經佔據了大半個盆腔的空間,嚴重壓迫周圍軟組織和器官,引起腸道及尿道的狹窄。當地醫院無法完成此類複雜手術,多方打聽後劉先生最終轉入中山大學孫逸仙紀念醫院脊柱外科。住院檢查期間,劉先生的症狀亦愈發明顯,排尿困難的情況也較前加重。
  • DNA生物傳感器晶片實現高靈敏度實時檢測單核苷酸多態性
    據麥姆斯諮詢報導,由加州大學聖地牙哥分校(University of California San Diego)領導的研究小組開發出一款晶片,能夠檢測到一種被稱為單核苷酸多態性(single nucleotide polymorphism,以下簡稱SNP)的基因突變,該晶片能夠將結果實時、無線傳輸到電腦、智慧型手機或其它電子設備。
  • 固話話單可實時查詢
    本報訊昨天,江蘇電信在用戶突破3000萬時推出8項服務,其中,話費實時查詢在全國各省份是率先推出,全省13個市的固定電話用戶,只要在電腦上敲敲鍵盤,可以實時查詢到長途、市話等各類詳細帳單。參加新聞發布會的江蘇省副省長李全林說,這標誌著電信正從傳統意義上的通信運營商向綜合信息服務提供商轉變。
  • ...黑科技首秀——天貓雙十一晚會「明星到你家」是如何實現的
    範冰冰走進一個魔術盒子,瞬間就消失在了舞臺上。在現場連線範冰冰時,她已經出現在了觀眾的家裡。這不是視頻錄製的效果,因為冰冰同時出現在了成千上萬人的家裡。 這是如何實現的呢? 舞臺上的魔術當然只是一個幌子,實際上是手機AR將範冰冰的「動態三維影像」投射到了每個人家裡的真實環境中。