基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度

2020-12-07 電子發燒友

基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度

李倩 發表於 2018-06-04 15:46:49

基於視覺的自動駕駛系統需要基於單目攝像頭獲取的圖像,判斷當前車輛與周圍車輛、行人和障礙物的距離,距離判斷的精度對自動駕駛系統的安全性有著決定性的影響,商湯科技在CVPR 2018發表亮點報告(Spotlight)論文,提出基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度,進一步提升自動駕駛系統的安全性。該論文由商湯科技見習研究員羅越在研究院研究員任思捷指導下完成。本文為商湯科技CVPR 2018論文解讀第5期。

簡介

基於單目圖像的深度估計算法具有方便部署、計算成本低等優點,受到了學術界和工業界日益增長的關注。現有的單目深度估計方法通常利用單一視角的圖像數據作為輸入,直接預測圖像中每個像素對應的深度值,這種解決方案導致現有方法通常需要大量的深度標註數據,而這類數據通常需要較高的採集成本。近年來的改進思路主要是在訓練過程中引入隱式的幾何約束,通過幾何變換,使用一側攝像機圖像(以下稱右圖)監督基於另一側攝像機圖像(以下稱左圖)預測的深度圖,從而減少對數據的依賴。但這類方法在測試過程中仍然缺乏顯式的幾何約束。為了解決上述問題,本文提出單視圖雙目匹配模型(Single View Stereo Matching, SVS),該模型把單目深度估計分解為兩個子過程,視圖合成過程和雙目匹配過程,其算法框架如圖1所示。

圖1:

單視圖雙目匹配模型的示意圖

通過這樣的分解,使得提出的模型有如下兩個優點:

極大地減少深度標註數據的依賴;

在測試階段顯式地引入幾何約束。

實驗證明,本文提出的模型僅用少量的深度標註數據就可以在KITTI數據集上超過之前的所有單目深度估計方法,並首次僅靠單目圖像數據就超過了雙目匹配算法Block Matching的深度估計精度。

SVS模型

現有基於深度學習的單目深度估計方法,通常把CNN作為黑盒使用,學習圖像塊至深度值的直接映射,這類方法完全依賴高級語義信息作為預測深度的依據,儘管有些方法在損失函數上引入一些特殊的約束條件,學習這樣的語義信息仍然是非常困難的。另一方面,即使這樣的映射能夠被成功訓練,算法通常也需要大量帶深度值標籤的真實數據,而這類數據的採集成本非常高且耗時,極大的限制了這類技術的適用場景。

基於上述分析,本文方法提出了一種新穎的面向單目深度估計的算法框架,把單目深度估計分解為兩個過程,即視圖合成過程和雙目匹配過程。模型的主要設計思路在於:

把雙目深度估計模型中有效的幾何約束顯式地結合到單目深度估計模型中,提高模型的可解釋性;

減少使用難以採集的真實深度數據,從而擴大模型的適用範圍;

整個模型以端到端的的方式訓練,從而提升深度估計準確性。

模型的視圖合成過程由視圖合成網絡完成,輸入一張左圖,網絡合成該圖像對應的右圖;而雙目匹配過程由雙目匹配網絡完成,接收左圖以及合成的右圖,預測出左圖每一個像素的視差值,詳細的網絡結構(如圖2所示)。

圖2:

算法網絡結構圖

上半部分網絡對應視圖合成網絡

下半部分網絡對應雙目匹配網絡

視圖合成網絡:

一般情況下,左圖中的像素均可以在右圖中找到匹配的像素,因此可以首先把左圖平移多個不同像素距離,得到多張不同的圖片,再使用神經網絡預測組合係數,把多張平移後的左圖和預測的係數組合得到預測的右圖。具體地,視圖合成網絡基於Deep3D [1] 模型,圖2 中的上半部分展示了視圖合成網絡的示意圖。輸入一張左圖,首先主幹網絡對其提取不同尺度的特徵,再經過上採樣層把不同尺度的特徵統一至同一個尺寸,然後經過累加操作融合成輸出特徵並預測出概率視差圖,最後經過選擇模塊(selection module)結合概率視差圖以及輸入的左圖,得到預測的右圖。本文採用L1 損失函數訓練這個網絡。

雙目匹配網絡:

雙目匹配需要把左圖像素和右圖中其對應像素進行匹配,再由匹配的像素差算出左圖像素對應的深度,而之前的單目深度估計方法均不能顯式引入類似的幾何約束。由於深度學習模型的引入,雙目匹配算法的性能近年來得到了極大的提升。本文的雙目匹配網絡基於DispNetC [2] 模型, 該模型目前在KITTI雙目匹配數據集上能夠達到理想的精度,其網絡如圖2的下半部分所示,左圖以及合成的右圖經過幾個卷積層之後,得到的特徵會經過1D相關操作(correlation)。相關操作被證明在雙目匹配深度學習算法中起關鍵性的作用,基於相關操作,本文方法顯式地引入幾何約束;其得到的特徵圖和左圖提取到的特徵圖進行拼接作為編碼-解碼網絡(encoder-decoder network)的輸入,並最終預測視差圖。該網絡的訓練也同樣使用L1損失函數。

實驗結果

本文在KITTI公開數據集上對提出的模型進行驗證,遵循Eigen等人[3]的實驗設置,把697張圖片作為測試圖片,其餘的數據作為訓練圖片,從定量和定性兩方面對所提出的模型進行驗證。

數值結果

表1總結了本文模型和其他現有方法結果的對比,可以看出,本文模型在大多數指標上均達到世界領先水平。其中,就ARD指標來說,提出的模型比之前最好的方法誤差減小16.8%(0.094 vs. 0.113);表中同時也顯示,經過端到端優化之後,SVS模型的性能能夠進一步得到提升。

表1:

KITTI數據集上SVS模型和其他方法的數值結果

表中加粗表示性能最好的結果

可視化結果對比

圖3顯示了在KITTI Eigen測試集上的深度估計結果的可視化效果,從圖中可以看出本文提出的SVS模型能夠得到更加精準的深度圖。

圖3:

在KITTI Eigen測試集上的深度估計結果的可視化

提出的SVS模型能夠得到更加準確的深度圖

在其他數據集上結果的可視化

為了驗證SVS模型在其他數據集上的泛化能力,本文將在KITTI數據集上訓練好的SVS模型直接應用至Cityscape和 Make3D數據集上,結果可視化效果分別展示在圖4及圖5中。可以看到即使在訓練數據集中沒有出現過的場景,本文方法仍然可以得到合理準確的深度估計結果,證實了本文方法較為強大的泛化能力。

圖4:

在Cityscape數據集上深度估計結果的可視化

SVS模型能夠生成理想的深度圖

圖5:

在Make3D數據集上深度估計結果的可視化

本文提出的SVS模型可以得到較為準確的結果

與雙目匹配算法Block-Matching的對比:

為了進一步確認目前性能最優異的單目深度估計方法和雙目深度估計方法的差距,本文在KITTI 2015雙目匹配測試集上對比了SVS模型與現有最優性能的單目深度估計方法以及雙目匹配Block-Matching方法 (OCV-BM),相關結果總結在表2中,本文的SVS模型首次超越了雙目匹配Block-Matching算法。

表2:

在KITTI 2015雙目匹配測試集上的數值結果

技術潛在應用

單目深度估計對比雙目深度估計具有方便部署、成本低等優點,在很多領域有著豐富的潛在應用場景,如三維重建、增強現實等。

a) 三維重建

b) 增強現實

結論

本文提出一種簡單而有效的單目深度估計模型——單視圖雙目匹配(SVS)。該模型通過把單目深度估計問題分解為兩個子問題,即視圖合成問題和雙目匹配問題,避免把神經網絡模型直接作為黑盒使用,提高了模型的可解釋性。同時,為了更好的解決這兩個子問題,顯式地把幾何變換編碼到兩個子網絡中,提升網絡模型的表達能力。實驗結果表明,該方法僅使用少量帶深度標籤的訓練數據,就能夠超越所有之前的單目深度估計方法,並且首次僅使用單目數據就超過雙目匹配算法Block-Matching的性能,在眾多領域中有著豐富的潛在應用。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 基於平面投影的單目視覺AGV 定位算法
    近年來,計算機視覺飛速發展,湧現出大量的技術與算法,如主動視覺、面向任務的視覺、基於知識的視覺、基於模型的視覺以及多傳感器和集成視覺等方法[1]。根據使用鏡頭數目分類,計算機視覺分為單目視覺定位、雙目視覺定位與多目視覺定位。雙目立體視覺是基於視差原理,由多幅圖像獲取物體三維幾何信息。
  • 別擔心,這只是3D深度估計做出的特效|深度圖|...
    這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統的 structure-from-motion(SfM)方法來重建像素的幾何約束。與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。
  • 中國博士設計單目視頻完美重建3D場景,畫面毫無違和感
    而當我們剝開事實的真相,發現,這一切事件的「始作俑者」竟是——來自華盛頓大學和Facebook的最新單目深度估計算法,已中SIGGRAPH 2020,將於下周在GitHub上開源。單目視頻深度估計算法的核心思路,是結合單圖像深度估計網絡和傳統的結構-運動重建法,使網絡學會為指定視頻生成幾何一致的深度。該方法整體設計架構如下。
  • 你的廚房被水淹了:別擔心,這只是3D深度估計做出的特效
    這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統的 structure-from-motion(SfM)方法來重建像素的幾何約束。與傳統重建方法使用特殊先驗的做法不同,該研究使用的是基於學習的先驗,即為單圖像深度估計訓練的卷積神經網絡。
  • 基於雙目視覺的自動駕駛技術
    單目的測距和3-D估計靠什麼?是檢測目標的Bounding Box(BB),如果無法檢測的障礙物,該系統就無法估計其距離和3-D姿態/朝向。沒有深度學習的時候,ME主要是基於BB,攝像頭標定得到的姿態和高度以及路面平直的假設估算距離。
  • 基於MAP-MRF的視差估計
    其中,基於多視圖立體(Multi-View Stereo, 以下簡稱為「MVS」)的三維重建僅以RGB圖片作為輸入,經過特徵提取與匹配,從運動恢復結構(Structure from Motion, 以下簡稱為「SfM」),深度估計,深度圖融合等多個步驟,輸出表達場景的稠密點雲,是基於視覺的三維重建技術的重要方法和研究分支。
  • 華為諾亞方舟加拿大實驗室提出BANet,雙向視覺注意力機制用於單目...
    大量實驗揭示了雙向注意力模型在前饋基線和其他先進方法上表現出的高度能力,可用於在兩個具有挑戰性的數據集KITTI和DIODE上進行單目深度估計。我們表明,我們提出的方法在性能上優於或至少與最先進的單眼深度估計方法相當,但具有較少的內存和計算複雜性。
  • 了解Apollo 2.5和3.0裡廣泛使用的單目攝像頭物體檢測模塊
    上周,來自百度美研Apollo感知團隊的資深軟體架構師——陳光,在Apollo開發者社群內為我們帶來關於《基於單目攝像頭的物體檢測》的內容分享。幫助開發者更加了解Apollo 2.5和3.0裡廣泛使用的單目攝像頭物體檢測模塊。
  • 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習
    人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 人工智慧利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習 2018-06-05 11:36:53  來源:今日頭條
  • 深度學習在3-D環境重建中的應用
    DeepVO基於深度遞歸卷積神經網絡(RCNN)提出了一種端到端單目視覺裡程計(VO)框架。由於以端到端的方式進行訓練和部署,因此它直接從一系列原始RGB圖像(視頻)中推斷出姿態,而不採用傳統VO流水線中的任何模塊。基於RCNN,它不僅通過CNN自動學習VO問題的有效特徵表示,而且用深度遞歸神經網絡隱式地建模串聯動力學和關係。
  • 單目深度估計論文筆記:FastDepth(1903.03273)
    FastDepth: Fast Monocular Depth Estimation on Embedded Systems文章貢獻設計了一種在嵌入式系統上運行的低延遲、高吞吐量、高精度的深度估計算法;提出了一種高效的編碼-解碼網絡架構,重點在於低延遲設計;使用最先進的網絡剪枝方法
  • 在醫學圖像分析中使用ICP算法進行點雲配準
    1.摘要在本文中,我們結合了ICP算法(一種基於3D尺度不變特徵變換的方法),對3D自由形式閉合的曲面(人類頭骨的3D模型)進行配準。不同於點和表面的配準,我們提出的基於ICP算法的方法可以更好地捕獲數據的整體性質,例如骨骼厚度。
  • 一文全覽深度學習在計算機視覺領域的應用
    這裡是一個光流估計的模型:2 視差/深度圖估計;深度圖估計和運動估計是類似問題,唯一不同的是單目可以估計深度圖,而運動不行。這裡是一個雙目估計深度圖的模型:而這個是單目估計深度圖的模型:巧妙的是這裡利用雙目數據做深度圖估計的非監督學習另外一個單目深度估計的模型:也是利用雙目的幾何約束做非監督的學習3 視頻去隔行/內插幀;Deinterlacing和Framerate upconversion視頻處理的經典問題,當年Sony和Samsung這些電視生產商這方面下了很大功夫
  • 基於慣性導航、RFID 及圖像識別的 AGV 融合導航系統
    實驗結果表明,該方法可靠性強,計算簡單,且具有較好的定位精度,可以滿足AGV 的定位系統要求。關鍵詞:AGV; 慣性導航;圖像識別;姿態解算中圖分類號:TP391 文獻標識碼:A 文章編號:1001-0785(2018)08-0081-040 引言隨著勞動力成本的上升和技術水平的提高,物流倉儲行業的自動化程度不斷提升。
  • 當三維圖像認知發揮到極致,如何助力自動駕駛的高性能環境感知?
    多年以來,她帶領團隊在三維圖像認知和視覺導航領域開展研究,如今已實現了從基礎理論建設、核心技術到產業化的產學研結合。剛剛過去的CVPR國際計算機視覺與模式識別年度盛會上,馬惠敏團隊在5000人的大會上做了Spotlight論文報告。正是基於在視覺感知算法和智能無人系統領域的多年積累,近期,馬惠敏受邀在中國圖像圖形學會主辦的「智能駕駛與機器視覺」講習班進行報告分享。在
  • 深度學習與圖像識別 圖像檢測
    來源:http://blog.csdn.net/omenglishuixiang1234/article/details/53305842  點擊閱讀原文直接進入主要做了基於深度學習的圖像識別與檢測的研究,下面是一些整理內容1、深度學習的優勢(1)從統計,計算的角度看,DL