SNE-RoadSeg:一種基於表面法向量提取的道路可行駛區域分割方法

2020-12-09 騰訊網

重磅乾貨,第一時間送達

這篇文章收錄於ECCV2020,是一篇關於無碰撞空間區域分割的文章,整體效果很不錯。最主要的核心思想是在表面發現估計器的設計,在得到表面法線後將其用於分割網絡的編碼器環節,並在特徵融合部分,借鑑了DenseNet的思想,進行密集連接。網絡的計算量和參數量文中並沒有比較,應該做不到實時。

論文地址:https://arxiv.org/abs/2008.11351

代碼地址:https://github.com/hlwang1124/SNE-RoadSeg

Freespace無碰撞空間檢測是自動駕駛汽車視覺感知的重要組成部分。近年來,數據融合data-fusion卷積神經網絡CNN架構大大改善了語義場景分割算法的性能。通常,可以將自由空間假設為一個地面平面,在這個平面上,各點具有相似的表面法線。因此,在本文中,首先介紹了一個名為表面法線估計器( surface normal estimator ,SNE)的新型模塊,該模塊可以從密集的深度/視差圖像中高精度和高效率地推斷出表面法線信息。此外,提出了一種稱為RoadSeg的數據融合CNN架構,該架構可以從RGB圖像和推斷出的表面法線信息中提取並融合特徵,以進行準確的自由空間檢測。同時,出於研究目的,我們發布了在不同光照和天氣條件下收集的大規模合成自由空間檢測數據集,名為Ready-to-Drive(R2D)道路數據集。實驗結果表明,本文提出的SNE模塊可以使所有最新的CNN架構都可用於自由空間檢測,而本文所提出的SNE-RoadSeg可以在不同數據集中獲得最佳的整體性能。

簡介

自動駕駛汽車是科幻電影和系列電影中的一個常見場景,但由於人工智慧的興起,在您的車庫前院挑選一輛這樣的汽車的幻想已經變成了現實。駕駛場景下對周圍環境的理解是自動汽車的一項重要任務,隨著人工智慧的最新進展,它有了很大的飛躍。無碰撞空間(Collision-free space,簡稱freespace)檢測是駕駛場景理解的一個基本組成部分。自由空間檢測方法一般將RGB或深度/差值圖像中的每個像素分類為可駕駛或不可駕駛。這種像素級的分類結果會被自主系統中的其他模塊所利用,如軌跡預測和路徑規劃,以確保自動駕駛汽車能夠在複雜的環境中安全航行。

現有的自由空間檢測方法可以分類為傳統方法或基於機器/深度學習的方法。傳統方法通常使用顯式幾何模型來構造自由空間,並使用優化方法找到其最佳係數。《B-spline modeling of road surfaces with an application to free-space estimation.》是一種典型的傳統自由空間檢測算法,其中通過將B樣條模型擬合到2D視差直方圖(通常稱為v-視差圖像)上的道路視差投影來執行道路分割。隨著機器/深度學習最新進展的提出,自由空間檢測通常被視為語義驅動場景分割問題,其中使用卷積神經網絡(CNN)來學習最佳解決方案。例如,《Monocular semantic occu-pancy grid mapping with convolutional variational encoder–decoder networks.》採用編碼器-解碼器體系結構在鳥瞰圖中分割RGB圖像,以進行端到端自由空間檢測。最近,許多研究人員已採用數據融合CNN架構來進一步提高語義圖像分割的準確性。例如,《Fusenet: Incorporating depth intosemantic segmentation via fusion-based cnn architecture.》通過數據融合CNN架構將深度信息整合到常規語義分割中,極大地提高了駕駛場景分割的性能。

在本文中,首先介紹一種名為表面法線估計器(SNE)的新型模塊,該模塊可以從密集的視差/深度圖像中以高精度和高效率推斷出表面法線信息。此外,設計了一種名為RoadSeg的數據融合CNN架構,該架構能夠將RGB和表面法線信息合併到語義分割中,以進行準確的自由空間檢測。由於現有的具有各種光照和天氣條件的自由空間檢測數據集既沒有視差/深度信息也沒有自由空間ground truth,因此本文創建了一個大規模的合成自由空間檢測數據集,稱為「 Ready-to-Drive(R2D)」道路數據集(包含11430對RGB和深度圖像),涵蓋了在不同的光照和天氣條件下的道路數據,同時R2D道路數據集也可以公開用於研究目的。為了驗證引入的SNE模塊的可行性和有效性,實驗部分使用了三個道路數據集(KITTI 、SYNTHIA [和我們的R2D)訓練了十個最新的CNN(六個單模態CNN網絡和四個數據融合CNN網絡),並且對嵌入或不嵌入SNE模塊進行對比。實驗表明,本文提出的SNE模塊可以使所有這些CNN在自由空間檢測任務上有性能提升。同樣,SNE-RoadSeg方法在自由空間檢測方面也優於其他CNN,其整體性能在KITTI道路基準benchmark上排名第二。

本文方法:SNE-RoadSeg

圖1:SNE-RoadSeg的網絡結構。它由SNE模塊,一個RGB編碼器,一個表面法線編碼器和一個具有緊密連接的skip連接的解碼器組成。s代表RGB的輸入解析度和深度圖像。cn代表不同級別的特徵圖通道數。

1、SNE

SNE是基於最近的工作《Three-filters-to-normal: An accurate and ultrafast surface normal estimato》(3F2N)開發出來的。其架構如圖2所示。對於透視相機模型,可以使用以下公式將歐幾裡得坐標系中的3D點與2D圖像像素點連接起來:

其中,K是相機內在矩陣,(xo,yo)是圖像中心;fx和fy是相機焦距(以像素為單位)。估計P表面的法線向量的方法是:

由上面兩個式子可以得出:

對x、y分別求微分可以得到:

如圖2所示,可以分別用水平和垂直圖像梯度濾波器對反深度圖像1 / Z(或視差圖像與深度成反比)進行卷積來分別近似。對上面的式子進行變形,可以得到nx、ny的表達式:

而nz為:

由此,獲得的表面法向量為:

由於任何歸一化表面法線都可以投影在中心為(0,0,0)且半徑為1的球體上,因此最佳表面法線也可以投影在同一球體上的某個地方,用以下球坐標公式表示:

其中,

具體推導細節可以參考原文及其代碼實現。

2、RoadSeg

U-Net 已經證明了使用跳躍連接來恢復整個空間解析度的有效性。但是,它的跳躍連接僅在編碼器和解碼器的相同比例的特徵圖上強制聚合,作者認為這是不必要的約束。受到DenseNet 的啟發,本文提出了RoadSeg,它利用密集連接的跳躍連接在解碼器中實現靈活的特徵融合。

如圖1所示,本文提出的RoadSeg也採用了流行的編解碼器架構。採用RGB編碼器和表面法線編碼器分別從RGB圖像和推斷的表面法線信息中提取特徵圖。提取的RGB和表面法線特徵圖通過逐元素求和進行分層融合。然後通過密集連接的跳躍連接在融合器中再次融合特徵圖,以恢復特徵圖的解析度。在RoadSeg的末尾,使用一個Sigmoid層來生成用於語義駕駛場景分割的概率圖。

本文使用ResNet 作為RGB和表面法線編碼器的主幹網絡,它們的結構彼此相同。具體來說,初始塊由卷積層,批處理歸一化層和ReLU激活函數層組成。然後,依次採用最大池化層和四個殘差層,以逐漸降低解析度並增加特徵圖通道的數量。ResNet具有五種體系結構:ResNet-18,ResNet-34,ResNet-50,ResNet-101和ResNet-152。RoadSeg對於ResNet-18和ResNet-34,c0-c4的通道數分別為64、64、128,256和512,對於ResNet-50,ResNet-101和ResNet-152,c0-c4的通道數分別為64、256、512、1024和2048。。

解碼器由兩類不同的模塊組成:特徵提取器和上採樣層,這兩類模塊密集連接,實現靈活的特徵融合。採用特徵提取器從融合後的特徵圖中提取特徵,並保證特徵圖解析度不變。採用上採樣層來提高解析度,減少特徵圖通道。特徵提取器中的3個卷積層和上採樣層的卷積核大小相同,為3×3,步長相同,padding值相同,為1。

實驗與結果

數據集:DIODE dataset 、The KITTI road dataset 、The SYNTHIA road dataset 、本文的R2D road dataset(sites.google.com/view/sne-roadseg)

評價指標:AAE(average angular error)、準確率和召回率、F-score、IoU等

該部分使用這三個數據集來訓練10個最先進的CNNs,包括6個單模態CNNs和4個數據融合CNNs。用三種設置來進行單模態CNNs的實驗:a)用RGB圖像進行訓練,b)用深度圖像進行訓練,c)用表面法線圖像(用本文的SNE來從深度圖像中生成)進行訓練,分別表示為RGB、Depth和SNE-Depth。同樣,數據融合CNNs的實驗也是使用兩種設置進行的:使用RGB-D視覺數據進行訓練,有嵌入和沒有嵌入SNE,分別表示為RGBD和SNE-RGBD。為了比較提出的RoadSeg和其他最先進的CNNs之間的性能,用與數據融合CNNs相同的設置在三個數據集上訓練RoadSeg。此外,還重新訓練了SNE-RoadSeg,以便將結果提交給KITTI道路benchmark數據集上。

1、Performance Evaluation of Our SNE

準確度的評價:

從下圖可以看出,在室內和室外場景中,我們提出的SNE均優於SRI和LINE-MOD。

2、Performance Evaluation of Our SNE-RoadSeg

KITTI road benchmark上的對比

消融實驗

更多細節可參考論文原文。

相關焦點

  • 基於圖像的目標區域分割算法研究
    和Lantuejoul等人將其引入數字圖像處理,該算法是一種基於數學形態學的分割方法。研究發現,基於標記理論的分水嶺算法能有效抑制過分割現象。與傳統的分水嶺算法相比,該算法預先標記極小值(像素)點,較好的抑制了圖像過分割。從本質上看,是利用一種先驗知識來解決過度分割的問題。
  • 一種基於A*算法的用於道路場景的軌跡規劃方法
    一種基於A*算法的用於道路場景的軌跡規劃方法 李倩 發表於 2018-10-19 11:17:54 本文提出了一種基於A*算法的用於道路場景的軌跡規劃方法,該方法中
  • 快速圖像分割的SuperBPD方法
    Boundary-to-Pixel Direction for Fast Image Segmentationarxiv.org代碼下載地址:JianqiangWan/Super-BPDgithub.comAbstract本文提出了一種基於超邊界到像素方向的圖像快速分割方法和自定義分割算法
  • 提取圖像數據的特徵,讓機器「看見」
    ,基於結構形態的特徵提取與基於幾何分布的特徵提取。想要讓計算機處理這種視覺信息,就要將圖像的視覺信息轉化成計算機能夠識別和處理的定量形式,也就是圖像特徵提取。下面將介紹兩種方法--基於結構形態的特徵提取與基於幾何分布的特徵提取。
  • 基於深度學習的語義分割技術講解
    由於所有的像素都要考慮到,因此語義圖像分割任務也被視為是稠密預測的一種。在此,要區別一下實例分割(具體可參考著名的MaskRCNN模型),實例分割常常與目標檢測系統相互結合,用於檢測和分割場景中同一對象的多個實例。基於深度學習的語義分割方法:用卷積神經網絡分類(全卷積網絡),與普通網絡不同的是,分類層是卷積層,普通網絡為全連接層。
  • 圖像分割方法介紹及應用
    從數學角度來看,圖像分割是將數字圖像劃分成互不相交的區域的過程。圖像分割的過程也是一個標記過程,即把屬於同一區域的像素賦予相同的編號。現有的圖像分割方法主要分以下幾類:基於閾值的分割方法、基於區域的分割方法、基於邊緣的分割方法、基於特定理論的分割方法、基於小波變換的分割方法以及基於神經網絡的分割方法。
  • 基於Opencv的身份證圖像信息提取
    身份證信息提取要求:①能自動提取身份證的頭像部分②能自動識別身份證的號碼信息身份證不同區域的信息提取是基於對初步形成的連通域進行輪廓提取來實現的,該過程主要包括輪廓的檢測、輪廓的繪製以及區域的分割。輪廓是區域的邊緣列表,在圖像中邊緣一般定義為局部亮度變換最明顯的地方,主要存在於目標、背景和區域三者之間。
  • 基於深度學習方法的圖像分割
    Image Segmentation(圖像分割)網絡結構比較FCNImage Segmentation(圖像分割)族譜按分割目的劃分普通分割將不同分屬不同物體的像素區域分開。 如前景與後景分割開,狗的區域與貓的區域與背景分割開。
  • CVPR 2019 | GeoNet:基於測地距離的點雲分析深度網絡
    這啟發本文採取一種學習的方法來捕捉點雲的拓撲學結構。本文旨在開發一種針對潛在曲面拓撲學和物體幾何學的點雲數據的表示,進而提出一種利用已學習的拓撲學特徵分析測地性點雲的方法。為證明 GeoNet 表示的可用性,本文在一些需要理解潛在的表面拓撲學的經典任務上測試了該方法,具體包括點雲上採樣、法向量估計、網格重建以及非剛性形狀分類。為此,本文還結合了專為上述問題而設計的當前最優的架構。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    116600)DOI:摘 要 針對全景分割中實例目標邊緣特徵提取不足導致目標邊界分割失效的問題,提出一種創新的實例特徵深度鏈式學習全景分割網絡。函數為輸入向量的學習函數,學習函數由三層卷積層構成,進一步可表達為,其中表示激活函數ReLU。
  • 基於雙目立體視覺伺服的智能車室內彎道控制
    均採用的Hough變換求出車道線直線方程,從而確定對應直線段上的最低點和最高點,然後根據相應準則判斷曲線道路的彎曲方向,最後分段擬合車道線的直線段和曲線段實現車道線的二維重建。   彎道檢測不僅需要識別出道路邊界線,還需要判斷道路彎曲方向,確定轉彎的曲率半徑。常用的車道檢測方法可分為2大類:基於道路特徵和基於道路模型的方法。
  • 基於Milvus向量引擎的WPS智能寫作平臺架構實踐
    在 WPS 智能輔助寫作平臺重要組成部分的素材推薦模塊中,基於 Milvus 的向量處理模塊作為核心功能,發揮了極其重要的作用,其目標是在海量的文本中高效提取、存儲高質量公文素材,並針對不同用戶需求進行精準推薦。本案例的素材推薦服務按模塊可以分為數據處理模塊和編碼存儲模塊以及推薦查詢模塊。涉及到 Milvus 向量資料庫的主要是編碼存儲模塊以及推薦查詢模塊。
  • 基於三元組語義關係學習的遙感圖像變化檢測
    本文主要介紹一種基於三元組語義關係學習的深度學習遙感圖像變化檢測算法。本項工作由賽博智能團隊的張夢雅提出,相關論文已於2018年發表於IEEE Geoscience and Remote Sensing Letters。
  • 原理講解-項目實戰<->基於語義分割實現斑馬線道路劃分
    精選文章,第一時間送達 好久沒有更新語義分割系列的文章了,但是大家放心,我會持續更新的,話不多說,這期就講解基於MobileNet的SegNet語義分割實現斑馬線的劃分~ 還沒有看過的fans,可以先看一下哦~
  • 基於深度學習的語義分割綜述
    背景介紹圖像分割是許多視覺理解系統的重要組成部分。它包括將圖像(或視頻幀)分割成多個片段或對象。分割在醫學圖像分析(例如,腫瘤邊界提取和組織體積測量),自主載體(例如,可導航表面和行人檢測),視頻監控,和增強現實起到了非常重要的作用。
  • 基於膚色分割結合模板匹配的人臉檢測改進方法解析
    目前主要的人臉檢測方法可以分為基於特徵的方法和基於統計的方法兩大類。基於特徵的方法可以處理較大尺度和視角變化的人臉檢測問題,但其最大的困難在於很難找到相對穩定的特徵,因為圖像的顯示特徵容易受到光照、噪聲等的影響;基於統計的方法可以避免特徵提取和分析過程,但存在計算量大,以及非人臉樣本收集和樣本訓練難的問題。
  • 漫談詞向量之基於Softmax與Sampling的方法
    為了得到上式的分母部分,需要計算向量h與詞典V中每個詞語向量之間的內積。因此,計算softmax的代價非常昂貴。接下來,我們將討論幾種能夠近似替代softmax的策略。這些方法可以歸納為基於softmax的和基於sampling的兩大類。基於softmax的方法仍舊保留了模型的softmax層,但是通過調整其結構來提高效率。
  • 基於Python 的自動文本提取:抽象法和生成法的比較
    文本摘要有兩種基本方法:提取法和抽象法。前者從原始文本中提取單詞和單詞短語來創建摘要。後者學習內部語言表示以生成更像人類的摘要,來解釋原始文本的意圖。文本摘要有兩種基本方法:提取和抽象。gensim.summarization模塊實現了TextRank,這是一種Mihalcea等人的論文中基於加權圖的無監督算法。
  • 天然食用色素的種類及提取方法的種類及提取方法
    色素是指使有機體具有各種不同顏色的物質,其中可食用的色素經開發提取後,作為一種重要的食品添加劑廣泛應用於食品的生產和研究中
  • 【神技】速算法向量的兩種方法
    例如,法向量的求法:以上過程需要寫出方程組並將其解出,對於一般同學來說是存在困難的,大多數情況還會有一些比較奇特的數字,實在不容易求解,若是還帶有參數那感覺就是一個酸爽...今天就和大家分享業內成熟的兩種速算法向量的方法,第一種:彈指法(呃,誰取的名字?咋不說六脈神劍?)