摘要:基於視覺的交通場景語義分割在智能車輛中起著重要作用。在這篇論文中,我們提出了一種新的實時深度完全卷積神經網絡( FCNN ),用於具有六個通道輸入的像素分割。六個通道輸入包括RGB三通道彩色圖像、由立體視覺傳感器生成的視差( D )圖像、描述道路地面上方每個像素的高度( H )的圖像以及描述每個像素法線方向和預測重力方向之間的角度( A )的圖像,它們被定義為RGB - DHA多特徵地圖。基於AlexNet對FCNN進行了簡化和修改,以滿足智能車輛對環境感知的實時要求。該算法在Cityscapes數據集上進行了測試和比較,使用一個Titan X GPU為400×200解析度圖像提供了73.4%和22ms的全局精度。
關鍵詞——智能車輛、交通場景分割、多特徵地圖、深度學習
作者:Linhui Li, Weina Zheng, Lingchao Kong, mit zgüner, Wenbin Hou, Jing Lian*
Ⅰ.介紹
交通場景分割是智能車輛在檢測障礙物、規劃路徑和自主導航中的基本任務。語義分割,也稱為圖像分析或圖像理解[1],旨在將圖像劃分為預定義的非重疊區域並將其轉換為抽象語義信息。近年來,隨著計算機硬體特別是圖形處理單元(GPU)的快速發展,大規模標記數據的出現,深度卷積神經網絡(CNNs)在圖像分類和目標檢測中的應用迅速發展,並已成為當前主流的圖像分割方法。最近,大多數研究都致力於通過使網絡更深更廣來提高語義分割的準確性。然而,增加參數往往以犧牲計算機的內存為代價,並導致網絡速度較慢。因此,如何在保證實時功能的前提下提高準確性是深度學習中最重要的任務之一。
深度傳感器的出現使得可以獲得深度信息,其包含比RGB圖像更多的位置信息。將深度圖應用於圖像語義分割有兩種方法:一種是將原始深度圖像和RGB圖像組合成四通道RGB-D圖像作為CNN輸入[2] - [4];另一種是將包含更豐富深度信息和RGB圖像的圖像分別輸入到兩個CNN中[5] - [7]。具體地,藉助於關於深度圖像中提供的對象關係的豐富信息,兩種方法都可以實現比僅使用RGB圖像更好的性能。但是,將數據輸入兩個CNN會增加導致網絡速度變慢的參數數量。因此,在本文中,為了提高精度,將視差、高度和角度圖(DHA)與RGB圖像融合成6通道RGB-DHA圖並直接用作輸入數據。
本文著重於構建一個性能良好的快速功能語義分割網絡,特別是對於駕駛員更關心的道路目標。因此,提出了一種新的網絡架構,然後添加深度圖及其導出的高度和範數角度圖來訓練網絡以獲得更高的精度。主要工作如下:
一個名為D-AlexNet網絡的完全卷積神經網絡是基於AlexNet [8]開發的,它具有一個包含多個卷積層的簡單結構,以提高網絡的前向速度。D-AlexNet實現2.2x +參考加速,並將參數減少39倍以上。6通道RGB-DHA地圖可以在語義分割中獲得比僅使用RGB圖像作為輸入更好的結果,尤其是用於識別交通場景中的道路目標,例如行人和汽車。Ⅱ. 相關工作
A.RGB語義分割
完全卷積網絡(FCN)[9]用卷積層替換傳統神經網絡的最後一個完全連接層,這為FCN應用於語義分割奠定了基礎。由L.C.Chen等人提出的Deeplab [10]通過使用孔算法減小步幅和條件隨機場來微調網絡獲得了更好的結果。 SegNet [11],[12]通過使用編碼器 - 解碼器結構從較高層恢復具有來自較低層的空間信息的特徵圖來實現像素級語義分割。在[13],[14]中,使用多尺度特徵集合來提高性能。 PSPNet [15]通過聚合上下文信息來完成預測。
在現有硬體上實時執行分段。一些方法已被用於加速網絡。 SegNet [12]通過減少網絡中的層數來提高前向速度。 A. Chaurasia等。 [16]直接將編碼器塊連結到相應的解碼器以減少處理時間。 Z. Hengshuang等[17] 提出了基於壓縮PSPNet的圖像級聯網絡,該網絡在適當的標籤指導下包含多解析度分支,以產生實時推斷。
B.具有深度信息的語義分割
與單個RGB圖像相比,深度圖包含更多位置信息,這有利於語義分割。在[18]中,原始深度圖像被簡單地視為單通道圖像,然後應用CNN來提取室內語義分割的特徵。在[5]中,深度信息被用作三個通道:水平視差、地面高度和範數角。Qi等人 [19]提出了一個3D圖形神經網絡(3DGNN),它建立了k-最近鄰圖,並最終提升了預測。上述工作證明,使用更多特徵信息作為訓練網絡的輸入有助於提高語義分割的準確性。
III.網絡體系結構
一般而言,使用更深層的網絡結構將得到更好的語義分割,儘管它通常以犧牲具有許多訓練參數和更長的運行時間為代價,這不能滿足智能駕駛的實時要求。為了直觀地解決這個問題,我們認為減少網絡參數和簡化網絡模型可以加速網絡,而且,添加深度信息可以提高網絡性能。由AlexNet [8]和N. Hyeonwoo [20]提出的基於VGG16網絡的編碼器 - 解碼器網絡架構的推動,我們提出的深度完全卷積神經網絡架構如圖1所示,包括11個卷積層、3個匯集層、3個上採樣層和1個softmax層。
在新的網絡結構中,AlexNet通過以下方式進行修改,使其適用於像素級語義分段任務:
為了使網絡適應不同大小的圖像,刪除了AlexNet的完整連接層。然後,第一卷積層的步幅從4變為1,最大匯集層的內核大小從3×3變為2×2。實驗結果表明,卷積層中包結構的存在不能提高最終語義分割的準確性。因此,我們刪除了第二、第四和第五卷積數據包並刪除了兩個LRN層。內部協變量的存在將增加深度網絡訓練的難度。 本文在每個卷積層和ReLU層之間添加了批量歸一化層來解決這個問題。所有卷積層的卷積核被統一為3×3大小,卷積核輸出的數量為96。參考Z.D.Matthew等人使用的上採樣方法[21],我們在匯集過程中記錄每個匯集窗口的最大特徵值位置,並將其置於上採樣過程中的相應位置。解碼器是編碼器的鏡像結構,除了其內核大小為1×1的第六個卷積層。解碼器網絡的輸出是K個特徵映射,然後將其饋送到softmax層以產生K通道類概率圖,其中K是類的數量。分割的結果是圖像的每個像素對應於具有最大預測概率的類。
Ⅳ.多特徵地圖
與使用原始深度信息學習深度網絡相比,DHA圖像可以包含更豐富的圖像特徵信息。該過程包括以下步驟。
A.水平視差圖
從Cityscapes數據集獲得的左圖像和右圖像可用於生成具有立體匹配算法的視差圖。根據匹配程度,立體視覺匹配算法可以分為三類:局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法獲得最高的匹配精度和最差的實時性能。局部匹配算法是最快的,但其匹配精度非常低。
圖1. D-AlexNet網絡的結構
半全局匹配算法可以更好地匹配精度和實時計算需求,因此本文選擇此方法來獲取視差圖。
M. Dongbo [22]提出的邊緣保持平滑方法用於通過優化粗略視差圖並使視差值更連續來提高分割精度。
B. 地面以上的高度
基於所獲得的視差圖,可以通過等式(1)和(2)獲得對應於圖像坐標系中的P'(u,v)像素的世界坐標系中的P(x,y,z)點,
其中x和y是世界坐標系中點P的坐標,z是點P和相機之間的距離,f和b分別是攝像機的焦距和兩個攝像機的基線長度,fy和Cy是相機的內部參數,y是像素的高度。由於攝像機的安裝不能保證與地平面完全平行,因此需要進行校正。選擇視差圖中的地面區域的一部分,並且使用最小二乘法來擬合地面。通過假設擬合的地平面方程是Y = aX + bZ + c,a,b和c的值可以通過等式(3)獲得。在校正地之後,可以通過等式(4)獲得實際像素高度。
在高度圖中,天空、建築物和樹對應於較大的高度值,而諸如車輛和行人的較重要的對象對應於相對較小的高度值。為了突出重要目標,使用等式(5)來變換對應於每個像素的高度值,以生成高度值在0到255之間的高度圖像。
C.曲面法線
對於城市交通場景,一般來說,路面是水平的,物體的表面,如建築物、交通標誌、車輛等是垂直的。根據這些特徵,可以使用算法在儘可能多的點上找到與局部估計的表面法線方向最對齊或最正交的方向。因此,為了利用這種結構,由G . Saurabh等人提出的算法[ 5 ]用於確定重力方向。
最後,通過計算像素法線方向和預測重力方向之間的角度,可以獲得所需的角度信息。
V. 實驗與分析
實驗是在Caffe學習平臺上進行的。此外,我們的所有實驗都是在表I所示的軟體和硬體上進行的。
A.數據集和評估指標
我們將我們的系統應用於最近的城市場景理解數據——城市風景,其中包含5000幅精細和20000幅粗注釋圖像。此外,數據集提供由立體相機捕獲的左視圖和右視圖,從而提供獲得視差圖和深度圖的機會。在這篇論文中,選擇了5000幅經過精細注釋的圖像,並將其分成訓練、驗證和測試集。這些集合分別包含2,975,500和1,525幅圖像。圖像大小被轉換為200×400,以縮短訓練時間並減少內存消耗。為了標記重要的交通信息,交通場景分為11種類別包括道路、道路邊界、建築物、電線桿、交通標誌、樹木、草坪、天空、人、汽車、自行車或摩託車,全局準確率和網絡轉發時間都被用於評估。
B.訓練過程
在訓練過程中,卷積層的權重以與AlexNet相同的方式初始化,以及H.Kaiming等人使用的方法[23]用於初始化批量標準化層的重量。交叉熵被用作訓練網絡和計算損失值的損失函數。在反向傳播階段,採用隨機梯度下降來優化網絡權重。初始學習率和動量分別設定為0.01和0.9。另外,將重量衰減設定為0.0005以防止網絡過度擬合。值得注意的是,為了保持數據的純度並簡化培訓過程,我們在沒有數據增加的情況下訓練我們的網絡,並且沒有使用其他數據集的預訓練模型。
對於每300個培訓時間,我們對驗證集進行了準確性評估並保存了快照。基於RGB-DHA圖像的驗證準確度,訓練損失值曲線如圖2所示。更多迭代可能意味著更高的準確度。但是,當準確度和損失開始收斂時,停止訓練是可行的。因此,對網絡進行了10000次迭代訓練,選擇具有最高精度的Caffe模型作為最終用於場景分割的模型。
圖2.不同網絡的訓練損失和準確度曲線。
C.比較和分析
我們首先評估了我們提出的網絡如何有效地加速語義分割,將SegNet [11]和SegNet-basic [12]作為基線。當將RGB圖像和RGB-DHA圖像作為輸入數據時,網絡的性能結果如表II所示。我們提出的網絡結構比SegNet快2.2倍,比SegNet-basic快1.8倍。從圖2和表II中我們可以發現,我們提出的架構可以通過競爭性分段結果獲得更好的實時結果。此外,對於每個網絡幀,使用RGB-DHA圖像獲得的驗證精度高於使用RGB圖像獲得的驗證精度,這也表明更多特徵信息對於改善網絡性能是有用的。
圖3.測試集中的語義分段結果示例
為了進一步了解每個特徵圖中的效率增益,我們首先將從第4節獲得的三個特徵圖與RGB圖像合併為4通道圖像,然後將所有3個特徵圖像與RGB圖像合併為6通道圖像。之後,4通道和6通道圖像都被用作訓練網絡的輸入數據。測試結果如表Ⅲ所示,從中可以得出結論:與基於3通道圖像的圖像相比,基於4通道和6通道圖像的分割精度明顯提高。在相同的訓練參數下,從RGB-D,RGB-H,RGB-A和RGB-DHA圖像獲得的全局精度比從原始RGB圖像獲得的全局精度分別為3.7%、2.1%、3%和4%。 以RDB-DHA 6通道圖像為輸入,我們提出的系統最終實現了73.4%的分割精度。
圖3顯示了我們的網絡模型的測試集上的語義分段結果,分別以3通道,4通道和6通道作為輸入。如圖所示,基於RGB圖像獲得的分割結果有時是粗糙的,並且在道路上或在不同類別的邊界輪廓周圍存在許多錯誤分類的像素。例如,在圖3(b)的左圖中,路面中的許多像素被錯誤分類為人行道。基於四通道圖像的效果通常比基於RGB三通道圖像的效果更好,並且RGB-DHA圖像可以進一步提高分割精度,其顯示更少的錯誤分類點。
此外,當使用RGB-DHA圖像作為淨輸入時,諸如行人和汽車的道路目標比使用RGB圖像作為淨輸入具有更高的分段精度。例如,行人段準確度從79%上升到84%,汽車段精度從85.8%上升到91%。一些細節比較如圖4所示。可以看出,圖4(c)和圖4(f)中的行人和汽車具有比圖4(b)和圖4(e)更清晰的輪廓,這將有助於不同道路目標的行為分析。
圖4.行人和汽車的詳細比較示例。
VI.結論
本文提出了一種基於新型深度完全卷積網絡(D-AlexNet)和多特徵映射(RGB-DHA)的交通場景語義分割方法。對於Titan X GPU上的每個400×200解析度圖像,網絡可以實現22ms的良好實時性能。從原始RGB圖像獲得視差圖、高度圖和角度圖,並融合成6通道圖像以訓練網絡。實驗表明,與使用RGB圖像作為輸入相比,使用多特徵圖作為網絡的輸入可以實現4%更高的分割精度。在未來,我們將重點關注更高效的深度網絡,以聯合語義分割,目標跟蹤和參數識別。
致謝
作者要感謝鄭仁成博士對富有成果的討論所做的貢獻。
REFERENCES
[1] W. Fan, A. Samia, L. Chunfeng and B.Abdelaziz, 「Multimodality semantic segmentation based on polarization and colorimages,」 Neurocomputing, vol. 253, pp. 193-200, Aug. 2017.
[2] L. Linhui, Q. Bo, L. Jing, Z. Weina andZ. Yafu, 「Traffic scene segmentation based on RGB-D image and deep learning(Periodical style—Submitted for publication),」 IEEE Transactions on IntelligentTransportation Systems, submitted for publication.
[3] F. David, B. Emmanuel, B. Stéphane, D,Guillaume, G. Alexander et al, 「RGBD object recognition and visual texture classification for indoorsemantic mapping,」 in IEEE International Conference on Technologies forPractical Robot Applications, Woburn, 2012, pp. 127-132.
[4] H. Farzad, S. Hannes, D. Babette, T.Carme and B. Sven, 「Combining semantic and geometric features for object classsegmentation of indoor scenes,」 IEEE Robotics & Automation Letters, vol. 2,no. 1, pp. 49-55, Jan. 2017.
[5] G. Saurabh, G. Ross, A. Pablo and M. Jitendra,「Learning rich features from RGB-D images for object detection andsegmentation,」 Lecture Notes in Computer Science, vol. 8695 LNCS, no. PART 7,pp. 345-360, 2014.
[6] G. Yangrong and C. Tao, 「Semanticsegmentation of RGBD images based on deep depth regression (Periodicalstyle—Submitted for publication),」 Pattern Recognition Letters, submitted forpublication.
[7] E. David and F. Rob, 「Predicting Depth,Surface Normals and Semantic Labels with a Common Multi-scale Convolutional Architecture,」in Proceedings of the IEEE International Conference on
Computer Vision, Santiago, Feb. 2015, pp.2650-2658.
[8] K. Alex, S. Ilya and H. E. Geoffrey,「ImageNet classification with deep convolutional neural networks,」 Communicationsof the ACM, vol. 60, no. 6, pp. 84-90, June 2017.
[9] S. Evan, L. Jonathan and D. Trevor, 「Fullyconvolutional networks for semantic segmentation,」 IEEE Transactions on PatternAnalysis and Machine Intelligence, vol. 39, no. 4, pp. 640-651, Apr. 2017.
[10] L. C. Chen, G. Papandreou, I. Kokkinos,K. Murphy and A. L. Yuille, 「Deeplab: semantic image segmentation with deep convolutional nets, atrousconvolution, and fully connected CRFs (Periodical style—Submitted forpublication),」 IEEE Transactions on Pattern Analysis and Machine Intelligence,submitted for publication.[11] V. Badrinarayanan, A. Handa and R.Cipolla. 「Segnet: a deep convolutional encoder-decoder architecture for robustsemantic pixel-wise labelling,」 Computer Science, May 2015.
[12] V. Badrinarayanan, A. Kendall and R.Cipolla, 「Segnet: a deep convolutional encoder-decoder architecture for scenesegmentation,」 IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 39, no. 12, pp. 2481-2495, Dec. 2017.
[13] F. Xia, P. Wang, L. C. Chen and A. L.Yuille, 「Zoom better to see clearer: human and object parsing with hierarchicalauto-zoom net,」 in European Conference on Computer Vision, Switzerland, 2016,pp.648-663.
[14] C. Liang-Chieh, Y. Yi, W. Jiang, X. Weiand Y. L. Alan, 「Attention to scale: Scale-aware semantic image segmentation,」in Proceedings of the IEEE Computer Society Conference on Computer Vision and PatternRecognition, Las Vegas, July 2016, pp. 3640-3649.
[15] Z. Hengshuang, S. Jianping, Q. Xiaojuan,W. Xiaogang and J. Jiaya,「Pyramid scene parsing network,」 in the IEEE Conference on ComputerVision and Pattern Recognition, Honolulu, 2017, pp. 2881-2890.
[16] A. Chaurasia, and E. Culurciello,「Linknet: exploiting encoder representations for efficient semanticsegmentation,」 arXiv preprint arXiv: 1707.03718, 2017.
[17] Z. Hengshuang, Q. Xiaojuan, S. Xiaoyong,S. Jianping and J. Jiaya,「ICNet for Real-Time Semantic Segmentation on High-Resolution Images,」arXiv preprint, arXiv:1704.08545, 2017.
[18] H. Caner, M. Lingni, D. Csaba and C. Daniel.「FuseNet: Incorporating depth into semantic segmentation via fusion-based CNNarchitecture,」 in 13th Asian Conference on Computer Vision, Taipei, Nov. 2016,vol. 10111 LNCS, pp. 213-228.
[19] Q. Xiaojuan, L.Renjie, J. Jiaya, F.Sanja and U. Raquel, 「3D Graph Neural Networks for RGBD Semantic Segmentation,」in IEEE International Conference on Computer Vision, Venice, Oct, 2017, pp. 5209-5218.
[20] N. Hyeonwoo, H. Seunghoon and H.Bohyung, 「Learning deconvolution network for semantic segmentation,」 inProceedings of the IEEE International Conference on Computer Vision, Santiago,Feb. 2015, pp. 1520-1528.
[21] Z. D. Matthew and F. Rob, 「Visualizingand Understanding Convolutional Networks,」 in 13th European Conference onComputer Vision. Sep. 2014, Vol. 8689 LNCS, no. PART 1, pp. 818-833.
[22] M. Dongbo, C. Sunghwan, L. Jiangbo, H.Bumsub, S. Kwanghoon and D. N. Minh, 「Fast global image smoothing based onweighted least squares,」 IEEE Transactions on Image Processing, vol. 23, no.12, pp. 5638-5653, Dec. 2014.
[23] H. Kaiming, Z. Xiangyu, R. Shaoqing andS. Jian. 「Delving deep into rectifiers: Surpassing human-level performance onimagenet classification,」 in Proceedings of the IEEE International Conference onComputer Vision, Santiago, Dec. 2015, pp. 1026-1034.
作者情況:
*Resrach supported by the National Natural Science Foundation of China (Grant Nos. 51775082, 61473057 and 61203171) and the China Fundamental Research Funds for the Central Universities (Grant Nos. DUT17LAB11 and DUT15LK13).
L. Li, W. Zheng, L. Kong, W. Hou and J. Lian are with the School of Automotive Engineering, Faculty of Vehicle Engineering and Mechanics, Dalian University of Technology, Dalian 116024, China. And J. Lian is the corresponding author. (e-mail: lilinhui@dlut.edu.cn;zhengweina_1993@mail.dlut.edu.cn;31703177klc@mail.dlut.edu.cn;houwb@dlut.edu.cn; lianjing@dlut.edu.cn).
mit zgüner is with the Department of Electrical and Computer Engineering, The Ohio State University, Columbus, OH, 43210 USA (e-mail: ozguner.1@osu.edu).