基於多特徵地圖和深度學習的實時交通場景分割

2020-12-05 百家號

摘要:基於視覺的交通場景語義分割在智能車輛中起著重要作用。在這篇論文中,我們提出了一種新的實時深度完全卷積神經網絡( FCNN ),用於具有六個通道輸入的像素分割。六個通道輸入包括RGB三通道彩色圖像、由立體視覺傳感器生成的視差( D )圖像、描述道路地面上方每個像素的高度( H )的圖像以及描述每個像素法線方向和預測重力方向之間的角度( A )的圖像,它們被定義為RGB - DHA多特徵地圖。基於AlexNet對FCNN進行了簡化和修改,以滿足智能車輛對環境感知的實時要求。該算法在Cityscapes數據集上進行了測試和比較,使用一個Titan X GPU為400×200解析度圖像提供了73.4%和22ms的全局精度。

關鍵詞——智能車輛、交通場景分割、多特徵地圖、深度學習

作者:Linhui Li, Weina Zheng, Lingchao Kong, mit zgüner, Wenbin Hou, Jing Lian*

Ⅰ.介紹

交通場景分割是智能車輛在檢測障礙物、規劃路徑和自主導航中的基本任務。語義分割,也稱為圖像分析或圖像理解[1],旨在將圖像劃分為預定義的非重疊區域並將其轉換為抽象語義信息。近年來,隨著計算機硬體特別是圖形處理單元(GPU)的快速發展,大規模標記數據的出現,深度卷積神經網絡(CNNs)在圖像分類和目標檢測中的應用迅速發展,並已成為當前主流的圖像分割方法。最近,大多數研究都致力於通過使網絡更深更廣來提高語義分割的準確性。然而,增加參數往往以犧牲計算機的內存為代價,並導致網絡速度較慢。因此,如何在保證實時功能的前提下提高準確性是深度學習中最重要的任務之一。

深度傳感器的出現使得可以獲得深度信息,其包含比RGB圖像更多的位置信息。將深度圖應用於圖像語義分割有兩種方法:一種是將原始深度圖像和RGB圖像組合成四通道RGB-D圖像作為CNN輸入[2] - [4];另一種是將包含更豐富深度信息和RGB圖像的圖像分別輸入到兩個CNN中[5] - [7]。具體地,藉助於關於深度圖像中提供的對象關係的豐富信息,兩種方法都可以實現比僅使用RGB圖像更好的性能。但是,將數據輸入兩個CNN會增加導致網絡速度變慢的參數數量。因此,在本文中,為了提高精度,將視差、高度和角度圖(DHA)與RGB圖像融合成6通道RGB-DHA圖並直接用作輸入數據。

本文著重於構建一個性能良好的快速功能語義分割網絡,特別是對於駕駛員更關心的道路目標。因此,提出了一種新的網絡架構,然後添加深度圖及其導出的高度和範數角度圖來訓練網絡以獲得更高的精度。主要工作如下:

一個名為D-AlexNet網絡的完全卷積神經網絡是基於AlexNet [8]開發的,它具有一個包含多個卷積層的簡單結構,以提高網絡的前向速度。D-AlexNet實現2.2x +參考加速,並將參數減少39倍以上。6通道RGB-DHA地圖可以在語義分割中獲得比僅使用RGB圖像作為輸入更好的結果,尤其是用於識別交通場景中的道路目標,例如行人和汽車。Ⅱ. 相關工作

A.RGB語義分割

完全卷積網絡(FCN)[9]用卷積層替換傳統神經網絡的最後一個完全連接層,這為FCN應用於語義分割奠定了基礎。由L.C.Chen等人提出的Deeplab [10]通過使用孔算法減小步幅和條件隨機場來微調網絡獲得了更好的結果。 SegNet [11],[12]通過使用編碼器 - 解碼器結構從較高層恢復具有來自較低層的空間信息的特徵圖來實現像素級語義分割。在[13],[14]中,使用多尺度特徵集合來提高性能。 PSPNet [15]通過聚合上下文信息來完成預測。

在現有硬體上實時執行分段。一些方法已被用於加速網絡。 SegNet [12]通過減少網絡中的層數來提高前向速度。 A. Chaurasia等。 [16]直接將編碼器塊連結到相應的解碼器以減少處理時間。 Z. Hengshuang等[17] 提出了基於壓縮PSPNet的圖像級聯網絡,該網絡在適當的標籤指導下包含多解析度分支,以產生實時推斷。

B.具有深度信息的語義分割

與單個RGB圖像相比,深度圖包含更多位置信息,這有利於語義分割。在[18]中,原始深度圖像被簡單地視為單通道圖像,然後應用CNN來提取室內語義分割的特徵。在[5]中,深度信息被用作三個通道:水平視差、地面高度和範數角。Qi等人 [19]提出了一個3D圖形神經網絡(3DGNN),它建立了k-最近鄰圖,並最終提升了預測。上述工作證明,使用更多特徵信息作為訓練網絡的輸入有助於提高語義分割的準確性。

III.網絡體系結構

一般而言,使用更深層的網絡結構將得到更好的語義分割,儘管它通常以犧牲具有許多訓練參數和更長的運行時間為代價,這不能滿足智能駕駛的實時要求。為了直觀地解決這個問題,我們認為減少網絡參數和簡化網絡模型可以加速網絡,而且,添加深度信息可以提高網絡性能。由AlexNet [8]和N. Hyeonwoo [20]提出的基於VGG16網絡的編碼器 - 解碼器網絡架構的推動,我們提出的深度完全卷積神經網絡架構如圖1所示,包括11個卷積層、3個匯集層、3個上採樣層和1個softmax層。

在新的網絡結構中,AlexNet通過以下方式進行修改,使其適用於像素級語義分段任務:

為了使網絡適應不同大小的圖像,刪除了AlexNet的完整連接層。然後,第一卷積層的步幅從4變為1,最大匯集層的內核大小從3×3變為2×2。實驗結果表明,卷積層中包結構的存在不能提高最終語義分割的準確性。因此,我們刪除了第二、第四和第五卷積數據包並刪除了兩個LRN層。內部協變量的存在將增加深度網絡訓練的難度。 本文在每個卷積層和ReLU層之間添加了批量歸一化層來解決這個問題。所有卷積層的卷積核被統一為3×3大小,卷積核輸出的數量為96。參考Z.D.Matthew等人使用的上採樣方法[21],我們在匯集過程中記錄每個匯集窗口的最大特徵值位置,並將其置於上採樣過程中的相應位置。解碼器是編碼器的鏡像結構,除了其內核大小為1×1的第六個卷積層。解碼器網絡的輸出是K個特徵映射,然後將其饋送到softmax層以產生K通道類概率圖,其中K是類的數量。分割的結果是圖像的每個像素對應於具有最大預測概率的類。

Ⅳ.多特徵地圖

與使用原始深度信息學習深度網絡相比,DHA圖像可以包含更豐富的圖像特徵信息。該過程包括以下步驟。

A.水平視差圖

從Cityscapes數據集獲得的左圖像和右圖像可用於生成具有立體匹配算法的視差圖。根據匹配程度,立體視覺匹配算法可以分為三類:局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法獲得最高的匹配精度和最差的實時性能。局部匹配算法是最快的,但其匹配精度非常低。

圖1. D-AlexNet網絡的結構

半全局匹配算法可以更好地匹配精度和實時計算需求,因此本文選擇此方法來獲取視差圖。

M. Dongbo [22]提出的邊緣保持平滑方法用於通過優化粗略視差圖並使視差值更連續來提高分割精度。

B. 地面以上的高度

基於所獲得的視差圖,可以通過等式(1)和(2)獲得對應於圖像坐標系中的P'(u,v)像素的世界坐標系中的P(x,y,z)點,

其中x和y是世界坐標系中點P的坐標,z是點P和相機之間的距離,f和b分別是攝像機的焦距和兩個攝像機的基線長度,fy和Cy是相機的內部參數,y是像素的高度。由於攝像機的安裝不能保證與地平面完全平行,因此需要進行校正。選擇視差圖中的地面區域的一部分,並且使用最小二乘法來擬合地面。通過假設擬合的地平面方程是Y = aX + bZ + c,a,b和c的值可以通過等式(3)獲得。在校正地之後,可以通過等式(4)獲得實際像素高度。

在高度圖中,天空、建築物和樹對應於較大的高度值,而諸如車輛和行人的較重要的對象對應於相對較小的高度值。為了突出重要目標,使用等式(5)來變換對應於每個像素的高度值,以生成高度值在0到255之間的高度圖像。

C.曲面法線

對於城市交通場景,一般來說,路面是水平的,物體的表面,如建築物、交通標誌、車輛等是垂直的。根據這些特徵,可以使用算法在儘可能多的點上找到與局部估計的表面法線方向最對齊或最正交的方向。因此,為了利用這種結構,由G . Saurabh等人提出的算法[ 5 ]用於確定重力方向。

最後,通過計算像素法線方向和預測重力方向之間的角度,可以獲得所需的角度信息。

V. 實驗與分析

實驗是在Caffe學習平臺上進行的。此外,我們的所有實驗都是在表I所示的軟體和硬體上進行的。

A.數據集和評估指標

我們將我們的系統應用於最近的城市場景理解數據——城市風景,其中包含5000幅精細和20000幅粗注釋圖像。此外,數據集提供由立體相機捕獲的左視圖和右視圖,從而提供獲得視差圖和深度圖的機會。在這篇論文中,選擇了5000幅經過精細注釋的圖像,並將其分成訓練、驗證和測試集。這些集合分別包含2,975,500和1,525幅圖像。圖像大小被轉換為200×400,以縮短訓練時間並減少內存消耗。為了標記重要的交通信息,交通場景分為11種類別包括道路、道路邊界、建築物、電線桿、交通標誌、樹木、草坪、天空、人、汽車、自行車或摩託車,全局準確率和網絡轉發時間都被用於評估。

B.訓練過程

在訓練過程中,卷積層的權重以與AlexNet相同的方式初始化,以及H.Kaiming等人使用的方法[23]用於初始化批量標準化層的重量。交叉熵被用作訓練網絡和計算損失值的損失函數。在反向傳播階段,採用隨機梯度下降來優化網絡權重。初始學習率和動量分別設定為0.01和0.9。另外,將重量衰減設定為0.0005以防止網絡過度擬合。值得注意的是,為了保持數據的純度並簡化培訓過程,我們在沒有數據增加的情況下訓練我們的網絡,並且沒有使用其他數據集的預訓練模型。

對於每300個培訓時間,我們對驗證集進行了準確性評估並保存了快照。基於RGB-DHA圖像的驗證準確度,訓練損失值曲線如圖2所示。更多迭代可能意味著更高的準確度。但是,當準確度和損失開始收斂時,停止訓練是可行的。因此,對網絡進行了10000次迭代訓練,選擇具有最高精度的Caffe模型作為最終用於場景分割的模型。

圖2.不同網絡的訓練損失和準確度曲線。

C.比較和分析

我們首先評估了我們提出的網絡如何有效地加速語義分割,將SegNet [11]和SegNet-basic [12]作為基線。當將RGB圖像和RGB-DHA圖像作為輸入數據時,網絡的性能結果如表II所示。我們提出的網絡結構比SegNet快2.2倍,比SegNet-basic快1.8倍。從圖2和表II中我們可以發現,我們提出的架構可以通過競爭性分段結果獲得更好的實時結果。此外,對於每個網絡幀,使用RGB-DHA圖像獲得的驗證精度高於使用RGB圖像獲得的驗證精度,這也表明更多特徵信息對於改善網絡性能是有用的。

圖3.測試集中的語義分段結果示例

為了進一步了解每個特徵圖中的效率增益,我們首先將從第4節獲得的三個特徵圖與RGB圖像合併為4通道圖像,然後將所有3個特徵圖像與RGB圖像合併為6通道圖像。之後,4通道和6通道圖像都被用作訓練網絡的輸入數據。測試結果如表Ⅲ所示,從中可以得出結論:與基於3通道圖像的圖像相比,基於4通道和6通道圖像的分割精度明顯提高。在相同的訓練參數下,從RGB-D,RGB-H,RGB-A和RGB-DHA圖像獲得的全局精度比從原始RGB圖像獲得的全局精度分別為3.7%、2.1%、3%和4%。 以RDB-DHA 6通道圖像為輸入,我們提出的系統最終實現了73.4%的分割精度。

圖3顯示了我們的網絡模型的測試集上的語義分段結果,分別以3通道,4通道和6通道作為輸入。如圖所示,基於RGB圖像獲得的分割結果有時是粗糙的,並且在道路上或在不同類別的邊界輪廓周圍存在許多錯誤分類的像素。例如,在圖3(b)的左圖中,路面中的許多像素被錯誤分類為人行道。基於四通道圖像的效果通常比基於RGB三通道圖像的效果更好,並且RGB-DHA圖像可以進一步提高分割精度,其顯示更少的錯誤分類點。

此外,當使用RGB-DHA圖像作為淨輸入時,諸如行人和汽車的道路目標比使用RGB圖像作為淨輸入具有更高的分段精度。例如,行人段準確度從79%上升到84%,汽車段精度從85.8%上升到91%。一些細節比較如圖4所示。可以看出,圖4(c)和圖4(f)中的行人和汽車具有比圖4(b)和圖4(e)更清晰的輪廓,這將有助於不同道路目標的行為分析。

圖4.行人和汽車的詳細比較示例。

VI.結論

本文提出了一種基於新型深度完全卷積網絡(D-AlexNet)和多特徵映射(RGB-DHA)的交通場景語義分割方法。對於Titan X GPU上的每個400×200解析度圖像,網絡可以實現22ms的良好實時性能。從原始RGB圖像獲得視差圖、高度圖和角度圖,並融合成6通道圖像以訓練網絡。實驗表明,與使用RGB圖像作為輸入相比,使用多特徵圖作為網絡的輸入可以實現4%更高的分割精度。在未來,我們將重點關注更高效的深度網絡,以聯合語義分割,目標跟蹤和參數識別。

致謝

作者要感謝鄭仁成博士對富有成果的討論所做的貢獻。

REFERENCES

[1] W. Fan, A. Samia, L. Chunfeng and B.Abdelaziz, 「Multimodality semantic segmentation based on polarization and colorimages,」 Neurocomputing, vol. 253, pp. 193-200, Aug. 2017.

[2] L. Linhui, Q. Bo, L. Jing, Z. Weina andZ. Yafu, 「Traffic scene segmentation based on RGB-D image and deep learning(Periodical style—Submitted for publication),」 IEEE Transactions on IntelligentTransportation Systems, submitted for publication.

[3] F. David, B. Emmanuel, B. Stéphane, D,Guillaume, G. Alexander et al, 「RGBD object recognition and visual texture classification for indoorsemantic mapping,」 in IEEE International Conference on Technologies forPractical Robot Applications, Woburn, 2012, pp. 127-132.

[4] H. Farzad, S. Hannes, D. Babette, T.Carme and B. Sven, 「Combining semantic and geometric features for object classsegmentation of indoor scenes,」 IEEE Robotics & Automation Letters, vol. 2,no. 1, pp. 49-55, Jan. 2017.

[5] G. Saurabh, G. Ross, A. Pablo and M. Jitendra,「Learning rich features from RGB-D images for object detection andsegmentation,」 Lecture Notes in Computer Science, vol. 8695 LNCS, no. PART 7,pp. 345-360, 2014.

[6] G. Yangrong and C. Tao, 「Semanticsegmentation of RGBD images based on deep depth regression (Periodicalstyle—Submitted for publication),」 Pattern Recognition Letters, submitted forpublication.

[7] E. David and F. Rob, 「Predicting Depth,Surface Normals and Semantic Labels with a Common Multi-scale Convolutional Architecture,」in Proceedings of the IEEE International Conference on

Computer Vision, Santiago, Feb. 2015, pp.2650-2658.

[8] K. Alex, S. Ilya and H. E. Geoffrey,「ImageNet classification with deep convolutional neural networks,」 Communicationsof the ACM, vol. 60, no. 6, pp. 84-90, June 2017.

[9] S. Evan, L. Jonathan and D. Trevor, 「Fullyconvolutional networks for semantic segmentation,」 IEEE Transactions on PatternAnalysis and Machine Intelligence, vol. 39, no. 4, pp. 640-651, Apr. 2017.

[10] L. C. Chen, G. Papandreou, I. Kokkinos,K. Murphy and A. L. Yuille, 「Deeplab: semantic image segmentation with deep convolutional nets, atrousconvolution, and fully connected CRFs (Periodical style—Submitted forpublication),」 IEEE Transactions on Pattern Analysis and Machine Intelligence,submitted for publication.[11] V. Badrinarayanan, A. Handa and R.Cipolla. 「Segnet: a deep convolutional encoder-decoder architecture for robustsemantic pixel-wise labelling,」 Computer Science, May 2015.

[12] V. Badrinarayanan, A. Kendall and R.Cipolla, 「Segnet: a deep convolutional encoder-decoder architecture for scenesegmentation,」 IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 39, no. 12, pp. 2481-2495, Dec. 2017.

[13] F. Xia, P. Wang, L. C. Chen and A. L.Yuille, 「Zoom better to see clearer: human and object parsing with hierarchicalauto-zoom net,」 in European Conference on Computer Vision, Switzerland, 2016,pp.648-663.

[14] C. Liang-Chieh, Y. Yi, W. Jiang, X. Weiand Y. L. Alan, 「Attention to scale: Scale-aware semantic image segmentation,」in Proceedings of the IEEE Computer Society Conference on Computer Vision and PatternRecognition, Las Vegas, July 2016, pp. 3640-3649.

[15] Z. Hengshuang, S. Jianping, Q. Xiaojuan,W. Xiaogang and J. Jiaya,「Pyramid scene parsing network,」 in the IEEE Conference on ComputerVision and Pattern Recognition, Honolulu, 2017, pp. 2881-2890.

[16] A. Chaurasia, and E. Culurciello,「Linknet: exploiting encoder representations for efficient semanticsegmentation,」 arXiv preprint arXiv: 1707.03718, 2017.

[17] Z. Hengshuang, Q. Xiaojuan, S. Xiaoyong,S. Jianping and J. Jiaya,「ICNet for Real-Time Semantic Segmentation on High-Resolution Images,」arXiv preprint, arXiv:1704.08545, 2017.

[18] H. Caner, M. Lingni, D. Csaba and C. Daniel.「FuseNet: Incorporating depth into semantic segmentation via fusion-based CNNarchitecture,」 in 13th Asian Conference on Computer Vision, Taipei, Nov. 2016,vol. 10111 LNCS, pp. 213-228.

[19] Q. Xiaojuan, L.Renjie, J. Jiaya, F.Sanja and U. Raquel, 「3D Graph Neural Networks for RGBD Semantic Segmentation,」in IEEE International Conference on Computer Vision, Venice, Oct, 2017, pp. 5209-5218.

[20] N. Hyeonwoo, H. Seunghoon and H.Bohyung, 「Learning deconvolution network for semantic segmentation,」 inProceedings of the IEEE International Conference on Computer Vision, Santiago,Feb. 2015, pp. 1520-1528.

[21] Z. D. Matthew and F. Rob, 「Visualizingand Understanding Convolutional Networks,」 in 13th European Conference onComputer Vision. Sep. 2014, Vol. 8689 LNCS, no. PART 1, pp. 818-833.

[22] M. Dongbo, C. Sunghwan, L. Jiangbo, H.Bumsub, S. Kwanghoon and D. N. Minh, 「Fast global image smoothing based onweighted least squares,」 IEEE Transactions on Image Processing, vol. 23, no.12, pp. 5638-5653, Dec. 2014.

[23] H. Kaiming, Z. Xiangyu, R. Shaoqing andS. Jian. 「Delving deep into rectifiers: Surpassing human-level performance onimagenet classification,」 in Proceedings of the IEEE International Conference onComputer Vision, Santiago, Dec. 2015, pp. 1026-1034.

作者情況:

*Resrach supported by the National Natural Science Foundation of China (Grant Nos. 51775082, 61473057 and 61203171) and the China Fundamental Research Funds for the Central Universities (Grant Nos. DUT17LAB11 and DUT15LK13).

L. Li, W. Zheng, L. Kong, W. Hou and J. Lian are with the School of Automotive Engineering, Faculty of Vehicle Engineering and Mechanics, Dalian University of Technology, Dalian 116024, China. And J. Lian is the corresponding author. (e-mail: lilinhui@dlut.edu.cn;zhengweina_1993@mail.dlut.edu.cn;31703177klc@mail.dlut.edu.cn;houwb@dlut.edu.cn; lianjing@dlut.edu.cn).

mit zgüner is with the Department of Electrical and Computer Engineering, The Ohio State University, Columbus, OH, 43210 USA (e-mail: ozguner.1@osu.edu).

相關焦點

  • 實時精準!百度地圖推出實時公交功能,不怕加班錯過末班車
    近日,百度地圖與北京市交通委達成深度合作,在官方權威數據的支持下,百度地圖實時公交功能將提供更加精準的公交信息,大幅提高出行效率,避免乘客在冬日寒風中苦苦等待。百度地圖可定位公交車的實時位置,精準計算到站時間,為用戶提供全面、精確的實時公交車信息。據了解,百度地圖實時公交功能目前已覆蓋北京、天津、上海等60多個城市,方便用戶更及時、準確的了解公交車信息,節約出行時間,提高出行效率。
  • 教你一個簡單的深度學習方法檢測人臉面部特徵
    這篇文章將會科普一種使用深度學習進行人臉表情檢測的方法,並簡要介紹下傳統的檢測方法。在過去,檢測面部及其特徵,包括眼睛、鼻子、嘴巴,甚至從它們的形狀中提取表情是非常困難的,而現在,這項任務可以通過深度學習「神奇」地得到解決,任何一個聰明的年輕人都可以在幾個小時內完成
  • 百度地圖亮相中國衛星導航年會:基於北鬥強大能力持續打造極致出行...
    百度地圖總經理季永志出席年會高峰論壇,並圍繞「北鬥+人工智慧」做了題為《中國北鬥&百度地圖打造極致出行體驗》的特邀報告。報告內容涵蓋精準出行體驗、智能語音交互、導航創新應用和企業社會責任四大維度,全面展現了百度地圖基於中國北鬥強大的基礎設施能力在用戶產品應用端打造的極致出行服務。
  • 浙大團隊研製基於深度學習的「隱身衣」
    課題組在國際上率先實現基於深度學習的新一代智能隱身器件,在不依賴任何人為操控的情況下,快速地動態適應變化的背景環境,從而與背景電磁環境特徵融為一體,實現自適應隱身。浙江大學信息與電子工程學院2017級博士生錢超是論文的第一作者,陳紅勝教授是論文的通訊作者,浙江大學為第一完成單位。合作者包括浙江大學鄭斌副教授、沈煉博士、李爾平教授以及麻省理工學院沈亦晨博士和靖禮博士。
  • 地圖大數據價值升級 百度地圖立體化數據多維助力智能交通建設
    百度地圖開放平臺總經理李志堂在演講中表示,「百度地圖主要從物、組織、人三個層次提供大數據服務於智能交通和智慧城市,目前已經開始在智能交通信號燈、中小街道智慧避堵、城市誘導屏解決方案等維度開始了實踐」。當前,百度地圖的慧眼平臺、出行雲平臺、交通雲平臺正共同推動交通數據交換共享、價值凝聚,為政府企業改善城市交通、用戶個人提高出行效率提供數據支持。
  • INRIX推INRIX AI Traffic 利用深度學習提供精確交通信息
    司機並不是唯一備受折磨的人,交通專業人士也是,他們需要及時、準確的交通數據來管理擁堵,但現有的解決方案還無法做到這一點。據外媒報導,互聯汽車服務和交通分析公司INRIX發布了下一代交通解決方案,該方案利用AI,提供迄今為止最精確的、可行的交通信息。INRIX AI Traffic提供即時更新的交通狀況和不同車道的精確交通速度,為世界各地每條道路提供準確的ETA。
  • 華錄杯算法賽啟動 百度地圖攜手飛槳喊你來拿21萬獎金
    據悉,此次大賽由中國華錄集團、天津市委網信辦、天津市工業和信息化局、天津市津南區人民政府主辦,北京易華錄信息技術股份有限公司承辦,百度地圖和百度飛槳協辦,以「數據驅動創新,賦能智慧城市」為主題,圍繞「華錄數據湖+智慧城市」的核心理念,著力於智慧城市業務中的真實應用場景,結合運用交通、市政等行業領域數據。
  • 從2020百度地圖生態大會,看懂AI地圖技術演變的因果與新機
    但搭建一個知識地圖並不容易,不僅需要開放域知識圖譜,還需要針對地理知識圖譜的特點來進行拓展,解決地理時空關係和自然語言空間關係的映射等等技術難題。而百度地圖搶先布局,基於豐富的道路數據、全面的基礎地物數據和多維度的POI數據,通過歸一、融合、建邊等技術,製成了POI高精知識圖譜,從而可以讓地圖更智能、更懂用戶需求。最後也是最重要的,就是智能化生產與百度地圖AI能力的結合。
  • 市民可查看實時路況高清「直播」
    日,百度地圖與海口交警正式籤署戰略合作協議,雙方將在基於數據開放融合的交通出行服務政企共建、基於大數據的決策分析管理應用研究、交通便民服務創新、技術支持和交流這四個領域開展深度的合作。雙方合作將官方的權威交通數據通過網際網路產品更有效地觸達民眾,為民眾提供更加優質的出行服務;並通過百度提供的大數據分析以及地圖開放平臺的技術能力,為政府管理決策、智慧交通建設提供支持。據了解,海口交警將與百度地圖共享海口公安交通管理相關信息和官方數據。
  • AI未滿:堵在技術升級路上的谷歌地圖
    桑德爾的表態似乎在傳遞這樣兩層信息:第一層是在谷歌宣布投入「AI First」的五年時間裡,谷歌地圖並沒有成為AI技術支持的重要陣地;第二層意思是未來的谷歌地圖將重點發力AI技術的應用。自從2016年穀歌宣布全面擁抱AI之後,谷歌全系列產品都通過機器學習及深度學習技術實現了AI化升級。
  • 浙大團隊研製基於深度學習的「隱身衣」15毫秒「換裝」騙過雷達
    光學領域頂尖期刊《自然·光子學》24日在線報導了浙江大學信息與電子工程學院陳紅勝教授課題組的一項最新研究:在國際上率先實現基於深度學習的新一代智能隱身器件。在不依賴任何人為操控的情況下,快速地動態適應變化的背景環境,從而與背景電磁環境特徵融為一體,實現自適應隱身。
  • 深度學習如何大規模產業化?百度CTO王海峰最新演講深度解讀 | CNCC...
    舉幾個例子,文字識別OCR技術早期是用規則+機器學習的方法來做,那時候,一個OCR技術系統可能會分為幾部分,從區域檢測、行分割、字分割、單字識別、語言模型解碼、後處理等一步步做下來。加入深度學習技術後,我們開始使用大數據進行訓練,而且階段目標也很明確,我們找到一些深度學習的特徵,這個時候一個OCR系統就簡化到只需要檢測、識別兩個過程,典型的基於深度學習的OCR系統大概是這樣。隨著深度學習技術進一步發展,我們開始在OCR裡面進行多任務的聯合訓練、端到端學習、特徵復用/互補,這個時候,甚至這兩個階段也不用區分了,而是一體化地就把一個文字識別的任務給做了。
  • 揭秘交通大腦——BATJ技術爭奪戰,滴滴與高德的AI新版圖
    技術層面,其交通大腦通過城市一體化計算平臺、城市數據資源平臺和人工智慧(AI)開放服務平臺,集即時、全量、全網和全視頻的能力特徵於一體,將整個交通出行行業全連接,讓大數據、AI和雲計算的技術價值得到體現。此外,阿里還有4款AI視覺平臺:天曜、天鷹、天機、天擎,實現對城市裡的交通事件、事故進行全方位實時感知、自動巡邏。
  • 基於三維視頻融合的監控分析系統
    三維視頻融合分析系統簡介  在三維視頻監控方面,目前比較普遍的做法是從各地實時監控影像中採集出圖片,以標註的形式在三維場景中進行顯示。當用戶想知道某地的監控影像時,點擊該標註即可彈出實時監控影像截圖。
  • 百度地圖上線境外遊行程規劃 或成最像旅行手帳的地圖
    新年臨近,春運出行拉開序幕,根據國家發展改革委、交通運輸部在內的九大部門預測,今年春運全國旅客發送量將達到29.8億人次,與去年春運基本持平。春運歸途,人多車多耗時長已成定律,而地圖作為出行萬能神器必不可少。
  • 百度地圖智能化蛻變:AI技術如何讓導航更加準確、易用?
    作為新一代人工智慧地圖,百度地圖在過去幾年裡持續引入語音、圖像、自然語言處理、深度學習等一系列 AI 技術,在產品體驗上不斷精進。隨著智能語音交互、車道級導航、智能停車等一系列創新功能的推出,百度地圖正在以「新一代人工智慧地圖」的技術實力,打磨出更智能、更便捷的功能服務。
  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。然而,自監督如何應用於處理圖數據結構的圖卷積網絡(GCNs)的問題卻很少被探索。
  • 實踐入門NLP:基於深度學習的自然語言處理
    特別是最近兩年,基於深度學習的自然語言處理逐漸取得了一定進展,在人機對話、問答系統、語言翻譯等方向的應用也一直是自然語言處理中的熱門話題,而這些應用的實現,基本依賴於底層技術和模型的進步,再加上自然語言處理領域也算是一個多學科交叉的行業,自然語言處理的未來發展對於很多相關學科和方向都具有深遠的影響力。
  • 技術尋道,生態裂變:2020百度地圖「點石成金」的這一年
    但搭建一個知識地圖並不容易,不僅需要開放域知識圖譜,還需要針對地理知識圖譜的特點來進行拓展,解決地理時空關係和自然語言空間關係的映射等等技術難題。而百度地圖搶先布局,基於豐富的道路數據、全面的基礎地物數據和多維度的POI數據,通過歸一、融合、建邊等技術,製成了POI高精知識圖譜,從而可以讓地圖更智能、更懂用戶需求。 最後也是最重要的,就是智能化生產與百度地圖AI能力的結合。
  • 專家解讀阿法狗原理:是「深度學習」
    面對任何棋類,一種直觀又偷懶的思路是暴力列舉所有能贏的方案,這些方案會形成一個樹形地圖。然而,在規定時間內想要讓計算機利用這種方法戰勝人類下圍棋,並不容易做到,因為圍棋的可能性太多。  有一種說法是,圍棋的可能性數量要比可觀測到的宇宙中原子的總數還要多得多。同時,圍棋的規律十分微妙,在某種程度上落子選擇依靠的是經驗積累而形成的「直覺」。