大牛講堂 | 山世光博士:自動駕駛系統中的目標檢測技術

2020-12-20 雷鋒網

雷鋒網按:作者山世光博士,中科院計算所研究員、博導,主要從事計算機視覺、模式識別、機器學習等相關研究工作。迄今已發表CCF A類論文50餘篇,全部論文被Google Scholar引用9000餘次。現任IEEE TIP,TIPNeurocomputing和PRL等國際學術刊物的編委(AE)。研究成果曾獲2005年度國家科技進步二等獎和2015年度國家自然科學獎二等獎。

本文中,山世光博士主要給我們分享梳理了物體檢測技術的近期進展。

 1.  Viola-Jones人臉檢測器

 

物體檢測在整個計算機領域裡,比較成功的一個例子,就是在大概2000年前後出現的Viola-Jones人臉檢測器,其使得物體檢測相比而言成了一項較為成熟的技術。

這個方法基本的思路就是滑動窗口式的,用一個固定大小的窗口在輸入圖像進行滑動,窗口框定的區域會被送入到分類器,去判斷是人臉窗口還是非人臉窗口。滑動的窗口其大小是固定的,但是人臉的大小則多種多樣,為了檢測不同大小的人臉,還需要把輸入圖像縮放到不同大小,使得不同大小的人臉能夠在某個尺度上和窗口大小相匹配。這種滑動窗口式的做法有一個很明顯的問題,就是有太多的位置要去檢查,去判斷是人臉還是非人臉。

判斷是不是人臉,這是兩個分類問題。在2000年的時候,採用的是AdaBoost分類器。進行分類時,分類器的輸入用的是Haar特徵,這是一種非常簡單的特徵,在圖上可以看到有很多黑色和白色的小塊,Haar特徵就是把黑色區域所有像素值之和減去白色區域所有像素值之和,以這個差值作為一個特徵,黑色塊和白色塊有不同的大小和相對位置關係,這就形成了很多個不同的Haar特徵。AdaBoost分類器是一種由多個弱分類器組合而成的強分類器,Viola-Jones檢測器是由多個AdaBoost分類器級聯組成,這種級聯結構的一個重要作用就是加速。

2000年人臉檢測技術開始成熟起來之後,就出現了相關的實際應用,例如數位相機中的人臉對焦的功能,照相的時候,相機會自動檢測人臉,然後根據人臉的位置把焦距調整得更好。

 2.  可變形部件模型(DPM)

Viola-Jones人臉檢測器之後,在2009年出現了另外一個比較重要的方法:deformable part model(DPM),即可變形部件模型。

就人臉檢測而言,人臉可以大致看成是一種剛體,通常情況下不會有非常大的形變,比方說嘴巴變到鼻子的位置上去。但是對於其它物體,例如人體,人可以把胳膊抬起來,可以把腿翹上去,這會使得人體有非常多非常大的非剛性變換,而DPM通過對部件進行建模就能夠更好地處理這種變換。

剛開始的時候大家也試圖去嘗試用類似於Haar特徵+AdaBoost分類器這樣的做法來檢測行人,但是發現效果不是很好,到2009年之後,有了DPM去建模不同的部件,比如說人有頭有胳膊有膝蓋,然後同時基於局部的部件和整體去做分類,這樣效果就好了很多。DPM相對比較複雜,檢測速度比較慢,但是其在人臉檢測還有行人和車的檢測等任務上還是取得了一定的效果。後來出現了一些加速DPM的方法,試圖提高其檢測速度。DPM引入了對部件的建模,本身是一個很好的方法,但是其被深度學習的光芒給蓋過去了,深度學習在檢測精度上帶來了非常大的提升,所以研究DPM的一些人也快速轉到深度學習上去了。

 3. R-CNN 系列 

對於基於深度學習的物體檢測方法,這裡把最近兩三年裡面出現的比較有代表性的工作做一個概括性地介紹。一個就是R-CNN系列,另一個是傳統方法和深度學習的方法的結合。這些方法出現之後帶來檢測性能的極大的提升,待會我的博士生會介紹性能提升的具體情況,大家可以看到,檢測精度幾乎是成倍地增長。當然這裡面還是存在一些問題,就是檢測速度,我知道很多工業界的朋友都在想辦法對基於深度學習的檢測方法進行加速。

 

所謂的R-CNN,是基於這樣一種非常簡單的想法,對於輸入圖像,通過selective search等方法,先確定出例如2000個最有可能包含物體的窗口,對於這2000個窗口,我們希望它能夠對待檢測物體達到非常高的召回率。然後對這2000個中的每一個去用CNN進行特徵提取和分類。對這2000個區域都要去跑一次CNN,那麼它的速度是非常慢的,即使每次只需要0.5秒,2000個窗口的話也是需要1000秒,為了加速2014年的時候何凱明提出了SPP-net,其做法是對整個圖跑一次CNN,而不需要每一個窗口單獨做,但是這樣有一個小困難,就是這2000個候選窗口每一個的大小都不一樣,為了解決這個問題,SPP-net設計了spatial pyramid pooling,使得不同大的小窗口具有相同維度的特徵。這個方法使得檢測時不需要對每一個候選窗口去計算卷積,但是還是不夠快,檢測一張圖像還是需要幾秒的時間。

Fast R-CNN借鑑了SPP-net的做法,在全圖上進行卷積,然後採用ROI-pooling得到定長的特徵向量。例如不管窗口大小是多少,轉換成7x7這麼大。

Fast R-CNN還引入了一個重要的策略,在對窗口進行分類的同時,還會對物體的邊框進行回歸,使得檢測框更加準確。前面我們說候選窗口會有非常高的召回率,但是可能框的位置不是很準,例如一個人體框可能是缺胳膊缺腿,那麼通過回歸就能夠對檢測框進行校準,在初始的位置上求精。Fast R-CNN把分類和回歸放在一起來做,採用了多任務協同學習的方式。

 Faster R-CNN相比於Fast R-CNN又帶來了一個比較大的變化,其將產生候選窗口這一步也用深度網絡來做,並且讓這個網絡和Fast R-CNN的分類網絡共享了卷積層,這個產生候選窗口的網絡叫做RPN,是Faster R-CNN的核心。

RPN替代了之前非常慢的Selective Search,而且通常所用的候選窗口的數目也比較少,只需要300個就夠了,這使得後面分類的速度會更快。為了檢測各種各樣的物體,RPN引入了所謂anchor box的設計,具體來說,RPN在最後一個卷積層輸出的特徵圖上,先用3x3的卷積得到每個位置的特徵向量,然後基於這個特徵向量去回歸9個不同大小和長寬比的窗口,如果特徵圖的大小是40x60,那麼總共就會有大約2萬多個窗口,把這些窗口按照信度進行排序,然後取前300個作為候選窗口,送去做最終的分類。通過用RPN替換Selective Search,並採用共享卷積層的方式,同時降低了候選窗口的數量,Faster R-CNN在速度上有了明顯提高,其在GPU上可以達到5fps的速度。

4. 回歸位置——YOLO&SSD

2015年出現了一個名為YOLO的方法,其最終發表在CVPR 2016上。這是一個蠻奇怪的方法,對於給定的輸入圖像,YOLO不管三七二十一最終都劃分出7x7的網格,也就是得到49個窗口,然後在每個窗口中去預測兩個矩形框。這個預測是通過全連接層來完成的,YOLO會預測每個矩形框的4個參數和其包含物體的信度,以及其屬於每個物體類別的概率。YOLO的速度很快,在GPU上可以達到45fps。

  

在YOLO之後,在2015年Liu Wei提出了名為SSD的方法。前面提到的YOLO有一個明顯的缺點,就是最多只能檢測7x7=49個物體,如果圖像中有超過49個物體,那麼肯定會有檢測不到的,YOLO在每個網格裡面只會檢測一個物體,如果一個網格裡面同時放入兩個物體,那麼其中一個就會被漏檢。

 

相比之下,SSD採用了類似於RPN中anchor box的機制,YOLO基於整個特徵圖用全局信息一起去回歸所有位置的檢測框,而SSD是用卷積基於局部特徵去回歸各個位置的檢測框,並且SSD還用到了不同層的特徵,之前YOLO只用了最後一個卷積層上的特徵,這樣做的缺點就是難以檢測小尺度的物體,最後一個卷積層上的神經元其感受野會非常大,小尺度的物體在這上面的特徵就非常不明顯。從速度上來看,在一些情況下,SSD甚至會比YOLO更快,在GPU上達到58fps的速度

5. Cascade CNN

在物體檢測領域,過去有這樣一種現象,就是對每一個物體我們都需要去設計和學習單獨的檢測器,例如做人臉檢測和車輛檢測,兩個檢測器特徵會不一樣,分類器也不一樣,對於每一類物體,需要去嘗試不同的特徵和分類器的組合。但是到了現在,不管是R-CNN那一系列方法,還是YOLO和SDD,都沒有在物體類別上有任何限制,可以檢測人臉,也可以同時檢測其他類別的物體,這是一個非常重要的優勢。但是在特定類別物體的檢測上,現在也還是有一些專門的方法,比方說做人臉檢測的Cascade CNN,其用CNN替換了AdaBoost分類器,為了保證速度足夠快,其採用非常簡單的CNN,比方說把卷積核的數量控制得非常少。在cascade的前面級上,需要非常快速地處理滑動窗口,因此用的CNN會非常簡單,到後面級上窗口變少,分類難度變大,會需要稍微複雜一點的CNN。目前Cascade CNN在公開的人臉檢測評測集FDDB上,在產生100個誤檢的的時候,召回率能夠達到85%。

 6. 總結

上面介紹了一些代表性的基於深度學習的物體檢測方法,簡單總結一下:

以ImageNet上的物體檢測任務為例,mAP從2013年的0.23提升到了2015年的0.62,這個變化是非常顯著的。

雷鋒網(公眾號:雷鋒網)註:本文由大牛講堂授權發布,如需轉載請聯繫原作者,並註明作者和出處,不得刪減內容。有興趣可以關注公號【地平線機器人技術】,了解最新消息。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 大陸集團自動駕駛計程車技術投入批量生產
    基於EZ10平臺的小型無人駕駛公交車CUbE,是大陸集團無人駕駛車的中央開發平臺。這個平臺的目的並不是將CUbE開發成為可投產的車輛,而是讓大陸集團的一系列技術(例如制動系統和環境傳感器)滿足市場的需求,最終可以應用到自動駕駛計程車的批量生產中。針對這個目標,Andree Hohm表示:「客戶可以和大陸集團一起通過這些高性能產品和解決方案開發無人駕駛車的系統。我們正在向這個目標邁進。
  • 最全自動駕駛技術匯總 解析Waymo自動駕駛安全報告
    Waymo堅信,自動駕駛技術每年可拯救上千個本該在交通事故中喪命的民眾。公司對安全性的承諾及付出體現於該公司所做的每一件事中,從企業文化到如何設計、測試這項技術。在這份安全報告裡,Waymo詳細闡述了的工作理念:安全性。該份安全系統概論強調了Waymo自動駕駛車輛在長達350萬英裡實地路測及在上千萬英裡的自動駕駛模擬測試中所學到的重要經驗和教訓。
  • 深度解析自動駕駛雷射雷達技術原理、感知系統的發展趨勢
    原標題:深度解析自動駕駛雷射雷達技術原理、感知系統的發展趨勢   目前,機械旋轉雷射雷達的高
  • 名古屋Automotive World 2019:實現完全自動駕駛高性能傳感技術
    (2019年5月) 自動駕駛領域生態系統解析(2019年5月) 2019年Automotive World:更實用、更高性能的自動駕駛技術(2019年2月)LiDAR是什麼?LiDAR被認為是自動駕駛技術中重要技術的理由是,LiDAR除了對象物體的距離以外,還能確定形狀,通過把握3D空間,自動駕駛系統可正確地了解車輛周圍環境,從而建立高精度的自動駕駛技術。但是,正如上所述,為了彌補LiDAR的缺點,自動駕駛系統一般還同時採用雷達。
  • 三大半自動駕駛系統大亂鬥,誰值得我們掏腰包?
    不過,它們依然只是測試系統,即使住在這幾個參與測試的城市,你打到自動駕駛測試車的概率也不高。好在,市場上還有許多半自動駕駛系統,它們才是我們日常駕駛的好幫手。雷鋒網盤點了目前市場上人氣最高的三大半自動駕駛系統,分別是:特斯拉(Autopilot)、凱迪拉克(Super Cruise)和奔馳(Drive Pilot)。讓我們來一探究竟。
  • 寶馬牽手四維圖新、博世2020量產自動駕駛系統
    寶馬牽手四維圖新布局自動駕駛;塔奧國際9億出售給AGG;博世2020年量產高速自動駕駛輔助系統;軟銀投資通用旗下Cruise 22.5億美元等等,針對7月上半月汽車零部件廠商熱點事件,蓋世汽車進行了梳理回顧。 1.
  • 自動駕駛技術變現最容易的場景:露天礦運輸
    無人駕駛礦用車在產業鏈中的位置,跟這批人身上的光環形成了「鮮明的反差」。但從市場的反饋來看,這些沒有去追求「高大上」的人,反而可能成為最早一批從全自動駕駛技術中掙到錢的人。現在,自動駕駛圈已有一個共識:技術落地最容易的是港口物流、礦山物流等封閉場景。其中,從需求彈性的角度看,無人駕駛礦用車的規模化應用更是迫在眉睫。
  • 自動駕駛車輛中的AI分析及作用
    自動駕駛車輛根據傳感器信息和AI算法來執行必要的操作,它需要收集數據、規劃並執行行駛路線。而這些任務,尤其是規劃和執行路線需要非傳統的編程方法,它依賴AI中的機器學習技術。 自動駕駛車輛仍有許多任務面臨巨大的挑戰,需要採用尖端的方法來解決。取代人類的認知和運動能力不是一件容易的事情,還需要很多年的努力。AI需要解決各種不同的任務,以便實現可靠和安全的自動駕駛。
  • 易成自動駕駛:「易行無人接駁車」
    搭載易成GEMINI自動駕駛系統,行駛流暢穩定,極大提高短途出行的舒適性。易成自主研發的GEMINI自動駕駛平臺,以低成本低功耗的域控制器為基礎,配合各種傳感器實現L4自動駕駛功能功能,可組合程度高。該方案已在乘用車及電動觀光車上經過大量路測,運行穩定,可很好的實現自動駕駛功能。
  • ...無人駕駛自動泊車技術!|自動泊車|途銳|大眾|停車位|parkassist...
    據外媒報導,大眾新增智能新技術,可完全接管車輛實現無人駕駛自動泊車。據悉,大眾此前已為所有2019年及以後的車型提供了半自動停車系統,該系統在泊車時仍需要駕駛員坐在車內控制油門和剎車。但全新的智能新技術則將完全接管方向盤、油門和剎車等,因此可實現「無人駕駛」泊車。在歐洲,途銳將是首款採用該技術的大眾車型;從2022款大眾ID.4開始,這一功能將隨車輛登陸美國市場。
  • 長沙智能駕駛研究院張長隆:面向自動駕駛的車路協同建設與實踐
    近日,雷鋒網新智駕邀請了長沙智能駕駛研究院網聯交通事業部總經理兼技術總監的張長隆博士來進行業內分享,以下為張長隆演講內容,新智駕進行了不改變原意的整理:大家好,我叫張長隆,來自長沙智能駕駛研究院。長沙智能駕駛研究院,也叫希迪智駕,2017年由香港著名的港科大教授李澤湘創辦,由美國TI前技術總監馬濰博士擔任總經理兼聯合創始人。公司從成立起,就把車路協同與自動駕駛一體化解決方案作為研發方向,是國內同時做自動駕駛+智能網聯為數不多的企業之一,目前已擁有專業的智能汽車研發中心和國內智能駕駛測試區運營資格。
  • LUCIDGames: 為自動駕駛車輛規劃自適應軌跡的技術
    自動駕駛汽車在很多地方都進行了模擬測試,但真正上路測試並不多,因為在真實的街道環境中,自動駕駛汽車還無法根據周圍環境中其他車輛和人的動作或運行軌跡進行自動調整。史丹福大學的研究人員最近創建了LUCIDGames,這是一種可以預測和規劃自動駕駛車輛自適應軌跡的計算技術。
  • 申克博士在線檢測-EASYINSPECT
    生意社2月28日訊   大連瑞光非織造布集團已用上申克博士-EasyInspect作為無紡布生產的唯一檢測方案  申克博士作為無紡布業內檢測技術領先者,申克博士是唯一一家擁有多圖像缺陷分析(MIDA
  • 【參展預定】2021廣州國際自動駕駛技術展覽會
    中國地區領先的AUTO TECH-ADTE 2021自動駕駛技術專業展,匯集各種自動駕駛&ADAS技術及解決方案!本展將會成為中國汽車自動駕駛技術的信息中心。AUTO TECH-ADTE 2021廣州國際自動駕駛技術展,匯聚了世界各地關於自動駕駛的各種核心技術,如自動駕駛智能網聯汽車整車、自動駕駛智能網聯核心技術、車載智能硬體、車體電子控制裝置、智能車載設備、車載電子裝置、車聯網相關產品、新能源汽車技術、汽車測試技術等。
  • 信息技術:中國自動駕駛產業發展動態|汽車|大數據|自動駕駛|智能網...
    本文從政策、標準、技術、產業等方面介紹國內自動駕駛發展情況,並與國外自動駕駛產業發展進行對比分析,指出我國在自動駕駛產業發展過程中的挑戰,為未來我國自動駕駛產業發展提供參考意見。中國自動駕駛產業發展現狀網際網路和人工智慧技術在汽車行業的快速發展,開啟了全球汽車產業的第四次重大變革。
  • 自動駕駛定位導航技術概述丨曼孚科技
    作為自動駕駛的重要組成部分,高精度定位導航技術是自動駕駛汽車安全行駛不可或缺的核心技術之一,在車輛橫向/縱向精確定位、障礙物檢測與碰撞避讓、智能車速控制、路徑規劃及行為決策等方面發揮著重要的作用。自動駕駛車輛對定位系統性能的要求與車輛的行駛速度密切相關。相關標準法規規定,乘用車行駛最高車速不得超過120km/h,客車最高設計車速不應大於100km/h。基於目前的自動駕駛汽車整體技術水平和車輛限速要求,自動駕駛乘用車的最高車速不宜超過90km/h,自動駕駛客車的最高車速不宜超過70km/h。
  • 自動喚醒自動發車自動停站 全自動駕駛地鐵來了
    5號線是蘇州也是江蘇的第一條全自動駕駛軌交線路,計劃於2021年開通試運營,蘇州軌道交通集團為這條線採購了50列列車,每列均採用6輛B型車編組,總長119.88米,車寬2.88米。  5號線列車具有自動喚醒、自動自檢、自動發車、自動洗車、自動正線運行、自動停站、自動開關車門、自動折返、自動休眠和部分故障下自動恢復等功能。全自動駕駛的5號線列車和以往的地鐵列車有何不同呢?
  • 三菱電機官宣最新自動駕駛技術xAUTO測試車:可實現在沒有高清地圖...
    10月24日,據外媒消息,三菱電機宣布,將發布搭載最新自動駕駛技術的xAUTO測試車。這輛車的自動駕駛技術,可以實現在沒有高清地圖的道路上自動駕駛,而且不論室內還是室外都可以自動泊車。xAUTO是一款示範汽車,結合了三菱電機的自動駕駛技術。三菱電機的自動駕駛系統是通過採用傳感器融合技術實現的。外圍傳感器,毫米波雷達和攝像機等,以及基礎設施輔助技術,結合了準天頂衛星系統的釐米級增強服務(CLAS)信號和高清三維地圖。該系統現在可以在地面道路上行駛,在室內和室外沒有高清地圖和自動泊車功能,並且已經在實際環境中進行了測試。
  • 基於自動駕駛中的高精地圖深度解析
    而我們認為,未來的自動駕駛汽車的迭代速度會逐步加快,主要體現在底層的晶片、算法以及上層的應用軟體系統層面。因此,對於未來的自動駕駛,我們需要更多的以IT產品思維來研究。也基於此,我們推出「車輪上的思考」,對自動駕駛相關的關鍵環節,從IT的角度來進行研究和分析。這篇是該主題的第一期,聊一聊高精度地圖基本問題:什麼是高精度地圖?
  • 麥肯錫萬字報告:自動駕駛技術革命的脈絡、難題與演進
    解決自動駕駛汽車技術中的難題自動駕駛汽車無疑將開啟了交通運輸行業的新時代,但整個行業尚需解決一些技術難題,方可真正實現能夠商業化的自動駕駛技術。我們已經看到,ADAS功能可以減輕駕駛負擔,並使駕駛的過程變得更安全。但在某些情況下,該技術也會引發新的問題,例如,人類過分信任或依賴這些新系統。