雷鋒網(公眾號:雷鋒網)·新智駕按:2003年,清華大學電子工程系豎起了一個小小的牌子,上書「3D Image Lab」,這也開啟了馬惠敏和團隊一行對三維圖像認知技術的深耕。馬惠敏,是清華大學電子工程系副教授,博士生導師,也是3D Image Lab負責人。多年以來,她帶領團隊在三維圖像認知和視覺導航領域開展研究,如今已實現了從基礎理論建設、核心技術到產業化的產學研結合。剛剛過去的CVPR國際計算機視覺與模式識別年度盛會上,馬惠敏團隊在5000人的大會上做了Spotlight論文報告。
正是基於在視覺感知算法和智能無人系統領域的多年積累,近期,馬惠敏受邀在中國圖像圖形學會主辦的「智能駕駛與機器視覺」講習班進行報告分享。在以《三維圖像認知與多模態學習》為主題的深度報告中,馬惠敏系統講解了團隊在三維圖像認知領域的解決方案探索,以及這些研究成果在自動駕駛領域的應用。
以下為馬惠敏分享的精華內容,雷鋒網·新智駕進行了不改變原意的整理編輯。
從技術層面解剖智能駕駛,邏輯框架可劃分為:傳感器—環境模型—駕駛策略—車輛控制&人機互動。
在傳感器層面,現在主流的是多傳感器融合方案,攝像頭、雷射雷達一般是標配。曾經有個人問我,攝像頭和雷射雷達哪個更重要?我這樣回答:其他都可以沒有,但攝像頭不能。視覺感知是核心。
其實,自動駕駛已經來到了我們身邊,以奧迪A7的自主泊車功能為例,從檢測車位,到規劃路線到駕駛控制,在整個過程中,其前視、後視攝像頭一直在進行觀測,實現這套系統需要一個多模態方案。
什麼是多模態?
多模態指的是一套傳感器的組合,如攝像頭、雷射雷達、超聲波雷達、毫米波雷達、GPS等。可以看到,目前在整車上使用的傳感器並沒有一個標準方案。以上圖為例,第一層是最遠視距250米的前視攝像頭,第二層是最遠探測距離160米的毫米波雷達,以及最遠視距150米的攝像頭(視場角更寬),第三層是最遠視距80米的側向攝像頭,以及最遠視距60米的廣角攝像頭,非常近的範圍內還有探測距離8米的超聲波雷達,等等。
所以,當一輛自動駕駛車行駛在路面上,它早已覆蓋了比本身體積大得多的「場」。但其中的攝像頭怎樣最好地發揮作用,與雷射雷達間又是怎樣的關係,是我們這次要探討的問題。
自動駕駛的從感知到認知,要解決的三個核心問題:車在哪兒?車在路上看到了什麼?車要去哪兒?
車在哪兒,車要去哪兒,這是大尺度下的絕對坐標(信標GNSS)解決的問題。今天要討論的是第二個問題:車在路上看到了什麼?這就是感知。
今天的自動駕駛環境感知方案中,小目標、強遮擋和高動態是必須要解決的問題。
小目標:道路遠端有一個人,單從圖像來說他太小了,並不具備人的典型特徵,但我們一眼得知這是個人,這是如何做到的呢?這就是一個小目標問題。
強遮擋:如上圖中的紅車,人和柱子都對它有遮擋,對於計算機而言如何識別?這就是強遮擋問題。
高動態:例如車輛在行駛,前方突然橫穿一輛電動車,這種突發情況就屬於高動態。
目前,KITTI是國際最權威的面向自動駕駛的視覺算法評測數據集,我們於2015年獲得了這個評測的冠軍,當時在國際上首次將車輛檢測率從80%提升到90%,行人檢測率達到75%,這個成果就是靠三維檢測達成的,但它離無人駕駛還很遠很遠。
所以如何突破?實現駕駛任務中所需的複雜場景中的準確物體檢測和識別,世界都在關注這三大難題:小目標、強遮擋、高動態。解決這個難題的關鍵,就是今天的話題:三維場景圖像認知與多模態學習。
首先談認知,認知就是在有意識參與的情況下達到的認識。我們做的方案就是,帶著認知任務完成一個高準確度的物體檢測和識別。
所以,我們的實驗室最大的特點就是將心理、認知、識別和決策融合在一起。目前,心理學已經開始受到自動駕駛領域的關注,我們團隊從2007年就已經與心理系有合作研究了。
諸如剛才的遮擋情況,為什麼人類能輕易認出這是一輛車?這是因為,在心理學中有一個「格式塔理論」,又稱為完形理論,即人類的認知會對事物有一個完整的感覺,所以能在強遮擋情況下認出一輛汽車。那麼,如何在物體檢測算法與人類的完形心理學之間建立聯繫?這就是我們實驗室突破的地方,即讓機器學習人的思考模式,我們的研究工作主要分為以下四個層次:
圖像認知心理學:語義圖像生成及心理特徵提取,要解決的是圖像識別的認知基礎問題。
顯著性物體檢測:語義注意認知模型,要解決注意的問題,即讓機器像人類司機一樣,注意司機該注意的事情。
部件與結構認知模型:抵抗遮擋能力,解決上面所說的強遮擋問題。
3D場景物體識別:適應複雜環境,解決的是三維場景識別問題。
上面四個層次串起了視覺算法在解決自動駕駛問題中面臨的一些核心問題。
所以,從一個人類司機入手,建立關聯的實驗範式。對於一個人類司機,關注的任務是汽車檢測、行人檢測等,對周邊建築並不刻意地關注,所以我們就建立人類關注的這種關聯模型,挖掘任務關聯的圖像檢測識別規律,建立圖像認知的網絡模型,實現高準確度的物體檢測和識別。
1、圖像認知心理學
看圖釋義是當前的研究熱點,是以圖像生成圖像,但我們在國際首次開啟了文字語義生成圖像的模式,提出的基於圖像認知的心理測試方法如上圖,在屏幕上播放生成的圖像,通過捕捉人眼球的運動,記錄他的反應,輸出心理狀態的測評結果,既可篩選高焦慮和抑鬱人群,又可獲取人的視覺注意機理,2016年獲吳文俊人工智慧科學技術創新一等獎,目前已由北京清視野科技公司實現了產品化。
實際上,通過這種模型,我們也在關注人在注意什麼。
2、顯著性物體檢測
顯著性物體檢測的難點在哪兒?以上圖為例,每輛車的車窗、輪轂區域和車身都不同,如何將整個車完整地標出來呢?我們的辦法是,引入「測地距離(GWB)」,將車當作一個整體,因為人類在識別一輛車的時候,不會把車窗這種特徵顯著的東西摳出來作為另外一種事物。
通過這個思路,我們在模型中加入測地距離貝葉斯優化框架,對汽車的顯著性檢測有了三分之一以上的提升。
上圖是我們與國際最佳算法的比對結果,非常直觀對顯著性區域的檢測有了明顯提升。
3、部件與結構認知模型
如上圖,如果只看左一,沒人知道是什麼,所以在識別一個物體時,需要找到其關鍵部件。所以在2006年,我們提出了一個模型,如下圖所示,以自行車為例,只要有兩個圈和一個車座,不管什麼角度,都識別為自行車,這是早期的模型。
2017年,我們在Pattern Recognition上發表了新的「通用對稱對模型」識別方法,這是一種非常新的思路。假設人的動作主要由手和腳完成,它們是周期的或對稱的;同時假設對於識別動作有助的區域在這些對稱部件的「周圍」,就得出了一個新的模型。
這個模型關注的是手和腳的動作,並不關心多變的手和腳的輪廓檢測,這就將一些約束鬆弛了,解決了檢測手勢的難題。
4、3D場景物體識別
說了這麼多,如果顯著性檢測帶來的提升不足以支撐自動駕駛任務在複雜場景中的應用,如果部件和結構檢測也不足以在複雜遮擋條件下完成識別,那麼就有一件事必須要做,也是我的研究方向,3D場景圖像認知與多模態學習。
「我站在這裡一動不動,為什麼你就能認為我是一個人,而不是一個雕塑?」在這個過程中,對事物的整體三維還原很重要。現在,我們要將這個3D認知模型引入到駕駛任務中。分為幾部分:輸入(單目、雙目、雷射雷達等)→ 似物性檢測(Object Proposal,識別人/車的位置、大小和姿態等)→ 三維語義預測→ 輸出(類別、位置、大小、姿態)。
國際權威的圖像集KITTI中包含三類物體:汽車、行人和騎自行車的人,不僅有單目圖像還有雙目圖像,還有二維、三維boxes的標註。KITTI中的任務包括物體檢測以及姿態估計等,我們參加了六項評測,其中四項獲得了第一。
在二維場景的圖像檢測中,重要的是更精確的似物性區域獲取,但在二維圖像下,要想更精準的檢測,就需要將三維引入進來,這就是提升似物性預測(Object Proposal)的訣竅——Thinking in 3D,用三維來思考,下面將具體展開。
1、單目視覺(Mono3D)
在單目視覺下如何解決三維檢測問題?假設一幅二維圖像,將大地作為參考系,只要通過語義分割將道路檢測出來,同時已知汽車前視攝像頭的視場、焦距以及安裝的高低位置,就可以粗略地計算一個三維空間,並將這幅圖像的點還原到三維世界中。主要分為下圖中所示的幾個步驟。
針對基於語義特徵的似物性預測(單目)會遇到的三個問題,我們分別給出了解決方案:
缺乏語義信息,對於路面分割、物體分割的語義信息基本沒有
解決方法:基於高層語義特徵的能量最小化模型
缺乏三維信息
解決方法:基於道路幾何先驗的3D場景建模
搜索複雜度高,二維boxes無法準確標註
解決方法:3D區域採樣
這樣,就將整個檢測過程分為三部分:
首先,對原始圖像進行3D似物性區域提取,使用神經網絡得到物體語義(數據驅動)。
第二,通過相機與汽車相對位置以及大地參考系,基於場景幾何形成場景結構(先驗知識驅動)。
第三,結合兩者構建能量模型,來做3D物體的推理。
2、立體視覺(3DOP)
在雙目圖像中,我們可以直接計算得到三維點雲,有物體的高度信息,所以我們將道路上所有的車的高度、人的高度都規定一個檢測區間,並利用成像中的自由空間構建高精度的物體檢測認知模型。
上圖所示,為三維場景中對車的3D似物性檢測需要滿足的條件,首先它應當有較高的點雲佔有率;其二,其中應該包含較低的自由體素;其三,符合最初對物體的高度先驗;其四,要滿足與鄰近區域的高對比度,即車是跑在路上的,不在路上對我們沒有影響。
將這些因素結合在一起,如上圖,綠色是自由體空間中的路面先驗,從藍到紅代表高度先驗的增加,通過這些要素建立Object Proposal似物性區域的立體框,x、y、z是3D box中心,θ是方位角,即車和車之間的關係和方位角,物體C是類別,t是形狀模板,即框的頂點和尺寸。基於這些參數,即可計算基於能量最小化的似物性區域。
上圖是我們的單目、雙目、雙目+雷射雷達混合方案在3D似物性區域召回率的表現。可以看到,在汽車檢測上區別不大,在行人檢測上開始有所差別,到了自行車檢測區別就很明顯了,可以看出雙目點雲的方法在小目標檢測性能上有顯著提升。而加上雷射雷達(LiDAR)後,性能提升就更高了。此外,在自行車檢測上,可以看到目前的性能還有很大提升空間,證明自動駕駛的環境感知,還有很長的路要走。
應用層面,我們提出了複雜交通場景下的三維物體檢測結構,並將其應用在了真實的自動駕駛任務中,該應用在2017年1月的北美CES展上進行了成果展示。
3、雷射雷達(MV3D)
雷射雷達的優勢在於,能夠提升小目標的檢測率。MV3D指的是多模態三維物體檢測結構,在這種情況下,將攝像頭和雷射雷達都引入進來,還可以引入其他傳感器。
首先明確,圖像數據的優點在於含有豐富的細節和語義信息,缺點在於深度估計的精度低;雷射點雲的優點在於含有精確的三維位置信息,缺點在於細節解析度低。
基於以上事實,多模態融合的難點在於以下幾點:
如何表示三維點雲?
圖像和雷射雷達點雲具有不同解析度,如何對齊不同模態數據?
前融合、後融合還是其他方式?(此處我們需要多種融合方式,即深度多級融合)
我們的解決方案是,使用多視角表示三維點雲,結合雷射雷達的俯視圖、雷射雷達的前視圖以及RGB圖像進行計算。雷射雷達掃描的數據是包含有x、y、z坐標的,這種情況可以將其還原成俯視圖,因為俯視的情況下背景(地面)簡單,方便在其上做三維box的檢測。
所以,最終我們得出了一個俯視視角,兩個前視視角(分別來自雷射雷達和攝像頭兩個模態),這時候需要對其進行多視角表示。還是沿用之前劃分高度區間的思路,將俯視圖從地面起到車的最高高度區間,進行切片,對這些圖像進行點雲密度和強度的檢測,而前視圖中得到的高度、距離和強度等可以作為我們的先驗知識和信息。
這樣做的好處是,不涉及姿態問題,在俯視情況下只存在尺寸變化,同時數值指標變化小,沒有樹木等遮擋問題。
用這種方案我們得出的檢測網絡(MV3D)如下圖所示,首先通過俯視圖做卷積,得到三維似物性區域。然後通過將其投影在不同模態上,進行圖像融合。在投影到俯視圖、雷射雷達前視圖以及RGB圖像時,做一個ROI Pooling處理,然後將三個分支做平均融合,最後通過Softmax和3Dbox回歸學習。
下圖是方案的成果對比,可以看到多模態融合的方案在提升似物性預測上性能的大幅提升,本論文是CVPR2017 Spotlight Paper。
下圖是我們的MV3D在KITTI數據集上的可視化結果,將3D物體檢測與雷射雷達融合,認知的難度大大下降了。
去年夏天,我們與百度合作對北京亦莊的公路做了路試,達到下面這樣的成果。
而後,我們與上海縱目、美國高通合作,將算法寫入了高通驍龍820A晶片裡,並在CES展上進行了展示。以上是我們的一些成果產業化落地情況。
今天的報告中,講解了三維場景下,以數據和認知雙向驅動的三維場景圖像認知與多模態學習,同時,我們還在做駕駛策略的增強學習,我們在複雜環境仿真上有20多年的積累,為識別、決策提供所需的訓練及測試樣本,後期還會將超聲波雷達、毫米波雷達、GPS等進行融合,提供一個系統級解決方案。相關論文、PPT、代碼等請訪問實驗室網站下載。
雷鋒網推薦閱讀:師從李德毅、李克強,清華無人車領隊張新鈺詳解智能駕駛進程、關鍵技術及產業化發展
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。