編者按:《郭繼舜帶你讀汽車科技》旨在從第一性原理出發,嘗試撥開迷霧,解讀熱點背後的汽車科技真相。
本欄目由智能駕駛專家郭繼舜博士與汽車之心聯合出品,內容獨家授權汽車之心發布。
最近這段時間,關於特斯拉的新聞很多,我們今天講其中兩個。
第一個新聞發生在今天:2020 年 6 月 1 日,在臺灣嘉義,一輛 Model 3 在高速公路上撞上了一輛側翻的大貨車。
我仔細看了下這條視頻特斯拉車主估計開啟了 Autopilot 功能,早晨 6 點 44 分,可能車主昨晚沒睡好,在車上打瞌睡分神了。
車載攝像頭和毫米波雷達沒有識別出前方的箱式大貨車,車頭撞進了貨箱箱體。
初步估計,這可能是貨車白色箱體有比較強烈的陽光反射,影響了這輛 Model 3 的攝像頭識別;或是因為視覺算法訓練數據的局限性,一般訓練的都是識別車輛後部、側面、車輛頭部,工程師可能沒想過有一天需要識別貨車的箱體頂部。
深度學習模型不能對這個物體進行分類,也就是說,算法不支持識別貨車白色箱體這樣的障礙物,由此造成了這次事故。
可能有人會問,即使攝像頭沒有識別,車載的 77G 毫米波雷達也應該能識別障礙物。
這與傳感器的融合機制有點關係。
一般來說,1R(毫米波雷達)的 AEB (自動緊急制動)系統,只用一個毫米波雷達作為傳感器的緊急制動系統,是能夠對靜態障礙物識別且正常制動的。
但在類似特斯拉這樣的 3V1R (3 個攝像頭+1 個毫米波雷達)的方案中,也就是三個前向攝像頭加一個前項 77G 毫米波雷達的傳感器方案。
為了減少 AEB 誤觸發,往往會用算法濾掉毫米波雷達對靜態物體的信號,用攝像頭識別多個目標,跟蹤目標,同時用毫米波雷達對已識別物體進行檢測和跟蹤。
所以,因為傳感器融合邏輯的問題,在這個案例中,毫米波雷達也沒有及時給系統報警。
第二個新聞,是這幾天,國內的一些媒體報導了今年 2 月在 Scaled ML 大會上,特斯拉 AI 高級總監 Andrej Karpathy 對外分享的特斯拉訓練 AI 的方法,同時也首次對外分享了特斯拉如何藉助攝像頭就能實現雷射雷達的探測精度。
這也讓我們看到了 Elon Musk 堅持不使用雷射雷達的技術底氣。
目前,特斯拉 AI 團隊已經掌握了名為「虛擬雷射雷達」(pseudo-LiDAR)的新技術,它彌合了傳統計算機視覺和雷射雷達強大的點雲世界之間的界線。
在 Scaled ML 大會上,特斯拉放出了一系列有雷射雷達形式的 3D 地圖,這些地圖看起來就像是雷射雷達採集到的信息,但是是用攝像頭圖像生成的。
Andrej Karpathy 說:「我們走了一條『虛擬雷射雷達』的路徑,只需簡單預測單個像素的深度,找到它們直接的距離,就能得出結論。」
人類有很多得到物體距離(即景深)的方法,除了雙眼創造的立體視覺之外,人類還能藉助「動態視差」跟蹤物體的運動方式,從而得出其他可以參考的線索。
比如人類駕駛員,經過短時間的適應,閉上一隻眼睛,也一樣能夠好好駕駛。
初看這個技術報導,我感覺有些震驚,以為特斯拉又發布了什麼黑科技。
但是仔細研究了新聞中提到的「虛擬雷射雷達」的技術原理和效果圖,也查閱了相關的資料後,我基本可以確認,這就是視覺感知中的經典的「單目視覺深度估計」問題,只不過將數據的展示形式用類似雷射雷達點雲的方式進行展示。
我的印象中,在 MobilEye EyeQ4 晶片和地平線 J2 晶片的視覺感知方案中已經發布了類似的功能,只是精度上與雷射雷達有較大的差距。
在這個新聞中,我們並沒有看到特斯拉發布精度的數據,所以也無法評論其算法的先進性與實用性。
借著今天這兩個新聞,我給大家講講自動駕駛系統對於異構傳感器的融合。
由於內容比較多,也比較技術,為了防止信息量過載,我們今天講後融合,前融合等放在明天講。
現階段自動駕駛系統認識世界的唯一方法,就是通過傳感器來接收外部的各種物理量並轉換成電信號,再通過採樣編碼等方式變成原始數據,然後通過感知算法識別為目標信息,最後通過理解算法還原成對真實世界的抽象模型。
根據檢測的物理量與採樣編碼方式的不同,我們大致可以將自動駕駛中的傳感器分為:
使用被動環境光的視覺傳感器-攝像頭;
使用主動編碼紅外雷射的雷射雷達;
使用主動高頻電磁波的毫米波雷達;
以及使用主動式超聲波的超聲波傳感器。
除了上述直接對環境進行探測的傳感器以外,還有一類設備,能夠通過通信方式,直接獲得外界編碼好的事件信息,比如 V2X、GPS、IMU、RTK、輪速計等等,這些可以看作廣義上的傳感器。
各種傳感器由於信號來源不同、原理不同、處理方式不同,在感知外部環境信息的時候具備不同的特性,我們把上述的這些差異稱為傳感器的「異構性」。
攝像頭的感知數據是圖片,也就是 RGB 像素的二維矩陣,解析度高,但由於是被動式傳感器,成像結果受強光、弱光影響較大。
一般的 24G 或 77G 毫米波雷達的感知數據是一條掃描線上的距離以及都卜勒效應相應所表徵的相對速度,是一維數組。
有些先進的毫米波雷達,在普通毫米波雷達的基礎上增加了垂直方向的解析度,同時頻率也上升到了 79-81G,從而能夠輸出帶相對速度信息的三維點雲數據,也被成為 4D 毫米波雷達。
但是因為電磁波的特性,對於金屬敏感度過高,對於人體等非金屬目標敏感度不足,信號的噪聲比較高,且由于波長遠大於光波,衍射現象造成了解析度不高,需要較多的濾波和後處理過程。
雷射雷達通過主動紅外雷射掃描的方式,通過反射時間測距原理得到的是帶反射率的三維點雲信息。
由於雷射頻率高,波長短,光束能量密度大,因此具備解析度高、距離精準,受外界影響小、信噪比高等特點,是非常理想的環境傳感器。
但是缺點就是成本高、難維護,以及相比攝像頭缺失了色彩信息,數據仍然不夠稠密。
從上述分析可以知道,攝像頭由於解析度、幀率、信息豐富程度、算法適配度、產品成熟成本低等等多種優勢成為了現階段自動駕駛感知設備的首選。
但是,由於其原理的局限性,仍然無法解決自動駕駛感知中的所有問題:
首先,攝像頭的透鏡成像原理本質上是將三維空間坐標系投影到二維齊次坐標系的變換,損失了距離信息,所以單攝像頭的單幀圖像無法直接還原三維空間的距離信息,這是攝像頭的本質缺陷。
雖然多攝像頭或者單攝像頭的多幀圖像是可以利用多個齊次坐標系之間的相關性求解方程恢復深度信息的,也就是雙目視覺感知技術和單目視覺 SLAM 技術。
但是即便如此,由於攝像頭的檢測方式是被動接收外界光線,所以仍然解決不了受外界強光幹擾嚴重的問題,在逆光下失效可能很大。
所以,用攝像頭虛擬雷射雷達來替代實際的雷射雷達,在目前看來,至少在精度還是魯棒性上,都還是不太現實的。
現階段,我依然是 L4 雷射雷達解決方案的堅定支持者。
由於上述傳感器都有各自的優缺點,現階段自動駕駛感知系統使用的是混合異構傳感器組合架構,以實現感知信息的互補融合。
根據智能化程度從低到高,對於傳感器異構冗餘的要求就越高:
L2 輔助駕駛通常包括攝像頭和毫米波雷達至少兩種傳感器;
L2+ 自動駕駛會在攝像頭和毫米波的數量和部署位置上進行增加;
L3-L4 以上更高級別的自動駕駛則會在此基礎上增加雷射雷達傳感器,用以覆蓋更多的盲區,增加更多的可靠性與置信度。
在當前的自動駕駛工程實踐中,我們通常採用感知結果後融合(Later Fusion)的方式來重建真實世界的模型。
也就是多種傳感器採集原始數據後,各自單獨使用算法進行目標的識別和分類,再根據對各個傳感器結果的置信度不同,通過概率模型將可能是相同目標的觀測結果融合起來,獲得統一的世界模型。
我們回到第一條新聞,以視覺和毫米波雷達的融合 AEB 系統為例:
由於毫米波雷達受到光照的幹擾相對較少,視覺感知算法漏檢率太高,早期的 AEB 設計傾向於以毫米波結果為準。
後來發現毫米波雷達對金屬敏感度太高,噪聲太多,造成了虛警和鬼影太多,而視覺算法的準確度也越來越高,所以現階段 AEB 系統對毫米波雷達的置信度權重下降,感知結果以視覺感知為主,通過一段時間內的置信度投票的方式獲最終的感知輸出。
這就是為什麼那輛 Model 3 視覺失效了,毫米波雷達也不能很好地起作用的原因。
順便說一下,目前通用的後融合框架主要有卡曼濾波與非線性優化方法,主要講的是時間更新與測量更新,如何在算法層面形成數據閉環。
但是,後融合有一個較大的缺點,就是結構化信息的融合是各個傳感器識別後的結果,對原始數據的信息損失量大,數據信息量低,這些損失的信息往往能夠通過原始數據的融合而提高利用率,發現更多的微小有用信息。
所以傳感器信息前融合的方法就逐漸受到了人們的關注。明天,我們將講講前融合。