滴滴感知大量使用機器學習和深度學習來解決問題,但要解決L4自動駕駛的感知問題,並非只是引入最先進的深度學習模型即可解決。本文歸納出感知能力逐步進化的三個階段。並分析了以下幾大難題給感知帶來的挑戰:深度學習模型本身存在的缺陷、多傳感器需要進行揚長避短的融合、低延遲要求和有限算力間的矛盾、難以準確表徵和處理不確定性。最終,對感知的未來發展提出展望。
1. 感知準確是無人車算法的基礎
感知在自動駕駛中是一個比較直觀的模塊,即根據傳感器(如雷射雷達、相機、毫米波雷達)信息對周圍的物體進行理解和抽象,輸出所有交通參與者的位置、速度、大小等屬性,下遊模塊(預測、規劃)根據這些抽象信息進行運算和決策;感知如果遺漏了物體,對自車來說是「視而不見」的狀態,會造成嚴重的安全風險。因此,感知信息的準確度是無人車算法的重要基礎。
2. 進化的感知發展路徑
自動駕駛的最低要求是能識別到面前的物體,不撞上它。這個要求通過雷射雷達就可以實現,因為它可以準確地估計物體的 3D 位置,並刻畫其輪廓。但真實世界並非都是靜態障礙物,比如在跟車的場景下,前車的速度是我們考量是否需要減速或剎車的重要因素。同時,面對一個在向自車靠近的行人,和一個靜止的行人,自車對他的反應是截然不同的。
第一階段:基於規則的點雲分割算法和物體追蹤
在第一階段,除了需要識別靜態障礙物,我們也需要識別常見交通參與者(車、行人、自行車)的類別、朝向和速度,以幫助自車做出決策。在深度學習出現之前,其實通過基於規則的點雲分割 / 分類算法,再加上物體追蹤,就可以做出一個基礎的版本。在這一階段,針對處理不好的問題需要專家設計規則和專門的算法進行處理,然而,許多情景我們難以設計規則處理。
對於並行走的行人很難設計人工規則把兩者分開
第二階段:大規模數據標記和深度學習
深度學習的出現和發展大幅度提高了感知的效果。面對規則難以處理的感知任務,我們可以運用大規模數據標記及訓練深度學習模型。我們不再依賴專家針對問題設計算法,而是從大量數據中萃取出經驗和知識。在這一階段,感知算法的設計更加數據驅動。感知通過收集更多的數據,設計更好的模型進行迭代。但深度學習準確率也有上限,且泛化性(在非典型樣本上的表現)、可解釋性都存在問題。因此在自動駕駛這個場景中,深度學習並不是感知唯一的組件。
第三階段:可擴展性和自學習性的長尾數據處理系統
第三階段,需要做更細粒度的識別,以及解決更多長尾問題,如各種奇怪的大車、地上的塑膠袋、行人更細粒度的意圖(如是否在打電話)等。這一階段要求系統有更強的可擴展性、自學習性。長尾問題絕對量佔比小,但並不容易解決。其難度可以用九九定律來刻畫:剩餘 10% 的問題,還需要額外 90% 的時間才能解決。理想情況下,長尾問題應該有自動的流程進入到模型框架中自動進行學習,而不是簡單地靠堆人力來改善這些問題,甚至人過多會使進展變慢。現在學術界在研究的 multi-task learning, AutoML等技術對這一階段的感知發展有極大的啟發。但因為數據的價值邊際效用遞減,及下文會提到的深度學習的限制,目前業界也還在探索狀態,沒有特別成熟的思路能達到僅靠數據流就能使系統不斷進化的狀態。
長尾問題:識別到椎桶在卡車上,無需剎車
3. 實現完全無人駕駛對感知存在多重挑戰
1.深度學習模型存在缺陷
深度學習模型雖然效果顯著,但最先進的模型的效果也無法達到無人車感知的要求,且深度學習算法缺乏泛化性和可解釋性。許多研究已經證明了深度學習遠不如人類智能通用,如通過加人類無感知的噪聲,就可以誤導模型對結果的分類;對於罕見的數據(如一個穿著很奇怪衣服的人),深度學習也容易犯錯誤。簡單來說,深度學習模型只是以一種生硬的方式在「記憶」訓練數據。而且其記憶能力有限,在模型學習達到飽和後,學習新的樣本可能造成已有能力產生退化。如何結合深度學習模型和基於規則的白盒算法,同時保障感知的召回率和效果,是感知系統面臨的一大挑戰。綜合考量以上缺陷,我們不能僅依賴深度學習模型。
通過添加人眼無法辨別的噪聲,深度學習模型就可以被誤導
感知自建的數據標註系統
2.多傳感器需要進行揚長避短的融合
傳感器是感知能力的上限,不同的傳感器有不同的優缺點。雷射雷達能對物體輪廓進行較準確的刻畫,同時能準確地得到物體的 3D 位置信息,但缺乏相機所能得到的豐富色彩信息,同時對雨雪天氣較敏感;相機對 3D 位置的估計稍差;而毫米波雷達精度一般,但感知距離遠,且能直接得到物體縱向的速度。下圖更全面地反映了這些優缺點。感知系統需要針對不同的任務,揚長避短地使用多種傳感器信息。同時,多傳感器的融合也對標定的精度、可擴展性提出了較高要求。
不同傳感器的優劣勢對比
3.低延遲要求和有限算力間的矛盾
無人車是一個實時計算系統,無法像 Web 後端系統一樣通過增加伺服器來進行算力拓展。同時車載系統對能耗、散熱也有約束,這間接約束了感知能使用的算力。在有限算力下部署複雜模型,感知輸出延遲較大,會造成安全隱患及各種問題。我們需要通過模型壓縮、神經結構搜索、代碼優化的方式更巧妙地利用有限的算力資源,達成最佳的效果。
4.難以準確表徵和處理不確定性
感知的輸出是帶有不確定性的,一個近處物體,在無遮擋的情況下,我們對其估計較為確定;而一個遠處物體,雷射雷達打上的點少,我們對它的類別、位置的不確定性都較大。一般來說,我們需要輸出一個最置信的類別和位置信息,但此時該信息的不確定性是極大的,而感知內部或下遊往往會直接忽略這種不確定性。如何更好地融合不確定性信息,需要感知內部和下遊模塊從底層進行更好的思考。
不確定性:例如在遮擋嚴重的情況下,我們對物體的類別、位置、速度等信息變得不確定
4. 充滿挑戰的進階之路
在外界看來,無人車感知似乎是一個較容易的問題,使用先進的深度學習模型就可以解決得不錯。但無人車對安全性有極高的要求,同時路測出現的場景千奇百怪,這對感知的挑戰是巨大的。無人車感知是一個需要綜合算法、工程、數據的系統工程。算法方面,我們需要針對問題,組合、定製已有算法,同時緊跟學術界/業界進展,引入新思路。工程方面,我們需要讓系統能夠吞吐更大量的數據;同時不斷完善系統,減少工程師在解決問題需要投入的時間。數據方面,我們需要利用路測數據積累對長尾數據的認知和評估,同時形成模型-路測-數據標註閉環,增加數據的量級和利用率。在這一方面,我們復用了滴滴已有的成熟基礎架構進行二次開發,因此可以較快建立感知的體系。
一個更高層次的要求是自學習性。如果系統有更好的自學習性,僅需一些數據標註和自動學習,系統就可以適應一個新的環境。當前,我們的感知系統部署到一個環境變化的新城市,還需要投入一些人力進行重新開發和調整。這是一個需要努力的方向,完善的數據和算法架構是重要的基礎。
目前為止,無人車感知雖然已經取得了極大進展,但遺留的難題還很多。以上只是一些宏觀層面的思考,但細節決定成敗,每個難題的攻克需要二三素心人的潛心鑽研。期待無人車的未來進階之路上早日迎來技術的躍遷。
References
[1] Montemerlo, M., Becker, J., Bhat, Suhrid., Dahlkamp, H and Dolgov D., Ettinger, Scott., & Haehnel Dirk. (2008). Junior: The Stanford Entry in the Urban Challenge. Journal of Field Robotics, 25(9), 569–597. Retrieved 11 December 2020.
from https://onlinelibrary.wiley.com/doi/abs/10.1002/rob.20258
[2] Held, D., Guillory, D., Rebsamen, B., Thrun, S., & Savarese, S. (2016). A Probabilistic Framework for Real-time 3D Segmentation using Spatial, Temporal, and Semantic Cues. In Robotics: Science and Systems.
DOI: 10.15607/RSS.2016.XII.024
[3] Ninety-ninety Rule. Retrieved 11 December 2020.
from https://en.wikipedia.org/wiki/Ninety-ninety_rule
[4] The Mythical Man-Month. Retrieved 11 December 2020.
from https://en.wikipedia.org/wiki/The_Mythical_ManMonth?oldformat=true#The_mythical_man-month
[5] Standley, T., Zamir, A., Chen, D., Guibas, L., Malik, J., & Savarese, S. (2020). Which Tasks Should Be Learned Together in Multi-task Learning?. Retrieved 11 December 2020.
from https://arxiv.org/abs/1905.07553
[6] He, X., Zhao, K., & Chu, X. (2020). AutoML: A Survey of the State-of-the-Art. Knowledge-Based Systems, 106622. Retrieved 11 December 2020.
from https://www.sciencedirect.com/science/article/abs/pii/S0950705120307516
[7] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., & Fergus, R. (2013). Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199. Retrieved 11 December 2020.
from https://arxiv.org/abs/1312.6199
[8] Goodfellow, I. J., Mirza, M., Xiao, D., Courville, A., & Bengio, Y. (2013). An empirical investigation of catastrophic forgetting in gradient-based neural networks. arXiv preprint arXiv:1312.6211. Retrieved 11 December 2020.
from https://arxiv.org/abs/1312.6211
[9] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572. Retrieved 11 December 2020, from https://arxiv.org/abs/1412.6572
[10] Fused Sensing vs. Sensor Fusion. Retrieved 11 December 2020.
from https://www.outsight.tech/technology/fused-sensing-vs.-sensor-fusion
[11] Feng, D., Harakeh, A., Waslander, S., & Dietmayer, K. (2020). A Review and Comparative Study on Probabilistic Object Detection in Autonomous Driving. arXiv preprint arXiv:2011.10671. Retrieved 11 December 2020.
from https://arxiv.org/abs/2011.10671
本文作者
Milton,滴滴自動駕駛高級專家算法工程師。
延伸閱讀:
解讀自動駕駛的2020:從硬體角度看,無人車商業化落地難在哪?-InfoQ
關注我並轉發此篇文章,即可獲得學習資料~若想了解更多,也可移步InfoQ官網,獲取InfoQ最新資訊~