單目視覺ADAS的技術與體驗升級之路|雷鋒網公開課

2020-12-16 雷鋒網

雷鋒網按:本文內容來自武漢極目智能CEO程建偉在硬創公開課的分享,由雷鋒網旗下欄目「新智駕」整理。目前,單目視覺ADAS技術相對成熟,同時成本也比較低,應用最為廣泛。那麼,到底單目視覺ADAS背後有哪些技術原理(算法、硬體)?同時如何讓廣大用戶觸手可及?

以下分享也許可以解答您的疑問:

ADAS的實現途徑;

單目視覺ADAS的基本原理;

單目視覺ADAS的技術難點(數據樣本積累、算法、晶片、攝像頭及前後裝等);

視覺ADAS的發展趨勢。

一、ADAS的實現途徑

伴隨著這幾年自動駕駛概念的火熱,ADAS越來越受大家關注,輔助駕駛作為自動駕駛的早期階段,在整個流程裡扮演著感和知的角色。

第一步是通過各種傳感器來採集車身已經周邊環境信息,包括但不限於GPS、車身傳感器、攝像頭及雷達等。目前汽車智能都離不開這幾種傳感器的融合運用,為車輛來建立周邊的立體信息。

第二步則是根據採集到的信息來進行道路、車輛、行人和路標的識別。對各種工況下道路參與者的狀態提取,給決策者提供決策信息。如果決策者為駕駛員,那麼是輔助信息;如果決策者為制動部件,那麼就上升到AEB或者LC等Level 2以上的駕駛輔助階段。

各類傳感器的機制從底層邏輯來說是比較類似的,都是光學或者模擬信號的數位化,採用算法來還原傳感量的變化。而攝像頭技術是目前ADAS領域最快速發展的傳感器技術。

SA(Strategy analytics)分析指出:如果車輛前方只有一個傳感器,那麼最大可能是攝像頭;如果車輛前方有多個傳感器,那麼確定的是會有一個攝像頭在其中。

二、視覺ADAS的基本原理

我們以目前基於攝像頭的單目視覺為例來說明其基本原理。

整個流程包括樣本的採集及標記,同時對標記的樣本進行大範圍訓練來提取特徵和模型,將模型作為實際圖像數據進行分類識別。

另外一個維度,我們需要保證圖像源的質量,通過寬動態、強光抑制、降噪等技術來保證輸入數據源的乾淨,將真實環境清晰的數據進行邊緣化和紋理化送入分類器進行識別

同時,在這個環節我們要非常注重模型數據和圖像源數據的一致性,即樣本標記的數據和實際圖像源要來自相同的鏡頭、圖像Sensor和相同的ISP技術,來保證訓練和實際的高匹配。

這部分是目前在實驗室做數據時很難實現的,很多可能採用的是公開的樣本庫來訓練,而公開樣本庫所採用的攝像頭、鏡頭角度等並不是我們實際中使用的。

三、視覺ADAS的難點

在產品開發中,難點在各個環節都有覆蓋。

首先是算法本身的檢測率,這是需要不斷提升的環節。需要在魯棒性和敏感性之間作平衡,來保證產品的良好體驗。

同時從產品工程化的角度講,很多時候並不能用檢測率最高的算法,必須優化算法速度,因為我們沒法將一顆i7晶片或者伺服器搬到汽車上去;其次是正負樣本的積累,考慮到源同步的問題,樣本積累必須來自實測,同時保證大量。

第三個方面,既然做的是產品,那麼硬體處理器和攝像頭的選擇必須考慮性價比、可量產性等。

第四,安裝方面要儘可能的簡化用戶的安裝步驟,降低安裝難度,那麼需要在算法設計的時候充分將內外參的兼容性考慮進去,並在不同車型的測試中驗證,這部分是採用技術提升體驗的關鍵。

最後是天氣適應性,每種傳感器都有自己的長處,但是也都有自身的短板,比如雷達對靜態物體、雷射雷達對天氣,攝像頭也會受制於天氣和光照影響,在這些條件下,提升攝像頭前端技術變得尤為重要(Mobileye也不僅僅是一個算法公司)。

當前階段在嵌入式端工作的算法,普遍基於機器學習,其優點是工程化、量產化更有可行性。

任何人工智慧算法的落地都必須具備可工程化。一方面是視覺前端的提升帶來了運算量的降低;另一方面科研人員的探索可以給技術實現提供更豐富的組合可能。

同時摩爾定律的繼續深化帶來晶片可以實時的完成更多複雜的算法,特別是嵌入式晶片可以運行以前高配置電腦甚至伺服器才能完成的功能。

當然硬幣的另一面,依然有需要用更好的方法來解決的地方,包括有遮擋的目標物、檢測率的繼續提升等等。這些都有待攝像頭前端技術的繼續提升和深度學習算法的嵌入式應用來解決。

四、視覺ADAS的功能

接下來我們通過兩個簡單的例子來介紹車輛識別、車道線識別、交通標誌牌識別等功能。

對車輛識別和車道線識別只是前方碰撞預警和車道偏離預警的第一步,我們還需要綜合速度、車輛自身行駛區域、前方車輛狀態等信息來進行分析,參照ISO標準來進行報警信息的輸出。

1、車輛識別及跟蹤:

2、車道線識別:

3、交通標誌識別:

基於前面基本功能和背景的分析,我們從以下幾個方面來探討ADAS技術的深化之路,它需要的是面向AEB(自動制動)、LC(車道中心保持)等。

五、視覺ADAS的硬體

視覺ADAS系統其實是一套嚴謹的光學系統或者相機。

但是它比普通相機運行的環境更加苛刻,包括振動、顛簸、高溫等因素,我們從每一個環節來保證這套系統的一致性和可靠性,特別是圖像源環節,比如說鏡頭標定、焦距控制、畸變係數的補償,這些都構成產品可量產性的重要因素。

視覺ADAS系統的內參可靠性同時要結合外部參數的差異性。比如說車輛在平路和坡道時的視覺和測距完全不一樣,我們通過對自身鏡頭的參數和外部目標的視角進行距離矯正,最終達到1個像素以內的誤差。

精準的距離測試是前車碰撞預警乃至AEB的基礎。

目前,基於單目視覺的測距方法集中於兩類:

其一,就是通過光學幾何模型(即小孔成像模型)建立測試對象世界坐標與圖像像素坐標間的幾何關係,結合攝像頭內、外參的標定結果,便可以得到與前方車輛或障礙物間的距離;


其二,就是在通過採集的圖像樣本,直接回歸得到圖像像素坐標與車距間的函數關係,這種方法缺少必要的理論支撐,是純粹的數據擬合方法,因此受限於擬合參數的提取精度,魯棒性相對較差。

正因如此,我們採用了光學幾何模型進行車距的計算。前面已經說過了,我們採用了嚴格的攝像頭標定方法可以獲得精準的內參和外參。

除此之外,影響測距精度的另一重要因素就是車輛邊緣檢測的精度。我們採用了精確的邊緣檢測和多幀綜合檢測的算法,可以在不同的光線環境下得到相對精準的用於車距檢測的車輛坐標信息。

儘管如此,由於道路平面的多變特性,動態的距離測試必須考慮外參的動態改變量及圖像處理時的隨機誤差。圖像上幾個像素的跳變,就可能引起遠距離車距測量的較大誤差。

因此,我們在誤差來源分析的基礎上,力圖通過誤差修正方法及算法優化方法,從多個層面降低測距誤差:


道路環境的精準重構:


同時可以保證我們對周邊其他參照系的精確重構。在這個模型圖像裡,我可以看到對道路環境進行了位置重構,對車道線距離、車輛距離、車道線角度以及車高等信息完成了提取,特別是車道線的距離檢測可以達到釐米級的誤差。

六、視覺ADAS的算法

剛才講到的是前端攝像頭,接下來是算法端的核心。我們需要的是對樣本進行大量的訓練。我們在樣本的訓練方式上採用了一些創新,包括UGC(User Generated Content)、圖像源同步、自動提取和人工校驗相結合等。

算法的載體是硬體,硬體的選擇需要從運算速度、功耗散熱和成本三個方面來平衡。

攝像頭、算法及硬體最終需要通過安裝來保證設計者的意志得到體現,糟糕的安裝會導致前面的工作功虧一簣。在有安裝條件的情況下,我們通過專業安裝人員進行標定板的安裝;同時我們有大量的DIY用戶,那麼便可以通過精簡的內外參和行駛數據總結來給用戶提供個性化的報警機制。

我們目前近千臺的激活用戶經過上百萬公裡的行駛裡程積累,產生了一些比較喜人的數據。

根據我們的駕駛行為評分系統,某個用戶在為我們貢獻了2950公裡裡程的實際數據的同時,他的駕駛得分得到了穩步的提高,充分體現了ADAS系統對用戶的駕駛規範性提升價值。

最後,針對視覺ADAS的發展趨勢,程建偉認為將包含以下方面:

問答環節:

雷鋒網新智駕:請問基於攝像頭如何得到物體的三維位置?基於slam能重建出運動的車輛嗎?

程:根據攝像頭的自身參數,得到目標物體的縱向距離和橫向距離,進一步計算出物體的寬度高度信息;可以通過自運動模型得到車輛的縱向和橫向運動。

雷鋒網新智駕:能否說一下單目和雙目的區別?基於視覺的測距為什麼不選雙目,會更準嗎?

程:單目更加成熟,並且對性能要求更低,安裝角度要求低;雙目可以計算圖像深度信息,能更準確的測量距離,但是運算要求高,有效距離近。人對距離的感知刷新是在0.1s級別,所以99米和100米之間的誤差,實際對人的駕駛判斷沒有太高意義。單目測距完全符合ADAS的標準。

雷鋒網(公眾號:雷鋒網)新智駕:基於光學幾何模型測距的方法依賴於物體在路面的假設,如果車輛被遮擋,或者行人下半身被綠化帶遮擋,與路面沒有交點,那麼如何測距?

程:我們的鏡頭在標定時會計算FOE值,通過該參數與物體實際寬度值來計算實際距離,計算距離經過多次濾波來消除遮擋的幹擾。

雷鋒網新智駕:視覺ADAS技術需要處理的數據量多大? 需要怎麼樣的硬體資源?

程:數據處理量看功能以及優化,目前的情況是行人檢測大於車輛檢測大於車道線檢測,目前車輛和車道大概40G FLOPS,如果加上行人,會翻倍。所以硬體的選擇一方面是處理器性能,另外是優化性能的均衡。

雷鋒網新智駕:您認為傳統視覺算法與新興CNN、RNN算法相比優劣勢在哪裡?未來,您更看好哪種?

程:傳統視覺算法優勢是目前成熟,計算量小,可以實現嵌入式化,低成本化;劣勢是算法的提升後期比較困難;CNN在最近幾年得到了長足的發展,目前更多的是在伺服器後臺端運行,對於嵌入式化還有一段路要走;未來隨著摩爾定律的繼續發展,硬體性能的進一步提升,CNN會有比較大的空間在嵌入式應用領域,我們這這塊也已經在做一些測試工作,也有一些比較好的結果。

雷鋒網新智駕:極目的單目ADAS方案與Mobileye有什麼區別及優勢?

程:Mobileye是單目ADAS的標杆,目前國內外單目的ADAS都是更多的在以他們為目標進行學習。極目做了更多的針對國內的路況適配,同時針對國人做了很多報警機制的優化。同時我們以移動網際網路/車聯網為載體,在大範圍樣本獲取方面,做了很多UGC的落地工作。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 微軟人工智慧公開課概覽 | 雷鋒網公開課
    微軟為此傾注了許多精力和資源,並取得了亮眼的成績,但它還有著更加宏偉的願景:將人工智慧帶給每個人,從開發者到數據科學家,從技術愛好者到學生。本次公開課,雷鋒網邀請到了微軟亞洲研究院掌門人洪小文博士,為大家分享《微軟人工智慧公開課》第一章節——《微軟人工智慧概覽》中的精彩內容,介紹微軟在人工智慧領域的最新研究成果以及微軟的AI服務如何賦能開發者。
  • SLAM的前世今生 終於有人說清楚了 | 雷鋒網公開課
    月,雷鋒網(公眾號:雷鋒網)(搜索「雷鋒網」公眾號關注)將在深圳舉辦「全球人工智慧與機器人創新大會」(GAIR),在本次大會上,我們將發布「人工智慧與機器人Top25創新企業榜「,速感科技是我們重點關注的公司之一。
  • 數據驅動人工智慧的實踐 | 雷鋒網公開課
    不管是說風口還是機遇,AI對科技產業創新的力量不言而喻,而在該領域積累了相關技術實力的研究者、企業創新者也希望趕上時代的列車。本次雷鋒網AI金融專場硬創公開課第一期,我們邀請到百度金融首席數據科學家丁磊博士,來分享他關於人工智慧技術在商業領域的深度思考。
  • 基於平面投影的單目視覺AGV 定位算法
    近年來,計算機視覺飛速發展,湧現出大量的技術與算法,如主動視覺、面向任務的視覺、基於知識的視覺、基於模型的視覺以及多傳感器和集成視覺等方法[1]。根據使用鏡頭數目分類,計算機視覺分為單目視覺定位、雙目視覺定位與多目視覺定位。雙目立體視覺是基於視差原理,由多幅圖像獲取物體三維幾何信息。
  • 雷鋒網教育雲峰會震撼來襲
    在新基建勃發的背景下,雷鋒網為了把握教育科技發展的時代脈搏,闡明新基建與教育改革、教育數位化的關係,秉承「用技術洞見未來」的目標,重磅邀請了數位教育科技領域最具代表性的企業嘉賓,以系列公開課的方式,為雷鋒網讀者搭建了一個學習和交流的平臺,同時我們也創建了公開課教育垂直社群,將「最In」的技術乾貨和思維觀點零距離傳遞給每一位觀眾。
  • | 雷鋒網公開課
    但大部分從業者沒有意識到「觸覺反饋」的價值。本次公開課我們請到了 Immersion 公司中國區的負責人,這家公司從 1993 年開始就在研究觸覺反饋算法,20多年來已經有超過 30 億部各式各樣的設備採用了他們的觸覺反饋技術,包括 Xbox 和 PS 遊戲機的手柄,也包括許多常見的手機品牌。可以說,他們是最懂觸覺的公司了。
  • 重用地圖的單目視覺慣導SLAM系統
    點擊上方「3D視覺工坊」,選擇「星標」乾貨第一時間送達Visual-Inertial Monocular SLAM with Map Reuse重用地圖的單目視覺慣導SLAM系統IMU初始化根據由運行一段時間的單目SLAM算法得到的若干關鍵幀來計算視覺-慣導的全局BA的尺度、重力方向、速度和IMU偏置的初始估計。運行一段時間(幾秒鐘)的單目SLAM算法,假設傳感器運動後導致所有的狀態都可觀。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:陳培華,畢業於上海交通大學,工學博士,目前主要負責基於機器學習、深度學習的自然語言處理技術及其應用,參與「小i中文語義開放平臺」以及貴陽人工智慧大數據云服務平臺建設,已申請相關發明專利2項。
  • 指紋傳感器和假指紋攻防技術 | 雷鋒網公開課
    為了防禦假指紋帶來的安全風險,去年有國內廠商專門推出了活體指紋識別技術,這種技術號稱可以通過指紋、手指皮膚顏色以及心率信號等生物特徵來驗證用戶的真實身份,以避免假指紋的攻擊。然而雷鋒網了解到,市面上所謂內置「活體指紋識別」技術的終端遭假指紋破解的事件也屢見不鮮,這一技術似乎也不可靠。
  • 雷鋒網公開課|先進位造業如何利用人工智慧提升產品品質?
    如今,大數據的興起、數位化技術轉型的逐漸成熟,讓人工智慧的應用和研究逐漸完善,未來,人工智慧技術將進一步融入到製造業的每一個流程中。發展先進位造業,深入探索如何利用人工智慧發展先進位造業的路徑和創新措施,對傳統企業來說意義重大。
  • 這款基於單目視覺的測量算法,看了照片就知道你多高?
    From: ECCV 編譯:T.R視覺是感知世界最重要的手段,但僅憑視覺方法就想準確地測定現實中的目標尺寸,往往需要複雜的標定或傳感器配置才能完成。如果能夠通過單張圖片直接測出目標的尺度,就能大大拓展視覺的應用範圍、便捷地測量三維世界了。
  • | 雷鋒網公開課
    月,雷鋒網(公眾號:雷鋒網)(搜索「雷鋒網」公眾號關注)(搜索「雷鋒網」公眾號關注)將在深圳舉辦一場盛況空前,且有全球影響力的人工智慧與機器人創新大會。屆但是從現在來看,手勢識別似乎並沒有在PC端爆發的趨勢,相比較而言,VR領域卻推動了這項技術的發展。本期硬創公開課我們邀請了極魚科技的兩位嘉賓為大家解答關於手勢識別的疑惑,他們分別是極魚科技創始人&CEO,前360智能攝像機聯合創始人房文新,和極魚科技算法組長、中國礦業大學碩士、計算機視覺專家、前靈境算法負責人Arron。
  • 視覺SLAM技術以及其應用詳解
    當今科技發展速度飛快,想讓用戶在AR/VR、機器人、無人機、無人駕駛領域體驗加強,還是需要更多前沿技術做支持,SLAM就是其中之一。實際上,有人就曾打比方,若是手機離開了WIFI和數據網絡,就像無人車和機器人,離開了SLAM一樣。
  • 年度盤點|AI科技評論做過的那些CV公開課
    年是雷鋒網-AI科技評論非常重要的一年,我們圍繞人工智慧做了一系列的業界,學界,開發者報導,也請了一系列導師大牛過來給我們做相關的技術公開課,在給這些導師大牛提供了一個絕佳展示舞臺的同時,也給讀者們帶來了最in的公開課內容,下面是年度盤點之CV篇。
  • 神經認知學在機器人中的發展和應用(附PPT+視頻) | 雷鋒網公開課
    本期雷鋒網硬創公開課邀請到TIANBOT資深機器人研究工程師田博,為我們做主題為《神經認知學在機器人中的發展和應用》的分享。內容介紹本期公開課包含但不限於以下內容:神經認知在機器人領域應用簡介BBD與神經區域連接猜想RatSLAM,ehSLAM與空間認知細胞HMax與視覺皮層Neuromorphic與神經元連接
  • 深度乾貨:詳解基於視覺+慣性傳感器的空間定位方法 | 雷鋒網公開課
    那就是Inside-out空間定位技術,此類方案大都基於計算機視覺技術,包括微軟、Google和Facebook在內的科技巨頭都在進行相關研究。所謂的Inside-out追蹤到底是如何做的呢?它使用了哪些技術,又有什麼難點,本期公開課將為您解答這些疑問。
  • GDC 筆記:2017 年有哪些 VR 遊戲趨勢 | 雷鋒網公開課
    那麼今年 GDC 上的 VR 遊戲有什麼亮點,又有哪些驚豔的體驗?雷鋒網認為也許,這些作品也暗示著 2017 年整個 VR 遊戲的發展趨勢。本期硬創公開課,雷鋒網邀請 Nada 來為我們分享關於 GDC 上的那些 VR 遊戲。Nada 是國內最早的虛擬實境垂直媒體元代碼VRerse.com、國內第一個虛擬實境孵化器StrongVR的創始人。
  • 2018 公開課盤點企業篇:十家企業帶你看 AI 的實際應用成果及人才...
    而在今年,為了幫廣大學術青年看到技術在企業中的實際應用成果,並同時保持學術性科研職業路徑的可能性,我們增設了「職播間」這個公開課類目,依託於 AI 研習社社群和雷鋒網在 AI 行業的影響力,邀請了數十家中國 AI 企業的工程師、 管理者們來分享自己企業的研發成果、技術追求以及人才招聘需求。
  • 哈佛創業者講述:比特幣與區塊鏈背後的真相 | 雷鋒網公開課
    而因為是比特幣底層技術的區塊鏈,近來也呈現出行情高漲的態勢,但同時也存在一部分關注該行業的人群未能真正認識區塊鏈,而亦步亦趨。最近,央行一連串動作、雅虎發文抹黑等也給業內造成不小的漣漪,那麼,比特幣交易背後的動作對區塊鏈行業將帶來怎樣的影響?我們應如何正確對待區塊鏈,以及因為區塊鏈而誕生的新事物,比如ICO?本期公開課,雷鋒網邀請到區塊鏈初創公司優權天成創始人兼CEO車克達先生來分享。
  • 機器人程序設計之如何正確入門ROS | 雷鋒網公開課
    然而隨著ROS近年來火熱,在教學中也發現很多新夥伴對ROS的認識存在一些誤區,為了加快小夥伴們的學習速度,雷鋒網本期公開課雷鋒網邀請Top和大家分享一點自己學習和使用的經驗和心得。雷鋒網本期公開課面向想入手ROS卻又不知從何下手的小夥伴,為大家梳理好學習思路。內容包括但不限於ROS全球使用現狀、核心概念、工作原理等學習重點,及仿真環境、工具庫等需了解的內容。