自動駕駛數據集被迫開放「營業」

2020-12-25 東方財富網

中外企業均在搶佔自動駕駛各層面技術的標準制定和話語權。

「現在自動駕駛很火,火到什麼程度?簡單來說就是燒錢。」

根據The Information發布最新研究稱,投入自動駕駛戰場的各家公司已經累計花掉了約160億美元。需要注意的是,這160億美元還沒算上為了自動駕駛布局而發生的併購。舉例來說,英特爾買下Mobileye花掉的153億美元就不算在其中。

眾所周知,自動駕駛技術相當複雜,想要實現商用,花費的時間和成本對於任何一家車企或者科技公司來說都是巨大的,這些投資想要得到回報則需要更長的時間。而且自動駕駛所謂的商業化,還在探索當中。無論是推出RoboTaxi服務的Waymo One,或者是Nuro與Kroger合作的生鮮配送,又或者是安波福和Lyft推出的乘車服務等等。

那麼,為了打破各家企業各自為戰的局面,一些企業彼此開始嘗試開放有價值的自動駕駛數據集,以加快自動駕駛技術的提升,從而推動自動駕駛行業的發展。去年,谷歌母公司Alphabet旗下自動駕駛公司Waymo公開了一部分開放數據集Waymo Open Dataset;近期福特也悄悄發布了其自動駕駛汽車數據集。

這兩家自動駕駛公司,是目前公認的在全球自動駕駛研究排名前列的企業。對於自動駕駛行業其他從業者而言,有了公開的數據集,他們能在一定程度上免去重複的資源投入。研發人員可以利用這些數據集來幫助開發自動駕駛汽車的感知算法,有助於推動其研發進程。實際上,這也是一場自動駕駛行業領導者地位的爭奪。

什麼樣的數據有價值?

自動駕駛汽車每天可以收集4TB或更多的原始傳感器數據,直到現在,自動駕駛公司收集的數據還是公司的高度機密。但是近幾年,自動駕駛領域的各路參與者,在開源數據集共享這件事上頗為「大方」。

在福特的自動駕駛數據集發布之前,Lyft 此前也開源了自己的數據集用於自動駕駛汽車開發。其他開放此類的數據還包括nuScenes、Mapillary Vistas的街道圖像集、加拿大不利駕駛條件(CADC)、KITTI用於自動駕駛的研究;以及戴姆勒、馬克斯·普朗克(Max Planck)信息學研究所和達姆施塔特工業大學(TU Darmstadt)視覺推斷小組開發和維護的Cityscapes數據集。

不過問題在於,過去相關研究人員創建和發布的數據集相對較小,通常僅限於攝像頭數據。雖然,安波福發布的NuScenes數據集除圖像外還包括雷射雷達的雷達數據,Waymo和Argo發布的版本會更進一步。Waymo聲稱擁有3,000個場景,是NuScenes提供的場景的三倍,並且攝像頭和雷射雷達信息之間的同步更好。

雖然由自動駕駛測試生成的所有數據對於車輛感知其周圍環境,並在整個過程中都是有用的,但實際上只有其中的特定部分對開發和改進系統有用。比如在典型城市街道上一天的測試中,車輛中的工程師和技術人員會選擇性的記錄發生細微變化或具有挑戰性的場景。也就是說自動駕駛數據集需要更加多樣和精細化,對從業人員來說才有利用價值。

福特此次公開的自動駕駛數據集,是工程師駕駛配備了四個四核英特爾i7處理器和16GB RAM的汽車,往返底特律大都會機場、密西根大學迪爾伯恩分校、高速公路、市中心和郊區等地區共行駛了約66公裡。其數據主要由4個雷射雷達傳感器、6個130萬像素攝像頭、1個500萬像素攝像頭和1個慣性測量單元,通過路況的細微變化來捕獲多樣化的數據。

一般而言,在測試結束時,所有數據都將從車輛中提取到數據中心,並對有益的數據進行分析和標記。原始數據本身對於處理器系統核心的學習系統沒有多大價值,數據中感興趣的對象包括行人、騎自行車的人、動物、交通信號燈等變量。在將傳感器數據用於訓練或測試AI系統之前,所有這些目標都需要進行手工標記和注釋,以便系統可以理解其「所見」。

研究人員根據傳感器的讀數生成地圖和行人姿態數據,包括3D地面反射率地圖、3D點雲地圖、六自由度地面真實姿態和局部姿態傳感器信息。這些反映了季節差異(數據是在晴天、下雪和多雲的情況下以及在秋季期間捕獲),並且涵蓋了多種駕駛環境,包括高速公路、立交橋、橋梁、隧道、建築區域和植被覆蓋區。

如今,大多數感知系統都嚴重依賴機器學習或深度核心算法,感知系統處理傳感器信號並嘗試對車輛周圍的物體進行分類。為了能夠完成此任務,必須使用經過徹底標記和注釋標識所有道路的相關數據,才能更好的發揮出數據的價值。值得注意的是,標記過程可能比原始數據收集還要耗時。

福特指出,福特自動駕駛汽車數據集中的每個日誌均帶有時間水印,並包含來自傳感器的原始數據、校準值、姿態軌跡、地面真實姿態和3D地圖。它具有ROS bag文件格式,可使用開源機器人作業系統(ROS)對其進行可視化、修改和應用。

實際上是話語權的爭奪

在自動駕駛汽車上投入了大量資金,福特仍然向研究人員免費提供它的自動駕駛汽車數據集,但實際上也有所保留。此次福特公開的包括Argo正在使用的所有九臺攝像頭的視圖,以及兩個帶有10,000多個帶注釋目標的數據,但它僅涵蓋邁阿密和匹茲堡記錄的113個場景。

在自動駕駛技術發展的初期,企業對數據的所有權非常謹慎,各家收集的數據代表著它們的用戶、資源和技術。技術壟斷雖然能夠最大限度地強化自己的優勢,但同時也阻礙了技術的進步。雖然自動駕駛車輛數據共享的重要性得到了整個行業的認可,但出於行業競爭、產權保護等等方面的考慮,企業之間大概不會無私貢獻所有數據。

事實上,開放數據集確實是在幫助別人,但企業自身也能獲益。自動駕駛數據採集是一個周期長,地域廣的長時間項目,如果各家都將自己的採集數據共享的話,就可以共同減少數據採集時間,從而促進行業的整體發展,促進商業化。

但實際情況是,在技術層面,對於一般研究而言,得到新的分類和預測算法可能具有巨大的價值。但由於具體數據取決於傳感器規格及其在車輛上的位置,還有很多實際原因導致諸多數據無法獲得。除非有人使用與捕獲數據的原始車輛完全相同的配置,否則如果不對視差進行調整,它對於訓練特定的自動駕駛系統可能沒有用。

毫無疑問,公開數據集,可以吸引更多企業和開發者利用並補充數據集。如果某一家的數據或者代碼被競爭對手採用,相當於這家公司為自動駕駛汽車制定了一個非正式的標準,有助於該企業的發展和地位的加強。這一開放數據的企業也可以將其他公司收購,或者收取利益許可其他企業使用該平臺。

當前全球所有車企都將智能化轉型作為戰略來搶佔技術的制高點,中國也不例外。2月份出臺的《智能汽車創新發展戰略》,對中國的自動駕駛來說具有重大利好。但是在回過頭來看國外公司開放的自動駕駛數據集,主要針對底特律、波士頓、新加坡等地的環境解析。對於道路、交通、環境差別迥異的國內駕駛環境來說,是否有用還有待商榷。

不過國內的百度「Apollo」自動駕駛平臺,也是通過開原始碼,聯合諸多車企達成合作。此外,小馬智行和華為等中國公司,也在快速搶佔自動駕駛市場的份額。2019年自動駕駛汽車脫離數據報告中,排名前十的企業中有四家來自於中國。由此可見,中外企業均在搶佔自動駕駛各層面技術的標準制定和話語權。

隨著「新四化」的不斷深入,未來,可能還會有更多的玩家加入到自動駕駛的戰場。歷史也表明,未來也將是一個開放、合作、同時又相互競爭的局面。無論是傳統車廠還是科技企業,無論是國內企業還是國外公司,這場承載著人類未來出行的偉大夢想,正在一步步走近。

(文章來源:每日汽車)

相關焦點

  • 蘇州相城區發布智能駕駛「上路計劃」,福特開放自動駕駛汽車數據集
    ●阿里巴巴3D物體檢測精度與速度實現兼得 國際動態 ●福特開放自動駕駛汽車數據集免費使用 ●福特推道路邊緣檢測技術將車帶回正軌
  • 「開放」才是自動駕駛未來,百度Apollo公開數據集一年後, Waymo也...
    6月17日,在全球最大的計算機視覺會議CVPR的自動駕駛研討會上,谷歌旗下自動駕駛公司Waymo宣布公開包含完整傳感器信息的、帶標註的駕駛數據。封閉還是開放,這是一個始終縈繞在自動駕駛行業裡的問題。Waymo一反常態選擇從封閉的狀態走向開放共享數據,是從戰略上進行了較大的調整,在封閉和開放的天平上向開放進行了傾斜,可以說是「想開了」。
  • 資源|伯克利發布BDD100K:目前最大規模開放駕駛視頻數據集
    近日,UC Berkeley 發布了迄今為止規模最大、最多樣化的開放駕駛視頻數據集——BDD100K。該數據集共包含 10 萬個視頻,BAIR 研究者在視頻上採樣關鍵幀,並為這些關鍵幀提供注釋。此外,BAIR 還將在 CVPR 2018 自動駕駛 Workshop 上基於其數據舉辦三項挑戰賽。
  • Argo AI和Waymo公開發布自動駕駛數據集
    本文編譯自Forbes,圖片來自Argo AI,作者Sam AbuelsamidArgo AI的Argoverse數據集的特別之處在於,它是第一個包含高清地圖數據的數據集直到現在,自動駕駛數據對於很多研發公司來說還是一個嚴守的秘密
  • Motional發布擴展自動駕駛數據集 含超14億個帶標註雷射雷達點
    蓋世汽車訊 一年前,Scale和NuTonomy發布了自動駕駛數據集NuScenes,並聲稱,該數據集在規模和準確性上都超過了KITTI、百度ApolloScape和Udacity自動駕駛汽車數據等數據集。
  • 從文本處理到自動駕駛:機器學習最常用的50大免費數據集
    機器學習領域裡有哪些開放數據集?Gengo 近日發布了一份高質量免費數據集列表,其搜索範圍不僅包含內容廣泛(如 Kaggle),也包括高度特化的(如自動駕駛汽車專用數據集)數據集種類。首先,在選擇數據集時要記住幾個重要標準:數據集不能是混亂的,因為你不希望花費大量時間整理數據。
  • 自動、智能、開放API:IP網絡自動駕駛之路
    自動駕駛網絡就是為打造智能化、簡單化網絡而提出的一種技術思路。 在12月10日-11日舉行的共贏未來全球線上峰會(Better World Summit)上,國際著名數據分析與諮詢公司GlobalData的首席分析師Glen Hunt發表了專題演講,詳細介紹了自動駕駛網絡的機會點、產業進展、全球領先運營商的用例,並從分析師視角對使能自動駕駛IP網絡的關鍵技術做了解讀。
  • 2017百度世界:開放BROAD數據集 促進AI創新
    優質的機器學習質量離不開其背後的數據集,而一個優質數據集的開放,將為更多技術提供學習養分。「BROAD」百度AI公開數據集計劃(http://ai.baidu.com/broad)率先開放的三大數據集各有所長。室外場景理解數據集來源於百度自動駕駛事業部。
  • 伯克利發布迄今為止最大駕駛數據集 BDD100K,含 10 萬段視頻
    大家可以訪問 http://bdd-data.berkeley.edu 獲取該數據集。同時,他們也在 arXiv 上發布了關於該數據集的報告,大家也可以利用該數據集參加他們主辦的的 CVPR 2018 挑戰賽。關於該數據集的詳細信息雷鋒網 AI 研習社整理如下:自動駕駛將隨時改變社區中人們的生活方式。
  • ...宣布開放城市交通指數數據集,助力交通領域科研發展 | CNCC 2019
    張博在CNCC2019(中國計算機大會)發表主題演講,集中展示滴滴AI布局,並宣布進一步擴大滴滴蓋亞數據開放計劃,面向學界新對外開放兩個脫敏城市交通指數數據集。張博稱,全球每年有超過135萬人因交通事故而死亡,而AI技術將能在未來20年大幅降低交通事故死亡人數。目前城市仍有大量出行需求未被滿足,自動駕駛將為現有的司機運力提供補充。目前滴滴自動駕駛獲得江蘇省蘇州公安局頒發路測牌照,正在蘇州相關區域開展自動駕駛公開道路測試。
  • MIT全新模擬系統教授自動駕駛汽車避免現實中碰撞
    麻省理工學院的科學家創造了一種新的仿真系統,他們發明了這種系統來訓練具有無限轉向可能性的自動駕駛汽車。 仿真系統的目標是幫助自動駕駛汽車學習駕馭各種最壞情況的場景,然後才能在全國和世界的真實街道上自由行駛 。
  • 揭秘特斯拉自動駕駛背後技術
    馬斯克曾說會在2019年年底推出功能齊全的自動駕駛(Full Self Driving,簡稱 FSD),但現在已經到了2020年,特斯拉升級系統後除增加了「車輛召喚」功能,也並沒有完全開放自動駕駛權限。
  • 【極道智能數據系統】直擊AI訓練痛點,助力自動駕駛
    自動駕駛系統的核心要素是算法、算力和數據,其中算法是靈魂,數據和算力是基礎。構建高度可擴展的數據平臺和計算平臺,是自動駕駛系統的首要問題。高效的訓練系統不僅需要高性能的分布式存儲系統,還需要統一對海量數據進行特徵管理、快速發現數據、構建數據集合;甚至能夠對數據集的合併、拆分、過濾等進行數值填充,並行處理。數據的存儲和管理效率,將直接決定一個優秀自動駕駛訓練系統的成敗。
  • 汽車自動駕駛深度報告:自動駕駛提速,布局明日之星
    上汽集團 18 年年報顯示,汽持續加大在感知、規劃、決策、 執行等關鍵領域的自主開發力度,已經取得了 i-ECU 批產、高精度地圖落地、斑馬系統 3.0 發布等成就;根據公司官網,長安汽車 UNI-T 算法自主掌握;廣汽集團自主研發了集 智能工廠生態、自動駕駛系統、物聯繫統、雲平臺及大數據於一身的 ADiGO 系統;長城 汽車開發了 i-Pilot 系統,掌握了數據融合、智能決策、執行控制以及 HMI
  • 自動駕駛開發者利器:華為雲自動駕駛雲服務Octopus亮相上海車展
    該服務基於華為雲,提供自動駕駛數據、訓練以及仿真三大子服務,助力車企開發者快速開發自動駕駛產品,共同探索智能網聯汽車時代。華為雲自動駕駛雲服務Octopus包含自動駕駛數據、訓練和仿真三大子服務,覆蓋自動駕駛數據、模型、訓練、仿真、標註等全生命周期業務,將有力提升企業的自動駕駛產品開發效率。  數據服務:處理車載硬體平臺上輸出的傳感器數據,回放雷達、攝像頭等不同格式的數據;支持PB級海量存儲、交互式大數據查詢和海量數據治理。
  • Waymo免費公開自動駕駛數據 但或許只對初創企業、研究者有幫助
    【TechWeb】Waymo表 示將公開一部分自動駕駛數據集。該數據包含由Waymo的團隊從舊金山、山景城、鳳凰城和華盛頓州收集的數據。具體包括每輛車獲取的圖像、雷射雷達、毫米波雷達數據。這些數據中,車輛、行人、騎自行車者甚至是路標牌都精被精心標記,共計1200萬個3D標籤和120萬個2D標籤。
  • 駕駛模擬器之LGSVL篇:一個高保真的自動駕駛模擬器
    今天的自動駕駛系統在越來越多的模塊中使用深度神經網絡(DNN)來幫助提高性能。訓練DNN模型需要大量的標記數據。傳統的自動駕駛數據集,如KITTI[3]和Cityscapes[4],沒有足夠的數據供DNN處理複雜的場景。
  • 怎樣判斷自動駕駛注釋數據的有效性?
    本文來源:智車科技/ 導讀 /數據是現代機器學習應用程式中最重要的組成部分,包括自動駕駛汽車的感知系統都是依靠數據進行訓練的。目前汽車都配備了許多傳感器,這些傳感器收集信息並輸入到汽車計算機,然後信息必須進行實時處理和注釋,以便汽車了解行駛中道路前方的情況。
  • 如何評估自動駕駛注釋數據的有效性?
    / 導讀/數據是現代機器學習應用程式中最重要的組成部分,包括自動駕駛汽車的感知系統都是依靠數據進行訓練的。注釋數據的過程始終包括一些人為的決定,第一個挑戰就是讓人們同意對記錄的數據進行正確的注釋,而創建這樣的注釋準則有時並不像人們想像的那麼容易。往往需要有效設計注釋準則以提高質量方面具有豐富的經驗。第二個挑戰是在指南的指導下按比例執行注釋。如何判斷數據集的有效性?
  • 中國首部自動駕駛仿真藍皮書《中國自動駕駛仿真技術研究報告(2019...
    由當家移動綠色網際網路技術集團有限公司(51VR)聯合學術研究單位與企業,通過詳細收集並整理當前行業現狀,結合自動駕駛仿真領域多位行業專家意見彙編而成。藍皮書內容涵蓋仿真測試的意義、測試方法和作用、搭建技術方案、軟體現狀、虛擬場景資料庫、數據集、示範區測試方式介紹、仿真測試標準介紹、挑戰及發展趨勢等部分,旨在為從事自動駕駛系統仿真與測試評價工作的管理人員及科研人員提供及時詳細的技術參考。