【視頻】特斯拉順利自動通過環島
2020 年 10 月 23 日,FSD Beta 軟體小範圍推送的第二天,特斯拉車主 Kim Paquette 在推特上傳了一段視頻,視頻中的 Model 3 在無人為接管下通過了環島,其中包含一次處理得還算不錯的停車讓行,順利通過這一場景後她開心地拍了拍 Model 3 的方向盤。
另一個視頻裡,網友 Brandonee916 將全新的可視化 UI 上傳至網絡,色彩鮮豔的開發者形態 UI 中路口環境一覽無餘,評論區的網友不禁感嘆新版軟體的感知範圍大幅提升。
在前一天的 22 號晚上,一位 Model X 用戶和他的好哥們親眼見證愛車完成了第一次流暢的路口無保護左轉,車輛經過路口的無車道線區域並準確駛入左轉車道後兩人在車內開心地擊掌慶祝。
大家期待已久的街道駕駛功能忽然間在 FSD Beta 上「一蹴而就」,一時間,隨著越來越多 FSD Beta 演示視頻的出現,激動與興奮的情緒在特斯拉用戶和粉絲群體中迅速蔓延。
這種興奮不僅因為 FSD Beta 街道駕駛功能表現出色,還因為人們意識到 FSD 名稱含義下的「Full Self-Driving」完全自動駕駛似乎真的要來了。
而在這背後,是 FSD 有史以來最大的一次的更新,或者更準確點 ——Rewrite(重寫)。
始於 2016 年的鋪墊
2019 年 4 月 22 日,特斯拉在自動駕駛日上公布了自家的 HW 3.0 自動駕駛晶片,硬體參數中最耀眼的莫過於兩顆神經網絡處理器帶來的 72 TOPS 的算力。
硬體介紹中提到在神經網絡的加速運算下,這塊 HW 3.0 晶片圖像處理能力為 2,100 FPS,對比之下浮點運算能力為 600 GFLOPS 的 GPU 僅能做到 17 FPS,神經網絡的圖像處理優勢一目了然。
為了做出一塊業界最強的自動駕駛晶片,特斯拉在研發準備期間先後請來了數位大師級人物。
HW 3.0 這個業界首塊為神經網絡運算而打造的車規級自動駕駛晶片始於 2016 年。在那一年特斯拉迎來了在半導體行業從業 40 年、主導研發了 iPhone 5S 上首個 64 位架構移動端處理器的前蘋果晶片架構師 Pete Bannon,而在更早的 2015 年,傳奇晶片架構師 Jim Keller 也離開英偉達加入了特斯拉。
在大師們帶領的精英團隊以及特斯拉集團的共同努力下,HW 3.0 自研晶片項目從開始招募人員到晶片進入研發,再到量產大規模裝車的過程僅用時 3 年,而且 HW 3.0 至今晶片仍然是市面上算力最高的量產車規級自動駕駛晶片。
但 HW 3.0 晶片在 2019 年上車後,FSD 功能卻並未迎來脫胎換骨的能力提升。不過如果你回看 HW 3.0 的發布會內容,原因並不難尋 —— 這是一塊面對神經網絡打造的晶片。而 FSD 那時候在軟體層面還未完成向神經網絡結構的轉化,直到重寫的 FSD Beta 面世。
這次重寫對於 FSD 意義重大,神經網絡大顯身手下的新版軟體讓特斯拉的視覺方案得到了大幅的提升,如果看完後面的內容,你會明白正是有這次改動,Full Self-Driving 才真正有了實現的可能。
For human, by human
2019 年的特斯拉自動駕駛日上,特斯拉 AI 高級總監 Andrej Karpathy 說:
「我想強調一下,在座中駕車至此的,你們靠的是視覺與神經網絡的協同運作,而非眼中發射雷射束來感知路況。」
同樣在當天會議中,馬斯克還提及了一個現實問題:全世界的道路都是為人類駕駛而設計的。
在這兩番言論背後其實可以感受到這麼一層隱含的意思:駕駛是人類行為,道路是為人類設計,如果能具備和人類一樣的感知與駕駛邏輯,那這就是一套通用的自動駕駛方案。
某種程度上,特斯拉就是這麼做的。
「視覺是最好的感知」
馬斯克多次在公開場合表現出對雷射雷達為主的自動駕駛感知方案的不屑。
因為通過雷達,你只能知道那兒有個東西,但你無法知道它是什麼,它就像一個盲杖。
他甚至都不看好雷射雷達在自動駕駛領域的價值。
「expensive、unnecessary」,在馬斯克看來,雷射雷達之於輔助駕駛仿佛買一臺 RED 做監控攝像頭,昂貴且沒有必要。
「They''''re all gonna dump Lidar, mark my words.」這是他在自動駕駛日上的原話。
作為視覺感知方案上配置最複雜也是路線最為激進的企業,特斯拉目前所有在售特斯拉車型都搭載了 6 個方向的 8 顆攝像頭。
馬斯克認為,視覺是信息密度以及信息量最大的駕駛感知途徑。燈光、顏色、二維圖案、物體類型等眾多信息都包含在視覺裡,人類靠視覺就可以完成駕駛。
道理雖然如此,但 Robotaxi 行業的專業自動駕駛玩家卻幾乎都採用了雷射雷達方案。而就 FSD 改版前所展現出的能力也的確撐不起馬斯克的「視覺至上」言論。
那馬斯克的路線錯了嗎?
現在這個節點上,我並不這麼認為。因為特斯拉在老版本 FSD 上對於視覺感知能力的挖掘離馬斯克的想法或者說離人眼感知水平的差距還有十萬八千裡。視覺路線是有說服力的,只是特斯拉的完成度還不夠。
事實似乎也證明了這點。在沒有任何的硬體改動升級下,FSD Beta 此次在視覺感知層面展現出了跨越級的驚人進步。
不過,這背後到底發生了什麼?
神經網絡下的升維視覺
今年 2 月的 ScaledML2020 (Scaled Machine Learning Conference)會議上,特斯拉 AI 高級總監 Andrej Karpathy 用他一貫快到起飛的語速花了 30 分鐘介紹特斯拉的自動駕駛內容,其中的第三個章節叫「Bird''''s Eye View networks」。
此前的特斯拉視覺識別預測是這麼做的:
首先,由車輛攝像頭獲取道路環境的 2D 圖像,然後圖像被送至特徵提取部分,即「Backbone」。然後在 2D 的像素空間下再對特徵進行識別區分以及道路環境預測。
比如路肩探測,實際的效果是這樣的:
「You just can''''t drive on this raw prediction of these edges and these 2D pixel coordinate systems.」Andrej 如是說,僅靠這些粗糙的路肩圖像和 2D 像素坐標系還不能作為駕駛的參考。
於是在此基礎上,特斯拉做出了「Bird''''s Eye View」。
依然還是靠攝像頭,捕捉的依然是 2D 圖像。只不過這次,特斯拉動用了 5 個方向的攝像頭,並將捕獲的 2D 圖像轉化為 3D 素材,而這些模擬出的 3D 素材在一個叫「Occupency Tracker」(大概意思為實物建模器)的部分進行拼接,完成拼接後最後自上而下投影至 Z+ 平面,如鳥瞰圖一般。
一方面這個數據會以可視化的形式顯示在中控 UI 上,另一方面這一環境建模數據也將作為駕駛決策的參考。
不同攝像頭之間的「拼接」說起來好像沒什麼,實際上可並非如此。Andrej 表示不同攝像頭的視角不一樣,同一特徵在不同畫面中的輪廓是不一致的,拼接過程要把各個特徵匹配對齊。而與此同時還要把各個視角素材的時間軸做好匹配,並在車輛行駛中將「過去時」裡已經構建好的環境與「現在時」構建的環境做連續拼接。
3D + 時間軸,這就是馬斯克在自動駕駛日上說的「4D 視覺」。
Andrej 表示寫「Occupency Tracker」代碼的過程中要對拼接部分設定大量機器學習網絡的 Hyperparameter(超參數)而且存在大量的 error-prone code(易變代碼),其工作非常複雜繁瑣,開發難度很大。
所以軟體團隊希望用別的方式來替代「Occupency Tracker」做探測環境建模的事情。
Software 2.0
Autopilot 軟體棧中存在 1.0 代碼和 2.0 代碼,它們所組成的軟體棧負責處理各類傳感器輸入的信號,包括攝像頭、毫米波雷達、超聲波雷達和 IMU 慣性測量單元的數據,這些原始的傳感器數據經過軟體的處理最後輸出為車輛的加減速以及轉向等駕駛決策,你可以簡單地將軟體理解為自動駕駛系統的「腦」。
其中 1.0 部分為人類程式設計師用 C++ 語言創建且有確定功能的代碼,前面提到的「Occupency Tracker」就屬於 1.0 代碼。官方的介紹中,這部分都是「死代碼」。
2.0 部分就完全不一樣了,Andrej 表示 2.0 部分如同一個編譯器,它能消化輸入的數據集並輸出神經網絡代碼。而且你可以把 1.0 軟體的代碼庫放到 2.0 軟體的代碼庫下運行,所以隨著 2.0 軟體不斷「吞併吸收」1.0 軟體,1.0 軟體越來越多的「死代碼」逐漸被神經網絡所取代。
而具備深度學習能力的神經網絡把原有 1.0 軟體「死代碼」做的工作,做得更上了不止一層樓。
以 4D 視覺為例,神經網絡結構下的感知已然今非昔比。
系統依然調用 5 個方向的攝像頭圖像,之後素材依然要經過特徵提取部分,但與之前不同的是,2D 到 4D 環境的拼接建模工作不再由「Occupency Tracker」來完成,取而代之的是一套神經網絡融合層。
融合層把攝像頭之間的 2D 圖像拼接成 4D 並轉化至「bird''''s eye view」,完成粗建模。然後再經「Temporal module」進行平滑處理,優化為精建模。
精建模素材再經「BEV(Bird''''s Eye View) Net」解碼,構造出最終用於駕駛決策並顯示於中控上的環境特徵。
像道路輪廓探測,原始素材經層層處理,最終產出一個道路環境自上而下的 Z+ 向投影圖。而基於這個投影圖來做的環境預測,其效果提升堪稱肉眼可見的。
上圖是特斯拉車輛在一個路口捕捉到的不同攝像頭畫面,其下半部幾張不同來源的路口輪廓圖,圖中小藍點即為車輛所在位置。
其中左下角圖片為路口的實際輪廓,而右下角這張為 2D 視覺下構建出的路口輪廓,可以看出來車輛周圍的環境輪廓還勉強有那麼幾分相似,但遠一點的地方預測幾乎完全失真,用「高度近視」來形容一點也不為過。
Andrej 直言不諱地表示這種效果的環境預測數據就是垃圾,毫無價值。而對於這種結果,Andrej 也道出了其中緣由:
2D 視覺中的景深識別是基於像素的,其精度覆蓋範圍很小,近車端精度還行,但是遠一點的區域尤其是畫面中地平線附近的像素,一丁點的計算不準可能導致數米的道路預測偏差。
言外之意,這是 2D 像素景深識別的「先天殘疾」。
中間這張與實際路口輪廓匹配度很高的輪廓圖你應該也猜到了,它是由改進後的 4D 視覺構建而成。而從 2D 到 4D,中間的 3D 是治好近視的關鍵。
景深測算曲線救國
剛才有說過景深測算是 2D 視覺的一個硬傷,對此業界的常規做法是將景測算交由其他傳感器,比如雷射雷達來做,再將感知數據融合。
雖然特斯拉一向是鐵骨錚錚,打死不用雷射雷達的人設,但在 FSD Beta 上他們其實偷偷做了一套「影像版雷射雷達」方案。
特斯拉的開發者們有這樣的一種思路:之前基於視覺的景深測算效果不好,很大程度上是因為「數據的表達形式」,也就是 2D 像素坐標這一框架限制了視覺的能力上限。
而他們的解決辦法是用影像的手段「模仿」雷射雷達。具體的步驟是這樣的:
這一思路清奇的「模仿」幫助特斯拉在沒有雷射雷達硬體的前提下產出了「類雷射雷達」的 3D 預測效果,其中像素景深反投影 3D 點雲的步驟至關重要。
新的手段相比之前提供了更高的上限,但接近這個上限,「類」的程度能達到多少,還是要取決於第一步中像素景深的精度。它是後面所有數據的母數據,是景深測算的原始標尺。
2019 年特斯拉自動駕駛日上 Andrej 有簡單介紹過特斯拉團隊在通過神經網絡的自學習手段對這一過程進行優化。
其大致思路是這樣的:系統的神經網絡按要求在無標記的視頻素材中做全畫面像素的連續性景深預測,而這些生成的預測圖像將與實際的視頻素材進行連續的逐幀匹配比對,而連續性匹配達標的基本前提就是最原始畫面的景深計算是正確的,或者說精度是 OK 的。
在驗證中,特斯拉將雷達測算的物體位置標記為點,將視覺測算的位置標記為立方體,在官方的演示素材裡兩者已經展現出不錯的跟隨匹配度。
所以面對網絡上流傳的帶著雷射雷達的特斯拉測試車,不要那麼肯定地覺得特斯拉轉投雷射雷達了,或許人家是在測試擬雷射雷達視覺方案與雷射雷達方案的測距匹配度。
另一個有趣的事情是 2019 年外媒 THE ROBOTREPORT 報導的一則內容中,康奈爾大學的研究團隊提出了用擬雷射雷達手段提高視覺感知精度的方案,思路與特斯拉不盡相同。而經過這些研究人員的實測對比驗證,擬雷射雷達手段的視覺方案在位置探測精度上與真正的雷射雷達效果非常接近。
而且研究人員在採訪中也提到了相比僅靠前攝,如果能在「Bird''''s eye view」下對環境素材進行解析,其精度可以提高 3 倍以上。
相同的技術名詞、類似的手段、一致的結論,這個研究團隊和特斯拉的關係不禁讓人浮想聯翩,然而八卦之外,能看出來的是在視覺方案探索的道路上已經有人和特斯拉想到了一起。
最強大腦有了,還要學東西
人類天生就有視覺但並非天生會開車,而從不會到會的過程其實腦袋裡主要增加了兩個大方向的能力:
基於神經網絡的 FSD 學車的邏輯與這不盡相同。
HW 3.0 晶片讓特斯拉有了量產車裡的最強大腦,4D 視覺讓特斯拉看得更遠、更廣和更準,但所謂感知,有「感」亦要有「知」,特斯拉的神經網絡裡既有視覺神經也有思考神經,和人一樣,它們也需要學習和積累認知。特斯拉寄予 Autopilot FSD 的期望是讓它成為可以在全世界所有道路上駕駛的司機,這就意味著 FSD 要學的東西非常多了。
「對道路環境的認知和預判」對計算機而言,往簡單了說就是視覺圖像識別和預測,認識各種道路上的特徵,包括但不限於道路線、道路標識、道路空間、靜態物體、動態物體。與人一樣,神經網絡識別特徵也是通過「經驗積累」。
兩個你需要知曉的名詞
在說特斯拉的機器學習系統之前還有兩個東西要特別介紹一下,一個是「隊列」,另一個是「影子模式」。
其中「隊列」指的是特斯拉這套系統中關聯的自家上路車輛,在今年 2 月份已經有約 100 萬臺,這個數量隨著交付量的增加會繼續擴大。
這些遍布全球各地的車輛對於系統而言相當於一個個智能終端,通過車載攝像頭採集的道路數據可以上傳系統(註:特斯拉收集的數據是去 ID 處理過的,系統不知道數據具體來自哪臺車,這樣可以保護用戶隱私)。
也就是說通過「隊列」,系統可以採集大量且多樣化的道路數據。
「影子模式」則比較特殊。在「隊列」車輛中除去主大腦其實還有一個「分身大腦」,它和車輛的主大腦一樣可以獲取車輛的各種傳感器數據並輸出各種預測以及駕駛決策指令。
但與主大腦不同的是,「分身大腦」內的神經網絡可能是系統下放的測試版,而且它做出的預測和各類指令不會用於車輛的控制。所以即便這個測試版神經網絡的預測和指令出錯了也沒關係,反正系統不執行。
不過系統會記錄「分身大腦」產出的預測和指令的實際正確率,並用此評價測試版神經網絡的好壞。而其中高錯誤率預測對應的路段,系統會記錄下相關素材用於後續的神經網絡訓練和測試。
通過「影子模式」,特斯拉可以高效且安全地得到測試版神經網絡的實際上路效果。
數據驅動的 AI 訓練場
針對神經網絡的機器學習,特斯拉準備了一套名為 DATA ENGINE 的閉環系統,其結構明確而且機制非常完善。
這套系統的運作大致是這樣的:系統上傳了某一 Autopilot 無法妥善通過場景的素材,其中一些在「影子模式」下報錯率很高,我稱這部分素材為初始素材。
接下來系統一方面會將初始素材收入「單元測試」素材庫,另一方面系統會在「隊列」中搜索並要求回傳類似素材,回傳的這部分素材可以稱作海選素材。海選素材的數量非常可觀,但它們與初始素材的匹配度並不會非常高,經過篩選標記後,海選素材中與初始素材匹配度高的也會被放入「單元測試」素材庫。如此一來針對初始素材的源場景,系統快速地收集了大量類似場景下的「單元測試」素材。
在這之後,特斯拉會利用「單元測試」素材對神經網絡進行專項的離線訓練和測試,相關神經網絡經訓練並通過「單元測試」後對「單元測試」素材中的源場景具備了更強的處理能力。
通過「單元測試」後的神經網絡,特斯拉又會將其下放至「隊列」並在「影子模式」下進行驗證。針對再出現的不足,上述流程繼續循環。
流程背後:數據和訓練機制
神經網絡的核心功能之一是基於圖像的特徵識別,所以在特斯拉神經網絡的深度學習過程中很多內容都與此相關。
以停止標識的識別為例,首先需要人為標記素材中的停止標識,讓系統認識這個圖案,明白素材標記位置這種紅白像素的排列就是停止標識。
完成這一過程後,系統就可以識別與圖片素材相似度高的停止標識。
不過大千世界無奇不有,現實世界情況非常複雜。
依然以停止標識為例,停止標識有很多種不同的圖案樣式,出現的形式也千奇百怪,還有被遮擋、帶燈光、有限定觸發條件等等眾多的奇葩場景。
非線性相關的「見多識廣」
要想系統能識別這些差異化的同類特徵,方法只有一個 —— 收集以上場景的素材,用它們來訓練神經網絡。
簡單來說,你收集素材越多,素材覆蓋的場景越全,訓練後的神經網絡就越見多識廣,它能應對的場景自然也就越多。
但這個過程中又有一個不能忽略問題 —— 數據的有效性。
神經網絡起步的階段,其學習的場景還不多,所以尋找「單元測試」素材難度並不大。但隨著神經網絡學習的場景越來越多,經驗越來越豐富,大部分的場景它都可以識別通過了,所以這時候收集的數據很多都是重複的無用數據。
神經網絡不會平白無故掌握新技能,只有給它提供與之前不一樣的「單元測試」素材,它才能學到新東西。
這些與之前不一樣的罕見場景,業內通常稱之為 corner case。
在機器學習的過程中 corner case 越往後越少,或者換種表達,越往後神經網絡要進步所需的總數據量就越大,這種增加是呈指數模型增長的。
而這也是為什麼「行駛裡程」在各家的自動駕駛中都是重中之重。
特斯拉今年 4 月公布其收集的行駛數據為 30 億英裡。作為對比,Waymo 今年 1 月公布的裡程為 0.2 億英裡。
需要自動化的不僅是造車
特斯拉的整體神經系統由 48 條神經網絡組成,包含 1,000 個獨立的神經網絡。
其中針對單個特徵識別神經網絡的訓練和測試特斯拉專門建立了前面提到的「單元測試」。
「單元測試」是特斯拉從測試驅動的開發流程中汲取靈感而來,你可以將它理解為神經網絡的同類特徵多場景識別統考。
在這類統考中,特斯拉會列出多種場景的考題,神經網絡必須在所有單項中都達到對應的準確率才可以通過考試。
針對沒有通過測試的單項場景,開發者會繼續對神經網絡進行該場景的素材循環訓練,直到其識別的準確率達到設定要求。
當神經網絡通過所有既定測試時,針對這一個特徵識別的神經網絡就完成從創建到可推送至影子模式的過程了。
但如前面所說,系統內需要識別的特徵類型有約 1,000 個,每一個都需要進行這樣的「單元測試」,訓練需要 70,000 GPU 小時。
相比部分企業在這方面使用人海戰術,以上的訓練任務在特斯拉內部僅由一支幾十人規模的精英團隊負責完成。
這樣的訓練效率背後,是高度自動化的訓練機制。
為此特斯拉 AI 團隊正在努力搭建一套用於訓練神經元網絡的模塊化「快訓系統」,系統中包含多種不同用途的神經網絡初始模板。
如果需要開發的新神經網絡屬於其中的某一大類,只需選擇對應的模板自定義搭配即可快速生成初始文件。
在這之後,基於數據的神經網絡學習循環,即搜索訓練素材、標記特徵、收集「單元測試」素材、完成「單元測試」流程、跑影子模式驗證並循環的這個流程,「快訓系統」會用儘可能多的自動化機制來完成。
而特斯拉最終期望達成的效果就是開發者只需要調用模板做一個新神經網絡單元,之後的訓練流程可以在設定下由系統全自動完成。
不過神經系統訓練量依然巨大。
推特用戶 James Wang 進行了粗略計算,如果在 40% 的浮點運算效率下用英偉達 V100 顯卡來做這個事情,140 petaFLOP/s 的速度運行一天即為特斯拉每天的浮點運算需求量。
而這樣運算量如果希望在 3 天內完成,需要超過 1,000 個 V100 顯卡,該系統的費用約為 1,500 萬美金。
所以不難看出,AI 訓練是既耗時又費錢。而面對這種情況,特斯拉準備了專門的硬體,一套性能極其誇張的超算系統。
Dojo:最強學習機
在自動駕駛日上馬斯克透露特斯拉正在打造一臺用於自家 AI 訓練的超算,配合相關軟體,特斯拉計劃用其實現自動化無監督的視頻級 AI 機器學習訓練。
馬斯克表示,Dojo 不是集群 GPU 的架構,它將用特斯拉自研的晶片和專門為神經網絡優化的計算機架構,這個超算系統預計會在明年面世。
今年 8 月,馬斯克透露 Dojo 的浮點運算能力有望達 1 exaFLOP/s 級別。「exa」是 10 的 18 次方,目前全球沒有任何一套超算系統的運算能力能達 1 exaFLOP,其中最接近的是日本的 Fugaku 超算,對應數據為 442010 TFlop/s,即 0.442 exaFlop/s。
如果有 1 exaFLOP/s 的計算能力,完成一次前面所說的神經系統訓練只需要不到 4 小時。
這對於特斯拉也許有點性能過剩,馬斯克 9 月也在推特上表示特斯拉會在 Dojo 完工後推出商業化的伺服器 web service。這也意味著 Dojo 還會給特斯拉帶來伺服器業務收入。
一家車企為了訓練自家的自動駕駛系統做出了可能是全球最強的超算,我以為自己已經習慣了特斯拉的各種「騷操作」,但這次我依然被震撼到了。
不僅因為超算是航天航空這樣的頂尖科技領域才會用到的東西,還有這個事情背後體現出的軟體對於特斯拉的價值。
特斯拉的模仿遊戲
全世界的道路都是為人類駕駛而設計的,而人類駕駛靠的是視覺感知和後天的駕駛經驗積累。
如果細想,人類駕駛需要眼睛、視神經、大腦和駕駛思維,既有「硬體」需求,也有深度學習的軟體需求。
特斯拉給車配備了攝像頭,讓車有了眼睛;特斯拉研發了神經元晶片,給車裝上了強大的腦;FSD Beta 帶來了 4D 視覺,讓大腦中有了能看見多維世界的視神經;而 Software 2.0 則在 DATA ENGING 的不斷循環中持續地學習增加駕駛經驗。
為了在為人類設計的道路上實現自動駕駛,它模仿了人類的功能結構,模仿了人類的駕駛行為甚至還模仿人類進步的方式。
是的,特斯拉的自動駕駛其實是一場精心策劃的模仿遊戲。
作為一個擬人類駕駛機器,Autopilot 在儘可能地向人類學習,而且某些方面它甚至比它的模仿原型人類更加優秀,比如能同時追蹤 360° 視角下的數十個目標,比如它的計算能力和精確度比人腦更強,比如它一天就可以記錄超過 300 萬英裡的行駛裡程。
最龐大的「隊列」、擴張最快的「隊列」、行駛素材最多、行駛素材增長最快、最強自動駕駛晶片、最強 AI 訓練計算機以及這一加持下大概率最高效 AI 訓練系統,從商業競爭角度來看,特斯拉的身前早已空無一人了。
伴隨著「隊列」的增長,特斯拉為破譯自動駕駛密碼打造的這套由「隊列」數據驅動的正反饋系統還在越來越快地運行,也許這也會讓它的身後的身影們越來越遠。
對於 Autopilot,我們見證了它從 0 到 1 的誕生,也見證了它從 1 到 10 再到更多的進步過程。
無保護左轉、無車道線行駛、靈活避障、適時停車、適時越線……FSD Rewrite 之後將天花板抬到了前所未有的高度,房間裡的那扇無人駕駛之窗甚至露出了一絲光亮 。
那個到不了 100 的數字正在越來越接近 100。
不過沒有到達 100,能算 Full Self-Driving 嗎?
我是這麼覺得的:沒沒人可以徹底做到 100,Full Self-Driving 本質上是一個永遠只可能無限接近而不可能徹底實現的偽命題。
因為道路上永遠都是先出現場景,再有後面的場景被收集以及後面的訓練和學習過程,Autopilot 的素材庫不管有多大都永遠只會是這個真實世界的子集。
但這沒關係,我們的生活中有太多到不了 100 的事情了。然而當像素點到 100 萬個的時候已經可以記錄下一幅栩栩如生的畫面,而圖片一秒放 60 幀的時候已經是一段還原度很高的視頻了。
接近 100,本身就是一個非常有價值的事情,也是科技進步的目標。
時至今日,一臺 2K 解析度的手機已經讓人難以看到像素點的存在,一個 240hz 的顯示器也已經讓人幾乎感覺不到畫面的間隔。
而終有一天,我們也會感覺不到 FSD 和 100 的差距。