圖片來源:元戎啟行
集微網1月11日消息,自動駕駛系統中的複雜計算依靠硬體算力還是計算效率?這是橫亙在許多創業公司面前的實際問題。依靠前者需要投入大量資金,依靠後者則離不開底層技術的鑽研和開發。
在2021年CES上,L4級自動駕駛解決方案提供商元戎啟行在線上展示其針對L4級自動駕駛深度學習模型研發的推理引擎DeepRoute-Engine。將該推理引擎實現了比開源深度學習框架平均高6倍的推理速度。大幅提升了自動駕駛的計算效率,有望令自動駕駛擺脫對高算力計算平臺的依賴。受國外疫情影響,本屆CES成為了創辦50餘年以來的第一屆全數位化展會,廠商均在線參展。
眾所周知,自動駕駛要做到像人類一樣感知周圍物體,需要通過深度學習來完成,即需要通過大規模的、複雜的深度學習網絡模型來對輸入的數據進行推理。而在推理過程中,需要實時完成大量的計算。因此,自動駕駛企業對計算平臺的算力有著嚴格的要求。但這類計算平臺不僅成本高達數萬元,功耗也高達數百瓦。假設計算平臺的平均功率為500W,其 24小時的耗電量約佔一輛蓄電量為50kW·h的電動車的24%。
為了擺脫自動駕駛對這類計算平臺的依賴,降低自動駕駛的硬體成本,以及減少自動駕駛硬體耗能對汽車行駛裡程的影響,元戎啟行選擇了另一種方式。通過自研的推理引擎——DeepRoute-Engine,讓L4級自動駕駛的感知模塊,可以運行在低成本、低功耗的計算平臺上。
根據元戎啟行與曹操出行合作的自動駕駛車型——幾何A的實車測試,元戎啟行的自動駕駛系統,每行駛100公裡只消耗1度電。該耗電量還包括了車內負載2人,空調開啟,以及傳感器風阻對能量的耗費。
元戎啟行指出,在自動駕駛系統中,感知模塊是其最核心、計算量最大的軟體模塊。想要提高感知模塊的運行效率,就需要針對感知算法的特點、計算需求,以及計算平臺的架構特點進行適配,從而驅動系統的高效運行。一個定製的推理引擎就相當於定製的驅動器,不僅能夠提高感知模塊運行效率,還能提高系統可擴展性,兼容更多計算平臺。
圖片來源:元戎啟行
L4級自動駕駛感知算法所使用的深度學習框架非常複雜,需要實時進行大量複雜計算。目前市場上開源的推理引擎,大多無法處理複雜的L4級自動駕駛深度學習模型。而諸如Caffe、TensorFlow、PyTorch這類深度學習框架,尚未針對複雜的深度學習框架進行計算優化,因此,其計算效率也差強人意。
元戎啟行的推理引擎通過智能的算子融合,將推理過程中可合併的運算進行合併,大幅提高計算效率。此外,該推理引擎還針對不同品牌的計算平臺設計了定製的內核程序,用以執行所需的大量並行計算。DeepRoute-Engine目前支持包括AMD、Nvidia、Intel等品牌的GPU,以及華為的車載計算平臺。
目前,市場上常見的用於自動駕駛的計算平臺有CPU,以及採用GPU、FPGA、ASIC等架構的AI晶片。由於自動駕駛系統需要處理雷射雷達、相機等傳感器採集的海量數據,傳統的CPU算力越來越無法滿足使用要求,以GPU架構為主的AI晶片成為了實現自動駕駛必不可少的硬體。
值得一提的是,元戎啟行所研發的推理引擎,適用於不同品牌的CPU、AI晶片。元戎啟行副總裁劉念邱表示,通過DeepRoute-Engine,元戎啟行已將複雜的深度學習模型運用在國內外主流的計算平臺上。「我們希望能與各界廠商攜手,共同研發、推進更適合自動駕駛的低功耗、低成本計算平臺解決方案,促進自動駕駛車輛的前裝量產。」
(校對/零叄)