人工智慧和機器學習應用的加速是一個相對較新的領域,各種各樣的處理器不斷湧現,加速了幾乎所有神經網絡的處理工作。無論是處理器巨頭還是行業新貴,都在盡力提供差異化產品——或是針對不同的垂直市場、應用領域或功率預算,或是具有不同的價位。本文列出了目前市場上有代表性的10款AI加速處理器。4uEednc
Myriad X由愛爾蘭初創公司Movidius開發,該公司於2016年被英特爾收購。Myriad X是Movidius的第三代視覺處理單元,也是首款搭載專用神經網絡計算引擎的處理器,可提供1TOPS的運算能力,專門用於深度神經網絡(DNN)計算。神經網絡計算引擎與高吞吐量智能存儲器件直接連接,避免了數據傳輸時的任何存儲瓶頸。Myriad X支持FP16和INT8計算,擁有一個內核群(包含16個專有SHAVE內核),以及升級擴展版的視覺加速器。4uEednc
Myriad X可用於第二代英特爾神經計算棒(NCS2),NCS2實際上是外形跟U盤一樣的評估平臺。它可以插入任何工作站,使AI和計算機視覺應用能夠快速啟動並在專用的Movidius硬體上運行。4uEednc
i.MX 8M Plus是一款異構應用處理器,採用芯原的專用神經網絡加速器IP(Vivante VIP8000)。它為消費者及工業物聯網端點設備提供2.3TOPS的推理加速能力,足以完成多個物體的識別、40,000個單詞的語音識別,甚至還可以對醫學影像進行分類(MobileNet v1每秒對500個影像進行分類)。4uEednc
4uEednc
圖1:恩智浦的i.MX 8M Plus是該公司首款搭載專用神經網絡加速器的應用處理器,專為物聯網應用而設計。(圖片來源:恩智浦半導體)4uEednc
除神經網絡處理器以外,i.MX 8M Plus還搭載運行速度為2GHz的4核Arm Cortex-A53子系統,以及Cortex-M7實時子系統。針對視覺應用,它提供兩個圖像信號處理器,可以支持兩個立體視覺高清相機或一個12MP相機。針對語音應用,它提供一個800MHz HiFi4音頻數位訊號處理器(DSP),可用於語音數據的預處理和後處理。4uEednc
xcore.ai用於實現人工智慧物聯網(AIoT)應用中的語音控制。它是一種交叉處理器,兼具應用處理器的性能以及微控制器的低功耗與實時操作特性,用於語音信號的機器學習推理。4uEednc
4uEednc
圖2:XMOS公司的xcore.ai採用專有架構,專為語音應用中的AI處理而設計。(圖片來源:XMOS)4uEednc
它採用XMOS專有的Xcore架構,包含的邏輯內核可用於I/O、DSP、控制功能或AI加速。每顆xcore.ai晶片上有16個這樣的內核,設計人員可以根據需要選擇為每種功能分配多少個內核。通過將不同功能映射到固件中的邏輯內核,可以創建一個「虛擬SoC」,這完全是通過軟體實現的。XMOS還在Xcore中增加了向量管道功能,用於機器學習。4uEednc
xcore.ai支持32位、16位、8位和1位(二進位)網絡,可提供3200MIPS、51.2GMACC和1600MFLOPS的運算能力,同時擁有1MB嵌入式SRAM以及一個低功耗DDR擴展接口。4uEednc
TDA4VM是德州儀器首款搭載專用深度學習加速器的片上系統(SoC),是應用於汽車高級駕駛輔助系統(ADAS)的Jacinto 7系列的一部分。該模塊採用C7×DSP及內部開發的矩陣乘法加速器(MMA),運算能力高達8TOPS。4uEednc
4uEednc
圖3:德州儀器的TDA4VM用於複雜的ADAS,使車輛能夠感知周圍環境。(圖片來源:德州儀器)4uEednc
這款SoC可以處理來自一個8MP前置攝像頭的視頻流,或者處理來自4到6個3MP攝像頭加上雷達、LiDAR和超聲波傳感器的組合數據。例如,在自動代客泊車系統中,其搭載的MMA可用於對這些輸入數據進行傳感器融合。4uEednc
TDA4VM專為5W至20W的ADAS應用而設計。該產品目前處於預生產階段,但已有可用的開發套件。4uEednc
英偉達著名的Jetson Nano是一款外形小但功能強大的圖形處理單元(GPU)模塊,專門針對端點設備中的AI應用。該公司表示,與大多數Jetson系列產品(AGX Xavier和TX2)一樣,Nano模塊上的GPU採用Maxwell架構,有128個內核,運算能力達到0.5TFLOPS,足以處理多個高解析度圖像傳感器的數據流並運行多個神經網絡,功耗僅為5W。該模塊還搭載了4核Arm Cortex-A57 CPU。4uEednc
4uEednc
圖4:英偉達的Jetson Nano模塊搭載具有128個內核的強大GPU,適合邊緣AI應用。(圖片來源:英偉達)4uEednc
與英偉達其他產品一樣,Jetson Nano也採用了英偉達的神經網絡加速庫CUDA X。價格便宜的Jetson Nano開發套件已經面市。4uEednc
Kneron是臺灣旅美科學家在美國成立的一家初創公司,首款產品為KL520神經網絡處理器,專用於智能家居、安防系統和行動裝置等應用中的圖像處理和人臉識別。經過優化,它可以運行圖像處理中常用的卷積神經網絡(CNN)。4uEednc
4uEednc
圖5:Kneron公司的KL520採用可重配架構和巧妙的壓縮技術,在行動裝置和消費類設備中完成圖像處理。(圖片來源:Kneron Inc.)4uEednc
KL520運算能力達到0.3TOPS,功耗僅為0.5W(相當於0.6TOPS/W)。該公司稱其晶片MAC效率超過90%,能夠實現精確的人臉識別。晶片架構可重新配置,並針對不同的CNN模型量身定製。Kneron公司的輔助編譯器採用壓縮技術,能夠在有限的晶片資源內運行更大的模型,從而節省了功耗和成本。KL520現已上市,製造商AAEON的加速卡中(M2AI-2280-520)便使用了這款處理器。4uEednc
Gyrfalcon公司的Lightspeeur 5801是為消費類電子產品市場而設計的,可提供2.8TOPS的運算能力,功耗為224mW(相當於12.6TOPS/W),延遲僅為4ms。Gyrfalcon採用了比其他架構更節能的「存儲器內處理器(processor-in-memory)」技術,並且可以在50MHz和200MHz之間改變鐘速度,從而相應地調節功耗。Lightspeeur 5801包含10MB存儲器,因此整個模型都可裝在晶片上。4uEednc
Lightspeeur 5801是該公司生產的第四款晶片,已經用在LG的Q70中端智慧型手機中,用於相機效果的推理。5801 Plai Plug U盤開發套件現已上市。4uEednc
ECM3532是Eta Compute公司的第一款產品,在物聯網電池供電或能量採集設備中用於AI加速。在圖像處理和傳感器融合等一直處於運行狀態的應用中,其功耗可低至100µW。4uEednc
該晶片搭載兩款內核,Arm Cortex-M3微控制器內核和NXP CoolFlux DSP。它採用專有的電壓和頻率調節技術,可以調節每個時鐘周期,以充分利用兩個內核的每一瓦功率。兩個內核的任何一個都可以執行機器學習(但一些語音處理由DSP來完成更好)。ECM3532樣品已經推出,預計第二季度開始量產。4uEednc
NDP100處理器由美國初創公司Syntiant設計,可對超低功耗應用中的語音命令進行機器學習推理。這款晶片採用存儲器內處理器技術,僅消耗不到140µW的有功功率,可運行關鍵詞發現、喚醒詞檢測、說話人識別或事件分類等模型。4uEednc
4uEednc
圖6:Syntiant公司的NDP100適合超低功耗應用中的語音處理。(圖片來源:SyntiantCorp.)4uEednc
Syntiant公司稱該產品將用於消費類電子設備的語音操作,例如耳塞式耳機、助聽器、智能手錶和遙控器。其開發套件已上市。4uEednc
GAP9是法國初創公司GreenWaves開發的第一款超低功耗應用處理器,它搭載由9個RISC-V內核組成的強大計算集群,其指令集經過高度定製可以最大程度降低功耗。它具有雙向多通道音頻接口和1.6MB內部RAM。4uEednc
在電池供電的物聯網設備中,可使用GAP9來完成圖像、聲音和振動檢測等神經網絡處理。根據GreenWaves數據顯示,在GAP9運行MobileNet V1來處理解析度為160×160的圖像時,通道縮放值為0.25,用時僅12ms,功耗低至806μW/幀/秒。4uEednc
(原文刊登於ASPENCORE旗下EETimes歐洲網站,參考連結:Top 10 Processors for AI Acceleration at the Endpoint。)4uEednc
本文為《電子技術設計》2020年06月刊雜誌文章,版權所有,禁止轉載。免費雜誌訂閱申請點擊這裡。4uEednc