儘管人工智慧和機器學習應用的加速仍是一個相對較新的領域,但各種處理器如雨後春筍般湧現,幾乎可以加速任何神經網絡工作負載。
EETimes,從垂直市場、應用領域、功率預算及價格多個方面對目前市場上的應用處理器進行了盤點。
Myriad X由愛爾蘭初創公司Movidius開發,該公司於2016年被英特爾收購。
Myriad X是該公司的第三代視覺處理單元,也是首款搭載專用神經網絡計算引擎的產品,可提供每秒1兆次的專用深度神經網絡(DNN)計算,可提供1兆次的運算能力。
神經計算引擎直接與高通量智能內存架構對接,避免了數據傳輸時的內存瓶頸。它支持FP16和INT8計算。Myriad X還擁有16個專有的SHAVE內核集群和升級擴展的視覺加速器。
Myriad X採用了英特爾的Neural Compute Stick 2,實際上就是一個U盤形式的評估平臺。它可以插在任何工作站上,讓AI和計算機視覺應用很快就能在Movidius的專用硬體上啟動並運行。
i.MX 8M Plus是一款異構應用處理器,採用了芯原公司的專用神經網絡加速器IP(Vivante VIP8000)。
它為消費類和工業物聯網中的終端設備提供了2.3 TOPS的加速能力,足以實現多目標識別、4萬字的語音識別,甚至是醫療成像(MobileNet v1版以每秒500張圖像的速度)。
除了神經網絡處理器外,i.MX 8M Plus還搭載了運行在2GHz的四核Arm Cortex-A53子系統,外加Cortex-M7實時子系統。
視覺應用方面,有兩個圖像信號處理器,支持兩個高清攝像頭,可實現立體視覺,也可支持單個1200萬像素(MP)攝像頭。
在語音方面,該設備包括一個800MHz的HiFi4音頻數位訊號處理器(DSP),用於語音數據的前、後處理。
xcore.ai旨在實現人工智慧物聯網(AIoT)應用中的語音控制。這款設備是一個交叉處理器(具有應用處理器的性能和微控制器的低功耗、實時操作),專門用於對語音信號進行機器學習推理。
它基於XMOS專有的Xcore架構,本身就建立在稱為邏輯核的構建塊上,可以用於I/O、DSP、控制功能或AI加速。每個xcore.ai晶片上有16個這樣的內核,設計者可以選擇分配給每個功能的數量。
將不同的功能映射到固件中的邏輯內核,可以創建一個完全由軟體編寫的 &34;。XMOS為Xcore增加了向量管道功能,用於機器學習工作負載。
xcore.ai支持32位、16位、8位和1位(二值化)網絡,可提供3200 MIPS、51.2 GMACC和1600 MFLOPS。它擁有1 Mbyte的嵌入式SRAM和低功耗DDR接口,可用於擴展。
作為Jacinto 7系列汽車高級駕駛輔助系統(ADAS)的一部分,TDA4VM是TI首款具有專用深度學習加速器的片上系統(SoC)。
該晶片塊基於C7x DSP加上內部開發的矩陣乘法加速器(MMA),可實現8個TOPS。
該SoC可以處理來自前置攝像頭的視頻流,最高可達8MP,或者是4到6個3MP攝像頭加上雷達、LiDAR和超聲波傳感器的組合。
例如,在自動泊車系統中,MMA可能用於對這些輸入進行傳感器融合。
TDA4VM是為5到20W之間的ADAS設計而設計的。
Nvidia著名的Jetson Nano是一款小巧但功能強大的圖形處理單元(GPU)模塊,用於終端設備中的AI應用。
該公司表示,Nano模塊上的GPU基於與Jetson家族中較大的成員(AGX Xavier和TX2)相同的Maxwell架構,擁有128個內核,能夠達到0.5TFLOPS,足以在高解析度圖像傳感器的多個數據流上運行多個神經網絡。
使用時,它的功耗低至5W。該模塊還採用了四核Arm Cortex-A57 CPU。
與Nvidia的其他部件一樣,Jetson Nano也使用了Nvidia的神經網絡加速庫CUDA X。價格不貴的Jetson Nano開發套件已被廣泛使用。
中國臺灣初創公司Kneron的首款產品是KL520神經網絡處理器,是專為智能家居、安防系統和行動裝置等應用中的圖像處理和面部識別而設計的。它可以運行卷積神經網絡(CNNs),是目前圖像處理中常用的類型。
KL520可運行0.3 TOPS,功耗為0.5 W(相當於0.6 TOPS/W),該公司表示,鑑於該晶片的MAC效率很高(超過90%),這足以實現準確的面部識別。
該晶片的架構是可重新配置的,可以根據不同的CNN模型進行定製。該公司的輔助編譯器還採用了壓縮技術,以便在晶片資源內運行更大的模型,以節省功耗和成本。目前KL520已經上市,也可以在廠商AAEON的加速器卡上找到(M2AI-2280-520)。
Gyrfalcon的Lightspeeur 5801專為消費類電子市場設計,在224mW的功耗下提供2.8 TOPS(相當於12.6 TOPS/W),延遲為4ms。Gyrfalcon使用了一種處理器內存儲器技術,與其他架構相比,該技術特別省電。
功耗實際上可以通過改變50到200MHz之間的時鐘速度來抵消功耗。Lightspeeur 5801包含10MB的內存,因此整個型號可以裝在晶片上。
該部分是該公司的第四款量產晶片,已經出現在LG的Q70中端智慧型手機上,它處理相機效果的推理。現在已經推出了一款USB優盤開發套件,即5801 Plai Plug,目前已經上市。
Eta Compute的首款量產產品ECM3532是專為IoT的電池供電或能量收集設計中的AI加速而設計的。在圖像處理和傳感器融合方面的始終開機應用,只需低至100微瓦的功率預算就能實現。
該晶片有兩個內核--一個Arm Cortex-M3微控制器內核和一個NXP CoolFlux DSP。該公司使用了一種專有的電壓和頻率縮放技術,在每一個時鐘周期內進行調整,以榨取兩個內核的每一滴電能。
機器學習工作負載可由兩個內核中的任何一個內核處理(例如,某些語音工作負載更適合DSP)。ECM3532的樣品現已上市,預計第二季度開始量產。
美國初創公司Syntiant公司的NDP100處理器是專為在電力緊張的應用中對語音指令進行機器學習推理而設計的。其基於內存中處理器的晶片功耗不到140微瓦,可運行關鍵詞識別、喚醒詞檢測、語音識別或事件分類等模型。
Syntiant表示,該產品將用於實現消費類設備的免提操作,如耳機、助聽器、智能手錶和遙控器等。開發套件現已推出。
GAP9是法國初創公司GreenWaves公司推出的首款超低功耗應用處理器,它擁有強大的計算集群,由9個RISC-V內核組成,其指令集經過大量定製,以優化功耗。它具有雙向多通道音頻接口和1.6MB的內部RAM。
GAP9可以處理電池供電的IoT設備中的圖像、聲音和振動感應的神經網絡工作負載。GreenWaves的數據顯示,GAP9在160×160的圖像上運行MobileNet V1,通道縮放為0.25,僅需12毫秒,功耗為806μW/幀/秒。
參考連結:
https://www.eetimes.eu/top-10-processors-for-ai-acceleration-at-the-endpoint/
薦:
聲明
來源:新智元,人工智慧產業鏈聯盟推薦閱讀,不代表人工智慧產業鏈聯盟立場,轉載請註明,如涉及作品版權問題,請聯繫我們刪除或做相關處理!