用於端點AI加速的10大處理器

2020-12-28 EDN電子設計技術

人工智慧和機器學習應用的加速是一個相對較新的領域,各種各樣的處理器不斷湧現,加速了幾乎所有神經網絡的處理工作。無論是處理器巨頭還是行業新貴,都在盡力提供差異化產品——或是針對不同的垂直市場、應用領域或功率預算,或是具有不同的價位。本文列出了目前市場上有代表性的10款AI加速處理器。4uEednc

應用處理器 

英特爾Movidius Myriad X 

Myriad X由愛爾蘭初創公司Movidius開發,該公司於2016年被英特爾收購。Myriad X是Movidius的第三代視覺處理單元,也是首款搭載專用神經網絡計算引擎的處理器,可提供1TOPS的運算能力,專門用於深度神經網絡(DNN)計算。神經網絡計算引擎與高吞吐量智能存儲器件直接連接,避免了數據傳輸時的任何存儲瓶頸。Myriad X支持FP16和INT8計算,擁有一個內核群(包含16個專有SHAVE內核),以及升級擴展版的視覺加速器。4uEednc

Myriad X可用於第二代英特爾神經計算棒(NCS2),NCS2實際上是外形跟U盤一樣的評估平臺。它可以插入任何工作站,使AI和計算機視覺應用能夠快速啟動並在專用的Movidius硬體上運行。4uEednc

恩智浦半導體i.MX 8M Plus

i.MX 8M Plus是一款異構應用處理器,採用芯原的專用神經網絡加速器IP(Vivante VIP8000)。它為消費者及工業物聯網端點設備提供2.3TOPS的推理加速能力,足以完成多個物體的識別、40,000個單詞的語音識別,甚至還可以對醫學影像進行分類(MobileNet v1每秒對500個影像進行分類)。4uEednc

4uEednc

圖1:恩智浦的i.MX 8M Plus是該公司首款搭載專用神經網絡加速器的應用處理器,專為物聯網應用而設計。(圖片來源:恩智浦半導體)4uEednc

除神經網絡處理器以外,i.MX 8M Plus還搭載運行速度為2GHz的4核Arm Cortex-A53子系統,以及Cortex-M7實時子系統。針對視覺應用,它提供兩個圖像信號處理器,可以支持兩個立體視覺高清相機或一個12MP相機。針對語音應用,它提供一個800MHz HiFi4音頻數位訊號處理器(DSP),可用於語音數據的預處理和後處理。4uEednc

XMOS公司xcore.ai 

xcore.ai用於實現人工智慧物聯網(AIoT)應用中的語音控制。它是一種交叉處理器,兼具應用處理器的性能以及微控制器的低功耗與實時操作特性,用於語音信號的機器學習推理。4uEednc

4uEednc

圖2:XMOS公司的xcore.ai採用專有架構,專為語音應用中的AI處理而設計。(圖片來源:XMOS)4uEednc

它採用XMOS專有的Xcore架構,包含的邏輯內核可用於I/O、DSP、控制功能或AI加速。每顆xcore.ai晶片上有16個這樣的內核,設計人員可以根據需要選擇為每種功能分配多少個內核。通過將不同功能映射到固件中的邏輯內核,可以創建一個「虛擬SoC」,這完全是通過軟體實現的。XMOS還在Xcore中增加了向量管道功能,用於機器學習。4uEednc

xcore.ai支持32位、16位、8位和1位(二進位)網絡,可提供3200MIPS、51.2GMACC和1600MFLOPS的運算能力,同時擁有1MB嵌入式SRAM以及一個低功耗DDR擴展接口。4uEednc

汽車SoC

德州儀器TDA4VM

TDA4VM是德州儀器首款搭載專用深度學習加速器的片上系統(SoC),是應用於汽車高級駕駛輔助系統(ADAS)的Jacinto 7系列的一部分。該模塊採用C7×DSP及內部開發的矩陣乘法加速器(MMA),運算能力高達8TOPS。4uEednc

4uEednc

圖3:德州儀器的TDA4VM用於複雜的ADAS,使車輛能夠感知周圍環境。(圖片來源:德州儀器)4uEednc

這款SoC可以處理來自一個8MP前置攝像頭的視頻流,或者處理來自4到6個3MP攝像頭加上雷達、LiDAR和超聲波傳感器的組合數據。例如,在自動代客泊車系統中,其搭載的MMA可用於對這些輸入數據進行傳感器融合。4uEednc

TDA4VM專為5W至20W的ADAS應用而設計。該產品目前處於預生產階段,但已有可用的開發套件。4uEednc

GPU

英偉達Jetson Nano

英偉達著名的Jetson Nano是一款外形小但功能強大的圖形處理單元(GPU)模塊,專門針對端點設備中的AI應用。該公司表示,與大多數Jetson系列產品(AGX Xavier和TX2)一樣,Nano模塊上的GPU採用Maxwell架構,有128個內核,運算能力達到0.5TFLOPS,足以處理多個高解析度圖像傳感器的數據流並運行多個神經網絡,功耗僅為5W。該模塊還搭載了4核Arm Cortex-A57 CPU。4uEednc

4uEednc

圖4:英偉達的Jetson Nano模塊搭載具有128個內核的強大GPU,適合邊緣AI應用。(圖片來源:英偉達)4uEednc

與英偉達其他產品一樣,Jetson Nano也採用了英偉達的神經網絡加速庫CUDA X。價格便宜的Jetson Nano開發套件已經面市。4uEednc

消費類協處理器

Kneron公司KL520

Kneron是臺灣旅美科學家在美國成立的一家初創公司,首款產品為KL520神經網絡處理器,專用於智能家居、安防系統和行動裝置等應用中的圖像處理和人臉識別。經過優化,它可以運行圖像處理中常用的卷積神經網絡(CNN)。4uEednc

4uEednc

圖5:Kneron公司的KL520採用可重配架構和巧妙的壓縮技術,在行動裝置和消費類設備中完成圖像處理。(圖片來源:Kneron Inc.)4uEednc

KL520運算能力達到0.3TOPS,功耗僅為0.5W(相當於0.6TOPS/W)。該公司稱其晶片MAC效率超過90%,能夠實現精確的人臉識別。晶片架構可重新配置,並針對不同的CNN模型量身定製。Kneron公司的輔助編譯器採用壓縮技術,能夠在有限的晶片資源內運行更大的模型,從而節省了功耗和成本。KL520現已上市,製造商AAEON的加速卡中(M2AI-2280-520)便使用了這款處理器。4uEednc

Gyrfalcon公司Lightspeeur 5801

Gyrfalcon公司的Lightspeeur 5801是為消費類電子產品市場而設計的,可提供2.8TOPS的運算能力,功耗為224mW(相當於12.6TOPS/W),延遲僅為4ms。Gyrfalcon採用了比其他架構更節能的「存儲器內處理器(processor-in-memory)」技術,並且可以在50MHz和200MHz之間改變鐘速度,從而相應地調節功耗。Lightspeeur 5801包含10MB存儲器,因此整個模型都可裝在晶片上。4uEednc

Lightspeeur 5801是該公司生產的第四款晶片,已經用在LG的Q70中端智慧型手機中,用於相機效果的推理。5801 Plai Plug U盤開發套件現已上市。4uEednc

超低功耗 

Eta Compute公司ECM3532

ECM3532是Eta Compute公司的第一款產品,在物聯網電池供電或能量採集設備中用於AI加速。在圖像處理和傳感器融合等一直處於運行狀態的應用中,其功耗可低至100µW。4uEednc

該晶片搭載兩款內核,Arm Cortex-M3微控制器內核和NXP CoolFlux DSP。它採用專有的電壓和頻率調節技術,可以調節每個時鐘周期,以充分利用兩個內核的每一瓦功率。兩個內核的任何一個都可以執行機器學習(但一些語音處理由DSP來完成更好)。ECM3532樣品已經推出,預計第二季度開始量產。4uEednc

Syntiant公司NDP100

NDP100處理器由美國初創公司Syntiant設計,可對超低功耗應用中的語音命令進行機器學習推理。這款晶片採用存儲器內處理器技術,僅消耗不到140µW的有功功率,可運行關鍵詞發現、喚醒詞檢測、說話人識別或事件分類等模型。4uEednc

4uEednc

圖6:Syntiant公司的NDP100適合超低功耗應用中的語音處理。(圖片來源:SyntiantCorp.)4uEednc

Syntiant公司稱該產品將用於消費類電子設備的語音操作,例如耳塞式耳機、助聽器、智能手錶和遙控器。其開發套件已上市。4uEednc

GreenWaves公司GAP9

GAP9是法國初創公司GreenWaves開發的第一款超低功耗應用處理器,它搭載由9個RISC-V內核組成的強大計算集群,其指令集經過高度定製可以最大程度降低功耗。它具有雙向多通道音頻接口和1.6MB內部RAM。4uEednc

在電池供電的物聯網設備中,可使用GAP9來完成圖像、聲音和振動檢測等神經網絡處理。根據GreenWaves數據顯示,在GAP9運行MobileNet V1來處理解析度為160×160的圖像時,通道縮放值為0.25,用時僅12ms,功耗低至806μW/幀/秒。4uEednc

(原文刊登於ASPENCORE旗下EETimes歐洲網站,參考連結:Top 10 Processors for AI Acceleration at the Endpoint。)4uEednc

本文為《電子技術設計》2020年06月刊雜誌文章,版權所有,禁止轉載。免費雜誌訂閱申請點擊這裡。4uEednc

相關焦點

  • 2020最強終端AI加速晶片Top10排行榜
    儘管人工智慧和機器學習應用的加速仍是一個相對較新的領域,但各種處理器如雨後春筍般湧現,幾乎可以加速任何神經網絡工作負載。EETimes,從垂直市場、應用領域、功率預算及價格多個方面對目前市場上的應用處理器進行了盤點。
  • AMD EPYC處理器與全新AMD Instinct MI100加速顯卡重新定義HPC和...
    在預期2021年第一季度公開發布基於「Zen 3」核心架構的第三代EPYC處理器、OEM同步上市之前,AMD將按計劃為部分HPC和雲計算客戶在本季度開始批量供貨。全新AMD Instinct MI100加速顯卡為科研工作負載帶來了革命性的HPC性能,同時也是首個跨過10萬億次浮點運算(FP64)性能門檻的加速顯卡[i]。
  • AMD推出第六代A系列加速處理器
    ,為筆記本電腦及一體機帶來史無前例的高清流媒體、網路遊戲以及創新計算體驗——全球首款使用系統級晶片(SoC)設計的高性能加速處理器重新定義筆記本電腦處理器,帶來最高可達上代產品兩倍的電池續航時間¹以及競品兩倍的遊戲性能²AMD公司今天推出了全球首款使用系統級晶片(SoC)設計的第六代A系列高性能加速處理器(APU)。
  • 新思科技和Elektrobit宣布推出用於ARC功能安全處理器IP的EB...
    ., 納斯達克股票代碼:SNPS) 和Elektrobit (EB) 這家富有遠見卓識的汽車行業嵌入式和互聯軟體產品的全球供應商,今天共同宣布推出用於新思科技符合 ASIL-D 的 DesignWare® ARC® EM 和 ARC HS 功能安全 (FS) 處理器 IP  的 EB tresos 經典 AUTOSAR 軟體。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    此次接口公測上線,同步優化模型效果,教育場景下的識別準召率提升至85%+,可用於智能閱卷、拍照搜題等場景>>立即試用ai.baidu.com/tech/ocr/doc_analysis 儀器儀錶盤讀數識別全面公測
  • 被誤解的EDR,端點安全如何撥雲見日?
    面對這種「披著合法外衣」悄悄進行地攻擊,許多端點防護平臺(Endpoint Protection Platform,EPP)紛紛失效,這讓更多信息安全管理者決定,在端點保護中融合更加先進的檢測和響應解決方案(EDR)。這會成為新的端點防護趨勢嗎?  端點防護戰,EDR已佔C位  網絡攻擊,由來已久,且總是帶著一些銅臭的味道。
  • Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計
    這種高性能模型部署在賽靈思 Zynq® UltraScale+™ MPSoC ZCU104 器件之上,並採用了賽靈思深度學習處理器單元(DPU)。該 DPU 是一種軟 IP 張量加速器,它的強大功能足以支持運行各種神經網絡,其中包括用於分型和疾病檢測的神經網絡。
  • 全球三十大最佳 AI 創業公司公布
    機器之心根據研究實力、技術與產品、市場與行業潛力、運營能力、資本與財務狀況、創新性與實用性等多項標準,評選出四項大獎:全球三十大最佳 AI 創業公司、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。Drive.ai、流利說、追一科技等GGV紀源資本被投企業入選榜單。
  • 傳微軟自研Arm處理器,用於伺服器和Surface設備
    處理器的MacBook……於是微軟也坐不住了,加入到排擠英特爾(Intel)的行列中來。近日據彭博社報導稱,微軟正在為伺服器設計自己的Arm處理器,未來還可能發布搭載該處理器的Surface設備。目的在於在最重要的硬體方面自給自足,減少對英特爾的依賴。另外,消息還稱微軟考慮讓Surface設備使用另一種處理器,但目前還不清楚相關進展。
  • Nature:用光子處理器提升人工智慧計算速度
    Xu等人和Feldmann等人的兩篇論文報告了一種通過利用光的獨特屬性來加速AI處理的光子處理器。這些報告引發了光學計算的復興。隨著人工智慧的興起,傳統的電子計算方式逐漸達到其性能極限,遠遠落後於可處理數據的快速增長。在各種類型的AI中,神經網絡由於其出色的表現而被廣泛用於AI任務中。
  • 詳解語音處理檢測技術中的熱點——端點檢測、降噪和壓縮 | 雷鋒網...
    未經壓縮的語音數據,網絡交互應用中的網絡流量偏大,從而降低語音應用的成功率。因此,音頻的端點檢測、降噪和音頻壓縮始終是終端語音處理關注的重點,目前仍是活躍的研究主題。為了能和您一起了解端點檢測和降噪的基本原理,帶您一起一窺音頻壓縮的奧秘,本次硬創公開課的嘉賓科大訊飛資深研發工程師李洪亮,將為我們帶來主題演講:詳解語音處理檢測技術中的熱點——端點檢測、降噪和壓縮 。
  • AMD發布CDNA架構Instinct MI100加速顯卡 加速百億億次級時代到來
    北京時間11月16日晚10點,AMD正式發布了首款基於全新CDNA架構的Instinct MI100加速顯卡,以及配套的ROCm 4.0生態系統首次正式亮相的CDNA架構專門為高性能計算所打造,而基於該架構的AMD Instinct MI100加速顯卡將進一步逼近百億億次級計算時代
  • 11款處理器大亂鬥:AMD 對比 intel 10代酷睿
    ▼ 另外intel和AMD的互飆,也加速了諸如視頻剪輯工作以及延伸行業(自媒體)的發展。,這些事業可能會在10年後才醞釀成熟,但是錯過了時代,錯過了風口,那就是真錯過了。
  • 大咖博聞薈 | VMware SD-WAN一鍵式Office365加速
    「(endpoints)的前端伺服器,旨在讓終端用戶能就近接入到這些端點。  因此從設計的角度來講,用戶只要能高質量地就近接入到這些「端點」,就可以通過「微軟全球網絡」高效地訪問位於全球各地的Office365雲資源。
  • 蘋果包下臺積電 3 納米初期產能:用於生產 M、A 系列處理器
    據悉,蘋果將通過臺積電 3 納米生產自家 M 系列晶片用於 Mac 與 iPad,後續也將會採用該先進位程生產 iPhone 用的 A 系列處理器。供應鏈透露,臺積電 3 納米與 4 納米試產準備進度同步順暢,其中,3 納米積極朝向年產能 60 萬片、換算月產能超過 5 萬片目標邁進。
  • 韓國政府今年將投資1253億韓元用於AI晶片研發
    韓國政府今年將投資1253億韓元用於AI晶片研發2021-01-12 20:58出處/作者:C114通信網整合編輯:佚名責任編輯:zhaoyongyu1   據韓聯社報導,韓國信息通信技術部周二表示,韓國今年將投資1253億韓元(1.141億美元)用於支持神經網絡處理器的開發,這一金額較去年增長了
  • AMD EPYC處理器為VMware客戶帶來先進的安全性和高性能
    ——VMware vSphere 7.0U1新增了對AMD安全加密虛擬化加密模式(SEV-ES)的支持,增強了在虛擬化環境中的數據安全 2020年10月10日加州聖克拉拉訊——公司(納斯達克股票代碼:AMD)近日宣布其適用於虛擬化和超融合架構
  • 三星將推首款AI晶片NPU,性能超華為蘋果,智能終端AI芯大PK
    目前,蘋果的iPhoneX和華為的Mate10(Pro)、V10等系列手機均已經使用人工智慧晶片,成為AI手機的領導者。新智元對部分移動端能夠支撐AI功能的晶片做了梳理:谷歌:Pixel VisualCore2017年10月,Google在其官方博客上公開了Pixel2中使用的一顆專用圖像處理協處理器——Pixel VisualCore。這是Google在用於伺服器的TPU之後推出的第二顆晶片,這次針對的是移動端。
  • Intel要把EMIB封裝帶到桌面處理器 7/10/14nm能合體
    Intel高管在採訪中表示他們會把EMIB封裝技術用於桌面處理器,這樣一來未來的酷睿處理器可以同時集成7/10/14nm等工藝的晶片。作為摩爾定律的提出者及最堅定的支持者,Intel之前表示會在10nm節點之後恢復此前的2年升級一次工藝的周期,繼續給摩爾定律續命。
  • PC國產替代加速
    IDC數據顯示,受疫情影響,一季度中國市場PC出貨量大跌28.1%,不過之後的三個季度同比增長分別都在10%左右,IDC預計,2020中國PC市場增長1.7%。2021年中國PC市場增長10.7%,繼續保持強勁勢頭。