機器學習性能提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

2021-01-13 手機鳳凰網

芯東西2月11日消息,今天,Arm推出其人工智慧(AI)平臺重要新品,包括全新機器學習IP Cortex-M55處理器,以及Ethos-U55神經網絡處理器。

其中,Ethos-U55是Arm針對Cortex-M系列處理器推出的首款微神經網絡處理器(microNPU),與Cortex-M系列處理器相配合,能進一步提升機器學習性能與能效。

Arm稱,Cortex-M55與Ethos-U55的結合使用,能夠為微控制器帶來480倍的機器學習性能飛躍。

隨著機器學習應用在各個行業中愈發普及,在Arm看來,終端AI市場也將在未來幾年內呈現爆炸性增長,終端智能設備市場將進一步發展。

因此,Arm通過推出全新IP內核與NPU,在擴展自身AI產品組合的同時,也幫助客戶降低晶片開發成本,滿足他們提升終端數位訊號處理(DSP)和機器學習能力的需求。

一、Cortex-M55:擁有自定義指令集和矢量擴展

Arm聲稱,此次推出的Cortex-M55是其有史以來AI功能最強大的Cortex-M處理器,同時也是首款基於Armv8.1-M架構、內建Arm Helium向量處理技術的處理器。

與前幾代Cortex-M系列處理器相比,Cortex-M55的機器學習性能最高可提升15倍,DSP性能可提升5倍,能耗比進一步提高。

除此之外,Cortex-M55還支持自定義指令集(Custom Instructions)。在去年的Arm Techcon技術大會上,Arm首次宣布自定義指令集,並與Cortex-M33一起推出。

實際上,這一功能與RISC-V IP內核提供的功能相類似,目的是在密集執行的內核中,將緊湊的指令序列摺疊為一條指令,節省功耗和吞吐量。

從傳統方式上看,用戶要實現這一功能,可以通過內存映射設備來實現,而Arm現在已經可以通過使用協處理器接口,將操作更緊密地與CPU集成在一起。

這就意味著,用戶能通過Cortex-M55的自定義指令集延伸處理器能力,對特定工作負載進行優化。

除了自定義指令集外,Cortex-M55還有另一大創新點,它在內核中首次構建了Helium向量處理技術。

Helium,也稱為M-Profile Vector Extension(MVE),它能在Arm TrustZone的安全基礎上提高Armv8.1-M架構的計算性能。它還引入新的單指令多數據流(SIMD)128位矢量操作,進一步增強DSP和機器學習應用的性能。

在性能方面,Helium能將Cortex-M55的數位訊號處理器性能提升5倍,機器學習性能提升15倍。

此外,它還依賴現有的寄存器(非NEON矢量寄存器),並引入對通道(lane)預測、循環(loop)預測、分散/聚集(scatter-gather)等複雜操作的支持。

二、Ethos-U55:簡化設計NPU

如果想擁有更高的機器學習系統,用戶可以將Cortex-M55與Ethos-U55搭配使用。

Ethos-U55是Arm的首款微神經處理器,與現有的Cortex-M系列處理器相比,Cortex-M55與Ethos-U55的結合能讓產品的機器學習性能提升480倍。

性能方面,Ethos-U55擁有高度的可配置性,能加速空間受限的嵌入式與物聯網設備的機器學習推理能力。它的壓縮技術可以節省電力並縮小機器學習模型的尺寸,同時還能運行以往只能在較大型系統上執行的神經網絡運算。

實際上,Ethos-U55與其他Ethos-N系列存在一定區別。

首先,Ethos-N是獨立的IP模塊,可以放到SoC CCN-500網絡上,而Ethos-U旨在與配套的Cortex-M處理器緊密協作,並利用其處理能力。

同時,Ethos-U55還可以與較舊的Cortex-M系列處理器一起使用,如Cortex-M7、M4和M33等。

從Ethos-N系列的多層神經網絡(MLP)設計上看,它們是使用多個計算引擎實例構建的,每個實例都包含幾個主要組件,如SRAM、MAC計算引擎(MCE)和可編程層引擎(PLE)。

但對Ethos-U55來說,由於功率和面積限制,它的設計相對簡單,因此Arm將其稱為microNPU。

從概念上講,Ethos-U55隻是一個具有計算引擎的MLP,而從設計上看,Ethos-U55在設計過程中刪除了PLE。

主要原因在於,Ethos-N系列的PLE將Cortex-M CPU和16通道的矢量引擎集成在一起,導致面積和功耗都相當昂貴,但這對高性能SoC來說還處於可接受的範圍。

而Ethos-U55通過與Cortex-M55等CPU相結合,能夠讓用戶擺脫PLE,改為在配套的Cortex-M處理器上進行處理。

雖然這並非一個完整的代替品,但基於嚴格的功率和面積限制考慮,這不失為一個在可接受範圍內的折中方案。

此外,Ethos-U55還刪除了較為昂貴的專用SRAM庫,因為它只需要很小的SRAM就可以進行足夠的內部處理。

Ethos-U55假定外部系統具有某種緩存,可與Cortex-M處理器共享,仍然能完成MLP設計的其他工作。例如,讓直接內存存取(DMA)根據需要獲取NN層,此外NPU還可以處理內存中的壓縮權重和激活工作,在處理之前即時進行解碼。

三、M55與U55結合的最高推理性能可提升50倍

Arm聲稱,與Cortex-M7相比,基於Helium擴展的Cortex-M55,其對典型語音助手類的工作負載推理性能最高可提升6倍,能效可提升7倍。與Ethos-U55結合使用時,這兩項性能可分別提高50倍和25倍。

值得一提的是,這些性能要實現提升,必須重新編譯代碼,以充分利用新的M-Profile向量擴展,以及Ethos MAC引擎的處理能力。

據了解,Cortex-M系列可用於各種晶片和多種工藝技術。

基於此,Arm表示,在55nm或40nm等成熟的節點上,他們希望能看到Ethos-U55的時鐘頻率可達到100 MHz至400MHz,甚至更高。

為了更好地調整NPU到應用程式,用戶可以將MAC計算引擎(Compute Engine)配置為32、64、128或256個MAC。

在32個MAC的最小配置下,用戶可以獲得6.4-25.6 GOPS的峰值計算性能,而在256 MAC的最大配置下可達到51.2-205 GOPS。

在7nm或5nm這類先進位程節點上,Ethos-U55的時鐘頻率可達到1 GHz或更高。在這一階段,128個MAC和256個MAC配置的峰值計算性能,分別為0.25 TOPS和0.5 TOPS。

四、主要合作夥伴已獲授權應用

目前,Arm已經向主要合作夥伴開放了Cortex-M55和Ethos-U55的授權,並將在未來幾個月內進一步開放,基於此IP的晶片預計在 2021年年初上市並實際投入使用。

在應用方面,Cortex-M55能夠廣泛地應用於行動裝置終端。例如,在智慧型手機的語音助理、指紋傳感器和RF系統中,它能進一步實現這些工作負載的優化。

據了解,已經獲得Cortex-M55和Ethos-U55授權的公司有谷歌、恩智浦、意法半導體、賽普拉斯和恆玄科技等。

其中, Google微控制器用TensorFlow Lite部門產品經理Ian Nappier談到,Arm的這一全新IP進一步推進了在終端設備上實現機器學習,並達成數十億個具備TensorFlow功能設備的共同願景。

而這些設備僅依靠電池就能運行神經網絡模型,並長達數年之久,還可直接在終端設備上實現低遲延的推論。

另外, 意法半導體微控制器部門總經理Ricardo De Sa Earp也說到,全新的Arm Cortex-M55能夠為意法半導體的下一代微控制器,帶來所需的機器學習性能與效率提升,從而進一步提升各項AI應用。

結語:為AI終端市場打開創新突破口

作為半導體領域重要的IP架構供應商,長期以來,Arm架構一直佔領著行動裝置領域指令集架構的重要地位。

對Arm自身而言,隨著AI和機器學習等技術的不斷成熟和發展,它也持續研發出新的IP架構、完善各類AI產品組合,以滿足市場越來越多的AI需求,而此次Cortex-M55和Ethos-U55的推出,也進一步為現在的AI終端市場撕開了又一創新方向。

行動裝置領域IP架構的市場競爭仍十分激烈,架構開源、高性價比等需求也愈發鮮明。未來,Arm將如何依靠自身的豐富經驗和優勢,在眾多對手的市場競爭中脫穎而出?我們拭目以待。

相關焦點

  • Arm晶片Cortex-M處理器地位無可爭議
    在營收方面,根據軟銀此前的報告,arm的季度收入為5.05億美元,同比增長3.9%。調整後的EBITDA從2018年同期的1.19億美元增長至2019年的1.25億美元。 全新AI晶片助力嵌入式智能 為了更好地深耕嵌入式市場,Arm在早前推出了全新機器學習(ML)矽智財、Arm Cortex-M55 處理器、Arm Ethos-U55 神經網路處理器(NPU),這是針對Cortex-M 平臺推出的業界第一個微神經網路處理器(microNPU),這樣的設計(Cortex-M55 結合Ethos-U55)為微控制器帶來480 倍-跳躍式的機器學習效能
  • ARM7、ARM9、ARM11、ARM-Cortex系列的關係
    ARMv4架構的ARM7TDMI),Cortex-M比ARM7的架構高了3代,性能也有較大提升,所以新的設計推薦使用Cortex-M,關於從ARM7到Cortex-M的移植詳見ARM官網指導 ARM7處理器系列。
  • Arm晶片上季度出貨64億顆,近七成是Cortex-M處理器
    在營收方面,根據軟銀此前的報告,arm的季度收入為5.05億美元,同比增長3.9%。調整後的EBITDA從2018年同期的1.19億美元增長至2019年的1.25億美元。全新AI晶片助力嵌入式智能為了更好地深耕嵌入式市場,Arm在早前推出了全新機器學習(ML)矽智財、Arm Cortex-M55 處理器、Arm Ethos-U55 神經網路處理器(NPU),這是針對Cortex-M 平臺推出的業界第一個微神經網路處理器(microNPU),這樣的設計(Cortex-M55 結合Ethos-U55)為微控制器帶來480 倍-跳躍式的機器學習效能
  • 蘋果官方詳解 Mac 首款 SoC 晶片 M1 :CPU 速度提升最高 3.5 倍...
    這款低能耗晶片搭載了蘋果最快的中央處理器核心,擁有卓越的中央處理器性能功耗比;配備了我們最快的個人電腦集成顯卡;它的 Apple 神經網絡引擎更帶來了突破性的機器學習性能。得益於此,M1 晶片將中央處理器速度提升至最高 3.5 倍,將圖形處理器速度提升至最高 6 倍,將機器學習的速度提升至最高 15 倍,而且在實現這一切的同時,還將電池續航時間最高提升至上一代 Mac 機型的 2 倍。
  • Arm技術文檔分享|Cortex-M 系列處理器Cortex-M3 DesignStart FPGA...
    ARM Cortex-M 系列是一系列針對成本敏感的應用程式進行優化的深層嵌入式處理器。這些處理器僅支持 Thumb-2 指令集。此系列包含 Cortex-m4、Cortex-M3、Cortex-M1 FPGA 和 Cortex-M0 處理器。ARM Cortex-M4 處理器是一個低能耗處理器,特點是門數低、中斷延遲短且調試成本低。
  • 從Cortex-M到Cortex-A全面認識ARM處理器
    關注+星標公眾號,不錯過精彩內容作者
  • Arm對外宣布人工智慧(AI)平臺新增重要生力軍
    Arm Ethos-U55神經網絡處理器(NPU),後者也是針對Cortex-M平臺推出的業界首款微神經網絡處理器(microNPU)。 Arm介紹,Cortex-M55結合Ethos-U55的設計,將能為微控制器帶來480倍的機器學習性能飛躍,使能數十億個小型、低功耗的物聯網與嵌入式設備的終端機器學習處理能力。 Arm 資深副總裁暨車用與物聯網事業部總經理Dipti Vachani表示:「要讓AI無所不在,設備製造商與開發人員必須在數十億、乃至數萬億個設備上實現終端機器學習能力。
  • 最高性能的Arm Cortex-R處理器驅動計算型存儲的未來
    通信世界網消息(CWW)Arm今日宣布推出Arm Cortex-R82,是Arm第一顆64位、支持Linux作業系統的Cortex-R處理器,該實時處理器可就近在數據存儲的位置進行數據處理,專為加速下一代企業與計算型存儲解決方案的發展與部署所設計。
  • Arm中國「星辰」處理器量產!與Cortex-M有何區別?
    本周,安謀中國發布了首顆面向中國本土的處理器——「星辰」處理器(STAR-MC1)的研發過程、特點以及落地情況。目前,該處理器已正式進入商用階段。安謀中國的首款「星辰」處理器STAR-MC1作為「星辰」系列產品的第一款產品,支持現有的Armv8-M架構的所有特點以及最新的指令擴展。
  • 【乾貨】ARM Cortex-M系列處理器產品特性、調試和性能比較
    ARM Cortex-M處理器家族現在有8款處理器成員。在本文中,我們會比較Cortex-M系列處理器之間的產品特性,重點講述如何根據產品應用選擇正確的Cortex-M處理器。本文中會詳細的對照Cortex-M 系列處理器的指令集和高級中斷處理能力,以及 SoC系統級特性,調試和追蹤功能和性能的比較。
  • ARMv8-M相比ARMv7-M架構優勢在哪裡?
    素材來源:Arm 編輯整理:strongerHuang 我們使用的處理器都有一套架構,比如STM32F0現在的技術一代比一代強,目前最新的ARMv8-M架構相比之前的架構有什麼區別?又有什麼優勢呢?
  • stm32屬於arm嗎_arm和stm32的區別
    stm32屬於arm嗎?ARM設計了大量高性價比、耗能低的RISC處理器、相關技術及軟體。在智能機、平板電腦、嵌入控制、多媒體數字等處理器領域擁有主導地位。   在此ARM指的是ARM處理器。ARM處理器是英國Acorn有限公司設計的低功耗成本的第一款RISC微處理器。全稱為Acorn RISC Machine。
  • 新款高通215處理器採用四個ARM Cortex-A53內核 性能提升了50%
    新款高通215處理器採用四個ARM Cortex-A53內核 性能提升了50% 來源:智東西 • 2019-07-11 09:25
  • ARM Cortex系列(A8/A9/A15/A7) NEON多媒體處理SIMD引擎優化
    使用可伸縮的最高性能,該處理器可超過現今類似的高性能嵌入式設備的性能,並可在拓寬市場的基礎上進行穩定的軟體投資。Cortex-A9多核處理器是首款結合了Cortex應用級架構以及用於可擴展性能的多處理能力的ARM處理器,提供了下列增強的多核技術:  *加速器一致性埠(ACP),用於提高系統性能和降低系統能耗  *先進總線接口單元(Advanced Bus Interface Unit),用於在高帶寬設備中實現低延遲時間
  • 基於ARMcortex A8的三星移動應用處理器S5PC100
    基於ARMcortex A8的三星移動應用處理器S5PC100 在本次IIC-China展會中,友堅恆天科技以三星S5PC100--基於ARMcortex A8的移動應用處理器憑藉高的性價比吸引著參展者的目光。
  • ARM實時處理器Cortex-R8介紹_Cortex-R系列處理器盤點
    >   說起ARM處理器,大家肯定都會想到Cortex-A系列,但這只是人家三大產品線之一的高性能應用處理器,同時還有非常低調的Cortex-M系列微控制器、Cortex-R系列實時處理器。
  • 使用市面上首款基於 Arm® Cortex®-M33 的 MCU –第 1 部分...
    使用市面上首款基於 Arm® Cortex®-M33 的 MCU – 第 1 部分:管理功耗與性能 肖冰 發表於 2019-08-02 11:34:30 明確並滿足不同的需求
  • ARM推最新64位Cortex-A35處理器,卯上「超高能效」!
    大家都比較熟悉的A5、A7、A53,都是ARM推出的非常成功的處理器系列,分別在能耗與功效上極具代表性。  首先來看與Cortex-A7的對比,如下圖所示:  圖中可看出,在同樣的工藝、頻率下,不僅A35的功耗比A7要低,而且在性能上有6%到40%的不同程度提升,浮點運算也提升了36%。  接下來是A53。
  • Cortex-A50:64位ARM處理器來了!
    整整一年前,ARM官方宣布了自己的第一套64位處理器架構「ARMv8」,不過直到今天,我們才見識到了第一款基於此架構的處理器產品,ARM將其命名為「Cortex-A50」系列。Cortex-A50系列首批包含Cortex-A53、Cortex-A57兩款型號,其中前者是ARM性能最高的應用處理器,號稱可在同樣的功耗水平下達到當今頂級智慧型手機性能的三倍;後者是世界上能效最高、面積最小的64位處理器,同等性能下能效是當今高端智慧型手機的三倍。
  • 瑞薩電子推出首款基於ARM Cortex-A處理器的mbed微處理器開發板
    半導體解決方案供應商瑞薩電子株式會社將通過最新發布的ARM mbed IoT平臺幫助工程師和開發人員簡化嵌入式開發工作,助力產品製造和新興應用開發。瑞薩利用RZ/A1微處理器產品開發出全球首個基於ARM Cortex-A9處理器的mbed微處理器開發板,該產品將方便互聯設備設計人員更快地開發出高性能、高功能型嵌入式系統產品。