ARM Cortex-A55: 從端到雲實現高效能

2020-12-20 電子發燒友

ARM Cortex-A55: 從端到雲實現高效能

廠商供稿 發表於 2017-06-26 17:53:32

你是否已經聽說了最近市場上發布了幾款新的 CPU?它們的性能非常強大!當然,我說的就是 ARM Cortex-A75 和 Cortex-A55,即首批基於新近發布的 DynamIQ 技術的 Cortex-A 系列處理器。本文我們討論的就是 Cortex-A55:一款對為未來數字世界舉足輕重的處理器,原因如下。

出生名門,久經考驗

ARM Cortex-A75 和 Cortex-A55 是首批問世的 DynamIQ 處理器。

想要理解 Cortex-A55 的真正潛力,我們來簡要回顧一下其上一代產品:ARM Cortex-A53。採用這款 CPU 的設備已超過 15億臺,該 CPU 依然是當今業界出貨量最高的 64 位 Cortex-A 系列 CPU。Cortex-A53 於 2012 年發布,其獨一無二的設計,集性能、低功耗以及尺寸擴展性於一身,具備一系列多用途特性,因而可應用於諸多市場,其中包括高端智慧型手機、網絡基礎設施、汽車信息娛樂、高級駕駛員輔助系統 (ADAS)、數位電視、入門級行動裝置和消費級設備乃至人造衛星。

然而自 2012 年以來,我們周圍的世界發生了許多變化。我們現在看到的新興趨勢表明,保持互聯、萬物智能的數字世界具有非常大的發展潛力。從完全自主的自動駕駛汽車到各類設備上的智能應用程式,人工智慧 (AI) 和機器學習 (ML) 將真正融入到我們的日常生活中,這一點已成定局。物聯網 (IoT) 應用的盛行意味著「物」的爆炸性增長,越來越多的「物」在持續生成數據、消費數據以及與數據進行交互。增強現實、虛擬實境以及混合現實 (AR、VR 以及 MR) 註定會徹底改變我們人類之間以及人機之間的互動方式,將現實世界與數字世界融於一體。

在過去兩年裡,ARM 的工程師致力於研究 Cortex-A53 的後繼產品,以滿足這類新興技術的需求,我們的目標是打造出一款性能、效能以及擴展性均大幅提升的 CPU,而且這款 CPU 還需要具備諸多先進的特性,從而滿足從端到雲的各種未來應用需求,幸運的是我們做到了。

性能全面提升

Cortex-A55 實現了全面的性能提升

Cortex-A55 採用最新的 ARMv8.2 架構,並在其前代產品的基礎上打造而成。它在性能方面突破了極限,同時依舊保持了與 Cortex-A53 相同的功耗水平。我們盡全力改進 Cortex-A53,並賦予其以下特性:

· 在相同的頻率與工藝條件下,內存性能最高可達 Cortex-A53 的兩倍

· 在相同的頻率與工藝條件下,效能比 Cortex-A53 高 15%

· 擴展性比 Cortex-A53 高十倍以上

這些歸功於我們專注於 Cortex-A53 現有的設計理念並挑戰這些理念。

· 我們對分支預測程序(branch predictor)進行了全面修改,在其算法中融入了神經網絡元素來改進預測。此外還新增了零周期分支預測程序(Zero-cycle branch predictor)以便進一步減少流水線中的泡沫。這樣可以使指令之間的空閒時間越來越短。

· 我們的設計是,使二級高速緩存對每一顆 CPU 而言都是專用緩存,這樣一來與 Cortex-A53 相比,二級高速緩存的存取時間縮短了 50% 以上。我們還將二級高速緩存的工作頻率設計成與 CPU 相同的頻率。通過降低延遲大幅提升 CPU 在各類基準測試工具中的性能。

· 我們推出了三級高速緩存,可供集群內的所有 Cortex-A55 CPU 共享。這讓 DynamIQ 集群能夠得益於 CPU 附近增多的內存容量,從而提升性能、降低系統功率。三級高速緩存是 DynamIQ 共享單元 (DSU) 的一部分,DSU 是 DynamIQ 處理器中的一個新的功能單元。

· 8 位整數矩陣乘法對神經網絡性能的影響超過85%。Cortex-A55 NEON 流水線中增添了新的架構指令,使其能夠在每個周期執行 16 次 8 位整數運算。這些新的指令還使該 CPU 能夠在每個周期執行 8 次 16 位浮點運算、對兩條 MAC 指令進行捨入操作,有利於色彩空間轉換。

相較Cortex-A53,實現效能的大幅提升

在功率和熱效率方面繼續保持領先

對分支預測程序、NEON 和 FP 單元的上述改進以及內存延遲的縮短僅僅是 Cortex-A55 取得大幅性能提升的部分原因。Cortex-A55 不但實現了大幅性能提升,而且保持了與 Cortex-A53 相類似的功耗。總而言之,Cortex-A55 在節能性方面實現了 15% 的提升。相對於性能而言,功率在產品設計中更加重要。在提供同等性能的情況下,Cortex-A55 消耗的功率比 Cortex-A53 低 30% 之多!

Cortex-A55 提供持續性能的時間遠比當今的 Cortex-A53 解決方案更長。這一點對於 AR、VR 以及 MR 等領域的用戶體驗而言至關重要,這些領域預計將會在未來移動市場上佔據主導地位。這些使用場合已經高度線程化,對延遲有嚴格的要求。後者指的是移動時間延遲,根據行業研究,這種延遲需要保持在 20 毫秒或以下,這樣才不會導致噁心和頭暈。雖然當今的 CPU 已經實現了達到 20 毫秒延遲所需的性能水平,但是發熱限制意味著這些 CPU 無法長時間維持這樣的性能水平。有了 Cortex-A55,我們就能給出未來 VR 設備中延長持續性能時間的解決方案。

高級特性和更高的性能可滿足基礎設施市場的需求

行業領先的效率讓 Cortex-A55 在基礎設施市場卓爾不群。乙太網供電 (PoE) 無線接入點以及安裝在後視鏡上的發熱受限的汽車解決方案等應用均可利用熱效率極高的 Cortex-A55 在特定的發熱範圍內提供最高性能。在 5G 遠程無線電頭端 (RRH),Cortex-A55 CPU 還能夠在特定功率範圍內最大限度增加網絡吞吐量。

從端擴展至雲

合適的尺寸和計算性能可滿足各類需求

除了性能與效率以外,Cortex-A55 的物理晶片尺寸以及計算性能也具有極高的擴展性。為此,它包含了多個 RTL 配置選項,從而使可配置容量達到了 Cortex-A53 的十倍。事實上,它擁有 3,000 多種獨特的配置,因而成為了史上最具擴展性的 Cortex-A CPU。

Cortex-A55 延續了 Cortex-A53 的靈活性,具備 NEON、Crypto 以及 ECC (糾錯碼) 等選項,但是也採用了新的實用配置選項。例如,專用二級高速緩存的可配置容量從 64KB 到 256KB 不等,可帶來 10% 的性能提升。專用二級高速緩存能夠很好地提升性能,而且它無疑會成為諸多市場的默認之選,它還被設計成了可選項,以便在物聯網等對尺寸敏感的市場上進一步減小晶片尺寸。

DynamIQ 共享單元 (DSU) 中新特性詳解

DSU 無論在 Cortex-A55 還是在 Cortex-A75 上都很常見。它包含更多的配置選項,可根據用戶自身的應用情況進行定製。例如 CPU 之間共享的三級高速緩存可從 0KB 擴展至最大 4MB。它還通過 AMBA 5 ACE 或 CHI 支持多用途接口選項,從而可用於更廣泛的系統。加速器相干性埠 (ACP) 和低延遲外圍埠 (PP) 也被集成到 DSU 當中,這讓緊密耦合的加速器能夠連接至 Cortex-A55 以便處理通用計算。這些特性加上 Cortex-A55 的機器學習功能,讓更多的計算能夠在更靠近物聯網網關應用「端」的地方執行。

囊括諸多先進特性,可用於各類新興應用

加速各個領域中的人工智慧應用

人工智慧會越來越普及,這已不是什麼新鮮事。引申開來,我們的設備運行機器學習任務也會變得十分普遍。有多種方法可以在晶片上實現機器學習的處理,然而 CPU 在這方面擁有獨特的優勢。CPU 可進行通用計算,因此它可以運行到人工智慧應用的晶片當中。目前機器學習和人工智慧持續換代,固定功能的硬體不但價格昂貴,而且對機器學習而言容易過時。

對 Cortex-A55 NEON 流水線的改進和新增的機器學習指令意味著 Cortex-A55 在矩陣乘法運算方面的機器學習性能比Cortex A53要高出很多。最近發布的 ARM 計算庫(ARM Compute Libraries)是專為 ARM Cortex-A NEON 和 Mali GPU IP 而優化的入門級軟體函數集,它也可以應用於 Cortex-A55 NEON 並進一步提升其機器學習性能!

Cortex-A55 可打造更安全的自主系統

Cortex-A55的可靠性、可用性和可服務性 (RAS) 特性也很高,這些特性使其能夠服務於基礎設施以及汽車等各個領域。對汽車市場而言,Cortex-A55 的安全性現已得到提升。它在每一級高速緩存上均提供可選的 ECC 和奇偶校驗特性,而且還支持「data poisoning」,這種方法可推遲已檢測到的、不可糾正的錯誤,適用於更有彈性的系統。它還是首款在避免系統故障方面採用全新設計流程的 Cortex-A 系列 CPU,因而在搭配 Cortex-R52 的情況下十分適合 ASIL D 應用。

深度嵌入高級電源管理特性

高級電源管理特性可提升節能性

Cortex-A55 具備諸多全新的電源特性,例如硬體控制狀態轉換能夠更快地從 ON 轉換至 OFF。Cortex-A55 還能夠根據當前運行的應用程式自主地關閉三級高速緩存。對於 VR 等需要更多內存的重載型應用程式,三級高速緩存會完全打開。然而對於音樂播放等完全駐留在一級和二級高速緩存中的輕載型應用程式而言,三級高速緩存會被關閉。額外還有兩種功率模式用於重載和輕載之間的應用情形。

現在還可以創建單顆 CPU 或 CPU 群組,其中每一顆 CPU 都處於集群內各自獨立的電壓域中,因此能夠更精細地動態提升電壓和頻率。這有兩大好處:首先,它讓設計師能夠進一步調節系統,從而實現最佳的性能和節能性。其次,這還意味著 DynamIQ 系統能夠更輕鬆地緊密匹配設備多變的發熱限制,因此可以最大限度發揮性能。

big.LITTLE處理的新時代

big.LITTLE 技術自 2011 年問世以來一直是異構處理的代名詞。因此當今市面上每三臺安卓 ARMv8 設備中就有兩臺依賴 big.LITTLE 技術來實現功率和性能優化。DynamIQ big.LITTLE 是 DynamIQ 系統的新一代異構計算技術。

它讓設計師能夠利用 Cortex-A75 「大」 CPU 和 Cortex-A55 「小」 CPU 打造出充分集成的解決方案,大小 CPU 在物理上位於單一 CPU 集群中。所有的軟體線程遷移和由此造成的大小 CPU 之間的高速緩存窺探(cache snoop)現在均發生在該集群內。與 Cortex-A73 相比,Cortex-A75 CPU 可以用於頻率更高的使用場合,同時利用Cortex-A55 依舊保持持續的 DVFS 曲線。這是 big.LITTLE 系統的一項重要設計要求。這些特性合在一起,與上一代 big.LITTLE 技術相比,可大幅提升峰值性能、持續性能以及智能功能。

DynamIQ big.LITTLE 可帶來更豐富的用戶體驗

當今的中端移動和消費級市場普遍採用基於 Cortex-A53 的 4 核和 8 核解決方案。然而,隨著人工智慧和虛擬實境等高級使用場合從高端市場滲透到中端市場,廠商需要以更低的成本提供更高的性能和智能功能。DynamIQ big.LITTLE 通過推出新的異構 CPU 配置來滿足這一需求,例如 1 顆 Cortex-A75 + 3 顆 Cortex-A55 (1大+3小) 和 1 顆 Cortex-A75 + 7 顆 Cortex-A55 (1大+7小) 等等。這些新的配置以類似的晶片尺寸可分別與 4 核和 8 核的 Cortex-A55 設計相比,可以實現 2 倍以上的單線程性能。

現已推出基礎設施和移動片上系統 (SoC) 設計指南

ARM 長期以來一直在範例 SoC 設計驗證我們的智慧財產權方面有著大量投入。由於 ARM 的智慧財產權組合與日俱增,這些範例系統的複雜度和範圍也隨之增長。從 SoC 架構到詳細的產前分析,這項工作涵蓋了方方面面。ARM 將以「系統指南」的形式提供這類知識。

除了全新 CPU 以外,ARM 還提供各種新的系統指南,這些指南涵蓋了移動系統和基礎設施系統:

· 針對移動系統的 CoreLink SGM-775 系統指南專為 Cortex-A75、Cortex-A55 以及 Mali-G72 而設計和優化

· SGM-775 包括文檔、模型和軟體,而且可供 ARM 合作夥伴免費使用

如需詳細了解如何實施移動和基礎設施系統,敬請訪問我們的系統指南頁面。

基於 Cortex-A55 的設備預計什麼時候上市?

Cortex-A55 的最終發布令人激動不已。Cortex-A55 在性能、節能性以及擴展性等方面的長足進步將使其成為 ARM 的下一款出貨量最大的 Cortex-A 系列 CPU。然而,激動人心之處不止於此。這一生態系統內的大量 ARM 合作夥伴現已獲得 Cortex-A55 的相關許可,我已經等不及想要看一看他們在接下來的幾個月裡將會發布哪些新一輪智能計算解決方案。雖然我們無法預測基於 Cortex-A55 的設備會以何種形式展現,但是可以確定的是,從2018年起未來將會無比激動人心!

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • ARM7、ARM9、ARM11、ARM-Cortex系列的關係
    到了ARMv7架構的時候開始以Cortex來命名,並分成Cortex-A、Cortex-R、Cortex-M三個系列。 三大系列分工明確:「A」系列面向尖端的基於虛擬內存的作業系統和用戶應用; 「R」系列針對實時系統; 「M」系列對微控制器。 簡單的說Cortex-A系列是用於移動領域的CPU,Cortex-R和Cortex-M系列是用於實時控制領域的MCU。
  • 從Cortex-M到Cortex-A全面認識ARM處理器
    關注+星標公眾號,不錯過精彩內容作者
  • 更強大,更高效!ARM全新Cortex-A75和Cortex-A55架構淺析
    Cortex-A75每周期最多實現3條指令解碼,發射能力從之前Cortex-A73的4uops/周期提升到6uops/周期,提升幅度為50%。在整數方面,Cortex-A75的每個發布隊列可以提供2uops,ALU和AGU採用了獨佔性設計來提高效率。這樣可以使用Cortex-A75在指令執行的推測性上更有優勢。峰值性能方面,Cortex-A75的每個管線可以提升至8uops,顯著超出前代產品。
  • Arm技術文檔分享|Cortex-M 系列處理器Cortex-M3 DesignStart FPGA...
    ARM Cortex-M1 FPGA 處理器專用於要求使用集成到 FPGA 中的小型處理器的深層嵌入式應用程式。ARM Cortex-M0 處理器是一個門數非常低、能效非常高的處理器,專用於微控制器和要求使用面積優化處理器的深層嵌入式應用程式。
  • ARM Cortex系列(A8/A9/A15/A7) NEON多媒體處理SIMD引擎優化
    NEON的並行優化方法ARM編譯器優化方法NEON並行化和向量化的編譯選項:ARM RVDS 3.0以上版本或者DS-5使用編譯選項armcc --vectorize或者Codesourcery 2007q3之後的gcc版本使用如下編譯選項使能vfp:-mcpu=cortex-a8 -mtune=cortex-a8 -O3 -mfloat-abi
  • stm32屬於arm嗎_arm和stm32的區別
    stm32屬於arm嗎?ARM處理器本身是32位設計,但也配備16位指令集,一般來講比等價32位代碼節省達35%,卻能保留32位系統的所有優勢。ARM處理器的三大特點是:耗電少功能強、16位/32位雙指令集和合作夥伴眾多。
  • 斯坦福開源Weld:高效實現數據分析的端到端優化
    我們在 VLDB 2018 論文中提出了 Weld 的自適應優化器,並得出了一些可喜的結果:通過在 Weld IR 上自動應用轉換可以實現工作負載數量級的加速。消融研究表明,循環融合等優化具有非常大的影響。本文主要介紹如何使用 Weld 的自適應優化器進行數據分析的端到端優化。
  • 充滿挑戰與變數的時代,如何從雲到端推進智慧教育創新?
    在技術改變教育的當下,英特爾充分利用雲到端的硬體、軟體優化、系統開發、開發工具、解決方案、行業領導力等優勢,將信息技術深度融入教學與管理的每一個環節,充分發揮信息技術對教育的賦能作用,打造智慧教育環境與資源治理平臺,推動素質教育實踐和混合學習模式,促使教育的高效、公平和個性化發展,讓信息化真正為教育服務。
  • 關於在ARM MDK 中使用STM32F4xx 硬體浮點單元
    這樣編譯時就加入了啟動FPU 的代碼,CPU 也就能正確高效的使用FPU 進行簡單的加減乘除了。3. 進一步說明使用晶片複雜數學運算使用對於複雜運算,比如三角函數,開方等運算,需要如下設置:a. 包含arm_math.h頭文件。b.
  • 關於ARM MDK使用STM32F4xx 硬體浮點單元的話題
    這樣編譯時就加入了啟動FPU 的代碼,CPU 也就能正確高效的使用FPU 進行簡單的加減 乘除了。3. 進一步說明使用晶片複雜數學運算使用對於複雜運算,比如三角函數,開方等運算,需要如下設置: a. 包含arm_math.h頭文件。 b.
  • 在Cortex-A8平臺下memcpy ARM/NEON彙編性能的測試
    QualComm / Samsung硬體平臺只提供Android軟體系統,要更換到GPE系統有些麻煩,則採用chroot方式進行測試。不論是哪種軟體平臺,都是進入到圖形系統後,靜置,等待黑屏,然後再進行測試。下表是運行環境的統計。
  • 百度雲智峰會發布ARM私有雲,加速企業在移動端上的數位化轉型
    2020年12月17日百雲智峰會在北京中國大飯店舉行,探討在產業智能化大潮正席捲而來時,企業如何才能緊跟時代步伐,快速與雲計算、人工智慧等新技術融合,從而實現競爭力重塑。爾後隨之成立了雲手機、雲遊戲、雲應用等項目組,敏銳地洞察到了ARM虛擬化這個具有百億美金規模的市場變化,並積極與運營商在雲遊戲上建立合作,除助力5G發展外,開拓了多個行業中的客戶,逐步構建了百度在5G+AIoT趨勢下的ARM雲生態。
  • 遊戲在雲、交互在端 瓏微系統讓遊戲上雲更簡單
    作為新一代雲計算、超算全棧整體系統廠商,瓏微系統可提供一站式雲計算、超算、雲遊戲軟硬全棧整體解決方案,本期,E企研究院重點解讀瓏微系統C.Game雲遊戲整體解決方案,從體驗來說,這套系統可實現遊戲在雲、交互在端,3A主機遊戲無需安裝,在電視、手機、筆記本上想玩就玩,同時支持手遊在安卓、iOS下互聯並能在MacOS或者Linux系統下暢玩Windows遊戲,具有超低延時、超低帶寬、超高品質
  • ARM Cortex系列處理器知識點匯總
    如圖所示,綠色的部分都是v7-A的架構,藍色的是v8-A架構,基本上綠色都是可以支持到32和64位的,除了A32,只支持到32位。在右邊的每個部分,比如說需要高效能的最上面的A15-A73這個部分是最高效的,接下來就是比較注重整個效率的部分了,中間那個部分是比較高效率的,最下面那欄的是效率最好的,在電池的效能方面達到了最好的標準。
  • CVPR 2019 | PointConv:在點雲上高效實現卷積操作
    3D 點雲是一種不規則且無序的數據類型,傳統的卷積神經網絡難以處理點雲數據。來自俄勒岡州立大學機器人技術與智能系統(CoRIS)研究所的研究者提出了 PointConv,可以高效的對非均勻採樣的 3D 點雲數據進行卷積操作,該方法在多個數據集上實現了優秀的性能。
  • 雲從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor
    隨著深度學習的發展,在 OCR 的文本檢測領域中,也湧現出一系列端到端的深度學習檢測框架,OCR 所能處理的對象逐步從高質量的文檔圖像擴展到成像質量高低不等、背景複雜、字體多樣、文本方向任意的自然場景中。應用範圍也從文檔識別擴展到圖片廣告過濾、場景理解、商品識別、街景定位、票據識別等廣泛的領域。下圖是幾個自然場景文本檢測的例子。
  • 永中雲轉換助力教育行業文檔在線預覽更高效
    從傳統的黑板教學,到如今的智慧課堂,教育行業衍生出了更多新興模式的同時,行業從業者也在尋求與之高效適配的方法。PS:更多詳情請至「永中雲轉換「官網了解。如果相關人員每次查看都需要下載,低效的同時容易造成桌面文檔雜亂堆積,而直接打開預覽不僅能快速確定大致的課件內容,還能在備課交流、文案討論、作業檢查等場景下更高效輕鬆地處理文檔。同時與本地幾近一致的預覽效果,也能讓查閱者更放心,體驗使用更舒適。·多端支持,快速轉換永中雲轉換支持移動閱讀,針對行動裝置特別優化,支持不同屏幕如移動端內容自適應,不會對預覽效果造成影響。
  • 基於ARMcortex A8的三星移動應用處理器S5PC100
    基於ARMcortex A8的三星移動應用處理器S5PC100 在本次IIC-China展會中,友堅恆天科技以三星S5PC100--基於ARMcortex A8的移動應用處理器憑藉高的性價比吸引著參展者的目光。
  • ARM發中端Cortex-A17晶片超Cortex-A9
    ARM宣布了中端產品更新的時候,讀者以為這貨會是Cortex-A12的64位繼任者。假如不出意外,它的名字很有可能為Cortex-A55。只不過,遺憾的是,最終見到的只是名為Cortex-A17的Cortex-A12繼任者。 ARM表示,Cortex-A17要比舊款Cortex-A9快上60%。不過得益於新的總線接口,A17還支持完整的多核SoC的操作一致性。