Imagination推出性能達600 TOPS終極AI加速器IMG Series4

2020-12-06 硬派科技

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

來源：雷鋒網 • 2020-11-16 10:31:59

曾經統治手機 GPU IP 市場的 Imagination，歷經變動之後，目前在移動 GPU IP 市場佔有率有 36%，汽車 GPU IP 市佔率 43%。近來，Imagination 近期發布的一系列新品不僅是其實力的展現，也足以讓同行們增加對這位老對手的關注。

11 月 13 日，Imagination 發布了耗時兩年研發的最新的第三代神經網絡加速器(NNA)產品 IMG Series4，其全新的多核架構可提供 600 TOPS(每秒萬億次操作)甚至更高的超高性能，主要面向先進駕駛輔助系統(ADAS)和自動駕駛應用。

以低功耗產品見長 Imagination 推出高性能的終極 AI 加速器，會給在自動駕駛汽車晶片市場佔有領導地位的 Nvidia 多大的衝擊?

耗時兩年打造的終極 AI 加速器

Imagination 在 AI 火熱的 2017 年推出首代神經網絡加速器(NNA)PowerVR 2NX，單核性能從 1TOPS 到 4.1TOPS。緊接著，2018 年 PowerVR 3NX 發布，單核性能從 0.6TOPS 到 10TOPS，多核產品性能從 20TOPS 到 160TOPS。

性能增強的同時，Imagination 的 NNA 主要面向的市場也從 2NX 時的行動裝置和汽車市場，進一步拓展到智能相機監控、消費電子(尤其是數位電視)、低功耗 IoT 智能設備領域。

時隔兩年之後，Imagination 才推出第三代 NNA 產品 4NX。4NX 系列的單核性能進一步提升，每個單核能以不到 1 瓦的功耗提供 12.5TOPS 的性能。相比前兩代 NNA，新一代產品強調的是全新多核架構，這個新的多核架構支持在多個內核之間對工作負載進行靈活的分配和同步，從而實現更高性能。

Imagination Technologies 產品管理部門總監 Gilberto Rodriguez 介紹，「我們的軟體提供了精細的控制能力，並通過對多個工作負載進行批處理、拆分和調度而提高了靈活性，可以在任意數量的內核上使用。Series4 可為每個集群配置 2 個、4 個、6 個或者 8 個內核。1 個 8 內核的集群可以提供 100TOPS 的算力，配有 6 個 8 核集群的解決方案就可以提供 600 TOPS 的算力。」

據悉，在 AI 推理方面，Series4 NNA 的性能比嵌入式 GPU 快 20 倍以上，比嵌入式 CPU 快 1000 倍。

至於為什麼要推出如此高性能的 AI 加速器，Gilberto Rodriguez 表示，「ADAS 和自動駕駛對晶片有很高的算力需求，比如 L2 + 的駕駛員檢測或語音 / 手勢控制需要 10TOPS 的性能，L3-L4 級別的自動駕駛有 50-100TOPS 的性能需求，L5 級別的自動駕駛性能需求超過 500TOPS。」

「雖然市場上已經有滿足自動駕駛需求的 AI 晶片，但功耗不夠理想。所以，我們花兩年時間去了解和評估客戶需求，基於我們的前兩代低功耗的產品，推出了高性能低功耗的 4NX 系列產品，並且將自動駕駛作為主打市場，也可以應用於數據中心和桌面級 GPU。」 Imagination Technologies 視覺和人工智慧部門高級總監 Andrew Grant 表示。

600TOPS 的高性能如何兼顧低功耗?

需要指出的是，4NX 系列的 8 內核集群要實現 100TOPS 的性能，超過 30 TOPS/Watt 的性能功耗比，以及超過 12 TOPS/mm^2 的性能密度是要在 5nm 節點實現。Gilberto Rodriguez 也提到，如果要用多個集群實現更高算力，Imagination 可以提供多集群的協同機制，但也需要客戶在應用層進行一些設計。

多核靈活架構帶來的可擴展性讓 4NX 可以實現高性能，但對於高性能晶片而言，功耗的控制也非常關鍵，特別是 AI 晶片。AI 晶片需要處理大量的數據，並且數據的搬運耗費的功耗遠大於數據處理，因此，高性能 AI 晶片必須想辦法儘量減少數據的搬運，同時降低延遲和節省帶寬。

對於延遲的降低，Imagination 採用的方法是單核組成 2 核、4 核、6 核或 8 核的多核集群中，所有內核可以相互協作，並行處理一個任務，降低處理延遲，縮短響應時間。當然，集群中和多核既可以共同執行一個批處理任務，也可以分別運行各自不同的網絡，也就是各個內核能夠獨立運行。

4NX 更大的亮點在於其節省帶寬的 Tensor Tiling( Imagination’s Tensor Tiling，ITT)技術，這是 Imagination 正在申請專利的技術，也是 4 系列中新增的功能。Tensor Tiling 技術利用本地數據的依賴性將中間數據保存在片上存儲器中，最大限度地減少將數據傳輸至外部存儲器，相比上代產品，將帶寬降低多達 90%。

具體而言，神經網絡的多層以融合內核的形式運行在加速器的硬體流水線裡，融合內核之間的特徵圖(Feature Map)需要通過外部存儲進行交換。Tiling 技術是充分利用緊耦合的 SRAM 來融合更多的層，更多的層被融合之後，就減少了需要通過外部存儲交換的特徵圖，進而達到提升效率，節省帶寬的目的。

還需要說明一下 Tensor Tiling 技術中的批處理和拆分，批處理是分配適合批處理的大量的小型網絡任務到每個獨立工作的 NNA 單核，能夠提升並行處理能力。拆分則是任務在多個維度被拆分，所有 NNA 單核共同執行一個推理任務，減少網絡推理延遲的同時，在理想情況下協同並行處理的吞吐量與獨立並發處理的相同，非常適合網絡層很大的網絡。

當然，Tensor Tiling 的拆分是通過 Imagination 提供的編譯器來完成，不需要開發者手動完成，並且利用 NNA 的性能分析工具能夠對 AI 任務進行更好地調度和分配。

那 Tensor Tiling 在節省帶寬的同時能否減少數據的搬移?Gilberto Rodriguez 對雷鋒網 (公眾號：雷鋒網)表示，「答案是肯定的。一方面，Tensor Tiling 讓待處理數據通過內存帶寬的傳輸減少，另一方面，重複利用的神經網絡權重給處理器核的傳輸次數也減少，這讓就可以有效減少數據搬運。」

硬體上層的工具鏈方面，Imagination 的離線和在線工具組成的工作流程可以讓開發者更快實現部署。

Nvidia 在自動駕駛領域將迎來新對手?

Nvidia 在 2015 年就推出了車載計算平臺，此後持續迭代，目前在自動駕駛晶片市場已經處於優勢地位。不過，擅長桌面級 GPU 的 Nvidia 能夠提供高性能，但功耗可能對於電池供電的電動汽車不夠友好。這也是在對功耗要求比較嚴格的移動端有優勢的 Imagination 的機會所在。

與 Nvidia 有所不同，Imagination 是 IP 提供商，並不會直接提供晶片。因此，Imagination 可以與領先的汽車行業顛覆者、一級供應商、整車廠(OEM)和汽車系統級晶片(SoC)廠商合作，推出有競爭力的產品。為了幫助合作夥伴更好進入這一市場更快推出車規級產品，此次推出的 NX4 還包含 IP 級別的安全功能且設計流程符合 ISO 26262 標準。ISO 26262 是旨在解決汽車電子產品風險的行業安全標準。

新推出的 4 系列 NNA 可以在不影響性能的情況下，安全地進行神經網絡推理。硬體安全機制可以保護編譯後的網絡、網絡的執行和數據處理管道。

Andrew Grant 透露，已經開始提供授權，並將於 2020 年 12 月在市場上全面供應。授權的客戶目前已經不止一家。

這就意味著，自動駕駛晶片市場將會迎來更多有競爭力的產品。雷鋒網認為，Imagination 更強的 GPU 和 NNA 產品組合將會幫助更多想要進入這一市場的公司推出更有競爭力的產品。上個月，Imagination 發布了最新一代的 IMG B 系列高性能 GPU IP，這款多核架構 GPU IP 4 個系列內核有 33 種配置。

更通用的 GPU 和更專用的 AI 加速器，顯然可以給高性能計算帶來更多的選擇。有意思的是，Nvidia 目前也擁有性能強勁的 GPU 和 AI 加速 Tensor Core 的組合。

ABI Research 預計，到 2027 年左右，對 ADAS 的需求將增長兩倍，但汽車行業已然將目光投向了更遠的全自動駕駛汽車和自動駕駛計程車，從 L2 和 L3 級 ADAS 向 L4 和 L5 級全自動駕駛演進的過程中，高性能、低延遲和高能效的結合將是關鍵所在。

巨大的市場機會之下，兩家晶片產品優勢類似的公司，會如何競爭?

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

相關焦點

600TOPS超高算力,2～8核靈活配置!Imagination新發布神經網絡加速...

《糖豆人:終極淘汰賽》加速器哪個好用推薦

Imagination推出B系列GPU IP,力挺本土晶片的圖形渲染和AI創新

Imagination 的神經網絡加速器在邊緣計算領域的應用

全球同步加速器展開終極大決戰—新聞—科學網

全球同步加速器終極大決戰:開發X射線雷射器

華人研究團隊推出AI「諷刺」檢測模型，準確率達86%

華人研究團隊推出AI「諷刺」檢測模型,準確率達86%

微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI

Capturing the imagination

谷歌推出新加速器支持AI與機器學習創業公司發展

對話王蘭:AI 加速器的使命,讓生態「嫁接」在騰訊 AI 能力之上

對於上班族,蘋果手錶該買series3還是series5呢?

Apple 蘋果 Watch Series 5 智能手錶 GPS版 44mm 粉砂色

全球在用粒子加速器達三萬臺

Nature:世界最快光子AI加速器

Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計

村田推出全新MEMS慣性傳感器SCHA600系列,提高自動駕駛汽車性能

「Movidius發布最新一代VPU」集成DNN加速器,每秒超過1萬億次運算

INCONEL 600材料性能Inconel600材質說明

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

相關焦點

600TOPS超高算力,2～8核靈活配置!Imagination新發布神經網絡加速...

《糖豆人:終極淘汰賽》加速器哪個好用推薦

Imagination推出B系列GPU IP,力挺本土晶片的圖形渲染和AI創新

Imagination 的神經網絡加速器在邊緣計算領域的應用

全球同步加速器展開終極大決戰—新聞—科學網

全球同步加速器終極大決戰:開發X射線雷射器

華人研究團隊推出AI「諷刺」檢測模型，準確率達86%

華人研究團隊推出AI「諷刺」檢測模型,準確率達86%

微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI

Capturing the imagination

谷歌推出新加速器 支持AI與機器學習創業公司發展

對話王蘭:AI 加速器的使命,讓生態「嫁接」在騰訊 AI 能力之上

對於上班族,蘋果手錶該買series3還是series5呢?

Apple 蘋果 Watch Series 5 智能手錶 GPS版 44mm 粉砂色

全球在用粒子加速器達三萬臺

Nature:世界最快光子AI加速器

Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計

村田推出全新MEMS慣性傳感器SCHA600系列,提高自動駕駛汽車性能

「Movidius發布最新一代VPU」集成DNN加速器,每秒超過1萬億次運算

INCONEL 600材料性能Inconel600材質說明

谷歌推出新加速器支持AI與機器學習創業公司發展