Imagination推出性能達600 TOPS終極AI加速器IMG Series4

2020-12-06 硬派科技

Imagination推出性能達600 TOPS終極AI加速器IMG Series4

來源:雷鋒網 2020-11-16 10:31:59

曾經統治手機 GPU IP 市場的 Imagination,歷經變動之後,目前在移動 GPU IP 市場佔有率有 36%,汽車 GPU IP 市佔率 43%。近來,Imagination 近期發布的一系列新品不僅是其實力的展現,也足以讓同行們增加對這位老對手的關注。

11 月 13 日,Imagination 發布了耗時兩年研發的最新的第三代神經網絡加速器(NNA)產品 IMG Series4,其全新的多核架構可提供 600 TOPS(每秒萬億次操作)甚至更高的超高性能,主要面向先進駕駛輔助系統(ADAS)和自動駕駛應用。

以低功耗產品見長 Imagination 推出高性能的終極 AI 加速器,會給在自動駕駛汽車晶片市場佔有領導地位的 Nvidia 多大的衝擊?

耗時兩年打造的終極 AI 加速器

Imagination 在 AI 火熱的 2017 年推出首代神經網絡加速器(NNA)PowerVR 2NX,單核性能從 1TOPS 到 4.1TOPS。緊接著,2018 年 PowerVR 3NX 發布,單核性能從 0.6TOPS 到 10TOPS,多核產品性能從 20TOPS 到 160TOPS。

性能增強的同時,Imagination 的 NNA 主要面向的市場也從 2NX 時的行動裝置和汽車市場,進一步拓展到智能相機監控、消費電子(尤其是數位電視)、低功耗 IoT 智能設備領域。

時隔兩年之後,Imagination 才推出第三代 NNA 產品 4NX。4NX 系列的單核性能進一步提升,每個單核能以不到 1 瓦的功耗提供 12.5TOPS 的性能。相比前兩代 NNA,新一代產品強調的是全新多核架構,這個新的多核架構支持在多個內核之間對工作負載進行靈活的分配和同步,從而實現更高性能。

Imagination Technologies 產品管理部門總監 Gilberto Rodriguez 介紹,「我們的軟體提供了精細的控制能力,並通過對多個工作負載進行批處理、拆分和調度而提高了靈活性,可以在任意數量的內核上使用。Series4 可為每個集群配置 2 個、4 個、6 個或者 8 個內核。1 個 8 內核的集群可以提供 100TOPS 的算力,配有 6 個 8 核集群的解決方案就可以提供 600 TOPS 的算力。」

據悉,在 AI 推理方面,Series4 NNA 的性能比嵌入式 GPU 快 20 倍以上,比嵌入式 CPU 快 1000 倍。

至於為什麼要推出如此高性能的 AI 加速器,Gilberto Rodriguez 表示,「ADAS 和自動駕駛對晶片有很高的算力需求,比如 L2 + 的駕駛員檢測或語音 / 手勢控制需要 10TOPS 的性能,L3-L4 級別的自動駕駛有 50-100TOPS 的性能需求,L5 級別的自動駕駛性能需求超過 500TOPS。」

「雖然市場上已經有滿足自動駕駛需求的 AI 晶片,但功耗不夠理想。所以,我們花兩年時間去了解和評估客戶需求,基於我們的前兩代低功耗的產品,推出了高性能低功耗的 4NX 系列產品,並且將自動駕駛作為主打市場,也可以應用於數據中心和桌面級 GPU。」 Imagination Technologies 視覺和人工智慧部門高級總監 Andrew Grant 表示。

600TOPS 的高性能如何兼顧低功耗?

需要指出的是,4NX 系列的 8 內核集群要實現 100TOPS 的性能,超過 30 TOPS/Watt 的性能功耗比,以及超過 12 TOPS/mm^2 的性能密度是要在 5nm 節點實現。Gilberto Rodriguez 也提到,如果要用多個集群實現更高算力,Imagination 可以提供多集群的協同機制,但也需要客戶在應用層進行一些設計。

多核靈活架構帶來的可擴展性讓 4NX 可以實現高性能,但對於高性能晶片而言,功耗的控制也非常關鍵,特別是 AI 晶片。AI 晶片需要處理大量的數據,並且數據的搬運耗費的功耗遠大於數據處理,因此,高性能 AI 晶片必須想辦法儘量減少數據的搬運,同時降低延遲和節省帶寬。

對於延遲的降低,Imagination 採用的方法是單核組成 2 核、4 核、6 核或 8 核的多核集群中,所有內核可以相互協作,並行處理一個任務,降低處理延遲,縮短響應時間。當然,集群中和多核既可以共同執行一個批處理任務,也可以分別運行各自不同的網絡,也就是各個內核能夠獨立運行。

4NX 更大的亮點在於其節省帶寬的 Tensor Tiling( Imagination’s Tensor Tiling,ITT)技術,這是 Imagination 正在申請專利的技術,也是 4 系列中新增的功能。Tensor Tiling 技術利用本地數據的依賴性將中間數據保存在片上存儲器中,最大限度地減少將數據傳輸至外部存儲器,相比上代產品,將帶寬降低多達 90%。

具體而言,神經網絡的多層以融合內核的形式運行在加速器的硬體流水線裡,融合內核之間的特徵圖(Feature Map)需要通過外部存儲進行交換。Tiling 技術是充分利用緊耦合的 SRAM 來融合更多的層,更多的層被融合之後,就減少了需要通過外部存儲交換的特徵圖,進而達到提升效率,節省帶寬的目的。

還需要說明一下 Tensor Tiling 技術中的批處理和拆分,批處理是分配適合批處理的大量的小型網絡任務到每個獨立工作的 NNA 單核,能夠提升並行處理能力。拆分則是任務在多個維度被拆分,所有 NNA 單核共同執行一個推理任務,減少網絡推理延遲的同時,在理想情況下協同並行處理的吞吐量與獨立並發處理的相同,非常適合網絡層很大的網絡。

當然,Tensor Tiling 的拆分是通過 Imagination 提供的編譯器來完成,不需要開發者手動完成,並且利用 NNA 的性能分析工具能夠對 AI 任務進行更好地調度和分配。

那 Tensor Tiling 在節省帶寬的同時能否減少數據的搬移?Gilberto Rodriguez 對雷鋒網 (公眾號:雷鋒網)表示,「答案是肯定的。一方面,Tensor Tiling 讓待處理數據通過內存帶寬的傳輸減少,另一方面,重複利用的神經網絡權重給處理器核的傳輸次數也減少,這讓就可以有效減少數據搬運。」

硬體上層的工具鏈方面,Imagination 的離線和在線工具組成的工作流程可以讓開發者更快實現部署。

Nvidia 在自動駕駛領域將迎來新對手?

Nvidia 在 2015 年就推出了車載計算平臺,此後持續迭代,目前在自動駕駛晶片市場已經處於優勢地位。不過,擅長桌面級 GPU 的 Nvidia 能夠提供高性能,但功耗可能對於電池供電的電動汽車不夠友好。這也是在對功耗要求比較嚴格的移動端有優勢的 Imagination 的機會所在。

與 Nvidia 有所不同,Imagination 是 IP 提供商,並不會直接提供晶片。因此,Imagination 可以與領先的汽車行業顛覆者、一級供應商、整車廠(OEM)和汽車系統級晶片(SoC)廠商合作,推出有競爭力的產品。為了幫助合作夥伴更好進入這一市場更快推出車規級產品,此次推出的 NX4 還包含 IP 級別的安全功能且設計流程符合 ISO 26262 標準。ISO 26262 是旨在解決汽車電子產品風險的行業安全標準。

新推出的 4 系列 NNA 可以在不影響性能的情況下,安全地進行神經網絡推理。硬體安全機制可以保護編譯後的網絡、網絡的執行和數據處理管道。

Andrew Grant 透露,已經開始提供授權,並將於 2020 年 12 月在市場上全面供應。授權的客戶目前已經不止一家。

這就意味著,自動駕駛晶片市場將會迎來更多有競爭力的產品。雷鋒網認為,Imagination 更強的 GPU 和 NNA 產品組合將會幫助更多想要進入這一市場的公司推出更有競爭力的產品。上個月,Imagination 發布了最新一代的 IMG B 系列高性能 GPU IP,這款多核架構 GPU IP 4 個系列內核有 33 種配置。

更通用的 GPU 和更專用的 AI 加速器,顯然可以給高性能計算帶來更多的選擇。有意思的是,Nvidia 目前也擁有性能強勁的 GPU 和 AI 加速 Tensor Core 的組合。

ABI Research 預計,到 2027 年左右,對 ADAS 的需求將增長兩倍,但汽車行業已然將目光投向了更遠的全自動駕駛汽車和自動駕駛計程車,從 L2 和 L3 級 ADAS 向 L4 和 L5 級全自動駕駛演進的過程中,高性能、低延遲和高能效的結合將是關鍵所在。

巨大的市場機會之下,兩家晶片產品優勢類似的公司,會如何競爭?

相關焦點

  • 600TOPS超高算力,2~8核靈活配置!Imagination新發布神經網絡加速...
    第二代、第三代神經網絡加速器IP核Series2NX和Series3NX,分別於2017年和2018年推出,兩款產品的發布時間相隔一年。相比之下,最新推出的Series4 IP核與前代產品的推出相隔兩年。Andrew Grant向我們透露,2018年以來,Imagination研發團隊從軟硬體兩方面出發,對Series4 IP進行了細緻的產品設計。
  • 《糖豆人:終極淘汰賽》加速器哪個好用推薦
    《糖豆人:終極淘汰賽》2020年8月4日Steam平臺解鎖後獲得大量用戶好評,基礎版售價58元,捆綁包售價90元,遊戲同時在線人數一度飆升至第七,直播平臺的流量更是爆表,很多萌新都想要入坑遊戲,實際上,這款遊戲和《人類一敗塗地》類似,需要加速器優化網絡,大家一定想知道現目前什麼加速器支持加速?哪個效果更好?
  • Imagination推出B系列GPU IP,力挺本土晶片的圖形渲染和AI創新
    B系列革命性地採用了多核技術,它們支持更高性能,同時晶片面積比前代產品更小。藉助其原生的可擴展性,B系列是諸多應用市場的終極解決方案,包括Imagination傳統的市場——行動裝置、汽車、數位電視等,以及新的桌面PC、數據中心等。本文引用地址:http://www.eepw.com.cn/article/202010/419732.htm多核是否會成為GPU的未來趨勢?
  • Imagination 的神經網絡加速器在邊緣計算領域的應用
    ,則可以實現靈活性和性能的雙豐收。 他指出一般運算其實都是做性能、面積和功耗的均衡,比如要提升新能就要犧牲面積和功耗以及成本,而把GPU和NNA神經網絡加速器結合據可以做很好的均衡,這是因為,NNA的加速性能非常出色。
  • 全球同步加速器展開終極大決戰—新聞—科學網
  • 全球同步加速器終極大決戰:開發X射線雷射器
    ——每天,在世界各地的數十個同步加速器中,電子被束縛在儲存環周圍,以促使其發射X射線,用於材料成像、識別化學反應產品和確定晶體結構等。  但是,光子科學家不想僅停留在老式的儲存環階段。10多年來,他們一直夢想「終極的」儲存環—使用專門的磁鐵來產生X射線。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    最近,中國北京的信息工程研究所和中國科學院聯合推出的一款AI模型,『諷刺』識別準確率高達86%。而且,這項研究成果還登上了計算機語言協會(ACL)。對此,Facebook首席技術官Mike Schroepfer還曾表示,我沒有天真的以為AI可以解決每天個問題,但我認為它確實能幫助我們完成一些常見任務,以及一些人類無法勝任的、規模達十億的、繁重的任務。在這個例子中,AI的難點就在於如何提高情感分析能力,精準識別出含虛假政治言論的帖子。
  • 華人研究團隊推出AI「諷刺」檢測模型,準確率達86%
    最近,中國北京的信息工程研究所和中國科學院聯合推出的一款AI模型,『諷刺』識別準確率高達86%。而且,這項研究成果還登上了計算機語言協會(ACL)。對此,Facebook首席技術官Mike Schroepfer還曾表示,我沒有天真的以為AI可以解決每天個問題,但我認為它確實能幫助我們完成一些常見任務,以及一些人類無法勝任的、規模達十億的、繁重的任務。在這個例子中,AI的難點就在於如何提高情感分析能力,精準識別出含虛假政治言論的帖子。
  • 微軟推出機器學習系統Brainwave,超低延遲、堪稱實時AI
    【AI星球(微信ID:ai_xingqiu)】8月23日報導(編譯:福爾摩望)微軟今天推出了一款可以支持高速、低延遲機器學習模型的系統,也預示著微軟開始在專用AI硬體領域嶄露頭角。
  • Capturing the imagination
    can write lyrics that capture one’s imagination.To capture the imagination of people is to catch their attention and hopefully for long. Imagination, you see, is one’s ability to dream, fantasize and wonder.
  • 谷歌推出新加速器 支持AI與機器學習創業公司發展
    新浪科技訊 北京時間7月27日早間消息,月初時,谷歌成立一個專注於AI的風險投資基金,今天谷歌又有新舉動,它推出一個新項目,目標是扶持機器學習創業公司成長,向它們提供指導和支持。
  • 對話王蘭:AI 加速器的使命,讓生態「嫁接」在騰訊 AI 能力之上
    據雷鋒網了解,騰訊 AI 加速器是由騰訊開放平臺聯合騰訊雲、優圖實驗室等推出的為AI創業者和創業項目提供集AI技術、創投、導師、渠道、市場等五大層面的 AI 創業扶持計劃。在 4 個月的加速期裡,王蘭表示,進入加速器的公司總估值從 70 億上漲到了 160 億元,其中 15 家團隊拿到了新一輪融資達 16 億元,騰訊還將幫助它們提升底層的 AI
  • 對於上班族,蘋果手錶該買series3還是series5呢?
    如果預算很有限,就買series 3,GPS版本官網在售僅¥1499,還24期免息! 如果預算稍微充足,但又希望有點性價比,就買series 4。 原因如下: 5代更新後,Apple下架了series 4,調低了series 3的售價。
  • Apple 蘋果 Watch Series 5 智能手錶 GPS版 44mm 粉砂色
    直達連結 > <p>Apple 蘋果 Apple Watch Series 5 外觀依舊延續了4代的設計,推出了更多錶帶搭配與鈦合金和陶瓷兩種可選的表殼材質。
  • 全球在用粒子加速器達三萬臺
    據5月15日在丹麥哥本哈根舉行的國際粒子加速器2017年大會(IPAC『17)的消息,全球正在運營的各類粒子加速器達3萬餘臺。   粒子加速器是人類認識微觀世界的重要工具,也是當前大型科研基礎設施的一個重要部分。圍繞粒子加速器開發建設而成立的國際粒子加速器會議(IPAC),每年都會邀請全球粒子加速器機構代表和相關領域研發人員開展交流。    本次大會由位於瑞典的歐洲散裂中子源(ESS)承辦,有來自40多個國家的近1500名代表參加。
  • Nature:世界最快光子AI加速器
    原創 長光所Light中心 中國光學 收錄於話題#集成光學10個撰稿 | 徐興元(莫納什大學 研究員)說明 | 本文來自文章作者(一作)投稿人工神經網絡廣泛應用於人臉識別、語音翻譯、醫療診斷、自動駕駛等重要領域,其性能主要由硬體算力決定
  • Xilinx、Spline.AI、AWS 推出 X 射線分型深度學習模型和參考設計
    賽靈思公司宣布推出全功能醫療 X 射線分型深度學習模型和參考設計套件,這是賽靈思與 Spline.AI 及亞馬遜網絡服務(AWS)強強攜手共同取得的合作成果。
  • 村田推出全新MEMS慣性傳感器SCHA600系列,提高自動駕駛汽車性能
    村田推出全新MEMS慣性傳感器SCHA600系列,提高自動駕駛汽車性能 muyan 發表於 2020-06-09 16:51:47 部分或有條件的自動駕駛汽車會留下關鍵的盲點。
  • 「Movidius發布最新一代VPU」集成DNN加速器,每秒超過1萬億次運算
    1新智元編譯英特爾周一宣布推出其新一代Movidius視覺處理單元(VPU),可為邊緣設備(如無人機,VR耳機,智能相機,可穿戴設備和機器人)提供更好的處理能力。Movidius是晶片巨頭英特爾的子公司,專注開發視覺晶片,為機器和PC增強視覺功能。
  • INCONEL 600材料性能Inconel600材質說明
    INCONEL 600(UNS N06600\NS312)產品名稱INCONEL 600的高鎳成分使合金具有非常強的抗氯化物應力裂變腐蝕能力, 以及在還原狀態下可維持其高耐蝕性及在鹼溶液中亦具有很強的耐腐蝕能力。同時因含鉻,所以在氧化性環境下耐腐蝕性更勝純鎳。