Imagination推出B系列GPU IP,力挺本土晶片的圖形渲染和AI創新

2020-12-08 電子產品世界

2020年10月,半導體智慧財產權(IP)供應商Imagination Technologies在京舉辦了IMG B系列圖形處理器(GPU)新技術暨IP新產品發布會。B系列革命性地採用了多核技術,它們支持更高性能,同時晶片面積比前代產品更小。藉助其原生的可擴展性,B系列是諸多應用市場的終極解決方案,包括Imagination傳統的市場——行動裝置、汽車、數位電視等,以及新的桌面PC、數據中心等。

本文引用地址:http://www.eepw.com.cn/article/202010/419732.htm

多核是否會成為GPU的未來趨勢?B系列IP對標市面上現有的哪些GPU晶片?為何B系列會專門推出一個型號面向汽車領域?本土企業用IP有何挑戰?為此,電子產品世界等媒體採訪了Imagination的相關領導。線上是英國總部的首席營銷官David Harold,技術產品高級總監Kristof Beets, 線下是副總裁兼中國區總經理劉國軍,中國區戰略市場與生態高級總監時昕等。

圖 Imagination首席營銷官David Harold、技術產品高級總監Kristof Beets,副總裁兼中國區總經理劉國軍,中國區戰略市場與生態高級總監時昕

1 GPU多核是否是趨勢

此次發布的B系列的一個亮點是增加了多核技術,那麼,多核技術架構是不是會成為未來主流的一種技術趨勢?原有的單核的產品是否會逐漸被多核替代?

我們應該在單核和多核之間達到一種平衡。單核模塊對細節的優化是非常高效的。但是如果把單核做得過大,對布局、設計和擴展就比較難做的。多核能帶來更好的擴展效果、設計和布局。這就是為什麼在多核方面有很多的模塊,以應對不同的市場。BXT有4款產品,應對到不同的專業市場。

另一方面,市面上GPU的工作負載也有很大的改變,越來越多樣化,有圖形渲染的需求,有計算的需求,有更大更小的需求,這就帶來了GPU的布局和架構變化的需求。多核架構能更好地實現最優化,以滿足不同GPU工作負載的布局。而單核/單片平臺對大工作負載是有效的,但對於小工作負載的效率很低。因此,Imagination的靈活多變的動態的多核架構,可以把大的工作負載來細分,切分成不同的小的工作負載,並且同時進行操作。這對多樣性和靈活度來說都是有好處的。

同時從單核、多核趨勢角度來看,GPU的這種多核趨勢是和CPU之前的向多核發展的趨勢是類似的。所以此次發布的B系列是多核架構,它更加靈活,而且更加具有動態性,所以不僅僅能帶來更好的渲染/性能,同時降低了功耗,還有可以滿足chiplet(小晶片)需求。

圖 B系列從左至右,分別面向低、中、高和汽車應用

2 Chiplet的趨勢

chiplet在GPU行業裡是個主流趨勢,無論是英偉達還是AMD都在進入這個領域。所以imagination非常合理、也非常有必要地要賦能客戶實現chiplet能力。

chiplet的出現是因為現在處理器的成本非常高。與傳統的1個處理器來負責1個性能點的做法不同,chiplet架構由不同的組件構成,然後在獨立的軟體上進行設計和執行。因此,不同的chiplet可以用不同的工藝節點來製造,甚至可以由不同的供應商來提供,這樣可以減少設計時間和成本。

但是chiplet有個問題:在裸片之間信號的傳輸可能會受限制,所以Imagination的多核架構和去中心化措施堪稱完美的解決方案,解決了大量的信息集中到單一模塊上的這種問題。這種去中心化的多核架構很好地符合了chiplet的趨勢。從客戶那裡獲得的反饋是性能有大幅提升,也不存在裸片之間的信號傳輸問題。

圖 BXT系列GPU是1個4核部件

3 與主流GPU晶片的對標

B系列GPU IP面向桌面級和數據中心,對標的是友商的哪款GPU晶片?

實際上很難直接去對標,因為IP和晶片有不同的評測方式。要等採用了IP的晶片出來之後才能去跑分。目前來看,一個量化指標是TFLOPS(每秒萬億次計算)。IMG B系列可提供高達 6 TFLOPS的計算能力,並通過多核技術,支持更高性能。

另一個指標是每瓦性能表現。PC等桌面高端顯卡高峰時的功耗達到幾百瓦,這是可接受的,但有些應用,例如數據中心很難接受,因其自然散熱條件不能充分散熱,只能通過被動方式散熱,例如會把頻率降低,從而使功耗低一些。在這樣的場景下,Imagination的優勢可以體現出來,因為Imagination的GPU IP傳統上是為移動產品應用的,基本上就是幾瓦,這樣來看B系列在功耗上更有優勢。

從圖形角度來看,Imagination不能像市面上的GPU晶片公司一樣直接比TFLOPS,因為這不準確,僅供參考,因為還要有結合的場景。但至少Imagination有信心:做桌面級的處理是沒有問題的,B系列也能達到TFLOPS。

目前,在桌面GPU和雲端平臺上,已經有5家中國客戶在與Imagination接洽。

4 汽車電子的獨特需求

B系列的上代——A系列不是按照應用劃分,而是性能。B系列有專門面向汽車應用的子系列BXS。為什麼要把汽車部分單獨提出來?這和A系列運用於汽車的產品之間的區別是什麼?

Imagination有多年和汽車行業夥伴的合作經驗,也了解到汽車行業的工作特點,所以才將之前幾代的GPU IP進行了調整,來更加適合汽車行業。

首先,性能方面。消費產品用內核市場與汽車行業是完全不同的,消費行業的流程是:內核會有一個內存的請求,然後進入到SoC,之後再進入到DDR,再回去。

但是汽車行業不同。汽車業SoC的很多操作是要實時進行的,這就對內存控制等優先級要求很高,要求低延遲,比消費產品市場有2倍的提升。Imagination設計的GPU架構允許這樣的延遲的提升。

另外,汽車行業的圖像渲染要求和遊戲、消費類行業也不太一樣。在汽車行業,自動駕駛所需要的圖像渲染的能力更加簡單直接,所以BXS從幾何渲染的角度進行了微調。

再有,要確保GPU IP能完全滿足ISO26262標準(如下圖)。

此外,BXS做了很多小的架構方面的改進,來確保GPU能進行自我檢測。為此,融入了很多GPU的自然冗餘,以確保計算結果是正確的;同時能將一些誤判不回饋給系統。

最後,Imagination有RISC-V固件,還有基於CRC的動態數據的完全性保護,例如Imagination在工具包裡有很多工具來保證自動駕駛過程中的功能安全性。

在這個過程中,包括硬體的設計,駕駛軟體的設計,以及內部的安全管理信息的開發,以及和汽車行業夥伴的合作,使Imagination了解在汽車自動駕駛的過程中真正的工作負擔是什麼,並了解從圖像渲染和計算算法方面是從什麼角度來切入,這樣,通過微調才能真正實現滿足市場的所有需求。

但是相比之下,很多競品只將一個消費類產品的移動端內核重新封裝,然後複製到汽車行業,並不是一個真正的汽車行業的自動駕駛級別的解決方案。

而Imagination從根本上來實現內核的改變,從安全性和驗證角度,將內核進行重新的改變,完全適應汽車行業和自動駕駛和ADAS(高級輔助駕駛系統)的需求。這才能為客戶提供最好的汽車行業的GPU IP內核。

值得一提的,Imagination汽車行業的GPU團隊並不是從Imagination整體的GPU團隊中分離出來的一個小團隊,而是一個獨立團隊,與其他行業GPU IP團隊並行工作。

那麼,Imagination如何滿足無人駕駛產業的需求?

到目前為止,很多無人駕駛的測試平臺是通過桌面GPU的算法實現的,這種算法是浮點運算能力和神經網絡計算能力。自動駕駛汽車要真正成熟,需要有異構的計算平臺,即GPU+NNA的並行計算能力。Imagination的多核架構可以滿足功能安全性,為自動駕駛市場提供功能安全性和靈活性的解決方案。

具體地,從功能安全性的角度,Imagination可以提供硬體級的保證。在汽車驗證過程中,Imagination的方案可以在核內進行。例如在異構平臺上,即把GPU和神經網絡加速器(NNA)整合到同一平臺上(如下圖),通過GPU的動態性能控制和多任務機制以及GPU和神經網絡加速器(NNA)之間的協同工作機制,可以輕鬆地同步應對圖形處理和AI計算任務;再發展到自動駕駛,對算力有超高需求時,Imagination的多核NNA就可以充分發揮作用。

另外對於汽車行業,性能也是非常重要的。自動駕駛汽車在行駛過程中會產生大量的熱,算法平臺需要在一定的性能下滿足功耗的降低,而Imagination的架構在性能的優化和功耗降低方面能滿足自動駕駛汽車行業的需求。

最後,Imagination在汽車行業有很多的合作夥伴,有的已有10~15年的合作經驗,這些終端用戶無論是汽車主機廠還是汽車供應鏈上其他的用戶,給了Imagination使用反饋,使Imagination能在汽車行業給出理想的解決方案。

5 下一代GPU IP的挑戰

在下一系列的產品中,就是C系列,如果性能持續保持或超過現在的增長速率,需要突破的關鍵技術大概會有哪些?

正如很多大型IT企業所提到的,就是工藝節點的問題。目前為止,在有限的空間裡,電晶體的密度越來越高了,以滿足在有限的空間裡實現我們想要實現的性能,無論是7 nm、5 nm還是3 nm。但是還有一些其他的挑戰。例如在有限的空間和帶寬內提升性能,同時降低功耗。另外帶寬也是一個問題,在過去幾代的手機端已經看到在功耗限制下,手機的性能提升也不那麼明顯了,Imagination此次發布的B系列,在這方面有自己的建樹,Imagination在人工智慧和光線追蹤這2個領域的技術,也能為未來大規模提升性能模塊有一定的幫助。

6 中國市場如何降低專利風險

中美貿易摩擦導致中國公司在晶片領域有較大的風險,貴公司如何幫助中國公司規避風險?

中國的很多客戶在此前對美國技術有過分的依賴,但在中美貿易摩擦中無法進口美國的技術,而且美國對中國大量的技術出口的意願也受到打擊。因此,中國企業要避免對美國技術的過分依賴,同時更快地發展中國本土的半導體產業。

Imagination是少數擁有圖形處理基本專利公司之一,另一方面也是唯一一家非美國的擁有基本GPU IP的公司,所以可以非常合理地進入到中國,與中國的合作夥伴進行密切的合作。

7 是否成功取決於生態

Imagination的GPU IP可用於中國哪些市場?

這和生態系統有很大的關係。Imagination的客戶是晶片的設計者,以及客戶的客戶,取決於它們在某一個應用市場。特別是AI,Imagination有異構計算平臺來進入AI邊緣或雲端的計算,前提是雲端或桌面AI級計算的應用要能起來。所以每個垂直應用的市場都需要一個完整生態的建立。

Imagination現在對生態的建立,特別是在中國的生態建立是非常重視的,公司目前在不斷地在招募新員工。

8 中國的晶片設計水平和歐美的比較

Imagination的IP在歐美的關係就是直接買賣。但中國公司或從業人員跟國外的不一樣,成熟度有差距,包括做SoC或大晶片,生態/軟硬體,以及設計高手等。

儘管國內少數公司的設計高手的水平已經超過國外的,但是大部分公司的團隊成熟度還是跟歐美有差距。因此他們對EDA工具和IP提供商的依賴度很高。所以Imagination在中國的技術支持的方式和力量都不一樣,需要大量的現場支持,這還是針對常規的公司。國內還有很多初創公司,很多人沒有production(生產)的經驗,所以要求Imagination的支持方式完全與歐美不一樣。歐美哪怕一個小的團隊,設計能力和做事的成熟度也比國內一些團隊的成熟度高——但這不一定是說歐美公司就比國內的厲害。因為一家公司是否成功,還涉及到第二點——企業的商業文化。國內工程師可以做到996(員工上班時間從早上9點開始,到晚上9點下班,每周工作6天。),英國是絕對不可能的,美國也是極個別的公司才能做到996。

具體地,歐美成熟的fabless(設計晶片公司)購買產品,他們都按照規矩和流程,例如他們需要你的支持,怎樣支持。因為他們自己有非常清晰的怎樣做SoC項目的流程。

包括利潤率的要求也不一樣,歐美往往要求毛利不低於60%,歐美做的速度也有規律,他們不是看到你的這個產品賺錢,我也要去做這個。但中國是這樣的,如果這個賺錢,我就做,而且要快,快就變成了996。前不久還聽說了007(一天24小時待命,每周7天)。這是中國市場普遍存在的特點,而且即使他做不到,他也一定想這麼做,因為如果產品雷同,他不這麼做,根本活不了。

所以在這樣的要求下,Imagination的支持或客戶用IP的方式都不一樣。但是也正因為有這樣的文化,所以只要Imagination的產品是好的,他們確定是有價值的,他們就會採用。

中國的創新力也是驚人的。例如國內某大型晶片設計公司,劉國軍副總裁一二十年前在一家美國EDA公司時,就跟該公司打交道,美國人不能相信一個剛出來的設計方法,該公司居然花了不到1年的時間,使用的效果超過了Cisco。

為此,劉國軍副總裁一直跟英國、美國人講這個故事,這家國內晶片公司當時不去花錢買顧問服務,當時的產品手冊全是紙質的,有1尺高,該公司的工程師白天黑夜地去摳那些東西,最後用出來的效果超過了預期。

所以中外的商業文化不一樣。

那麼,相比歐美,中國的方式更好嗎?這很難評判。因為歐美的流程的效率其實挺高的,他們做出來的東西基本上不太會同質化。

但是你說這不好嗎?國內企業就是能做出來歐美人都不敢相信的事情。

所以針對B系列,國內企業會把Imagination的東西用起來,這沒問題;其次,這個用法跟歐美不一樣,所以Imagination的支持方式要努力適合國內的特點。

相關焦點

  • Computex 2019:英偉達推出移動端VR-ready Quadro晶片
    而Quadro RTX Studio系列產品有望為視頻、3D、AI輔助功能在創意應用和AI編程方面帶來突破性的助力。他們搭載了全新的Quadro RTX 5000, 4000和3000顯卡,這也是英偉達首次把的Quadro系列顯卡用於Max-Q筆記本平臺,而RTX 5000則是第一個搭載了16GB顯存的移動GPU。
  • 英偉達晶片顯卡技術和作業系統技術到底是什麼?
    英偉達晶片技術主要包括顯卡技術和作業系統技術。還有nvidia顯示晶片技術、個人計算機顯示晶片技術和人工智慧/深度學習晶片技術。顯卡技術主要包括pc卡、無線網卡、gpu集成顯卡、雷電3、rgb晶片等。作業系統技術包括windows和osx。
  • 江湖門派鎮山之寶 五大移動GPU廠商論劍-移動GPU,Imagination...
    由於親生的血緣關係,Mali在好爸爸ARM的幫助下也攻城掠地,很多不具備獨立開發GPU技術的晶片供應商都直接使用了ARM處理器+Mali GPU的設計,比如三星、瑞芯微、展訊、意法半導體、全志等,其中三星和全志還是出貨量大戶,所以Mali GPU的份額和出貨量可不低。
  • 光矛系列添新員 GTI公司發布新一代AI晶片
    (GTI) 公司發布新一代產品「光矛處理器2803」,該款晶片側重解決數據中心與雲計算系統中普遍存在的高能耗與低效率問題,GTI公司為此推出配置有多顆2803晶片的G.A.I.NTM系列加速卡,可裝配在數據中心與雲計算系統之中,顯著提升運營效率與經濟效益,相比市場上的主流方案提升十倍以上。  隨著人工智慧產業的快速發展,數據中心與雲計算業者紛紛重新思考如何升級硬體系統以應對行業變化。
  • 從GPU誕生說起:AMD統一渲染架構回顧及展望-AMD,ATI,統一渲染,顯卡...
    本質上來說,3D圖形的渲染是由複雜的坐標轉換和光源運算組成的,當顯卡還沒有T&L功能時,坐標處理和光源運算都是由CPU來處理的,也就是所謂的軟體T&L。2、 光柵化計算:顯示器實際顯示的圖像是由像素組成的,我們需要將上面生成的圖形上的點和線通過一定的算法轉換到相應的像素點。把一個矢量圖形轉換為一系列像素點的過程就稱為光柵化。例如,一條數學表示的斜線段,最終被轉化成階梯狀的連續像素點。
  • 微信團隊開源圍棋AI技術PhoenixGo,復現AlphaGo Zero論文
    據介紹,該項目由幾名工程師在開發機器翻譯引擎之餘,基於 AlphaGo Zero 論文實現,做了若干提高訓練效率的創新,並利用微信伺服器的閒時計算資源進行自我對弈,緩解了 Zero 版本對海量資源的苛刻需求。4 月底,在 2018 世界人工智慧圍棋大賽上,PhoenixGo 取得冠軍。
  • 計算密度暴漲70%,IMG宣布向桌面和雲端GPU市場發起衝鋒
    O4wEETC-電子工程專輯「B系列的設計思路與當前流行的小晶片(Chiplet)設計趨勢完全相符。」Kristof Beets說由於小晶片有獨立的資源,可以獨立運行,因此在B系列的設計中,他們採用了分散式設計,減少了中心化模塊,避免了一些複雜的邏輯,提升了靈活性。
  • 最強手機晶片進化史:蘋果A系列處理器是如何煉成的!
    在這12年間,令蘋果自豪的除了iOS系統之外,還有他們自研的晶片A系列處理器。從iPhone 4首發A4處理器開始,蘋果正式走上了自研晶片的道路。從A4到如今的A13,蘋果已經有整整10代的A系列處理器,而今天,集微網將與大家談談A系列的從古至今。
  • 三星獵戶座2100晶片發布,cpu性能超過驍龍888?
    三星的獵戶座2100晶片發布了,這應該是除了驍龍888晶片外,今年安卓最強的手機晶片之一,其實基本上和驍龍888晶片差不多,除了gpu外,一起簡單的看一下吧!其實這個2100和驍龍888其實都是一樣的工藝設計!
  • Imagination推出性能達600 TOPS終極AI加速器IMG Series4
    「雖然市場上已經有滿足自動駕駛需求的 AI 晶片,但功耗不夠理想。所以,我們花兩年時間去了解和評估客戶需求,基於我們的前兩代低功耗的產品,推出了高性能低功耗的 4NX 系列產品,並且將自動駕駛作為主打市場,也可以應用於數據中心和桌面級 GPU。」 Imagination Technologies 視覺和人工智慧部門高級總監 Andrew Grant 表示。
  • Unity高級知識點總結:性能優化與圖形渲染進階
    可以有效緩解gpu的壓力。  我們在android上解析度是實際的0.85左右。2、做好資源異步加載,實現一個實例化隊列,可以很大程度上減少卡頓。3、做好超量的模型和特效屏蔽,可以有效減輕cpu壓力。4、善用工具。比如Unity Profiler、Snapdragon Profiler等,針對性的對性能瓶頸進行優化。
  • 移動圖形晶片的故事(下)IMR與TBR/TBDR兩大流派的愛恨情仇
    PowerVR雖然從事GPU開發,但是它並不直接售賣晶片實體,而是透過授權的方式,將晶片內核技術以收取權利金的方式讓第三方晶片廠商生產、銷售、使用,例如蘋果公司、英特爾公司、聯發科、索尼等,商業模式和同樣是英國公司的ARM一樣。
  • ArterisIP推出Ncore 3緩存一致性互連IP,可讓同一塊Soc不同協議的...
    造就下一代機器學習和自主駕駛系統晶片(SoC) 支持Arm AMBA CHI協議、CCIX和ISO 26262功能安全標準在2017年Linley處理器大會上,從事商用系統晶片(SoC)互連IP的創新供應商ArterisIP今天宣布推出第三代Ncore緩存一致性(Ncore 3 Cache Coherent Interconnect
  • 兩款GPU已在路上
    Xe圖形架構, 目前,Xe圖形架構主要有Xe-LP(低功耗)、Xe-HP、Xe-HPC和Xe-HPG四個系列。 據了解,英特爾首款Xe-HP晶片已在實驗室完成啟動測試。 目前,英特爾正與關鍵客戶共同測試Xe-HP,並計劃通過Intel DevCloud讓開發者能使用Xe HP。與此同時,Xe HP的相關產品也將於明年推出。
  • 24小時最熱|蘋果自研GPU跑分超R5 4500U/i7-1065G;華為:晶片、算法...
    蘋果 A12Z Mac 開發機測試:GPU 跑分超 R5 4500U/i7-1065G配備 A12Z 晶片的 Apple 開發者設備套件(定製版 Mac mini)已開始抵達開發人員手中,GeekBench 上已經有了很多的測試數據。
  • 盤點:GPU加速的神經網絡與JavaScript的交叉
    根據拉取請求的數量來衡量,JavaScript的活躍度與Python、Java和Go之和相當。JavaScript已經徵服了網絡,並「滲入」了伺服器、移動端、桌面和其他平臺。與此同時,GPU加速的使用已經遠遠超出了計算機圖形領域,現在已經成為機器學習的一個必需組成部分。
  • GPU大廠英偉達的AI造夢空間_詳細解讀_最新資訊_熱點事件_36氪
    1993年英偉達成立,瞄準遊戲晶片市場,以GPU為鉚點,不斷發展圖形渲染能力,並在之後的幾年,成長為遊戲顯卡界的巨擎。 與此同時,GPU的出現為AI計算帶來了新的動力。英偉達通過一系列手段支持AI技術發展,打造性能、構架更高效的GPU,即「通用AI處理器」。近十年來,GPU長足發展,其在深度學習領域擁有的數據處理能力,極大拓展了AI的應用場景。 AI江湖,硝煙四起。
  • 看懂未來十年AI晶片趨勢!GTIC 2020 AI晶片創新峰會成功舉行
    2、AI晶片從算法和應用角度給行業提出了許多創新需求,促使人們探索更多的顛覆性技術,有望徹底突破傳統架構的性能和能效瓶頸,實現集成電路的跨越式發展。3、中國AI晶片產業創新正與國際同步,有著最全面的技術路線、最豐富的應用領域,伴隨著人工智慧產業的快速發展,我國AI晶片領域大有可為。三、中國半導體黃金時代來臨,AI晶片如何實現創新與自主可控?
  • 看蘋果的創新步伐 iPad五代七款大橫評(全文)_蘋果 iPad Air_平板...
    從2010年初由賈伯斯一手推出,到如今蒂姆·庫克為大家獻上的Air和mini,在一代又一代演化革新的過程中,在您心目中哪一代的iPad更加完美?哪一代的iPad較上一代提升最大?最能夠體現蘋果創新性的領先節奏?
  • 科學家利用AI技術造出更快,更精準,更清潔的光碟機納米晶片
    表示,「通過將所有功能整合到一個晶片中,我們就可以為 AI 的自主決策提供前所未有的效率和速度。想像一下,如果將這種晶片集成到一個行車記錄儀中,那麼它將無需連接網際網路,就可以自主識別燈光、信號和物體,並做出即時決策。」此外,該晶片發揮著類似於人腦的功能,可使得 AI 系統變得更加強大。