Arm在數據中心的價值:黃氏定律背後,英偉達打的什麼算盤?

2020-12-22 EDN電子設計技術

在Aspencore全球分析師共同發布的《2021年全球半導體行業10大技術趨勢》一文中,有一項提到了,HPC數據中心專用加速的趨勢遞進。其中特別提到英偉達的DPU,這種類型的硬體,幾乎可以代表數據中心的某一個發展方向。4iHednc

這個議題甚至恰好能夠解答,英偉達為何要收購Arm,以及AMD為何要收購賽靈思。在近期英偉達GTC China首日主題演講之後的圓桌論壇上,英偉達全球業務運營執行副總裁Jay Puri談到了有關英偉達收購Arm的問題。4iHednc

4iHednc

「Arm已經取得了巨大成功,但他們獲得的成功大部分集中在移動端,更多的機會在等待他們探索。Arm應當發揮顯著作用的地方,還包括數據中心與PC。但這個市場的涉足其實並不簡單,數據中心、雲和PC領域是另一回事。」Jay Puri提到,「從技術上來看,Arm在這一領域是完全沒問題的。很多探索中的例子都表明,技術不是問題。」4iHednc

「在市場方面,數據中心未來的重要工作是圍繞人工智慧、加速計算的。英偉達在這個平臺很成熟,我們有可用的完整堆棧,有所有必要的合作夥伴,生態系統龐大,有超過200萬開發者;很多初創企業、行業研究都在進行中。」「一旦Arm成為英偉達的一部分,我們將能夠促進Arm在數據中心取得成功。」4iHednc

「這樣一來,市場就會有x86之外可行的替代方案,不僅限於移動領域,數據中心、PC等領域都如此。競爭能夠促進進步、推動創新。」這番話實則已經非常明晰地交代了,Arm對於英偉達的主要價值在哪裡:數據中心(和可能的PC)。本文嘗試擴展HPC數據中心的專用加速趨勢這一話題,亦可從中看看英偉達的野心有多大。4iHednc

Arm對數據中心的作用有多大

2020年,HPC領域在相關晶片架構層面發生過一件大事:富士通(Fujitsu)發布名為富嶽(Fugaku)的超算,其中的晶片為A64FX。這顆晶片在微架構層面其實是很有意思的。首先它整體上採用monolithic的設計,而不是現在流行的chiplet(比如AMD Epyc)。它既像CPU,又有點兒像GPU,而且片上還集成了HBM2存儲——這樣一來,A64FX的板卡就比較奇特:板卡上沒有RAM,因為已經集成在了片上(chip level)。4iHednc

4iHednc

我們來簡單看看這顆晶片微架構的獨特之處。從上面這張圖來看,核心周圍的4個die就是HBM2存儲,連接到四個HBM2 Interface之上,算是與核心靠得很近了,所以主內存到L2 cache的帶寬就會比一般的HPC系統要明顯更大(1024GB/s),單晶片的容量也達到了32GiB。4iHednc

核心部分,A64FX整體上是基於Arm v8.2A架構的,擴展了SVE(Scalable Vector Extensions)——這種擴展是專門針對HPC科學負載矢量化準備的,屬於NEON擴展指令集的補充。A64FX具體採用的是512bit SVE。這一點其實並沒有什麼。4iHednc

這顆晶片真正有意思的地方是,它並沒有什麼加速器,die上也沒有集成專門的GPU之類的處理器。其行為方式很像GPU,但卻是顆實實在在的通用CPU。A64FX內部總共分成4組,分別是4個CMG(core memory group),每組13個核心(所以總共是52個核心,其中48個是活躍核心,其餘4個為OS以及冗餘策略預留)。CMG內部每個核心依次連接,而不同CMG之間採用類似於Intel Skylake的那種Ring Bus環形總線連接。作為一顆通用處理器,A64FX就是可以跑常規作業系統的,雖然它內部看起來還挺像英偉達的GPU。4iHednc

4iHednc

這顆晶片在設計上就是為HPC負載準備的,尤其是科學模擬、數據分析等。現在比較主流的方案,是用GPU來加速這些活兒,主要是因為GPU能夠灌入大量數據,並做高度並行計算,然後同時輸出大量結果。事實上,HPC的存儲帶寬需求一直很大,包括氣象模擬、各種流體力學、量子力學等研究,以及計算機視覺、機器學習一類數據分析工作,都要求大量數據的遷移,在大量核心之間通訊、共享。4iHednc

A64FX從設計思路上,也能幹這樣的工作:持續做SIMD計算,而且還有不小的片上存儲資源和相當大的傳輸帶寬。另外富士通開發了一種名為「Tofu」的互聯方案,據說在能效、帶寬和延遲方面表現都非常好,宣傳上提到是顯著優於AMD和Intel的方案的(據說是比Xeon/Epic,有10倍的能效優勢)。此外,SVE矢量擴展,及其對FP16、FP32等數據類型計算的原生支持,都令其相當適用於HPC負載。4iHednc

從已公開的數據來看,A64FX單晶片在性能上也遠優於Intel Xeon Platnium 8168、NEC SX-Aurora這類方案,以及部分測試優於Nvidia上代的Tesla V100。其實相較傳統通用CPU的性能優勢還是意料之中的。因為A64FX從設計上來看,是明顯更偏向專門針對HPC做了"domain-specific"的優化的,與此同時還保有了CPU的通用性。4iHednc

4iHednc

用簡單的話來概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的傳統組合凝聚到一起,另外也有比較全面的大規模擴展方案。這顆晶片預計2021年會出貨給亞馬遜、谷歌、微軟這些雲供應商。4iHednc

當然不能就性能、效率,以及其設計就簡單認定,A64FX就一定能夠在HPC領域掀起多大的浪,生態構建也屬於重要的工作。但很顯然,Arm在HPC、數據中心之上發光發熱,至少就技術、性能層面來看,是沒有任何問題的;而且Arm具備了相當的彈性,是x86平臺可能無法給予的;另一方面,Arm在端側正在對x86發起新一輪猛攻,這可能也將有助於Arm在數據中心的生態構建。4iHednc

GPU在數據中心的發展令人咂舌

富嶽以及A64FX的發展思路未必就代表了數據中心的未來,電子科技及半導體領域從來不是效率、性能說了算的,而且我個人也覺得A64FX在微架構層面雖然有創新,但它作為一種通用晶片,在專用計算的"domain-specific"這一點上仍然可輕易被超過;比如幾個月前,Graphcore二代IPU的發布會就特別提到了,算力相較A64FX的超越。4iHednc

老祖宗構建起來的架構,其實很難在短期內被輕鬆推翻。只不過傳統CPU+GPU+RAM的發展方向,本身就在不停發生變化。就好像多年前應該不會有太多人想到,GPU、FPGA加速卡這類硬體可以在數據中心活得這麼滋潤。4iHednc

英偉達最偉大的發明,大概就是CUDA和GPGPU了。這將GPU擴展到了更多市場。2016年黃仁勳在GeForce 1080 Ti發布會上提到最多的詞還是rendering和graphics;但在2020年GeForce 30系列GPU的發布會上,Graphics這個詞被提及的次數卻遠遠少於RT core、AI等。這表明英偉達的GPU市場,早就擴展到了遊戲、圖形計算之外。4iHednc

即便AMD剛剛發布的Radeon GPU在性能上將近做到與Ampere架構GeForce的齊頭並進,AMD Radeon的市場與英偉達依然是不可同日而語的。4iHednc

我在去年GTC China的報導中提到,2015-2019年英偉達的營收增長速度之快,令這家公司不像是個已經步入成熟期的企業。這主要是源於GPU在數據中心業務上的風光正盛。而且這個趨勢在2020年竟然還在持續,甚至可以用「飆車」來形容。4iHednc

4iHednc

英偉達數據中心業務雲霄飛車般的營收增長4iHednc

英偉達最新一季(FY2021Q3)的財報顯示,公司季度營收47.3億美元,上漲57%。值得注意的是,其中數據中心業務的營收同比增長達到了162%——而且這還是在持續多年增長之後的持續增長。在谷歌雲、微軟Azure之後,AWS、Oracle Cloud、阿里雲都相繼宣布了Nvidia A100可用;選擇英偉達平臺針對AI相關服務做AI inference越來越多;當然英偉達數據中心業務的強勢,也離不開Mellanox在InfiniBand等方面的增長。4iHednc

相較之下,英偉達遊戲業務37%的增速雖然也很亮眼,卻在增長性上相形見絀了。專業視覺以及汽車業務的營收下滑,也就顯得沒那麼重要了。去年的分析文章中,我曾大致估算數據中心業務佔到英偉達整體營收的1/4,僅次於營收佔比過半的遊戲業務。今年的情況預計又會發生較大變化。以這種成長速度,數據中心很快就會成為可與其遊戲業務相提並論、並駕齊驅的業務了。4iHednc

這其實很大程度上代表了數據中心市場,GPU這類型的硬體已經佔據了多重要的地位。可見市場對於性能和效率的渴求還是瘋狂的,何況數據中心市場客觀上還受到了新冠疫情的推動。4iHednc

那麼這和Arm又有什麼關係呢?4iHednc

DPU是英偉達野心的承載

英偉達也在GTC China期間宣布,多家中國頂級雲服務提供商及系統製造商採用其A100 Tensor Core GPU。阿里雲、百度智能雲、滴滴雲、騰訊雲等雲服務提供商都推出了搭載A100的雲服務及GPU實例。A100是英偉達這一代Ampere架構,定位在數據中心平臺的GPU產品,被英偉達稱作「最強性能的端到端AI以及HPC數據中心平臺」。4iHednc

Ampere架構是英偉達在2020年年中正式官宣的。消費端的GeForce 30系列,以及上述A100都可以說是Ampere架構產品。實際上英偉達如今在熱推的另一類產品,文首提到的DPU也有Ampere架構GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架構的GPU,用於AI加速。4iHednc

這裡的DPU是相當值得一談的。拋開Ampere架構不談,在前兩個月的GTC大會上,英偉達正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU這個概念最早應該是Mellanox提出的。英偉達在新聞稿中提到,DPU採用data-center-infrastructure-on-a-chip架構,「突破性的網絡、存儲和安全性能」。直譯過來,就是晶片上的數據中心基礎設施。4iHednc

本月GTC China期間,好幾篇來自英偉達的新聞稿都提到了DPU或相關信息:包括公有雲廠商Ucloud基於英偉達的BlueField DPU研發,「並於上半年推出的裸金屬物理雲1.0產品,通過DPU集成的多核Arm CPU快速將物理雲基礎架構軟體從x86遷移到DPU中」。而且「Ucloud進一步於下半年研發並推出裸金屬物理雲2.0產品」,其中也包含了BlueField DPU本身的更多特性。4iHednc

在Mellanox被英偉達收購之前,DPU實際上是Mellanox針對下一代SmartNIC的一個設想,將其networking的技術,和Arm做結合,分擔主系統的更多工作,包括軟體定義網絡、軟體定義存儲、專用加速引擎等。2019年BlueField產品很低調地發布了。英偉達後續對BlueField-2,也就是DPU二代產品的定位有了進一步的延展。4iHednc

4iHednc

所以今年發布的其實是二代DPU。BlueField 2晶片本身包含8個Arm Cortex-A72核心,以及兩個VLIW加速引擎;然後再加上Mellanox最拿手的針對網絡連接的ConnectX-6 DX NIC(網絡適配器)。4iHednc

簡單來說,DPU是數據中心的另一個domain-specific加速器,從主CPU分擔networking、存儲和安全負載。這其實是英偉達在GPU產品於數據中心市場大獲成功後的又一步擴張舉措。與此同時進一步消除x86 CPU在數據中心的重要性。4iHednc

4iHednc

用Mellanox的話來說,DPU是將計算功能,與數據靠得更近了(data-centric architecture),取代以前還要把數據專門移到計算所在位置的那種模式(compute-centric architecture)。4iHednc

更具體地說,BlueField-2相對而言是達成了這個目標的;而BlueField-2X則是在板卡上給DPU再加上了Ampere架構的GPU(和EGX A100好像有點類似)——英偉達稱其為AI-powered DPU。此處多加的GPU價值主要是實時的安全分析,包括識別異常流量,加密流量分析,識別惡意行為,以及動態安全組合、自動響應等。4iHednc

4iHednc

至此,其實英偉達已經有能力將整個系統,包括CPU、NIC、加速器、安全都放到一個SoC上,再搭配自家GPU,基本上是可以無視x86的存在的。從英偉達公布的DPU產品路線圖來看,後續還會有BlueField-3和4的問世。4iHednc

BlueField-3其實是加強版的BlueField-2。而BlueField-4則計劃在單晶片性能上就打敗現有DPU+GPU的組合。英偉達計劃BlueField-4應可提供400 TOPS的AI算力。如此一來,從GPU在數據中心做AI、數據分析及HPC,到如今DPU接管網絡、存儲、安全等關鍵任務,以及將來DPU可能把這些加速的活兒都幹了。4iHednc

4iHednc

DSP應用於網絡安全的一個例子:當兩名開發者使用Omnivers高吞吐流app進行實時的工作時,一臺設備是Vmware Cloud Foundation + BlueField-2 DPU,另一臺則是傳統架構,在遭遇DdoS攻擊時,兩種架構的CPU佔用率對比。右邊這臺伺服器會因為數據包泛紅,致工作被打斷;而左側伺服器,DPU自己就能夠識別並丟棄這些惡意數據包4iHednc

與此同時,英偉達也推出了配套的DOCA軟體棧,就類似於GPU世界的CUDA那樣。英偉達這兩年一直在宣稱自己是家軟體公司。那麼當為開發者提供SDK,這片市場的空前增長,就像現如今的GPU那樣,是為英偉達真正統領數據中心市場的野心所在。4iHednc

而且英偉達現有的軟體開發能力,還能持續為DOCA添磚加瓦,包括SDK擴展支持、各種庫的增加:眼見CUDA如此的興盛即知DPU將來的潛力了。與此相較,媒體渲染的什麼黃氏定律(Huang’s Law)都不過是為此服務的營銷宣傳罷了。4iHednc

4iHednc

Arm將在此間扮演什麼樣的角色?回想文首Jay Puri在GTC China首日的圓桌論壇上的發言,是否變得明朗許多?在DPU的版圖上,Mellanox早已是英偉達麾下一員,就剩Arm了。想到此處,感覺英特爾在現如今的時代格局下,還真是有點兒「誰都在針對我」的處境。4iHednc

這或許也能一定程度解釋,為何AMD要收購賽靈思。另外,Jay Puri發言中還提到了,Arm理應在PC領域也發光發熱,這是否是在暗示,英偉達或許還有在消費市場一搏的打算?4iHednc

責編:Luffy Liu4iHednc

相關焦點

  • 摩爾定律即將走到極限,英偉達試圖推動半導體「黃氏定律」
    記者 | 彭新「在摩爾定律失效的當下,如果我們真想提高計算機性能,『黃氏定律』就是一項重要指標,且在可預見的未來都將一直適用。」在近日舉辦的GTC中國峰會上,英偉達首席科學家Bill Dally做出上述發言。
  • AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍
    過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司英偉達(NVIDIA)創始黃仁勳(Jensen Huang)名字命名的定律「黃氏定律 (Huang’s Law)」對AI性能的提升作出預測,預測GPU將推動AI性能實現逐年翻倍。
  • 黃仁勳定律是新的摩爾定律!這就是黃教主收購Arm的原因
    ,黃仁勳定律(Huang's Law)是新的摩爾定律,這也是英偉達收購Arm的原因。當然,他沒有為這個定律命名,就像戈登·摩爾當年也沒有說他的理論叫「摩爾定律」。 英偉達收購Arm,打造AI超級巨艦 對軟銀來說,Arm 或許只是一筆增值空間不大的投資資產。但對於英偉達來說,Arm 的戰略價值遠遠不止400億美元。
  • 英偉達收購arm,是新機遇還是新災難
    英偉達已與軟銀籤署最終協議,以現金加股票的形式收購arm,交易價值400億美元。聲明指出,軟銀將繼續通過持有英偉達的股份,致力於arm的長期成功,預計持股比例將低於10%。英偉達將其與arm的大型商業交易框定為「將英偉達自己的人工智慧計算平臺引入arm龐大的生態系統中」。
  • 半導體發展遇到瓶頸,摩爾定律再難突破,英偉達另闢蹊徑
    就在這個時候,英偉達的「黃氏定律」橫空出世,想要從另一方面來突破摩爾定律達到的瓶頸。在前幾日舉辦的GTC中國峰會上,英偉達的首席科學家Bill Dally發言道,當今計算機的運算性能如果想要再進一步,在未來的時間內,黃氏定律將會發揮著重要的指導作用。 但是什麼是「黃氏定律」呢?
  • 英偉達首席科學家解讀「黃氏定律」:替代摩爾定律,定義AI時代?
    【新智元導讀】英偉達將於12月15日-19日召開GTC中國線上大會,今日的主題演講由英偉達首席科學家BillDally分享關於AI、計算機圖形學、高性能計算、醫療、邊緣計算、機器人等領域最前沿的創新以及AI推理、GPU集群加速等最新的研究成果。沒錯,英偉達GTC大會又來了,不過這次沒有老黃,背景也不是他家的廚房。
  • 定位「算力加速」的英偉達,AI算力版圖正越來越大
    千禧年後,學界進入「算力解放」世代,集成電路的智慧結晶「CPU」算力無法完全滿足學者需要,人工智慧算法對算力的支持更強勁、更多元,隨後英偉達在2006年推出Tesla架構,藉助CUDA系列編程環境,開啟了AI算力次世代,黃氏定律持續發揮作用。
  • 逆市拿地背後 電建地產打的什麼算盤
    大手筆」買買買」背後,電建地產究竟打的什麼算盤?  「三道紅線」大背景下,不少房企開始放緩拿地速度。受此影響,2020年10月、11月,土地市場連續降溫。  不過,持續降溫的土地市場中卻也有房企逆勢拿地。
  • 華為急了,英偉達即將買下ARM,麒麟晶片技術或被公開
    英偉達收購ARM?有消息稱英偉達最近正在籌劃收購ARM,但這則消息的真假還沒有得到官方的確認,如果這則消息是真的話,那麼對於整個晶片業來說將會造成巨大的衝擊。現在ARM,軟銀和英偉達對這件事情都拒絕發表評論。如果英偉達真的有意收購ARM,ARM大客戶的意見也很重要,而且一定會進行監管審查。
  • 400億美元鯨吞ARM,英偉達試圖「火中取慄」
    英偉達和軟銀達成驚天交易據悉,這400億美元中將會包括英偉達向軟銀支付價值215億美元的普通股票,以及120億美元現金(包括即刻支付的20億美元),並且在ARM滿足特定財務績效目標的前提下,軟銀可能還會獲得50億美元的「Earn-Out」,此外,英偉達方面還將向ARM員工額外支付15億美元。
  • 英偉達收購Arm 軟銀套現離場物聯網夢醒
    英偉達與軟銀集團達成了一筆價值400億美元的交易。這項交易不僅將使得英偉達立即增加其非通用會計準則下的毛利率和每股收益,還將擁有半導體晶片上遊智慧財產權提供商Arm。這一價格也刷新了半導體行業收購的最大金額記錄。
  • 什麼是英偉達DLSS,它將如何使光線追蹤更快?
    什麼是英偉達DLSS,它將如何使光線追蹤什麼是DLSS?什麼是英偉達DLSS,它將如何使光線追蹤英偉達的DLSS系統在其大型數據中心的顯卡上一次又一次地對一個特定遊戲進行超級採樣,它計算了將超級採樣技術應用於遊戲的最佳方法,對遊戲的視覺效果進行重複處理構成您在屏幕上看到的多邊形和紋理
  • 英偉達收購ARM尚需中美批准;一汽與海馬分手在即;上汽發布行業首個...
    編輯丨AutoR智駕 智駕小郎君英偉達400億美元收購ARM尚需中美英歐盟批准英偉達宣布,已同意以400億美元的價格收購軟銀集團旗下的晶片製造商Arm Ltd.,這將是晶片行業有史以來最大併購交易。根據協議,英偉達將為這家總部位於英國的晶片公司支付價值215億美元的英偉達股票,以及120億美元現金,其中包括籤約時即刻支付的20億美元。兩公司在一份聯合聲明中表示,軟銀還可能獲得額外的50億美元現金或股票,如果Arm未來的業績表現達到特定目標。 還有價值15億美元的英偉達股票將向Arm員工支付。交易完成後,軟銀預計將保留Arm不到10%的股份。
  • 史詩級併購的背後,半導體產業在經歷什麼?
    合併後整體企業價值將達約400億美元。 據了解,美滿專注提供全套寬帶通信和存儲解決方案,2016年開始向數據基礎設施的半導體解決方案轉型,而Inphi是一家美國晶片製造商,專門研究光電互連。
  • 高瓴資本158億元高位建倉隆基股份 張磊打的什麼算盤?
    高瓴資本這個位置殺入,打的什麼算盤?高瓴資本成為第二大股東12月20日午後,隆基股份公告,公司持股5%以上股東李春安擬通過協議轉讓的方式,向高瓴資本轉讓其持有的公司6%股權,本次交易的每股轉讓價格為70元。本次交易對價總額為158.41億元。
  • 農村一種植物,果實像算盤,價值珍貴,每斤賣60元,了解下
    農村一種植物 ,果實像算盤,價值珍貴,每斤賣60元,了解下!農村地域廣闊,土地資源非常豐富,土地上的野生植物更是千奇百態,種類繁多,數不勝數,有些植物很多人也不認識。圖片來源網絡小時候,家鄉的山上、路旁、村邊等有很多算盤子,但是很多人不知道它有藥用價值,所以並沒有放在心上,常常當它是野生雜物
  • 刺客伍六七:伍六七變回柒,製作組到底打的什麼算盤?
    製作組到底打的什麼算盤,未來的劇情會是什麼樣子的呢?首先伍六七即使穿上了以前的服裝,也不代表他會變成原來冷酷無情的樣子,他雖然說要去取首領的人頭,不過是為了結束自己的過去。動漫製作組特意製作了一段內容,來解釋伍六七內心的情感,當他被赤牙掐住脖子的時候。他的眼裡閃現出刺客柒的模樣。
  • 英偉達GTC China大會最新乾貨 - 智東西
    而NVIDIA在數據科學和人工智慧領域有強大的生態,一旦Arm成為NVIDIA的一部分,NVIDIA將著重促進Arm在數據中心、PC和雲計算領域取得成功。一、Bill Dally:NVIDIA在AI推理、矽光子學及GPU集群加速的最新研究進展在系統介紹NVIDIA的軟硬體布局及先進技術後,NVIDIA首席科學家Bill Dally以三個項目為例講述了自己帶領的200人研究團隊如何成功實現「黃氏定律
  • Uber收購Postmates,背後在打什麼算盤?(下)
    相關閱讀:《Uber收購Postmates,背後在打什麼算盤?(上)》遠不止Uber Eats然而,科斯羅薩西稱,Uber目前面對的最大挑戰,則是去說服用戶嘗試Uber Eats等全新服務項目。Uber應用程式的重新設計,也主要是鼓勵用戶嘗試這些服務。