三波浪潮,看清「Arm伺服器晶片編年史」

2020-12-23 電子工程世界網

本文作者是Arm伺服器市場工作者,以從業者角度為讀者剖析Arm伺服器晶片的特點與演進。以下為全文目錄與內容。


目錄

1    前言

2    第一波浪潮(2008-2013)

2.1    啟程2008

2.1.1   Calxeda 2011

2.2    Computex2012

2.3    MarvellArmada XP 2013

2.4    Calxeda倒閉 2013

3    第二波 Armv8.0 (2011-2018)

3.1    AppliedMicro – X-gene (2011)

3.1.1   eMAG-X-Gene32018

3.2    AMD’sA1100 (2012)

3.3    CaviumThunderX 2014

3.4    BroadcomVulcan ThunderX2

3.5    Qualcomm2017

3.6    Samsung(2012-2014)

3.7    NvidiaProject Denver 2011-2014

3.8    Balkal

3.9    Phytium

3.10     HiSilicon1616

3.11     Socionext

3.12     私評尾聲

4    第三波 Neoverse

4.1    HuaweiKunpeng 920

4.2    AWSGraviton2

4.3    AmpereQuickSilver 2019

4.4    MarvellThunderX3

4.5    FujistuA64FX 2016

4.6    其它的新入者

5    總結

6    文獻


這篇是為了公司內部的技術分享而準備的材料,當然在公司內部,如果我敢從2008年開始講,早就被打死了。還有,就是NDA的內容肯定是略略略了。


如果讓我用一句話總結我這些年做Arm伺服器的心路歷程,那就是「篳路藍縷,以啟山林」。


免責聲明:個人觀點,不代表任何公司。文章中列舉的數據,來自於公開新聞和會議。


為了方便大家知道我是誰,我給自己一個標籤:一個從CPU PPT一路負責到上雲的人


Arm伺服器的第一波浪潮,是一家叫Calexda開始,也是由它結束的。雖然我覺得2011的官宣Armv8架構,就是32bit 伺服器的終結。但是第一波的浪潮的起伏,並不僅僅是32bit,64bit 那麼簡單,還有一個詞Microserver,微伺服器。也是當時產業界,包括x86陣營的共同探索。技術上,商業邏輯上,都不錯的產品,在市場上,沒有成功。


我個人得到的一個觀察:伺服器市場是個求穩的保守的市場,相對於活躍的終端市場。


2.1 啟程 2008


2008年,Arm內部開始醞釀伺服器計劃。心動就行動,Arm參與投資了一家當時叫Smooth Stone,後來改名為Calxeda的startup公司。當時的第一輪總投資金額是$48M。


Calxeda的一開始目標就是降低數據中心的耗能,並且高相同空間的計算力密度。請記住這兩個目標,此時此刻,我們的初心依舊。


那一年市面上還是Cortex-A8的產品,而基於第一款多核Ccortex-A9的產品要到3年後才上市。(好懷念那個2,3年才發布一款產品的慢速時代)。


那時Intel的Xeon還是4個核,當然主頻已經3.xGhz了,而AMD的45nm Opteron CPU也剛剛上市。


那一年

——IBM剛剛宣布Power產品線,而且上來就高山仰止的高達64個核。

——蘋果發布了iPhone 3G,就是iPhone2。(對,那時還是3G時代。)

——TSMC 的主流工藝是40nm,年收入$10B。


我還在一家叫EZchip的公司做NP3,此處NP不是Neural Processor而是Network Processor。那是一個網絡處理器大繁榮的時代,我能說出一長串名字,可惜現在都湮滅了。低調的炫耀一下,其實我最擅長的部分是TM-Traffic Manager 而不僅僅是處理器部分,這也是這家100多人的以色列公司(年營收大約$60M)最突出的特色。此處省略若干文字,真講起來,我能一個人講一周的培訓,收美金的那種。


2.1.1   Calxeda 2011


2010年Smooth Stone正式改名為Calxeda,把總部搬到了Austin。


2011年 Calxeda發布它的晶片基於A9的晶片EnergyCore ECX-1000。


 圖2.1 CalexdaEnergyCore架構


這其實是一個值得細看的一款設計,4核cortex-a9組成的處理器模塊,比較中規中矩,I/O controllers部分也是常規接口(常規接口並不容易,一個好產品的核心是常規部分做到業界一流)。但是管理引擎(management engine)和交換引擎(Fabric Switch)部分就是技術非常創新之舉。


EnergyCore Fabric是一個集成的L2 switch支持mesh, butterfly tree, 2D Torus拓撲,虛擬埠之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規格分配。通過它,伺服器節點可以自己自主成網,不必通過on top switch,因此Calexda的一塊板塊上有4個晶片,也就是16個核心。因此才有可以高達480個核的伺服器系統。


這個設計理念是合理的,如果你設計一塊非常低成本的伺服器晶片,但是配套的網絡仍然是昂貴的話,高密度的設計,只會增加成本。這個fabric可以將1024個系統板,也就是4096個晶片用10G網絡接口,集聯為系統


EnergyCore ManagementEngine是一個集成BMC,支持IMP2.0和DCMI,還支持遠程調試SoL協議。管理引擎最強的地方在於功耗管理,Calexda這款伺服器晶片的功耗可以從4w到1w動態調整。


每個節點的製造成本大約是$28。


圖2.2 4個節點的Calexda系統板


2011年,我加入Arm網絡市場部。那時我關注的是還在設計階段的LSI Axxia AXM5500 16-core ARMCortex-A15, Freescale 的QorIQ Layerscape 系列,TI的KeyStone,還有海思的hixxxx系列,那真是一個Arm在網絡市場大爆發的時代。但是很快,一年後,我跟著當時的老闆,一位有電影明星氣質的印度裔資深美女,從網絡市場轉為伺服器市場,從那時到現在,全心全意的投入伺服器市場與生態建設。


2.2   Computex 2012  


2012年,Ian Ferguson在臺北Computex上的公開演講,大約是Arm第一次向公眾介紹伺服器方面的努力。和他一起站臺的是Ubuntu的Mark(軟體生態是個大話題,本文主要集中在晶片方面,系統硬體設計和軟體話題另外開文再說)。他引用了Facebook Frank說的 performance per watt per dollar的價值觀。


提到Arm伺服器,Ian Ferguson必須有姓名(他教我了一句做市場工作的最基本的一句話,「你是打算report news,還是make news?」,現在我也願意和小夥伴一起說,來來來,我們一起搞事情。)如他在大會上的發言,從Arm打算考慮伺服器市場的第一天起,整個業界都充滿了懷疑的論調。不僅僅懷疑是否能成功,甚至從根上,懷疑動機。


這些問題,我並不著急回答,如果你有耐心讀到最後,一切都自有答案。


2.3   Marvell Armada XP 2013


在第一波伺服器浪潮中,Marvell Armada XP 四核系列,也是要提到的。而且這裡的core,不是A9,也不是A15,是Marvell的custom Core。


也是因為Armada,我把什麼叫架構授權,回答得滾瓜爛熟。


圖2.3 MarvellArmada XP


這款集成度很高,功耗低的SoC非常適合存儲應用。Dell以此為核心,出了「Copper」的arm伺服器系統。百度也曾經使用過。這是Arm伺服器在網際網路公司的第一個案例。


2.4   Calxeda 倒閉 2013


如果Calxeda能籌集的第三輪投資,那麼按照下面的路標,有一款A15的晶片馬上量產,2款Armv8的晶片在計劃中。但是很不幸,募資工作不成功。Calxeda從2008年成立,到2013,總投資$103M ($48m in 2010 & $55m in 2012 ), 一共130員工。


它的結業郵件中說,因為Arm伺服器的出現,「the industry will be transformed forever」。從現在看,是的。


圖2.4 Calxeda 路標


Insight 64 的分析師說,他們在32bit Arm伺服器上花了太多錢。是,2011年Arm宣布了64bit的Armv8,Applied Micro公布了X-gene的計劃,其實第二輪Armv8 的伺服器的浪潮就已經展開。


而Calxeda的倒閉,標誌著第一輪的結束。


雖然頂著編年史這種文藝的名字,我是想把它寫成一個技術分析文章,重點在Arm伺服器晶片的特點與演進,不是解釋為什麼這個公司成功,那個公司不成功。其實一個產品分析好做,一個公司的成敗,偶然因素真的影響很大。


第二波的三個關鍵詞是自研核心(custom core),主流性能,標準設計。在Arm伺服器的初始歲月裡,晶片設計公司來自各個不同的領域,帶著自己對伺服器CPU晶片的理解,各自交出了自己的產品。我把重點放在APM的X-gene,Cavium的ThunderX與高通的Centriq 2400上。同時也努力把所有的其它晶片都給一個線索,供有興趣的人,自己深入。


我做了一個excel表格,努力的比對所有的伺服器SoC,包括公司規模,投資與花費的人力資源。有緣線下做交流。 


再說一段,因為在這一段歷史中自研核佔了多數,而且關於架構,ISA的爭論一直不斷,我不想展開說,因為會偏題。在一個做私有雲的大牛那裡學到一個詞,「累計優勢」,做CPU,做ISA,做晶片,其實也在一個緩慢的累計優勢。這些年,我有帶著客戶的需求,案例,測試數據,信心滿滿地前往公司總部找架構師或者產品經理,要求改設計,增加指令的時候(是的,我還管這事),結果麼?我不能說我一次也沒有成功,但是我家架構師和產品經理,都是狠角色,在對拼數據和應用案例方面,鮮有敗績。

  

另外,Hock Tang 一定要提一下,這人簡直就是Arm伺服器的發展道路和我職業生涯中的荊棘,一個拿了double kill 雙殺的男人。他先收購Broadcom,賣掉伺服器晶片項目,然後提出收購 Qualcomm,高通的管理層為了自保,提出每年消減1B的開銷,因此自我了斷所有長期投資項目,運作良好的伺服器項目就這樣躺槍了。


3.1   AppliedMicro – X-gene (2011)


2011年10月,在Arm第一次宣布ARMv8架構的同時,Applied Micro公布了它們的自架構x-gene計劃(大新聞都是和關鍵客戶一起發布的)。


如果你在那個時代讀新聞,你會留意到SoC這個概念,當然現在,SoC這個概念不用解釋了。那個時候,還是需要強調 SoC等於chip + chipset的集成設計。


X-gene的第一代是8個自研核心-Storm,兩個核共享256KB的L2 cache,這跟Arm的4個核一個cluster不同。下一章講的AMD的代號Seattle的Opteron A1100 processor,也沒有用4個Cortex-A57的一個cluster,兩個cluster的設計,而是2個A57,4個cluster的設計。AMD的A1100的兩個A57,共享1MB的L2 cache,比X-gene大4倍。但是X-gene的自研核Storm是4 issue的, A57仍然在3 issue的能效比的甜蜜點上。


圖3.1 APM的X-Gene spec


圖3.2 APM的X-Gene產品路標


現在,連手機CPU都奔著6 issue去了,從這點上看,自研核,還是展現自己對業界發展洞見的好武器。


X-gene為8個核,配了4個memory通道,這個也是在x86陣營中少見的CPU:memory比例。而且集成了2個10G NIC,支持RoCE,算是SoC的優勢。


Applied Micro官方資料給出的能耗參數,滿負荷狀態,一個核2瓦,idle狀態,僅僅0.5w。


圖3.2 X-Gene的框架圖

我對X-Gene設計印象最深的部分是MSLIM ,這是4個A5組成的小處理器cluster,提供加速功能。我不知道到底有沒有客戶使用這個處理器組,也不知道當年的設計理念。


從設計到成品,有多少設計被客戶忽略,有多少設計到了客戶手裡超常發揮,我覺得架構師也會感覺迷茫,工程的世界裡竟然也有許多的不確定性。


圖3.3 X-Gene die


圖3.4 X-Gene CPU模塊


沒有整個die的信息,不過有處理器模塊的信息。每個處理器模塊,有2個core,共享的L2,在40nm的工藝下,14.8 mm²,84M transistors。照著這個尺寸,我估計整個die是300 mm2


Anandtech曾經有篇蠻詳細,也蠻負面的評測報告。中心意思就是尚未成熟,性能,能效比優勢也不明顯。它測試的是HPE的moonshot系統,HPE的官方文件其實對X-gene評價頗高,因為X-gene是第一款量產的Arm 64bit 伺服器晶片,初期的軟體夥伴們,都是用著它家的系統的。


我知道Applied Micro-APM的時候,它還叫AMCC。AMCC團隊算是矽谷老牌做CPU的不多團隊之一,不過是做PowerPC的。它在多核路上不太順利,所以換了Arm重新開始。大約因為是老牌CPU設計團隊,他們一上手就選了最高難度的架構授權,自研核的路線。我曾經為了它和同事爭論到面紅耳赤,跟他說,我站起來是條漢子,倒下去還是條漢子。我同事,性別男,氣笑了,說,行,行,你是條漢子。


X-gene2大體上是X-gene1的28nm的tick實現,略。


3.1.1 eMAG-X-Gene3 2018


我猶豫許久,不知道該把這顆Ampere重新設計的eMAG,歸為第二波尾巴,還是第三波的開頭。按照核心的原設計脫胎於X-Gene 3來說,還是第二波尾巴。


圖3.5 Ampere eMAG


圖3.6 Ampere 產品優勢


32核List price 是 $850,一個相對非常有競爭力的價格。框架圖看起來很熟悉,不分析了。


 圖3.6 Ampere eMag 框架圖


3.2   AMD’s A1100 (2012)


在Armv8架構推出一年之後,Arm發布了A57和A53兩款 cortex-A5x系列的產品,按照國際慣例,一個重磅的合作夥伴在發布會與Arm一起閃亮登場,AMD。


這款內部代碼名為Seattle,屬於Opteron系列,後面的正式產品名字是A1100的晶片,現在在AMD主線產品歷史上找不到的產品。


AMD當時花了蠻長的時間,解釋為什麼要做Arm伺服器,怎麼定位公司內部的x86與Arm的產品線,甚至為了穩定外界的懷疑,推出了僅僅活在新聞中的K12 (2015)。


如果我們回頭看2012年,有一個名詞,不能忽略,「microserver」,而那個時候,AMD剛買了SeaMicro,一個圍繞著 Freedom Fabric打造高密度,低功耗的系統的公司。這個Fabric,超高密度(very-high-density),低功耗,聽起來耳熟不?Calexda的路數啊。下圖是10U的尺寸,共有768個CPU,包括了四個GE交換機和一個流量均衡器(a loadbalancer)。


 圖3.7 Calexda 10U系統


在這樣的系統設計下,配一顆超低功耗的Arm處理器,合情合理多了吧?因此選Arm的標準核Cortex-A57,縮短開發時間,節省開發費用,也是順理成章的事情,都在合理邏輯之內。


Cortex-A57的資料滿世界都是,我就不在這裡羅列了。前一章有提,AMD選了2 core 4 cluster的配置,而不是手機AP常見的4 core 2 cluster。好處麼,自己體會一下。


這顆晶片的list price是$150,也是很有殺傷力。


圖3.8 AMD Opteron A1100框架圖


圖3.9 AMD Opteron A1100 Floorplan


某種意義上,AMD這顆Seattle雖然被列入第二波浪潮中。它的設計理論完全是第一波的。K12才是第二波的。


可是看看K12的設計目標,在AMD的框架下,為什麼要做Arm,自然是x86啊。Jim Keller這個男人本來是跟K12聯繫在一起的。但是… … ,這個風一樣不羈的男子啊。


Intel的對於此輪浪潮的反應是14nm 「Xeon-D」。 


3.3   Cavium ThunderX 2014


某種程度上, Cavium的48核ThunderX 才是真正開啟第二波Arm伺服器浪潮的產品。它湊齊了一顆主流伺服器晶片應有的所有特點,例如雙路和性能。


Cavium做為一家僅僅有AMD1/10大的公司,很早就有超多核處理器的設計能力,只是之前是MIPS網絡應用處理。


雖然只有2 issue的自研核,單核性能較弱。但是整個SoC的設計,特別多路設計,是出色的。而且因為網絡處理器方面的積累,這顆晶片的加速引擎與IO接口非常豐富。


而且為了降低功耗,可以有選擇的關閉加速引擎,變成4種不同的配置: 雲計算版本,存儲版本, 運營商版本,安全版本。


圖3.10 Cavium ThunderX 框架圖


Anandtech有個非常不錯的性能測試,有助於對 Cavium ThunderX的理解。


3.4   BroadcomVulcan ThunderX2


這是很糾結的一節。如果說Broadcom Vulcan,那是2016的左右的事情。如果說Cavium 的Thunder X2 那是2018年的產品。然後就迅速變成了Marvell的ThunderX2。本來是同期規劃的產品,結果,各種曲折離奇的竟然二合一。有的時候,我都不相信,我們這個產業,也有這麼多戲劇化的故事。


說起來,源自RMI的Broadcom的CPU設計團隊,和Cavium的CPU設計團隊,有好多共同點,都是MIPS系的,都是做網絡出身。但是跟Cavium老是做2 issue小核不同,Broadcom團隊從一開始就擅長做多線程。因此在規劃的時候Vulcan就是逆天的4線程。此時ARM陣營裡,還沒有多線程的處理器呢。


Broadcom原先的設計目標是16nm,die size 600 mm2,32核,每核4線程,支持雙P系統。被Cavium收購之後,die size未披露。


最高配的CN9980,32核,2.5Ghz,TDP 200W。2.2Ghz,180W的CN9980,價格在 $1795,而16核的CN9960,1.6 Ghz,75W售價 $800


而它的目標市場,或者說可見的design win集中在HPC市場。


圖3.11 ThunderX2的框架圖


圖3.12 ThunderX 2 布局


圖3.13 ThunderX2 IO接口


3.5   Qualcomm 2017


在2017年高通向市場推出原代號為「Amberwing」的48核10nm的Centriq 2400的同一周,高通公司接到了博通公司的$130收購要約。


據估計,這顆Centriq 2400,歷時4年,花費在 $100M到 $125M,幾百名工程師的投入。期間,高通還做了一款24核的Centric 1200作為測試原型。


Centriq 2400有18Btransistors,398mm2,三星的10nm工藝,比thunderX2小巧多了。雖然它是單P處理器,但是對多年多代伺服器發展規律,這本來不成問題。


圖3.14 Centriq 2400


圖3.15 Centriq 2400的微架構對比


圖3.16 Centriq2400的框架圖


這顆含著金鑰匙出生的晶片,一路順風順水的到tape out,直到那位叫Hock Tan 的黑天鵝的出現。


從價格功耗表上看,Centriq2400的定價與ThunderX2基本一致。


Centriq 2400的CPU核名字為「Falkor」的自研核。最高2.6Ghz,是高通的第五代自研核。如果有的話,下一代核是「Saphira」 ,晶片的名字叫「Firetail」。但是沒有然後了,高通取消了伺服器晶片項目,也標誌著第二輪Arm伺服器的浪潮的尾聲。


3.6   Samsung(2012-2014)


主線寫完,支線也要寫。


Samsung的Arm 伺服器的故事,在國內知道的人少,但是上過華爾街日報的。Samsung也從來沒有官宣過,整個項目起的時候,大家是猜測,滅的時候,大家也都是傳聞。


2007年 Samsung在Austin投資$3.5b建工廠,2010成立Samsung Austin Research Center,開始招晶片設計工程師,然後招了一位AMD的VP做Austin的VP。大家的猜測是伺服器晶片也在這個Austin研究中心的計劃中。


其實,Samsung進入伺服器SoC設計的邏輯可以和高通很接近,但是當時高通有CEO的支持,還有那樣的黯然收場,而一家韓國公司的美國分支部門,想撐起一個大伺服器晶片的設計,有多困難,可以想像。


3.7   Nvidia Project Denver 2011-2014


Nvidia是一個我非常尊敬的公司,也是矽谷現存的仍然是創始人做CEO的極少數公司了。但是這一章,我寫了幾次,都寫不下去。大約是Nvidia仍然是GPU為主線的公司,它的CPU的發展邏輯,屬於面向應用規劃的那种放飛型。

這是一個從Tegra開始,到Carmel,集成Arm CPU在複雜功能晶片的路徑。 其實,看起來更像是系統公司的晶片規劃路徑。因為本文集中在通用伺服器晶片的分析,否則Nvidia家的產品路線,絕對值得一個完整的大章分析。 


圖3.17 Tegra Arm CPU


圖3.18 Eegra K1


圖3.19 Carmel CPU


3.8   Balkal


俄羅斯的第一顆28n晶片BE-M1000,其實不應該算在伺服器類,不過它涵蓋了工作站。這個晶片公司跟日本的Fujitsu,中國的飛騰,一樣都是從超算項目中孵化出來,獨立運作,更注重商業成功一點。


我當年是看過他們計劃的超強路標的。但是從路標到產品落地,這中間的三五年的時間,太多變數,因此風消雲散的多了。


說到做晶片這事,這是超算的同志們的傳統強項。前面說到的某個伺服器SoC,其實也來自於超算市場的推動。後面,我會說到歐洲,歐洲的同志們也開始發奮圖強要自己動手做晶片了。


圖3.20 Balkal BE-M1000


3.9   Phytium


飛騰的晶片的公開信息,來自hotchips 2015。最新的路標,來自飛騰總經理竇強2019年12月19日的公開分享。


恕不展開。


3.10    HiSilicon 1616


海思的1616是鯤鵬920的前一代,比較低調的一代。華為官網上沒有介紹。我也就不放任何外網資料。


關於海思,我覺得可以按照《明朝那些事》的風格寫部史詩級的著作,再補一個《海思群雄譜》的人物傳記做後傳。文科生寫像海思這種公司,寫不出氣勢,得我這種理工科的文藝青年。萬事俱備,就差兩件事就可以動手,一是海思宣傳部預付的稿費,當然網友眾籌也可以考慮, 二是要等我退休哈。


3.11    Socionext


Socionext這顆"SynQuacer™" SC2A11大約是唯一一顆Cortex-A53的24核晶片了吧?


圖3.21Socionext SC2A11框圖


這顆晶片,不能光看晶片,要看系統設計。


圖3.22Socionext SC2A11伺服器系統


這種小核,高密度系統,有相似感覺了吧?那個時代的設計。


3.12    私評尾聲


2012-2014這幾年,我飛臺灣飛到吐血。我在我的硬碟了找到一份當時的資料。當時臺灣的業界有個說法,ODM Direct模式改寫產業鏈生態。ODM Direct 模式確實立住了,但是生態系統中的強者並不是ODM,是End Users,是那些個寫著我們可以控制從power grid 到gate的Hyperscale們。 


第二波浪潮還是半導體業界和系統廠商推動的,那麼第三波,就是終端用戶自己下海弄潮了。


Drew Henry(建議大家去讀讀他在Linkedin上的簡介,堪稱高管簡歷模版)這個男人也是要在Arm 伺服器歷史上留下名字的。在他加入Arm一年之後,2018年10月 Arm Tech上,他宣布Arm在Infrastructure 市場上有了自己的品牌(Neoverse)和冰公布了每年一代,每代提升30%的路線圖。


這是第三波浪潮的開始,只是深水靜流,那個時候,世界還是靜悄悄的。


而我還記得為了湊齊發布會上的那些大廠logo的那些瑣碎工作,還有夥伴們的給力支持。


圖4.1 Arm NEOVERSE路標


4.1   Huawei Kunpeng 920 


2019年1月7日,有大徐總之稱的徐文偉發布了鯤鵬920。


我只放我覺得重要的公開圖,怎麼解讀,就看各位自己了。


這是顆世界先進級的產品,無論哪個方面,包括關注的熱度。


圖4.2 鯤鵬920的發布會圖


圖4.4 鯤鵬920 4P互聯圖


4.2   AWS Graviton2


圖4.5 Graviton1 & Graviton2


即使2018年11月AWS發布了Graviton,並且用Neoverse稱呼了這個16個cortex A72 的自製晶片。世界並不震驚。現在看,16核A72 16nm@2.3GHz,確實更像是試水。


特別是看看2017年AWS發布的也是由2015年收購的以色列創業公司Annapurna labs團隊開發的Nitro晶片。


但是2019年的AWS Graviton 2就是驚豔級別的產品了。64核 Neoverse N1,30 Billion transistors,7nm的工藝,推測die size應該在 300-350mm²,官宣高於Intel Xeon-based 5th代處理器40%的性能,還有高達25 Gbps的網絡帶寬和18 Gbps of 優化EBS的帶寬。


圖4.6 SPEC cpu 2017


圖4.7 AWS Graviton2支持的EC2


4.3   Ampere QuickSilver 2019


Ampere順著AWS的graviton的正面風潮,透露了7nm 80核N1 代碼名字為QuickSilver的下一代計劃。最亮眼的是新晶片支持2 socket的配置,這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力。


圖4.8 Ampere產品路標


除了讓人覺得帥到炸裂的80核N1設計之外,QuickSilver擁有128 PCIe4 lanes這樣的豪華配置。還是Nividia家CUDA-on-ARM的核心夥伴。


這是我2020最期望的一顆晶片,畢竟能買到啊,AWS的graviton只能買雲服務。


4.4   MarvellThunderX3


接著AWS的熱度,公布自己下一代計劃的不僅僅有Ampere,還有我們的老牌公司Marvell,因此我們知道了ThunderX3 processor的自研核的名字是「Triton」,還看到了每兩年一代,每代性能翻倍的強勁產品路標。


圖4.9 ThunderX 路標


圖4.10 ThunderX3的增強部分


4.5  Fujistu A64FX 2016


最喜歡的要放到最後。我的同事,在跟與一位夥伴討論memory選擇的時候,說「高吞吐,大容量和便宜三者之間,你只能選兩個」,這句話非常有哲理了,如果有三項都可以兼顧的方案,大家就不糾結了。有糾結,肯定是有難選的地方,我個人偏好那種「除了貴,沒別的毛病」的方案,但是請放心,給夥伴推薦的時候,我絕對不會表露這種個人傾向性的。


富士通的這款A64FX其實不是伺服器晶片,是用來做超算的,恰恰就是那種「除了貴,沒別的毛病」的產品。


2016年arm宣布了ArmV8的指令集擴展SVE- Scalable Vector Extension,國際慣例,一個大客戶會出來站臺,這就是是Fujistu-富士通,它的Post-K,傳聞中拿了$1.24 billion日本國家資金的超算項目,會採用Arm架構,而不是他們以前的SPARC。而且A64FX是第一款支持SVE的Arm處理器。


 圖4.11 A64FX的緩存層級和速度


2018年富士通在hotchips上公開介紹了A64FX這顆晶片。先看硬參數:8.8 billion transistors (這個不算多,AWS Graviton2 有30B) ,7nm。48個自研核加上4個同質的管理核,其實是4個處理器cluster,每個cluster是13個核。核間互聯是自研的第二代TOFU -6D mesh/torus片上網絡(第一代TOFU的口碑超級好),配的32GB HBM2 (超豪華配置),16PCIe 3.0 lanes (這個不算多,估計也不想接什麼外設),1024 GB/s的存儲帶寬,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能。Nvidia Tesla P4和P40,在8bit整數的時候,分別是22 TFlops和47TFLOPS,頗有一拼。


A64FX的cache層級,吞吐很高,執行流水線,電源管理,RAS都很有特色,有興趣可以讀一下hotchips的文檔。


圖4.12 A64FX的floorplan


圖4.13 Fugaku節點(液冷的)


A64FX這種強悍的性能,可以不用和GPU組合,因此Cray在和富士通合作,把A64FX做進 CS500 clusters和未來Shasta系統中。

 

4.6  其它的新入者


2019年11月,一家叫Nuvia的創業公司,在SC會議期間,浮出水面。這家公司創始人的背景,蘋果的訴訟,立刻登上了頭條。沒有產品之前,讓我們記住他們的口號"deliver industry-leading performance and energyefficiency for the data center" 。


歐洲處理器聯盟-EPI (https://www.european-processor-initiative.eu/project/epi/)也是一個以設計伺服器級的CPU為目標的努力。不多說,看路標。

圖4.11 EPI路標圖


我在試圖回答Arm為什麼要做伺服器的時候,我能想到的就是「先進生產力」這5個字。什麼叫先進生產力, Frank Frankovsky,Facebook VP of Hardware Design and Supply Chain Operations 也是個要有名字的男人。他提出 the most useful work per watt per dollar。真正能用上的算力除以買伺服器花費與運營伺服器所花的電費就是這個伺服器的代表的生產力,這個值標誌了先進性。


延伸一下,對產業鏈上的人就是the total useful work per total investment,提供有用計算力除以總投入的資金(時間,工程師的智慧與心血),這就是這個技術/方案/ISA/產品的生產力是否先進的指標。這也是我寫這篇編年史的一條暗線,多少投入,第三波浪潮會帶來多少產出。


真正的先進生產力,是屬於全世界的,也是全世界共同努力的結果。


先進的產品是一行行的代碼,一個個wafer累積出來的。


祝大家2020萬事如意。


1.https://techcrunch.com/2010/11/15/smooth-stone-renamed-calxeda/
2.https://www.nextplatform.com/2019/12/10/looking-ahead-to-marvells-future-thunderx-processors/
3.ARM Servers Keynote: Ian Ferguson and Mark Shuttleworth at Computex 2012 https://www.youtube.com/watch?v=LhZ2SOdjLK0
4.https://www.lightwaveonline.com/network-design/packet-transport/article/16663424/ezchip-samples-np3-npu
5. https://people.ucsc.edu/~warner/Bufs/NP-3.pdf
6. https://llvm.org/pubs/2006-01-LabrecqueMSThesis.pdf
7.https://www.networkworld.com/article/2171235/arm-servers-with-64-bit-calxeda-chips-to-ship-next-year.html
8.https://www.datacenterknowledge.com/archives/2014/12/26/taiwanese-firm-buys-defunct-calxedas-arm-server-ip
9. https://www.tsmc.com/download/ir/annualReports/2008_Business_Overview_E.pdf
10.http://www.redbooks.ibm.com/redpapers/pdfs/redp4440.pdf
11.https://www.arm.com/company/news/2018/10/announcing-arm-neoverse
12.https://www.linkedin.com/in/drewhenry/
13.https://aws.amazon.com/ec2/graviton/
14.https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/
15.https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/
16.https://www.datacenterknowledge.com/hardware/ampere-gears-launch-7nm-80-core-arm-chip-cloud-data-centers
17.https://www.extremetech.com/computing/240821-qualcomm-begins-sampling-48-core-10nm-server-processor-market-ready-arm-based-servers
18.https://www.theregister.co.uk/2012/10/17/calxeda_arm_server_chip_roadmap/
19.https://www.nextplatform.com/2016/01/15/clever-ethernet-switching-rises-from-calxeda-arm-ashes/
20.https://www.marvell.com/embedded-processors/armada/armada-xp/
21.https://www.anandtech.com/show/5098/applied-micros-xgene-the-first-armv8-soc
22.https://www.nextplatform.com/2019/12/13/amping-up-the-arm-server-roadmap/
23.https://www.techspot.com/news/50656-arm-announces-64-bit-cortex-a57-and-cortex-a53-processors.html
24.https://www.extremetech.com/computing/120601-amd-buys-seamicro-starts-selling-intel-based-servers
25.https://www.extremetech.com/computing/277242-ampere-emag-64-bit-arm-server-platform-targets-intel-data-centers
26.https://www.extremetech.com/computing/269004-qualcomm-reportedly-plans-to-exit-server-business
27.https://www.extremetech.com/computing/259036-early-qualcomm-server-cpu-benchmarks-mean-big-trouble-intel
28.https://www.extremetech.com/computing/245496-qualcomm-announces-partnership-microsoft-48-core-falkor-cpus-run-windows-server
29.https://www.extremetech.com/extreme/221282-amds-first-arm-based-processor-the-opteron-a1100-is-finally-here
30.https://en.wikichip.org/w/images/3/34/408-X1_PB.pdf
31.https://fuse.wikichip.org/news/776/x-gene-3-gets-a-second-chance-at-ampere-with-a-new-32-core-16nm-arm-processor/
32.https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.430-X-Gene-Singh-AppMicro-HotChips-2014-v5.pdf
33.https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.410-Opteron-Seattle-White-AMD-HotChipsAMDSeattle_FINAL.pdf
34.http://web.archive.org/web/20171220191139/https://www.cavium.com/product-thunderx-arm-processors.html
35.https://www.anandtech.com/show/10353/investigating-cavium-thunderx-48-arm-cores
36.https://fuse.wikichip.org/news/1316/a-look-at-caviums-new-high-performance-arm-microprocessors-and-the-isambard-supercomputer/
37.https://www.nextplatform.com/2017/11/08/qualcomms-amberwing-arm-server-chip-finally-takes-flight/
38.https://www.nextplatform.com/2017/12/06/deep-dive-qualcomms-centriq-arm-server-ecosystem/
39.https://www.nextplatform.com/2017/12/12/battle-datacenter-compute-qualcomm-centriq-versus-intel-xeon/
40.https://www.nextplatform.com/2018/05/10/what-qualcomms-exit-from-arm-server-chips-means/
41.https://www.kitguru.net/components/cpu/anton-shilov/nvidia-and-samsung-drop-development-of-server-class-arm-chips/
42.https://www.anandtech.com/show/8357/exploring-the-low-end-and-micro-server-platforms/18
43.https://www.firstpost.com/tech/news-analysis/samsung-developing-arm-based-server-chips-3605711.html
44.https://www.baikalelectronics.com
45.http://www.prace-ri.eu/IMG/pdf/Best-Practice-Guide-ARM64.pdf
46.https://www.socionext.com/en/products/assp/SC2A11/
47.https://semiaccurate.com/2011/08/05/what-is-project-denver-based-on/
48.https://www.anandtech.com/show/15253/80core-n1-nextgen-ampere-quicksilver-the-antigraviton2
49.https://www.nextplatform.com/2019/11/13/a64fx-arm-chip-gets-a-big-push-from-cray/
50.https://community.arm.com/developer/tools-software/hpc/b/hpc-blog/posts/technology-update-the-scalable-vector-extension-sve-for-the-armv8-a-architecture
51.https://www.eweek.com/servers/fujitsu-chooses-arm-over-sparc-for-its-next-supercomputer


——  End —— 


:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。本文轉自《企業存儲技術》,微信公眾號:HL_Storage

相關焦點

  • 曝微軟將仿效蘋果自研ARM晶片,用於Surface和伺服器,英特爾股價應...
    但有消息稱,微軟將為伺服器和PC設計自己的晶片。 繼蘋果之後,微軟也宣布將自己設計晶片。 早在2018年,就有報導稱微軟曾考慮在最初的 Surface Go 中使用基於ARM的晶片,但在英特爾請願反對這一想法後,微軟最終選擇了不這麼做。
  • 科普:同樣涉及晶片,ARM、高通、英特爾、臺積電有什麼關係?
    英特爾、ARM、AMD、高通、聯發科、臺積電、三星都是晶片相關企業。ARM與臺積電業務最簡單,一個負責移動端處理器架構設計,一個負責晶片代工。聯發科和高通類似,主要以Soc晶片設計為主,不過高通手上專利要更多一些。
  • 優秀品質浪潮 英信NF5220伺服器西安現貨
    (中關村在線陝西行情)浪潮英信NF5220(Xeon E5606/2GB/300GB/24*HSB)是一款基於「IFA效能動三角」產品設計理念推出的2U雙路伺服器另外,浪潮英信NF5225還採用了Intel 5520+ICH10R主板晶片組,提供有多個擴展插槽,方便日後升級。
  • 鯤雲攜手浪潮推出數據流AI伺服器,打造最具算力性價比的智能計算平臺
    搭載全球首款定製數據流AI晶片CAISA,最高可實現95.4%的晶片利用率,僅用1/3的峰值算力實現了同類產品最高4.12倍的實測性能,延時低至3ms,同浪潮伺服器完成了適配,在智能製造、智慧城市、智慧交通等垂直領域表現優異,已經實現了規模化量產和批量出貨。
  • 濟南浪潮英信NF5280M5伺服器現貨熱銷
    浪潮英信NF5280M5能更加直觀、快捷地顯示伺服器上電時序進度,為伺服器調試帶來了便利;使管理人員可快速確定需維護的設備,大大減小管理員的工作壓力。標配白金電源PURLY,性能強勁,其穩定創新的底層設計,配合精準的氣流導向及風扇調節機制,造就了浪潮英信NF5280M5伺服器的穩定可靠。
  • 從晶片到伺服器,歲末年初人事「地震」欲何為?
    2020年末到2021年初,還沒從中芯國際CEO、著名晶片技術帶頭人梁孟松提出辭職緩過神來,又聽到了浪潮換帥的消息,緊接著是依圖CTO顏水成離職,最新消息是梁孟松似乎還留在中芯國際,但獨立非執行董事叢京生經公司確認是離職了。這些人事「地震」是否偶然為之,還是具有一定的必然?將會給中國數據智能領域帶來什麼樣的影響?在遍地網際網路中間商中,到底能不能出現真正的原創型企業?
  • 彭博社:微軟正在自研 ARM 晶片,在 Surface / Azure 伺服器中拋棄...
    如果屬實,這將是微軟自家晶片首次為 Surface 產品提供核心支持——因為此前微軟一直堅持使用英特爾、高通以及最近的 AMD 處理器。「因為 Silicon 是技術的基礎構件,所以我們正在繼續投資於自研設計、製造和工具等領域的能力,同時也在促進和加強與眾多晶片供應商的合作關係,」微軟發言人 Frank Shaw 表示。據報導,微軟自研 ARM 晶片是由 Azure 雲業務負責人 Jason Zander 領導,該公司近年來加大了對處理器設計師的招聘力度。
  • 浪潮攜手燧原科技推出超強邊緣AI推理伺服器
    北京2020年12月23日 /美通社/ -- 12月21日,浪潮邊緣計算伺服器NE5260M5宣布對燧原科技全新發布的人工智慧推理加速卡「雲燧i10」完成兼容適配與深度優化,可根據客戶需求支持2-4張雲燧i10,為邊緣AI推理應用如自動駕駛、智慧交通、ETC識別、精密儀器預測性維護、AI工業質檢等場景提供強大算力支持,最高性能可達每秒
  • Arm64架構處理器的TS-532X如何安裝jellyfin、emby、plex伺服器
    最近玩NAS的人都挺喜歡折騰多媒體伺服器的,最典型的三個伺服器就是jellyfin、emby、plex了,這也是NAS的一大樂趣。以前自己存儲了電影,都只是用電視盒子的解碼器來播放,很強大,也不需要NAS有什麼解碼轉碼功能。
  • 中科曙光旗下海光晶片已向國內伺服器廠商供貨 未來或...
    《科創板日報》(上海,記者 徐傑)訊,今日(7月1日)午間,有媒體報導稱,國內雲計算伺服器龍頭公司浪潮集團被列入美國出口管治名單,英特爾產品出口至浪潮的產品在6月29日子夜11:59暫停。
  • 臺積電+arm在前,國產晶片出路在哪裡?
    過去一年來美國對華為的制裁引發了所有人的思考,沒有臺積電這樣的晶片製造企業,沒有arm這樣的IP授權企業,沒有美國的EDA,國產晶片的出路究竟在哪兒?日本的教訓根據IC Insights的最新數據,2020年第一季度華為海思以54%的同比增長率從去年的第15名衝入了前十,成為史上第一家機身半導體銷售額排名前十的中國大陸廠商(26.7億美元)。
  • NVIDIA CEO黃仁勳:有信心獲得中國批准 可能推出ARM伺服器晶片
    目前最大的不確定性來自中國監管部門,中國是全球最重要的ARM晶片市場,沒有之一,大量中國公司使用ARM授權,被美國公司收購之後影響很大。NVIDIA之前承諾,ARM將繼續運營其開放許可模式,同時保持全球客戶中立性,這是其成功的基礎。
  • 浪潮信息,「囤貨」風險泰山壓頂
    2019年,浪潮x86伺服器市佔率超10%,蟬聯全球第三,成為全球前五排名中增速最高的伺服器廠商;在中國市場,浪潮x86伺服器市佔率超34%。在中國Non-X86伺服器市場,浪潮市場份額一直保持在50%以上。AI 伺服器連續三年以過半市場份額的絕對優勢位居中國市場第一。
  • 傳說中業界性能最強的ARM CPU原來是它!
    伺服器CPU。該晶片組集成了8通道DDR4,並且內存帶寬超過現有產品46%。通過兩個100G RoCE埠,使得系統集成也得到了顯著提高。華為鯤鵬920支持PCIe 4.0和CCIX接口,共提供640 Gbps。此外,單槽速度是現有產品的兩倍,有效地提高了存儲和各種加速器的性能。
  • 燧原科技進軍AI邊緣領域,攜手浪潮推出邊緣AI推理伺服器
    2020年12月23日,中國上海——燧原科技繼前日發布首款人工智慧推理產品 「雲燧i10」,又宣布攜手浪潮,共同推出基於雲燧i10的浪潮邊緣計算伺服器「NE5260M5」。搭載雲燧i10的浪潮邊緣計算伺服器NE5260M5雲燧i10是一款面向雲端數據中心的高性能推理卡,單槽位標準卡,支持PCIe 4.0,FP32算力達到17.6TFLOPS,BF16/FP16算力70.4TFLOPS。
  • AMD(AMD.US)和Arm伺服器晶片營收猛增,英特爾(INTC.US)地位不穩?
    當下,AMD(AMD.US)的EPYC Rome CPU正慢慢地蠶食英特爾(INTC.US)數據中心處理器的市場份額,據IDC的最新報告顯示,基於AMD處理器的伺服器同比增長了112.4%。同時,ARM處理器也以每年430.5%的年增長率快速增長,從競爭對手的x86晶片上搶走了份額。需要注意的是,新生態Arm仍然只佔市場的一小部分。
  • 伺服器內有種很齊很齊的波叫「寧暢波」
    提起電磁波,總讓人聯想到電視機的雪花屏以及廣播的沙沙聲。原本強度、頻率整齊的電磁波,因各種幹擾變得不穩定導致視聽不暢。  在電子設備中,這種不穩定電磁波形成的高能波峰,便成為EMI(電磁幹擾)對周邊設備造成耗損。EMI一直被視為電子設備的隱形殺手,相比一般使用環境及產品結構。
  • 鯤雲攜手浪潮推出數據流AI伺服器
    近日,鯤雲科技攜手浪潮基於星空X3加速卡推出新一代的數據流AI伺服器,定位高性能圖像視頻智能分析的AI計算加速,支持智慧城市、智能製造、智慧油田、智慧工地、智算中心等典型AI應用場景,這是雙方「元腦生態計劃」戰略籤約後推進的最新合作。
  • 浪潮掀起開放數據中心「浪潮」
    在能源配套方面,隨著晶片集成度越來越高,數據中心硬體節點功耗越來越大,需要節省電力。中國開放數據中心領域也在積極引入48V直流供電。而ODCC中通過開放浸沒式液冷技術,已經可以幫助數據中心的PUE降到1.1,甚至接近1的水平。而在IT設備硬體的關鍵——伺服器方面,行業推進伺服器資源池化卓有成效,有力提升數據中心使用效率。諸多行業企業從開放數據中心中獲益。
  • 浪潮2U NF5280M5伺服器促銷價38000元
    浪潮英信伺服器NF5280M5是一款2U機架伺服器,近日在商家「億通陽光(浪潮授權代理商)」優惠促銷,售價38000元,商家提供全國順豐包郵,並贈送衝鋒衣1件(隨機)。浪潮英信伺服器NF5280M5採用了全模塊化設計,存儲、IO、異構模塊隨需搭配,可提供30多種應用配置。在2U機箱狹小的空間內可容納高達20塊3.5"硬碟,內置2塊M.2硬碟,實現存儲存儲模塊的個性化選擇。