世界最強超算晶片Fujitsu A64FX:繼承於SPARC64架構的Arm超級處理器

2021-01-18 EETOP

EETOP創芯網(易特創芯):國內著名的老牌電子工程師社區及半導體行業門戶網站(150萬會員)

www.eetop.cn bbs.eetop.cn

blog.eetop.cn edu.eetop.cn

來源:EETOP綜合整理自technews   作者:痴漢水球

最近ARM指令集相容處理器佔據不少新聞版面,除了千呼萬喚始出來、預定兩年內完全取代英特爾處理器的Apple Silicon,再來就是引起不少討論、先後在2019年11月Green500和2020年6月Top500奪下榜首的日本理化學研究所超級電腦「富嶽」(富士山的別稱)的關鍵技術核心:Fujitsu A64FX處理器。

整體來看,無論從哪個角度觀察,這應該是目前最高端的ARM 指令集兼容處理器了。其實Fujitsu 早在2018 年夏天的處理器業界盛事IEEE HotChips 30,就公開A64FX 的技術細節(其中部分內容更在4 月就先行披露),本質算是「電腦的語言」指令集架構從SPARC-v9 轉換成ARM-v8.2-A 的SPARC64fx 處理器(因衍生於高端伺服器專用的SPARC64,也繼承了諸多類似特色,如大型主機等級的數據可用性),採用臺積電7 納米製程生產,主存儲器使用近來因高端圖形晶片逐漸普及的HBM2,和運算核心由臺積電的2.5D 封裝CoWos 技術封裝成一顆,毋需外部的存儲器顆粒。講更精確點,Fujitsu A64FX 是「針對超級電腦量身訂做的ARM 指令集系統單晶片 SoC」(System-on-Chip,SoC),其概念更可追溯於2004 年11月,一舉趕下雄踞「世界最強超級電腦王座」超過兩年半(2002 年3 月到2004 年11 月)地球模擬器(Earth Simulator)的IBM BlueGene/L,體積僅有容納1,024 個運算節點和8TB 主存儲器的16座機櫃,反觀地球模擬器動用640 個運算節點,總共5,120 顆NEC SX-6 向量處理器和10TB 主存儲器,多達320 座運算機櫃,彰顯了追求建造速度的獨到思維與異質功能融合的潛在威力。後來勞倫斯利佛摩國家實驗室(LawrenceLivermore National Laboratory,LLNL)的BlueGene/L 持續擴充到104 座機櫃(478TeraFlops,峰值596TeraFlops),2008 年6 月被同樣出自IBM 的洛斯阿拉莫斯國家實驗室( Los Alamos National Laboratory,LANL)的Roadrunner 超越,穩佔Top500 首位長達3 年半之久。後者是人類史上第一臺效能達1PetaFlops 的超級電腦。那年剛好微處理器論壇(MicroprocessorForum)首次在臺灣舉辦(新竹煙波大飯店),IBM 也在活動議程裡,充分闡述BlueGene/L 的技術細節與設計理念,筆者有幸坐在臺下躬逢其盛,富嶽和FujitsuA64FX 則讓筆者回憶起歷歷在目的往事。

於「日用品」堆砌超級電腦以外的另類系統單片路線

「世界最快的超級電腦」不但是國家科技能力的重大象徵,更是科技強權之間的國力較量,根據國家的Top500 進榜數與總效能「圓餅圖」,比重與趨勢或多或少反映了國家的影響力。前述的富嶽超級電腦,相關費用總計1,300 億日圓,其中1,100 億日圓由日本納稅人買單,日本政府「宣揚國威」的強烈動機,不言可喻。


自從個人電腦與集群運算環境(Cluster)普及後,超級電腦業界逐漸從特別客制化且量少價高向量處理器、系統控制與存儲器晶片,朝向採用市售的「日用品」(Commodity)或系出同源的衍生產品(如nVidia 的高階運算用GPU),除了降低購置與維護成本,亦可進一步提高超級電腦的可靠性與可用性。

也因此,Top500 清單早是滿滿一整排英特爾處理器與nVidia 加速卡(與很少的AMD 產品,以及根本沒有未來的英特爾Xeon Phi),偶見IBM 的高端Power 處理器與Fujitsu 的SPARC64fx。

畢竟不計成本導入特製化零件與特殊半導體製程(甚至像Cray-3和Fujitsu VPP500 還用到砷化鎵這麼獨特的材料)的「高階試作品」,自然遠不如消費性市場隨手可得的「成熟量產品」可靠。過於特殊的專屬規格處理器,也限制了應用軟體和開發平臺的選擇性,提高開發軟體的時間與成本。反之,投奔「開放規格」,即可享受到更多樣化的開源社群資源,並因更頻繁的技術交流,而加速技術演進。

但超級電腦市場較量的重點,並不只限於帳面效能和耗電,「研發時程」和「建造速度」也同樣舉足輕重。這也是IBM BlueGene/L 在十多年前可在超級電腦領域獨領風騷的秘密:延續現有Power處理器的研發成果,打造高度系統單晶片化的運算節點,實現更高的空間利用密度和更快的系統組裝速度。FujitsuA64FX 更承襲相同的思維,並藉由臺積電被眾多客戶千錘百鍊後的成熟製程、研發資源豐富的ARM 生態圈、拜顯示晶片市場之所賜而便宜可靠的HBM 存儲器,青出於藍勝於藍,相隔近16 年,重現系統單晶片一次奪下Top500 榜首的榮景。

相信熟悉超級電腦的讀者或許會想起,當時那臺IBM 與Livermore 實驗室合作的BlueGene/L 測試機,並非徹底施工完畢的超級電腦(這讓日本人頗不以為然),但在Livermore 國家實驗室,確實有部分應用程式跑在上頭,並打敗了地球模擬器保持的紀錄。問題來了,為何IBM 可以用這麼快的速度(當時可是震驚世人),建好一臺世上最快的超級電腦?

2004 年,BlueGene/L 可謂世界最大的嵌入式微處理器集合,揭示了「大處著眼,小處著手」觀念,將系統單晶片的價值,從微型系統帶到極大規模的超級電腦,技術核心為重新設計後的雙核PowerPC 440,具低耗電量和低發熱量等特點。利用諸多今日我們耳熟能詳的系統單晶片特色的BlueGene/L,有以下特點:

超級省電:相同的運算量,這臺BlueGene/L耗電量僅NEC地球模擬器的二十八分之一,自然也降低了發熱量。簡單清楚的系統架構:BlueGene/L不再有一大堆糾纏如「新竹米粉」的五顏六色線路和多如牛毛的網絡匯流排控制器,易於安裝與維護。快速完成產品設計:利用現有研發成果,透過系統單晶片整合額外功能,不必重新設計每個元件,可迅速兜成產品。即使這算是「專屬規格晶片」,但意義卻和過去不惜血本的燒錢做法截然不同。

BlueGene/L 的架構相當單純:


兩顆處理器晶片組成一張運算卡(Compute     Card),上面附有512MB 容量DDR 存儲器,耗電量只有20W。16 片計算卡構成一片節點卡(Node Board),32 個處理器晶片(64 核心),提供180GigaFlops 理論計算能力,8GB 存儲器。32 片節點卡裝在同一臺機箱,提供5.7TeraFlops     與256GB 存儲器。整個系統最大組態為65,536 個節點卡(64 個機箱),當全部處理器都設定成計算模式時,有高達360TFlops 的峰值運算量(2004 年底那臺是70.72TeraFlops)和16TB 存儲器。


所謂的超級電腦,就是指具巨大平行運算量的系統(有別於追求頂級可靠性和極致軟體相容性的商用大型主機),大多數並行處理程序,都必須在執行每個小單元,參考之前的單元計算結果,或是傳送結果到其他執行單元,帶來巨大的資料傳輸量。超級電腦的開發者幾乎都將一半精力耗費在資料傳輸網絡的設計。

BlueGene/L 系統組成極端乾淨,處理器晶片內建5 種功能相異的網絡控制器,讓不同類型的工作分而治之,只需要板子上的連接點組成整個系統,你也看不到拉來拉去的排線和到處安插的匯流排網絡控制器:

3D Torus網絡:每顆晶片有6個方向傳送資料到整個系統,具流量監控、計算最佳傳送路徑的功能。處理中斷與系統問題的低延遲高速網絡(Global     Barriers and Interrupts)用來進行一般I/O和檔案存取的Gigabit乙太網絡用來控制開機與設定的控制網絡(Control     Network)


為何IBM 要讓BlueGene/L 同時用5 種網絡架構?起因於IBM 並未為了這臺「速食」超級電腦設計專用作業系統,直接修改Linux 來用,並BlueGene/L 是每顆運算節點(一顆處理器)都是獨立電腦的「Multicomputer」型態,單靠3D Torus 網絡不足以保證在最短時間內即時傳送所有資料,特別是和計算無關的控制管理訊號,所以動用多種拓樸網絡以保證面面俱到,是很正確的手段。

同場加映更誇張的設計:Sun 曾競標美國國防部先進研究計劃署(Defense Advance Research Projects Agency,DARPA)於2002 年初開始的High Productivity Computing System,日後更名為PetaFLOPS 的超級電腦計劃(略早於NEC 發表地球模擬器),提出驚世駭俗的「Hero」計劃,引進「Proximity Communication」研究成果,透過晶片彼此相鄰的「超高速無線傳輸」(別懷疑),一舉解決頻寬延遲的瓶頸和系統組裝的麻煩。很可惜這案子由IBM 和Cray 擊敗Sun 共同得標,無緣讓世人目睹這令人嘖嘖稱奇的世界奇觀。

雖然超級電腦的可靠性要求不如商業大型主機嚴謹,但看在巨大資料傳輸量的份上,假若自己的家用個人電腦可能一年內因一次訊號錯誤當機,套在超級電腦就可能變成一小時一次了。

也因此,IBM 在BlueGene/L 引入許多除錯技術,由小到大,從晶片(所有存儲器皆受到ECC 保護以修正單位元錯誤)到系統(所有節點和網絡都有自我錯誤監測,而最重要的3D Torus 網絡則動用超過4 種數學除錯方式以保障資料傳輸的正確性)。當然,低發熱量的系統單晶片,也降低超級電腦因過熱而不穩的可能性。

承繼IBM BlueGene/L 精神的Fujitsu A64FX

這些年來,伺服器大廠紛紛放棄開發自家處理器,改投向「開放系統」的懷抱,但Fujitsu 仍持之以恆研發高端處理器,如GS 系列大型主機、Unix 伺服器的SPARC64、因2011年「京」 (K-Computer)超級電腦專案誕生的SPARC64fx。

讓SPARC64fx 轉戰ARM 指令集的A64FX,堪稱三者集大成,也讓ARM 指令集兼容處理器,一步登天,擁有商用大型主機(Mainframe)的高可靠度、高端伺服器的高效能,與超級電腦最需要的低能耗比,身為「後京」(Post-K)時代的日系超級電腦心臟,性能目標是達到2011 年「京」的100 倍。富嶽搶下Top500 榜首就是成果,且計劃進度還比表訂的2021 年量產出貨提前甚多。

A64FX 主要特性如下:

ARM 的SVE 不僅「比英特爾AVX-512 更富有向量電腦的傳統風味」,也有個有趣的MOVPRFX 指令,用來彌補ARM 邁進64 位元後,為了提供32 個暫存器(需要5 位元指定一個暫存器,4 個就是20 位元)犧牲掉的FMA4 四運算元浮點乘積和(A×B+C=D)。一旦執行三運算元的FMA(A×B+C=C),會覆蓋掉一個暫存器的原始內容。

MOVPRFX 指令可預先經由前置碼(Prefix),「更名」運算目標暫存器,以保留其內容。而A64FX 的內部執行單元則會將接連的MOVPRFX 和FMA3 兩個指令合而為一,變相實作FMA4,掩蓋執行兩個指令的額外延遲。






「熱情擁抱現成資源」的弦外之音

Fujitsu 和理化學研究所在2019 年4 月15 日籤訂製造出貨安裝合約,11月富嶽試作機拿下Green500 第一名,12 月2 日就開始出貨6 個機櫃框體,全數396個在2020 年5 月13 日全部搬入理化學研究所,速度真的很快,當年IBM BlueGene/L 的「速食」風格,在Fujitsu A64FX 也一覽無遺。

況且,Fujitsu 還享用那時IBM 還體驗不到的「完整IP 授權、最佳化電子輔助設計工具與相關函式庫、專業晶圓代工」三位一體的成熟產業生態體系,大量引用「現成資源」加速產品研發與驗證,降低成本,不限硬體,一併擁抱蓬勃發展中的ARM 軟體資源,在「沿用市售標準品」和「拼死硬幹特規貨」中取得平衡點。這是Fujitsu在高效能運算處理器的「語言」,放棄SPARC 轉向ARM 背後最重要的弦外之音。

最後,順帶一提,如果臺積電繼續維持製程優勢,英特爾真的還有機會追上來嗎(官方預定2021 年7 納米、2023 年5 納米、2025 年3 納米、2027 年2 納米、2029年1.4 納米)?還是昔日傲視世界的半導體製造能力,將就此遭到毀滅性的打擊?值得拭目以待。

資料推薦

點擊閱讀原文進入eetop微信後臺,輸入「晶片」獲取!

相關焦點

  • 基於Arm A64FX 富士通完成Post-K超算設計
    日前,富士通和日本研究機構Riken宣布,將於2021年推出的Post-K超級計算機的設計已經完成,該超算的一大亮點在於使用了Arm A64FX處理器。富士通表示,A64FX將提供每個晶片超過2.7 teraflops的峰值雙精度(64位)浮點運算性能。系統每個節點有一個CPU,每個機架有384個節點。      在經過安裝調試後,Post-K超算將被移交至位於日本神戶的Riken高級計算科學研究所,正式投入使用。
  • ARM首次登頂,日本超算曆時9年重奪世界最強超算之位
    蘋果在WWDC發布會上正式宣布將在Mac電腦上採用ARM SoC晶片。無獨有偶,在最新的TOP500超算排名中,使用48核ARM晶片的日本Fugaku超算位列世界第一。 曾在2011年的時候,日本憑藉K超級計算機拿下了TOP500冠軍,是世界上第一臺每秒執行10萬億次運算的超級計算機,使用的是日本富士通研發的SPARC64處理器。去年,K超算退役。
  • Arm64架構處理器的TS-532X如何安裝jellyfin、emby、plex伺服器
    好了,扯遠了,最近入手了的TS-532X是Arm架構處理器的NAS,那麼我也想嘗試一下在這臺機器上能不能體驗jellyfin、emby、plex多媒體伺服器,以及能不能外網轉碼播放。再來看一下TS-532X的CPU,AnnapurnaLabs Alpine AL-324 64-bit ARM Cortex-A57 四核心 1.7GHz 處理器,儘管是ARM的架構,不過也是一個比較強的晶片。
  • 富士通的這顆晶片憑啥讓日本走向了世界之巔?
    在6月22日,國際超算大會發布最新一期的全球超算TOP500榜單。其中,日本超算「富嶽」(Fugaku)超越美國「頂峰」(Summit)登頂榜首。作為史上第一臺基於ARM晶片的全球超算冠軍,富嶽雖然其性能達到上屆冠軍「頂峰」的2.8倍,但仍然屬於十億億次級別超算。
  • 64 位 ARM 處理器意味著什麼?
    ARM 看到了64位節能處理器的需求,並在正式發布ARMv8-A架構(首個包含64位指令集的ARM架構)之前就早早開始了新設計的開發,還從其他選擇發展 64位技術的晶片設計廠商那裡學習到了經驗和教訓。ARM的新款64位架構具備對於旗下32位架構的全面兼容,這意味著如果處理器運行於64位系統,它就 可以運行未修改的ARMv7 32位二進位文件。對於Android來說,這意味著一旦內核被移植到64位(多虧了Linaro,它們已經如此了),系統的其餘部分,從核心庫到應用再 到遊戲,都是可以在32位或64位之間進行切換的。
  • 關於Arm 64位指令集架構(AArch64),你想知道的都在這裡
    Arm 64位指令集架構為何是行動裝置中不可或缺之構成要件,並告訴大家如何進一步獲取更為詳盡的技術指南。本文作者:David Whaley,david.whaley@arm.com翻譯校對:Nathan Li(李陳魯),nathan.li@arm.com伴隨著安卓生態系統中64位應用數量的日漸龐大,在不斷降低設備元器件成本的市場驅動力作用下,終有一天安卓平臺上會誕生一大批的純64位設備。
  • ARM 64位處理器架構ARMv8技術淺析
    當地時間10月25-27日,ARM在美國加州聖克拉拉舉行了一場技術大會「ARM TechCon 2011」,正式宣布了自己的第一款64位處理器架構「ARMv8」。ARM公司院士、首席架構師Richard Grisenthwaite隨即對新架構做了比較深入的技術講解。
  • ARM王駿超:64位處理器是高階手機的趨勢
    隨著蘋果手機iphone5s開始採用64位架構處理器,有關64位處理器的討論日趨激烈,其他廠商也紛紛跟進,難道手機處理器多核發展趨勢走錯了道路?
  • Arm晶片上季度出貨64億顆,近七成是Cortex-M處理器
    根據Arm官網發布的消息顯示,在剛過去的2019年Q4(Arm FY Q319),全球Arm晶片的出貨量達到64億顆,其中Cortex-M處理器的出貨量達到驚人的43億顆,這主要是因為嵌入式終端智能需求的爆發性增長導致的。
  • 比圖釘還小 恩智浦發布64位ARM處理器
    摘要:恩智浦半導體已推出了QorIQ LS1012A處理器,採用非常小的封裝尺寸,為消費和網絡應用提供企業級性能和安全性。該晶片針對的是依靠電池運行,但需要線速網絡功能的產品,包括IoT網關,可攜式娛樂設備,可攜式存儲設備等等。
  • 國產64核ARM處理器FT-2000亮相海外
    國際晶片研討會HotcChips(熱門晶片)本周在舊金山以南城市丘珀蒂諾舉行,作為半導體盛事,Intel、NVIDIA、AMD、ARM、SK海力士等都有參加。  據新華社報導,中國天津飛騰信息技術有限公司則帶著新品代號「火星」的FT-2000以及實機參展,3天內吸引了100位專業人士。
  • Cortex-A50:64位ARM處理器來了!
    整整一年前,ARM官方宣布了自己的第一套64位處理器架構「ARMv8」,不過直到今天,我們才見識到了第一款基於此架構的處理器產品,ARM將其命名為「Cortex-A50」系列。Cortex-A50系列首批包含Cortex-A53、Cortex-A57兩款型號,其中前者是ARM性能最高的應用處理器,號稱可在同樣的功耗水平下達到當今頂級智慧型手機性能的三倍;後者是世界上能效最高、面積最小的64位處理器,同等性能下能效是當今高端智慧型手機的三倍。
  • 高通首款八核CPU解析:64位/A53架構
    高通驍龍615晶片集成LTE和64位功能,擁有八核CPU,是高通旗下的首款八核晶片組。這顆八核晶片的發布引起了業界的高度關注,同時也帶來了很多疑問。高通為何食言,推出八核處理器?驍龍615採用的是什麼架構?以及64位處理器到底有什麼優勢?等等,今天,筆者就圍繞這些問題,和大家聊 一聊。
  • 首款64位手機處理器Cortex-A57成功流片
    【PConline 資訊】曾有人說過當手機CPU達到足夠大的時候,就會取代計算機成為人們日常辦公和生活的首選,如今這個技術被打破,近來移動最大晶片廠商ARM發布了64位處理器,真正的讓手機成為了超級計算。
  • sparc體系架構的窗口寄存器的深入理解
    1.概述 2.窗口寄存器的特性 3.程序的設計 4.sparc設計對於嵌入式編程的優劣 1.概述 sparc這種架構有著特殊的窗口寄存器,使用sparc晶片,一定會對這種窗口寄存器產生疑惑,然而這種硬體特性卻讓軟體設計有著更加獨特的方式。
  • ARM推A50系列 手機進入64位時代?
    日前,ARM公司宣布推出首款64位ARMv8架構的Cortex-A50處理器系列產品,同時宣布AMD、博通、Calxeda、海思、三星和意法半導體已獲得Cortex-A50系列架構授權,首批採用該架構的設備有望於2014年發貨。
  • ARM:64位Android手機明年上半年面世
    發科才剛發表8核智慧型手機晶片,全球處理器IP授權廠安謀(ARM)手機處理器部門、市場營銷策略副總裁NoelHurley昨(21)日指出,也許「8」就是聯發科的幸運號碼,這回推出8個Cortex-A7
  • 全球超算Top500排行榜:日本蟬聯冠軍,中國排第幾?-虎嗅網
    富嶽:以富士山的別名命名,搭載ARM晶片且創造新紀錄曾在2011年的時候,日本憑藉K超級計算機拿下了TOP500冠軍,是世界上第一臺每秒執行10萬億次運算的超級計算機,使用的是日本富士通研發的SPARC64處理器。去年,K超算退役。
  • Arm晶片Cortex-M處理器地位無可爭議
    ,在剛過去的2019年Q4(Arm FY Q319),全球Arm晶片的出貨量達到64億顆,其中Cortex-M處理器的出貨量達到驚人的43億顆,這主要是因為嵌入式終端智能需求的爆發性增長導致的。 在營收方面,根據軟銀此前的報告,arm的季度收入為5.05億美元,同比增長3.9%。調整後的EBITDA從2018年同期的1.19億美元增長至2019年的1.25億美元。
  • 最強手機晶片進化史:蘋果A系列處理器是如何煉成的!
    A4,作為蘋果的處女作,該晶片採用一顆45nm製程800MHz ARM Cortex-A8的單核心處理器,GPU為PowerVR SGX 535,L2的緩存為640KB,在同等頻率下性能表現好於三星S5PC110,但是其核心的結構和此前使用的三星處理器十分相似,僅僅是主頻升高,核心的CPU架構方面沒有什麼變化,所以嚴格來說這顆晶片並不能算蘋果真正自主研發的成果