北京時間11月16日晚10點,AMD正式發布了首款基於全新CDNA架構的Instinct MI100加速顯卡,以及配套的ROCm 4.0生態系統
首次正式亮相的CDNA架構專門為高性能計算所打造,而基於該架構的AMD Instinct MI100加速顯卡將進一步逼近百億億次級計算時代,同時也是AMD向前方開拓新發展路徑的新旗艦產品。
AMD高級副總裁兼伺服器業務總經理Dan McNamara表示,在高性能計算方面,整個行業發展十分迅速。我們看到的趨勢是,工作負載的多樣性在不斷增加,高性能計算已經進入到很多領域,包括從傳統科研,氣象研究,生命科學,電子設計自動化到商業應用,從AI、機器學習到算法培訓等等,如何通過CPU和GPU方面的組合更好地服務於客戶、為客戶帶來更多單位成本性能和減少總體擁有成本,將是AMD極其重要的戰略之一。
不過最令用戶之間關心的,相信還是本次發布的新品加速顯卡。AMD平臺解決方案工程研發全球副總裁Brad Mccredie對此進行了全面解讀。
在整個過去20年裡,整個高性能計算經歷了三個階段,分別是TERASCALE、PETASCALE和現在的EXASCALE。在這個過程中我們需要一系列技術來支持EXASCALE這樣一個百億億次級計算。
作為一款針對高性能計算而專門設計的行業領先GPU產品,AMD Instinct MI100旨在為推動百億億次級計算時代到來,能夠實現10TF(十萬億次雙精度計算速度),具備Matrix核心技術。與AMD上一代產品相比有著巨大的性能提升,能夠實現高達70%的AI計算加強;而與競爭對手相比,在每單位性能上也是對方的兩倍。特別是在搭配第二代AMD EPYC處理器使用時,還可為系統提供更強的加速性能。
20年前ASCI White超級計算機進入超算領域,並率先突破10TF關卡。20年之後,現在單個GPU僅在6兆瓦的性能上就可實現這樣一個性能水平,這就是AMD Instinct MI100加速顯卡,可以說這就是20年後非常巨大的成就之一。
目前市面上的大部分GPU採用的都是通用架構,這意味著這個架構既用於遊戲圖形處理,也用於複雜數學方面的處理,實際上著很大的制約了向百億億次級計算的發展。而AMD選擇將這兩部分分離,為我們已經所熟知的針對遊戲行業的RDNA架構,以及針對超算計算的CDNA架構。這樣的分離可以幫助相關人員進一步針對領域內的工作負載進行優化。
以AMD Instinct MI100為例,CDNA架構可在同一晶片上放入了兩倍數量的計算單元,並可以嵌入微架構以更好的適應AI和高性能計算的工作負載。同時在16位浮點計算和混合精度計算方面也能實現7倍以上的性能提升,另外通過Infinity架構還可以將GPU的帶寬提升4倍、通過HBM2內存來實現20%的位寬提升。
上文中多次提到的AMD Instinct MI100加速顯卡正在進一步逼近百億億次級計算時代,而AMD Instinct MI100的雙精度計算性能可以達到11.5TF的水平,單精度計算水平會更高。
據介紹,橡樹嶺國家實驗室就通過使用MI100來進行相關工作負載,在分子動力學負載中,與v100加速顯卡相比速度提升3倍。而在Fluid Turbulence的工作負載中,也比v100加速顯卡有2.6倍的速度優勢。作為早期客戶使用的效果來看,這一數據十分具有說服力。
另外,AMD還強調既要有世界級硬體,也需要世界級生態來做配套。為此,還推出搭配使用的開源軟體站ROCm 4.0,為百億億次級計算提供了新基礎。
該平臺不僅相較上兩代產品,可實現MI100高達5-8倍的性能提升,還可為開發者們提供簡單快捷的代碼遷移功能,甚至最短1天就可完成某些代碼的遷移工作。
自代號為「羅馬」的第二代霄龍處理器發布以來,AMD在伺服器市場便收穫了不俗的成績,時至今日它仍是市面上行業領先的x86伺服器。根據Intersect360此前的調查顯示,從16年至今,用戶對霄龍處理器的前瞻性音箱和好感度增加了兩倍之多。
如今,AMD在MI100加速顯卡和ROCm 4.0開源平臺的推出後,除了進一步完善AMD在伺服器市場的產品布局外,相信也定將會為客戶們帶來更為優越的HPC工作基礎,推動百億億次級時代搶先到來!