性能漲7倍,AMD發布Instinct MI100新卡,英偉達祭出超算時代神器

2020-12-10 新智元

【新智元導讀】AMD於昨晚正式發布了首款基於全新CDNA架構的Instinct MI100 GPU以及配套的ROCm 4.0生態系統,而英偉達也不甘示弱,於今日發布了 A100 80GB GPU,將支持NVIDIA HGX AI 超級計算平臺,內存比上一代提升一倍,能夠為研究人員和工程師們提供空前的速度和性能,助力實現新一輪AI和科學技術突破。

AMD (超微半導體公司)昨夜正式推出其 AMD Instinct MI100 加速GPU晶片,這是一款新的圖形處理器處理器(GPU) ,在科學研究計算方面起著專門的加速器作用。

這種 7nm GPU 加速器使用 AMD 的 CDNA 結構來處理高性能計算(HPC)和人工智慧任務,這樣科學家們就可以從事重負荷的計算任務,比如冠狀病毒研究。

AMD 推出 Instinct MI100晶片,AI性能暴漲7倍

AMD 公司表示,MI100晶片是世界上最快的高性能計算處理器 GPU,也是第一個性能超過10萬億次浮點運算的 x86 伺服器 GPU。

該設備支持新的加速計算包括 AMD 的客戶:戴爾,技嘉,惠普和超微。

AMD高級副總裁丹 · 麥克納馬拉在新聞發布會上說: 「高性能計算機在分析感染冠狀病毒、開發疫苗以及各種生命科學應用的可能性方面確實發揮了非常重要的作用」。

MI100與第二代 AMD Epyc 處理器和 ROCm 4.0開放軟體相結合,旨在幫助科學家取得科學突破。

用於圖形和企業的GPU

今年3月,AMD發布了其首個專門針對數據中心高性能計算而設計的CDNA架構,與其Radeon的 RDNA 遊戲架構分道揚鑣。二者雖然還有一些共通點,但在設計、優化上已經在各自的領域裡有了不同的特色。

Brad McCredie 在新聞發布會上說,有充足的證據顯示數據中心應用程式的 CPU 進度相對於 GPU 的進度已經放慢,而最近,通用的 GPU 也開始放慢它們的進度。

這就是為什麼 AMD 將其設計工作分為消費者圖形處理器和企業/伺服器圖形處理器,因為圖形處理和人工智慧處理的需求可能非常不同。這種獨立的架構方法與英偉達僅使用一種架構的方法形成了鮮明的對比。

AMD的內部人士也稱,不同的任務處理實際上並不需要共存,沒有必要用一個晶片去玩steam遊戲的同時也可以進行高級分子模擬、抗震分析或天體物理模擬。

在命名方面,AMD也放棄了Radeon字樣,不再叫做Radeon Instinct,而是簡單改成 Instinct。

Instinct MI100 是 AMD 史上性能最高的HPC GPU,FP64 雙精度浮點性能達到了 11.5 TFlops(也就是每秒1.15億億次),並在架構設計上專門加入了 Matrix Core(矩陣核心),用於加速HPC、AI運算。

AMD稱其在混合精度和FP16半精度的AI負載上,性能提升接近7倍,為 AI 和機器學習工作負載提供 FP32 Matrix 單精度矩陣計算為 46.1TFlops(每秒4.61億億次),FP16 Matrix 半精度矩陣計算為 184.6TFlops(每秒18.46億億次),Bfloat16 浮點為92.3TFlops(每秒9.23億億次)的性能。

軟體開放平臺ROCm 4.0

AMD的 ROCm 開發者軟體為百萬兆等級的運算提供了基礎,ROCm 4.0已經進行了優化,以便為基於 MI100的系統提供大規模的性能。

2018年AMD發布了 ROCm 的2.0版本,到2019年又發布了專注於機器學習和深度學習的3.0版本,再到昨晚最新發布的4.0版本,ROCm 已經打造成了完整的針對機器學習和高性能計算的開發方案,漸漸形成了一個完整的生態,用於各個領域的高性能計算。

既然AMD發布了MI100,那老對手自然也不會缺席。

AMD這款晶片的競爭對手是80GB 版本的 Nvidia A100 GPU,該GPU也於今天發布。

英偉達 A100 80GB新卡,與AMD新品正面剛

該晶片基於英偉達的 Ampere 圖形架構,旨在通過實現更好的實時數據分析,幫助企業和政府實驗室更快地做出關鍵決策。

A100 80GB 版本的內存是六個月前推出的上一代的兩倍。

Nvidia 高管帕雷什卡亞(Paresh Kharya)在新聞發布會上表示: 英偉達已經將這個系統的所有功能加倍,以便更有效地為客戶服務。

同時他還說道,世界上90% 的數據是在過去兩年中創建的

A100 晶片為研究人員和工程師提供了更快的速度和更高的性能,用於人工智慧和科學應用。它提供超過每秒2 terabytes的內存帶寬,這使得系統能夠更快地將數據提供給 GPU。

「超級計算已經發生了深刻的變化,從專注於模擬擴展到人工智慧超級計算,數據驅動的方法現在正在補充傳統的模擬,」 Kharya 說,他還補充說道,「Nvidia 的端到端的超級計算方法,從模擬的工作流到人工智慧,是必要的保持進步」。

Nvidia A100 80GB GPU 可在 Nvidia DGX A100和 Nvidia DGX Station 系統上使用,預計將在本季度出貨。

Nvidia今天還宣布,新晶片將與 AMD 新推出的 Instinct MI100 GPU 競爭。與 AMD 相比,Nvidia 有一個單一的 GPU 架構,既可用於人工智慧,又可用於圖形處理。

有國外的分析師認為,AMD GPU 的性能比 Nvidia 最初的40GB A100提高了18% 。但他說真正的應用程式可能會受益於80GB 的 Nvidia 版本。同時他還表示,雖然價格敏感的客戶可能青睞 AMD,但他認為 AMD 在人工智慧性能方面無法與 Nvidia 抗衡。

在人工智慧領域,英偉達再次提高了門檻,幾乎沒有任何競爭對手能夠跨越這一障礙。

對於AI 訓練,像 DLRM 這樣的推薦系統模型擁有代表數十億用戶和數十億產品的大型表格。A100 80gb 提供了高達3倍的加速,因此企業可以迅速重新訓練這些模型,以提供高度準確的建議。A100 80GB 還可以在單個 HGX 驅動的伺服器上訓練最大的模型,比如 GPT-2等。

Nvidia 說,A100 80GB 消除了對數據或模型並行體系結構的需求,這些體系結構實現起來很費時間,跨多個節點運行起來很慢。

通過其多實例 GPU (MIG)技術,A100可以被劃分為多達7個 GPU 實例,每個實例擁有10GB 的內存。這提供了安全的硬體隔離,並最大限度地利用 GPU 的各種較小的工作負載。

而A100 80GB 與AMD的晶片一樣,同樣可以為科學應用提供加速,比如天氣預報和量子化學。

GPU的新系統DGX

Nvidia 還發布了第二代人工智慧計算系統,命名為 Nvidia DGX Station A100,該公司稱其為「盒子中的數據中心」。DGX 提供了2.5千兆次的AI性能,有4個A100的張量核心GPU。總而言之,它有高達320GB的GPU內存。

Nvidia 副總裁 Charlie Boyle 在一次新聞發布會上說,該系統提供了多達28個不同的 GPU 實例來運行並行作業。

使用 DGX Station 平臺的客戶遍及教育、金融服務、政府、醫療保健和零售業。其中包括寶馬集團、德國 DFKI 人工智慧研究中心、洛克希德 · 馬丁公司、 NTT Docomo 和太平洋西北國家實驗室。本季度將提供 Nvidia DGX Station A100和 Nvidia DGX A100 640GB 系統。

Mellanox網絡

最後,Nvidia 發布了 Mellanox 400G Infiniband 網絡,用於 exascale AI 超級計算機。2019年,Nvidia 以68億美元收購了 Mellanox。

這已經是第七代 Mellanox InfiniBand 技術,數據傳輸速度為每秒400千兆比特,而第一代技術為每秒10千兆比特。

InfiniBand 技術提供的網絡吞吐量為每秒1.64 petabits,是上一代的5倍。Nvidia 高級副總裁 Gilad Shainer 在新聞發布會上說,Mellanox 的技術將使從超級計算機到自動駕駛汽車的所有東西都能更快地聯網。

比爾蓋茨在微軟創立之初曾說希望每個家庭都能有一臺PC,或許通過AMD和英偉達不斷推進的研發,未來的每個家庭都能有自己的一個「超算中心」。

相關焦點

  • AMD與英偉達聯手打造了Top7新超算Selene
    好消息是,2020 年 6 月的時候,基於 AMD Zen 2 處理器架構的新平臺,再次殺入了榜單第七的位置。Top500 名單可為各個企業帶來巨大的名氣,基於皓龍 6274 CPU 和英偉達 K20x 加速卡的超算平臺,曾在 2012 年拿過第一(目前仍是第 12 位),具有 8.2 Mega Watts 的功耗和 17.6 PetaFLOPs 的算力。
  • AMD EPYC處理器與全新AMD Instinct MI100加速顯卡重新定義HPC和...
    在預期2021年第一季度公開發布基於「Zen 3」核心架構的第三代EPYC處理器、OEM同步上市之前,AMD將按計劃為部分HPC和雲計算客戶在本季度開始批量供貨。 全新AMD Instinct MI100加速顯卡為科研工作負載帶來了革命性的HPC性能,同時也是首個跨過10萬億次浮點運算(FP64)性能門檻的加速顯卡。
  • AMD連夜發布RX 6000系列,同性能顯卡比英偉達便宜4000
    AMD的RX 6900 XT與RTX3090在性能類似的情況下,價格比3090的官方公版價格低了4000塊,這個價格當然相當有競爭力。就在Nvidia的RTX 3070顯卡發售前夜,AMD一下子發了三款新卡,不僅性能不亞於英偉達,價格還更低,這對英偉達之前大好的高端顯卡市場顯然是一次狙擊。
  • 英偉達八代GPU史上的超級大飛躍 較前一代圖靈架構性能提升20倍
    近日,英偉達 CEO 黃仁勳正式發布了新一代 GPU 架構 Ampere 安培,這是英偉達推出的第八代 GPU 架構,較前一代 2018 年發布的圖靈架構性能提升高達 20 倍。據悉,英偉達每代顯卡架構均以頂級科學家命名,這一次以法國物理學家安培命名。
  • AMD為什麼被稱之為農企?intel,英偉達,AMD是什麼關係?
    目前市面上面最大的兩個顯卡廠商,amd和英偉達大家幾乎耳熟能詳。關於AMD與英偉達大關係,amd為什麼被稱之為農企,這個問題實際上問的非常好,畢竟不少玩家只對英偉達有些許了解,而對AMD則是非常陌生,更有甚者完全不知道AMD是一家什麼公司。讓我們先從英偉達開始。
  • 英偉達(NVDA.US)發布A100 80GB加速卡:HBM2e顯存翻倍、性能提升200%
    來源:智通財經網智通財經APP獲悉,周一,英偉達(NVDA.US)推出A100 80GB加速卡。NVIDIA今年3月份發布了安培架構的A100加速卡,升級了7nm工藝和Ampere安培架構,集成542億電晶體,826mm2核心面積,使用了40GB HBM2顯存,帶寬1.6TB/s。
  • 系統功耗吊打英偉達T4!賽靈思發布U30加速器卡,主打視頻直播
    本周三,賽靈思推出了適應於視頻轉碼的實時伺服器一體機參考架構,同時發布了一款全新加速器卡Alveo U30,U30作為賽靈思Alveo系列加速器卡的最新產品,注重實現高通道密度,這也是自賽靈思提出「數據中心優先」戰略以來的又一次突破。
  • 英偉達再發邊緣AI計算設備:僅信用卡大小,性能比TX2強15倍
    曉查 發自 凹非寺 量子位 報導 | 公眾號 QbitAI英偉達最近發布了Jetson Xavier NX,這是一個用於在無人機、汽車和機器人等邊緣設備上的AI系統模塊。Jetson Xavier NX的大小僅相當於一張信用卡,可以為AI工作負載提供21 TOPS的算力,而功耗最高僅為15瓦。英偉達表示,它是英偉達Jetson家族的新成員,兼具Nano的小巧尺寸和Xavier的超強性能。Jetson Xavier NX將於明年3月開始發售,價格399美元。
  • AMD的Instinct MI100洩漏,暗示使用8192核GPU
    早在2018年,AMD推出了基於臺積電7nm工藝節點構建的基於Vega的MI50和MI60加速器。現在,有傳言稱,該系列中將採用相對較弱的功率封裝推出大量新晶片。
  • 64核牛逼了,性能超TOP500冠軍AMD又拿下一臺EPYC超算
    自 EPYC霄龍處理器問世以來, AMD在 HPC高性能市場也如魚得水,已經斬獲多個超算訂單。今日, AMD聯合 HPE再次獲得歐洲 Lumi超算的訂單,價值1.6億美元,約合11億人民幣,552 PFLOPS將超越目前TOP500冠軍。
  • 性能超TOP500冠軍 AMD又拿下一臺EPYC超算:64核Zen3成了
    自從推出EPYC霄龍處理器之後,AMD在HPC高性能市場上也如魚得水,已經斬獲多臺超算訂單。今天AMD聯合HPE又拿到了歐洲Lumi超算的訂單,價值1.6億美元,約合11億人民幣,552PFLOPS的性能將超過現在的TOP500冠軍。
  • ARM首次登頂,日本超算曆時9年重奪世界最強超算之位
    蘋果在WWDC發布會上正式宣布將在Mac電腦上採用ARM SoC晶片。無獨有偶,在最新的TOP500超算排名中,使用48核ARM晶片的日本Fugaku超算位列世界第一。中國長期以來在超算領域保持優勢,對美國政府和研究機構觸動很大,也促使美國加大投入研發新一代超級計算機。為何各國要以舉國之力研製新超算?
  • AMD造出核彈級顯卡,囤貨英偉達的奸商慌了!
    相比此前幾百KB級別的緩存有了質的飛躍,最直觀的效果就是僅用Infinity Cache再加上256Bit的顯存位寬 就實現了384Bit顯存位寬同等的性能。同時還能把功耗降低10%。也正因為如此,AMD此次發布的三款顯卡顯存位寬全部為256Bit。
  • GPU 是基礎,英偉達黃仁勳「黃氏定律」預測 AI 性能將逐年翻倍
    GPU 是黃氏定律的基礎今年 5 月,英偉達發布了面積高達 826 平方毫米,集成了 540 億個電晶體的 7nm 全新安培(Ampere)架構 GPU A100。相比 Volta 架構的 GPU 能夠實現 20 倍的性能提升,並可以同時滿足 AI 訓練和推理的需求。
  • 英偉達首席科學家解讀「黃氏定律」:替代摩爾定律,定義AI時代?
    在第三代Tensor Cores中,增加了對於新數據類型TF32的支持,使用TF32進行訓練,可以獲得156 teraflops的性能。最讓Dally興奮的是,Ampere破解了如何利用神經網絡的稀疏性來獲得更好的性能。如果需要縮減它的計算能力,MIG(多實例GPU)還可以將一個A100分解為7個獨立的GPU,以便每個GPU都能運行各自的任務。
  • 不再靠你買顯卡充值信仰,英偉達已經變了
    就在新冠疫情給電子消費、零售、製造等行業帶來「深度衰退」時,以數據中心為代表的雲計算行業卻迎來逆勢增長。近日,DIGITIMES 報導,在新冠疫情大流行期間,數據中心對高性能計算 HPC、AI 應用需求旺盛,英偉達、AMD 伺服器晶片銷量正在增加。
  • AMD YES 傳AMD晶片將用於特斯拉
    11月10日,著名告密者「德國皮卡丘」@patrickshur表示,他從AMD獲得了一份內部文件,顯示amd新一代Navi 23核心GPU的bigNavi架構將用於特斯拉。我們都知道,特斯拉首先在其MCU控制器中使用英偉達 Tegra 晶片;然後特斯拉轉而使用自己的晶片,推出了完全自動駕駛儀(FSD);接著特斯拉推出了自動駕駛儀,轉而使用了英特爾晶片。現在看來,似乎該輪到它了。
  • 英偉達推出RTX Studio筆記本電腦 性能是MacBook Pro的七倍
    【TechWeb】在今日的臺北電腦展上,英偉達推出了一項名為NVIDIA Studio的筆記本品牌計劃。與以前的Max-Q認證類似,英偉達會為符合一定條件的筆記本授予一個RTX Studio的品牌稱號。這些筆記本的目標受眾是獨立藝術家,他們正在推動社交媒體、數字廣告和3D開發等領域的發展。
  • AMD Radeon Instinct MI100加速卡曝光:32GB顯存 功耗僅200W
    ,而不會出現在消費級遊戲卡中。今天,硬體曝料專家@KOMACHI_ENSAKA 給出消息稱,發現了一款新的AMD專業加速卡「Radeon Instinct MI100」,應該就是Arcturus核心,核心基礎頻率1090MHz、加速頻率
  • 第二代AMD EPYC處理器緣何瘋狂圈粉「超算」圈?
    這也是超算系統被大量用在國家級和社會科研機構的主要原因,特別是在能源探索、自然災害研究、氣象預報、地質勘查、城市規劃等領域,可以說,我們日常所看到的研究成果,基本都離不開「超算」的功勞。關乎國計民生的「超算」,為何越來越重要?