【新智元導讀】AMD於昨晚正式發布了首款基於全新CDNA架構的Instinct MI100 GPU以及配套的ROCm 4.0生態系統,而英偉達也不甘示弱,於今日發布了 A100 80GB GPU,將支持NVIDIA HGX AI 超級計算平臺,內存比上一代提升一倍,能夠為研究人員和工程師們提供空前的速度和性能,助力實現新一輪AI和科學技術突破。
AMD (超微半導體公司)昨夜正式推出其 AMD Instinct MI100 加速GPU晶片,這是一款新的圖形處理器處理器(GPU) ,在科學研究計算方面起著專門的加速器作用。
這種 7nm GPU 加速器使用 AMD 的 CDNA 結構來處理高性能計算(HPC)和人工智慧任務,這樣科學家們就可以從事重負荷的計算任務,比如冠狀病毒研究。
AMD 推出 Instinct MI100晶片,AI性能暴漲7倍
AMD 公司表示,MI100晶片是世界上最快的高性能計算處理器 GPU,也是第一個性能超過10萬億次浮點運算的 x86 伺服器 GPU。
該設備支持新的加速計算包括 AMD 的客戶:戴爾,技嘉,惠普和超微。
AMD高級副總裁丹 · 麥克納馬拉在新聞發布會上說: 「高性能計算機在分析感染冠狀病毒、開發疫苗以及各種生命科學應用的可能性方面確實發揮了非常重要的作用」。
MI100與第二代 AMD Epyc 處理器和 ROCm 4.0開放軟體相結合,旨在幫助科學家取得科學突破。
用於圖形和企業的GPU
今年3月,AMD發布了其首個專門針對數據中心高性能計算而設計的CDNA架構,與其Radeon的 RDNA 遊戲架構分道揚鑣。二者雖然還有一些共通點,但在設計、優化上已經在各自的領域裡有了不同的特色。
Brad McCredie 在新聞發布會上說,有充足的證據顯示數據中心應用程式的 CPU 進度相對於 GPU 的進度已經放慢,而最近,通用的 GPU 也開始放慢它們的進度。
這就是為什麼 AMD 將其設計工作分為消費者圖形處理器和企業/伺服器圖形處理器,因為圖形處理和人工智慧處理的需求可能非常不同。這種獨立的架構方法與英偉達僅使用一種架構的方法形成了鮮明的對比。
AMD的內部人士也稱,不同的任務處理實際上並不需要共存,沒有必要用一個晶片去玩steam遊戲的同時也可以進行高級分子模擬、抗震分析或天體物理模擬。
在命名方面,AMD也放棄了Radeon字樣,不再叫做Radeon Instinct,而是簡單改成 Instinct。
Instinct MI100 是 AMD 史上性能最高的HPC GPU,FP64 雙精度浮點性能達到了 11.5 TFlops(也就是每秒1.15億億次),並在架構設計上專門加入了 Matrix Core(矩陣核心),用於加速HPC、AI運算。
AMD稱其在混合精度和FP16半精度的AI負載上,性能提升接近7倍,為 AI 和機器學習工作負載提供 FP32 Matrix 單精度矩陣計算為 46.1TFlops(每秒4.61億億次),FP16 Matrix 半精度矩陣計算為 184.6TFlops(每秒18.46億億次),Bfloat16 浮點為92.3TFlops(每秒9.23億億次)的性能。
軟體開放平臺ROCm 4.0
AMD的 ROCm 開發者軟體為百萬兆等級的運算提供了基礎,ROCm 4.0已經進行了優化,以便為基於 MI100的系統提供大規模的性能。
2018年AMD發布了 ROCm 的2.0版本,到2019年又發布了專注於機器學習和深度學習的3.0版本,再到昨晚最新發布的4.0版本,ROCm 已經打造成了完整的針對機器學習和高性能計算的開發方案,漸漸形成了一個完整的生態,用於各個領域的高性能計算。
既然AMD發布了MI100,那老對手自然也不會缺席。
AMD這款晶片的競爭對手是80GB 版本的 Nvidia A100 GPU,該GPU也於今天發布。
英偉達 A100 80GB新卡,與AMD新品正面剛
該晶片基於英偉達的 Ampere 圖形架構,旨在通過實現更好的實時數據分析,幫助企業和政府實驗室更快地做出關鍵決策。
A100 80GB 版本的內存是六個月前推出的上一代的兩倍。
Nvidia 高管帕雷什卡亞(Paresh Kharya)在新聞發布會上表示: 英偉達已經將這個系統的所有功能加倍,以便更有效地為客戶服務。
同時他還說道,世界上90% 的數據是在過去兩年中創建的。
A100 晶片為研究人員和工程師提供了更快的速度和更高的性能,用於人工智慧和科學應用。它提供超過每秒2 terabytes的內存帶寬,這使得系統能夠更快地將數據提供給 GPU。
「超級計算已經發生了深刻的變化,從專注於模擬擴展到人工智慧超級計算,數據驅動的方法現在正在補充傳統的模擬,」 Kharya 說,他還補充說道,「Nvidia 的端到端的超級計算方法,從模擬的工作流到人工智慧,是必要的保持進步」。
Nvidia A100 80GB GPU 可在 Nvidia DGX A100和 Nvidia DGX Station 系統上使用,預計將在本季度出貨。
Nvidia今天還宣布,新晶片將與 AMD 新推出的 Instinct MI100 GPU 競爭。與 AMD 相比,Nvidia 有一個單一的 GPU 架構,既可用於人工智慧,又可用於圖形處理。
有國外的分析師認為,AMD GPU 的性能比 Nvidia 最初的40GB A100提高了18% 。但他說真正的應用程式可能會受益於80GB 的 Nvidia 版本。同時他還表示,雖然價格敏感的客戶可能青睞 AMD,但他認為 AMD 在人工智慧性能方面無法與 Nvidia 抗衡。
在人工智慧領域,英偉達再次提高了門檻,幾乎沒有任何競爭對手能夠跨越這一障礙。
對於AI 訓練,像 DLRM 這樣的推薦系統模型擁有代表數十億用戶和數十億產品的大型表格。A100 80gb 提供了高達3倍的加速,因此企業可以迅速重新訓練這些模型,以提供高度準確的建議。A100 80GB 還可以在單個 HGX 驅動的伺服器上訓練最大的模型,比如 GPT-2等。
Nvidia 說,A100 80GB 消除了對數據或模型並行體系結構的需求,這些體系結構實現起來很費時間,跨多個節點運行起來很慢。
通過其多實例 GPU (MIG)技術,A100可以被劃分為多達7個 GPU 實例,每個實例擁有10GB 的內存。這提供了安全的硬體隔離,並最大限度地利用 GPU 的各種較小的工作負載。
而A100 80GB 與AMD的晶片一樣,同樣可以為科學應用提供加速,比如天氣預報和量子化學。
GPU的新系統DGX
Nvidia 還發布了第二代人工智慧計算系統,命名為 Nvidia DGX Station A100,該公司稱其為「盒子中的數據中心」。DGX 提供了2.5千兆次的AI性能,有4個A100的張量核心GPU。總而言之,它有高達320GB的GPU內存。
Nvidia 副總裁 Charlie Boyle 在一次新聞發布會上說,該系統提供了多達28個不同的 GPU 實例來運行並行作業。
使用 DGX Station 平臺的客戶遍及教育、金融服務、政府、醫療保健和零售業。其中包括寶馬集團、德國 DFKI 人工智慧研究中心、洛克希德 · 馬丁公司、 NTT Docomo 和太平洋西北國家實驗室。本季度將提供 Nvidia DGX Station A100和 Nvidia DGX A100 640GB 系統。
Mellanox網絡
最後,Nvidia 發布了 Mellanox 400G Infiniband 網絡,用於 exascale AI 超級計算機。2019年,Nvidia 以68億美元收購了 Mellanox。
這已經是第七代 Mellanox InfiniBand 技術,數據傳輸速度為每秒400千兆比特,而第一代技術為每秒10千兆比特。
InfiniBand 技術提供的網絡吞吐量為每秒1.64 petabits,是上一代的5倍。Nvidia 高級副總裁 Gilad Shainer 在新聞發布會上說,Mellanox 的技術將使從超級計算機到自動駕駛汽車的所有東西都能更快地聯網。
比爾蓋茨在微軟創立之初曾說希望每個家庭都能有一臺PC,或許通過AMD和英偉達不斷推進的研發,未來的每個家庭都能有自己的一個「超算中心」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.