在經過黃教主從客廳壁爐裡拿出HGX-2 A100 Baseboard的預熱之後,萬眾矚目的NVIDIA GTC 2020 Keynote終於在5月14日晚上9點面向全球播出。不出所料,黃教主正式發布了基於Ampere架構的新一代GPU產品。正式名稱為NVIDIA A100的新一代GPU「核彈」不僅為業界樹立了AI訓練新的性能標杆,也將促進系統廠家開發從數據中心到網絡邊緣側的新一代伺服器產品。
本文將深入分析NVIDIA A100 GPU,以及基於A100 GPU的HGX/EGX系統。由於文章篇幅較長,分為「GPU篇」和「系統篇」兩部分。相信看過之後,一定能讓你對NVIDIA新一代「核彈」有更深入的了解。
NVIDIA新一代SXM4 A100 GPU
作為旗艦級GPU,NVIDIA本次發布的是採用最新SXM4 Form Factor的A100 GPU。SXM Form Factor是NVIDIA慣用的結構形態,以扣卡的形式安裝到底板上,通過NVLink總線,可以充分發揮GPU的數據處理性能。
新一代的NVIDIA A100 GPU採用了TSMC目前最新的7nm工藝製程,晶片尺寸達到826平方毫米,包含540億個電晶體,SXM4模塊的功耗達到400W TDP。通過對比NVIDIA P100、V100和A100這三代旗艦GPU的性能參數,可以看到,受益於7nm工藝製程,在晶片面積只比GV100增加了11平方毫米的情況下,晶片內部所容納的電晶體數量增加了1.5倍,但功耗只增加了50W。顯然,相比於GV100核心,A100 GPU核心的性能可以實現大幅提升。
NVIDIA A100和V100峰值計算性能對比
NVIDIA官方也給出了A100和V100在不同數據格式下峰值計算性能的對比數據,關於這一數據,我們後面還會進行詳細分析。
NVIDIA滿血GA100核心框圖
NVIDIA完整的GA100核心結構與GV100有很多相似的地方,片上左右兩側均為HBM2高帶寬內存,上下兩側分別為PCIe Gen4總線和NVLink總線,佔據晶片最大面積的則是GPC(GPU Processing Clusters)單元。GA100核心包含8個GPC單元,每個GPC單元又包含8個TPC(Texture Processing Clusters)單元。在每個TPC單元中,又包含了2個SM(Streaming Multiprocessors)流式多處理器。於是,滿血的GA100核心可以提供128個SM(8×8×2=128)。可能是出於控制功耗的考慮,實際的A100 GPU上只有108個SM。
NVIDIA GA100核心的流式多處理器結構
Tesla P100上有16GB HBM2內存,Tesla V100上HBM2內存容量最多可以達到32GB。從NVIDIA GA100核心的設計上來看,其片上HBM2內存容量可以達到48GB(8GB×6),但目前發布的A100 GPU HBM2內存容量只有40GB。猜測目前的A100 GPU上有一個HBM2內存模塊使用的是Dummy Die,48GB HBM2的A100 GPU版本可能在未來提供。
NVIDIA A100 GPU核心
為了實現GPU和GPU之間更大帶寬的雙向通信,方便數據更快地在GPU之間傳遞,NVIDIA在A100 GPU上使用了NVLink 3.0接口。NVLink 3.0接口不僅將單鏈路的速率從上一代的25Gbps提升到了50Gbps,還將鏈路數量從6 Links/Chip提升到了12 Links/Chip。這樣一來,NVLink 3.0接口的帶寬從上一代的300 GB/s翻倍提升到了600 GB/s。這一改變對DGX/HGX系統性能提升大有好處,我們將在DGX/HDG整機系統部分進一步分析。
NVIDIA三代NVLink性能對比
對NVIDIA三代旗艦GPU性能參數進行橫向對比,硬體設計和工藝上的變化,最終帶來的是GPU計算性能的飛躍。
NVIDIA三代旗艦GPU性能參數對比
NVIDIA GPU最值得稱道的就是其Tensor Core(張量核心),這是提升GPU峰值計算能力的關鍵。每個SM模塊裡包含了4個Tensor Core,整個A100 GPU就具有432個Tensor Core。雖然A100 GPU Tensor Core的數量小於Tesla V100 GPU Tensor Core的數量(640個),但A100 SM裡的第三代Tensor Core每時鐘周期可以進行256次FP16/FP32 FMA混合精度運算(Fused Multiply-Add:一次乘運算和一次加運算,FP16乘法與FP32累加),是GV100 SM裡第二代Tensor Core每時鐘周期64次FMA運算的4倍。
因此,A100 GPU FP16 Tensor峰值計算性能達到312 TFlops,不僅遠超Tesla V100 FP16 Tensor的125 TFlops計算性能,也比華為Ascend 910 FP16 256TFlops的峰值計算性能提升了22%。由於華為Ascend 910也是採用的TSMC 7nm工藝,因此這個性能提升還是相當可觀的。
NVIDIA新的TF32數據格式
不僅如此,NVIDIA在A100 GPU上還引入了新的TF32(TensorFloat-32)數據格式。對比FP32、TF32和FP16這三種數據格式,TF32具有FP32的數據範圍,但數據精度與FP16相當。在保持了合理精度的情況下,有效地減少了數據比特數量。
在進行FP32數據計算的時候,先將兩個FP32數據轉換為TF32,以TF32格式進行計算,完成計算後按照FP32的數據格式進行輸出。這種計算方式增強了Tensor Core對稀疏矩陣的處理能力,可以使得Tensor Core的計算速度提升2倍。由於深度神經網絡在訓練的過程中會碰到大量的稀疏矩陣,因此TF32數據格式的引入有助於縮短GPU上的AI模型訓練時間。
NVIDIA A100 GPU對稀疏矩陣計算性能的提升
NVIDIA給出了A100和V100在不同數據格式下的計算性能對比數據,可以看到,不論有沒有Tensor Core的加持,A100的峰值計算性能都要比V100有較大提升。考慮到之前業界新的AI晶片都會跟NVIDIA Tesla V100做性能對比,新一代的A100 GPU將會為AI訓練應用樹立起新的業界標杆。
NVIDIA V100和A100在不同數據格式下的計算性能對比
總 結
在GTC 2020 Keynote上,NVIDIA只發布了SXM4形態的A100 GPU。考慮到Tesla V100 GPU擁有SMX3和PCIe Card兩種主要形態,我們可以預計在接下來的日子裡,PCIe A100 GPU卡也會推向市場。由於PCIe標卡功耗的限制,PCIe A100 GPU卡的功耗應該會略小於目前SXM4 A100的400W功耗。
由於Ampere架構在性能上的巨大提升,NVIDIA表示基於Ampere架構的推理GPU晶片和卡也會在未來推出,這將會替代目前在推理領域大熱的Tesla T4 GPU卡。
由於受到COVID-19病毒的影響,原定於3月份舉行的GTC 2020大會被迫推遲到了5月份才在線上召開。因此,很多雲計算廠家、網際網路企業和主要OEM/ODM廠家其實已經拿到了A100 GPU的樣品,並已經在開發各自支持A100 GPU的AI伺服器產品。隨著NVIDIA A100 GPU的正式發布,相信在今年下半年,我們就能夠看到新一代異構計算伺服器的面世。
推薦閱讀:
使用Tesla A100 GPU的NVIDIA HGX-2現身
NVIDIA收購Cumulus Networks:在網絡領域一路狂奔
NVIDIA低調推出Tesla V100S GPU
MWC 2019 LA:NVIDIA展示EGX邊緣計算伺服器
圖片來自網絡,版權歸原作者所有
本文僅代表作者觀點,與就職單位無關。