12倍於上代的DP性能 NVIDIA Volta架構解析

2021-01-18 中關村在線

NVIDIAVolta架構,一個在幾年前便已經被曝光的次世代架構,於上周的GTC2017大會上正式與大家見面。正如老黃去年所說的,NVIDIA未來會大幅提高產品的迭代速度以推動GPU界的發展,Volta架構的發布時間正好距Pascal架構的發布過了一年。在這短短的一年時間裡,老黃將整個Pascal家族悉數抖落,以大家最熟悉的GeForce系列遊戲卡為例,從GT1030到GTX1080Ti可謂是高中低檔應有盡有,比Maxwell2家族的集體亮相整整快了約一年。

為什麼NVIDIA能夠做到短短一年便推出新架構產品?因為與AMD的拖延相比,NVIDIA嚴格按照自家的產品路線圖發布產品,雖然受限於HBM顯存的產能,NVIDIA在Maxwell和Volta之間加了一個Pascal作為過渡,但Pascal的表現卻不敷衍,完全稱得上是GPU史上的一個裡程碑,因為NVIDIA的Pascal顯卡讓GPU的頻率首次突破2GHz大關,在超頻大師的手中甚至可以超過3GHz,追上了CPU的主頻,這在以前是完全不敢想像的。

採用Volta架構的首款產品是NVIDIAXavierSOC

現在GPU講究的是能耗比,不再像以前一樣單純追求絕對性能,而採用了TSMC全新12nm的Volta讓我們看到了能耗比的新高度:首發產品TeslaV100同P100相比,在TDP同為300W的情況下,單精度浮點運算性能提升了41.5%,實際HPC應用性能提升了40-70%,憑藉架構中新引入的Tensor單元,在深度學習方面的性能甚至可以達到後者的12倍!

NVIDIATeslaV100

我們上周在第一時間報導了有關TeslaV100的相關消息,但大家能看到的只是諸如815平方毫米的核心面積、210億個電晶體、5120個CUDA核心、15TFLOPS單精度性能這樣的專業數據,但我相信大家都很好奇Volta同Pascal相比究竟有了哪些設計方面的提升和改變,接下來吉吉我就用相對通俗易懂的語言來給大家細細道來,讓大家看看老黃的「新核彈」究竟是怎樣一個構造。

外觀:PCI-E版身材迷你

同採用Pascal架構的TeslaP100一樣,VoltaP100也有2種版本,一種是用在DGX-1上的NVLink版,還有一種是標準的PCI-E版,兩種版本的規格是一模一樣的。首先我們看一下NVLink版的V100和P100對比:

上圖為TeslaV100,下圖為TeslaP100

由於V100和P100的TDP均為300W,並且都是使用了16GB的HBM2顯存,所以NVLink版的PCB的設計幾乎是一模一樣的,僅僅是料件型號和排布上有些微區別。另外,需要強調的是,V100使用的是全新的NVLink2接口,比NVLink多了2組通道,雙向總帶寬達300GB/s,比NVLink提升了87.5%。接下來我們看一下PCI-E版的對比:

PCI-E版的TeslaV100同P100相比,體積可謂是大大縮小,不僅從雙槽厚度變成了單槽,PCB也從標準長度縮到了巴掌大小,比NVLink版的大不了多少。真是不知道老黃是如何做到用這麼「寒酸」的被動散熱壓制住TDP高達300W的「性能巨獸」的,只能期待NVIDIA後續的詳細介紹了。

如果不出意外,NVIDIA未來還會推出基於GV100核心的Quadro顯卡,到時候不知道在外觀上是否會採用QuadroGP100的渦輪式散熱器,當然據吉吉我推測,可能性是很大的。

規格:電晶體數量史上之最

Volta架構的首款產品TeslaV100採用12nmFFN工藝,核心代號GV100,核心面積為驚人的815平方毫米,共包含211億個電晶體。GV100核心共有5120個CUDA處理器,運算單元數量為80個,核心頻率為1455MHz,搭載4096-bit16GBHBM2顯存,單精度浮點性能高達驚人的15TFLOPS,雙精度浮點7.5TFLOPS,顯存帶寬900GB/s。

NVIDIA歷代大核心計算卡參數對比

TeslaV100首次使用了TSMC的12nmFFN工藝,該工藝其實是TSMC自家16nmFFC工藝的改進版,性能是後者的1.1倍,功耗只有後者的70%,核心面積則可以縮小20%。憑藉更為先進的工藝,TeslaV100的計算單元數量增加了43%,但核心面積卻只增加了33%。

身材堪比Nano的TeslaV100

計算單元增加了43%,但理論單精度性能只增加了42%,這說明同Pascal相比,Volta的性能提升靠的就是計算單元的增加,而不像從Maxwell進化到Pascal那樣因工藝提升頻率激增而帶來的性能質的飛躍。說到頻率,從上表可以看出V100的頻率照比P100略有下降,其可能的原因有兩個,一是由於規模大幅增加,為了控制功耗而輕微降頻;二是12nmFFN工藝在性能上照比成熟的16nmFinFETPlus工藝略有差距,所以頻率達不到這麼高的數值。

核心面積高達815平方毫米

此外,TeslaV100的二級緩存及寄存器大小也有所增加,L2緩存由TeslaP100的4MB增加到了6MB,每組SM單元的寄存器文件大小總數從14MB增加到了20MB。顯存方面,使用的HBM2的位寬及容量都沒變化,還是16GB4096-bit,不過頻率有所提升,帶寬從前代的720GB/s提升到了900GB/s,更接近HBM2顯存1024GB/s的理論值。

架構:為AI設計的Tensor單元

從架構整體設計上看,Volta核心同Pascal和Maxwell一樣,採用了6組GPC的設計,只不過是每組GPC內的SM單元呈遞進式增長:Maxwell每組GPC的內部有8組SM單元,Pascal增加到10組,而最新的Volta則是增加到14組。有一點需要說明,由於單雙精度比的不同,GP100核心每組SM單元內的CUDA核心數量與GP102是不同的,前者為64個,後者為128個,所以我們只看GP100。

GV100核心架構圖

GV100同GP100每組SM單元內的CUDA數量一樣,均為64個,而CUDA處理器的總數理應為64*14*6=5376個,但GV100核心的CUDA處理器數量為5120個,少了的256個正是因為NVIDIA關閉了4組SM單元,這一做法同GP100如出一轍。

GP100核心架構圖

前面說到的64是FP32單精度運算單元數量,在單雙精度單元數量比上,GV100同GP100一樣為2:1,也就是說每組SM單元中有32個FP64雙精度單元,理論值應為32*14*6=2688個,但由於關閉了4組SM單元,所以總數為2560個。

Tensor單元工作流程圖

由於NVIDIA現在已經轉型為一家AI公司,因此其GPU產品也開始著力於AI、DP等領域的優化發掘,在Pascal中NVIDIA開始強調FP16半精度,因為深度學習對精度的要求並不高,甚至FP8就夠了,其更需要的是更強大的運算性能。在Volta中,NVIDIA帶來了革命性的Tensor運算單元,該單元是繼FP16和FP8後為AI設計的全新利器。其能夠提供高達120TFLOPS的超強運算性能,而且效率高且非常省電。

V100中SM單元設計

在GV100核心中,每組SM單元中包含8個Tensor單元,其能夠提供高達120TFLOPS的超強運算性能。相比於在P100的FP32單元上,TeslaV100的深度學習訓練能力是前者的12倍,而相比於在P100的FP16單元的深度學習推理能力上,V100是前者的6倍。

性能:DP方面能力提升迅猛

由於Volta同Pascal相比架構僅僅是小幅改動,因此V100的理論性能提升同P100相比僅僅是規格增加而帶來的,但實際運行方面,其提升還是相對可觀的,尤其是人工智慧和深度學習能力。首先我們來看一下在HPC運算方面的性能提升:

VoltaHPC應用性能提升

官方給出了V100與P100在6款HPC應用中的性能對比,其中最低增長了42%左右,最高增長了76%左右,平均提升幅度約為50%,可見提升還是比較明顯的,但我們也能看出,由於V100的頻率與P100基本相當,所以實際性能並沒有從M40到P100那種翻天覆地的提升。接下來我們看看Tensor單元的引入會對V100的深度學習性能帶來怎樣的影響:

ResNet-50深度神經網絡訓練任務中的速度對比

從圖中可以看出,TeslaV100使用Tensor單元在ResNet-50深度神經網絡訓練任務中的速度是TeslaP100使用FP32單元進行運算的2.4倍;如果每張圖像的目標延遲是7ms,那麼TeslaV100使用Tensor核心在ResNet-50深度神經網絡進行推理的速度是使用FP16單元的P100的3.7倍(參與測試的V100為原型卡)。

TeslaV100Tensor單元和CUDA9對GEMM運算的性能提升

矩陣-矩陣乘法運算(BLASGEMM)是神經網絡訓練和推理的核心,被用來獲得輸入數據和權重的大型矩陣的乘積。從上圖我們可以看出,相比於基於Pascal的GP100,TeslaV100中的Tensor單元把這些運算的性能最高提升了8倍多。

不同平臺深度學習訓練時間對比

還是得益於Tensor單元強大的實力,8路V100的深度學習訓練時間僅為8路P100的三分之一左右,而雙路E52699V4的耗時是8路V100的56倍,這種差距是非常懸殊的。

以上就是Volta架構分析的全部內容,其主要特性無非為三點:1、史上最大規模的GPU;2、首款採用12nm工藝的GPU;3、全新加入的Tensor單元讓GV100的DP性能達到了史無前例的新高。在GTC2017大會上,老黃表示NVIDIA在研發TeslaV100的過程中投入了30億美元的巨資,這是迄今為止NVIDIA投資的最大的單個項目,比Pascal還多花了10億刀。這30億刀讓NVIDIA整整領先了AMD一代,AMD這邊甭說Navi,就連Vega也遲遲不見蹤影,正是如此,NVIDIA在下半年還不準備放出消費級的Volta,就讓我們期待明年初的消費級Volta吧,4K被徹底徵服不是夢。

相關焦點

  • 性能暴增50%!NVIDIA全新顯卡架構Volta解析
    Volta架構改進:Pascal翻新,新增Tensor單元在之前解析GTX 1080與Tesla P100時,我們說過主流的GP104核心跟GP100核心是不同的,前者跟Maxwell架構沒多大變化,每組SM單元是128個CUDA核心,GP100上每組SM單元是64個CUDA核心,而後面的GP102核心跟GP100也不同,更像是GP104
  • NVIDIA發布PCIe版安培計算卡:功耗驟降150W、性能20倍於上代
    5月中旬,NVIDIA正式發布了全新一代「安培」(Ampere) GPU架構、GA100 GPU核心,並宣布了首款產品「A100」加速計算卡,採用專有的SMX4形態。今天,基於標準PCIe形態的A100計算卡登場了,更適合主流標準伺服器。
  • NVIDIA發布MX110/MX130筆記本獨顯:上代麥克斯韋架構
    NVIDIA最近悄然發布了兩款筆記本獨立顯卡GeForce MX110、GeForce MX130,一看就知道定位比流行的GeForce MX150更低,而且當時就猜測它們很可能只是老款馬甲卡,絕非MX150那樣採用最新的帕斯卡架構。
  • NVIDIA Volta架構GPU或2017面世 12nm工藝
    Volta架構GPU將會由臺積電代工,基於改良過的12nm FinFET工藝。>,基於Volta架構的GeForce遊戲顯卡的具體上市時間仍未公布,但看到Pascal架構今年非常強勢而且暫時未有競品能動搖到其高端產品的地位,NVIDIA極有可能在2017年的新一代顯卡繼續沿用Pascal(Pascal Refresh),到2018年才把Volta架構顯卡公諸於世。
  • NVIDIA或推Volta架構GPU 但GTX 2080仍是Pascal架構
    Volta架構GPU將會由臺積電代工,基於改良過的12nm FinFET工藝。GeForce遊戲顯卡的具體上市時間仍未公布,但看到Pascal架構今年非常強勢而且暫時未有競品能動搖到其高端產品的地位,NVIDIA極有可能在2017年的新一代顯卡繼續沿用Pascal(Pascal Refresh),到2018年才把Volta架構顯卡公諸於世。
  • NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
    ·GeForce RTX 3080:取代RTX 2080 Ti,相比於RTX 2080性能快2倍,搭配10GB GDDR6X顯存,海外699美元沒變,國內從上代6499降至5499元,9月17日上市。對NVIDIA來說,他們的Volta伏特、Turing圖靈兩代架構都是臺積電12nm FFN工藝了,這是臺積電16nm工藝的改進版,如果再算上16nm的Pascal架構,實際上過去三代GPU都沒有重大工藝上的升級了。
  • Volta 架構強化版?NVIDIA 圖靈架構將搶佔專業市場先機
    根據老黃的說法,新架構具備極為強大的計算能力,把光線追蹤、Tensor Core 以及 RT Core 完全整合進架構當中,整體計算性能也要遠超過上一代遊戲與專業卡架構 Pascal,不過這次發表的圖靈架構暫時只有針對專業繪圖市場的產品發布。面向消費性娛樂市場的的產品可能要一周後的科隆遊戲展才會揭露。
  • GTX1180曝光 Volta架構12nm工藝性能提升50%
    從資料庫中能夠看到,GTX 1180採用了Volta架構,核心為GV104,基於12nm製程工藝,有3584個流處理器,224個陰影單元,64個光柵單元,256bit顯存位寬,16GB GDDR6內存,12GHz內存頻率。核心頻率為14052MHz,單精度浮點性能為13TFLOPs,功耗高達200W。
  • 傳Nvidia下代遊戲顯卡跳過Volta使用Ampere架構
    【中關村在線新聞資訊】2月10日消息:Nvidia的Volta架構顯卡一直是作為商用級產品推出的,而玩家們則一直在等著Volta架構的遊戲級顯卡。但現在看來,Nvidia似乎並不打算推出等著Volta架構的遊戲卡。
  • AMD CDNA計算卡架構揭秘:從零起步、三殺NVIDIA
    昨日晚間,AMD正式發布了新一代Instinct MI100計算卡,首次採用針對HPC高性能計算、AI人工智慧全新設計的CDNA架構,和遊戲向的RDNA架構截然不同。作為AMD GPU的最基本模塊,計算單元(CU)也完全不同了,現在叫做增強型計算單元(XCU),組成模塊包括調度器、分支與信息單元、12.8KB ECC標量單元、512KB ECC標量寄存器、矢量寄存器、矢量ALU操作單元、矩陣數據操作單元、四個矢量/矩陣SIMD單元、64KB ECC本地數據共享單元、載入/存儲單元、16KB ECC一級緩存等等。
  • 外媒稱 NVIDIA 新架構 Volta 專為 AI 而生,對圖形性能並無幫助
    NVIDIA在今年發布了Volta架構,並陸續推出Tesla V100以及Titan V,此外還將推出針對車載的版本並用於DRIVE PX Pegasus上,然而根據外媒消息表示,由於Volta本身的架構是以深度學習與人工智慧需求所規劃,雖然同樣能用於消費級,但額外增加的架構對於
  • NVIDIA發布GeForce RTX平臺遊戲顯卡,全新Turing架構性能提升6倍
    NVIDIA發布GeForce RTX平臺遊戲顯卡,全新Turing架構性能提升6倍NVIDIA 創始人兼執行長黃仁勳先生表示: 「Turing 開啟了遊戲行業又一個黃金時代,它為玩家奉上只有光線追蹤技術才能實現的高保真度,而此前大多數人認為仍需十年努力才可實現這一成果。
  • NVIDIA:圖靈是架構變化最大的GPU之一,性能提升兩倍
    NVIDIA財務長Colette Kress日前透露說圖靈是他們史上架構變化最大的GPU之一,性能相比以前的顯卡大幅提升,不考慮光線追蹤處理的的話性能提升兩倍,如果考慮光線追蹤,性能就是提升六倍了。NVIDIA CFO Colette Kress以及投資者關係部門的Simona Jankowski日前參加了花旗集團2018全球技術大會。
  • 締造性能神話 GeForce GTX 1080首發評測(全文)_NVIDIA顯示晶片...
    其VR性能是GTX Titan X的2倍,能耗比是GTX Titan X的3倍!」說完這席話,臺下爆發出雷鳴般的掌聲和歡呼聲,作為Pascal架構的首發先鋒,GTX 1080竟做到了戰勝上代Maxwell架構的所有卡,不得不讓人感嘆,新時代終於來了,GTX 1080締造了全新的性能神話。
  • TITAN V發布:Volta架構 HBM2顯存 性能世界第一 價格上天
    【PConline 雜談】就在今天,NVIDIA的CEO老黃髮布了一款基於全新Volta(伏打)架構的最頂級顯卡——TITAN V,「V」當然就是取自「Volta」的開頭了。TITAN V基於Volta架構,全新的12nm工藝製程,配置12GB的HBM2顯存,浮點性能是110TFlops(TITAN Xp也只有12TFlops),5120個流處理器,其他參數都是非常爆炸的,我們用表格對比著看吧...
  • AMD RX 6800(XT)首測:比上代強80%,性能比肩RTX 3080
    RTX 3090與RTX 3080我們沒有公版,所以用了性能接近的AIC顯卡代替。  性能實測總結:對比上代性能將近翻倍  為各位趕時間的讀者著想,這裡先把性能總結放出來。  首先我們綜合了光柵化渲染方面各款顯卡的性能,RX 6800 XT對比上代A卡最強的RX 5700 XT,性能強了足足80%!
  • RTX 2080TI顯卡的圖靈架構是什麼?
    9月20全新一代顯卡即將同步發售了,自2080ti顯卡發布以來持續熱議,除了被吐槽的煤氣灶外形,更多的還是對性能的期待。性能的大幅升級之外,新一代顯卡最大的變化還是架構的更新。全新的圖靈架構,是新款顯卡的秘密武器。
  • NVIDIA Turing架構解析:追光逐影,成敗未定
    與過去推出的產品大不相同,NVIDIA已將其最新顯卡的介紹內容分為兩部分:架構和性能。近日,NVIDIA終於揭開了全新Turing架構細節的面紗,雖然一些有趣的方面尚未得到官方解釋,還有一些環節需要與客觀數據一起深入研究,但也讓我們有機會深入了解那項為GeForce RTX冠名的技術:光線追蹤。
  • 7倍AI性能提升,AMD Instinct MI100來了
    2019年,AMD推出了代號為羅馬(Rome)的第二代EPYC處理器,相比上代產品,無論是性能、核心數量、新技術支持還是安全性等方面都有了長足的進步,在雲計算、虛擬化、高性能計算以及諸多行業應用方面,為用戶帶來了全新的選擇。與此同時,AMD也迎來了口碑與市場份額的雙豐收,在企業級市場方面,AMD的增長速度更是驚人。
  • 地球最強單芯卡王 NVIDIA TITAN X首測(全文)_NVIDIA TITAN X_顯卡...
    GP102核心面積約為471平方毫米,得益於16nm的製程優勢,核心內集成了12億電晶體,是GTX TITAN X電晶體數量的1.5倍,核心面積卻僅為GTX TITAN X的78.4%。 X的默認核心頻率為1418MHz,Boost頻率為1531MHz,達到了上代GTX TITAN X頻率的1.4倍,提升幅度非常明顯。