對於全球遊戲玩家和 AI 從業者來說,一個重要時刻到來了。
剛剛,同樣是在自家廚房,英偉達創始人黃仁勳向世人發布了最新一代消費級顯卡 GeForce RTX 30 系列的最初三個型號 GeForce RTX 3070、RTX 3080、RTX 3090。
「無論性能還是能效,安培架構 GPU 都是圖靈的兩倍,」黃仁勳說道。「從架構、定製流程設計、電路、邏輯、封裝、series IO、顯存、供電、散熱、軟體和算法…… 我們在所有層面壓榨 GPU 的性能,最終實現了世界水平。」
劇透:壁櫥抹刀瓶後有驚喜。
關於這次發布,網上早已有各類信息提前曝光。但大家最為關心的就是 GeForce RTX 30 系列的性能與報價。用老黃的話說就是,與 2080 價位相同,但速度提升了一倍。而 3090 更是 GPU 中的猛獸,黃仁勳稱之為 BFGPU。
這些公版GPU的國行價格也第一時間出現在了英偉達中國官網上:
當今最強 GPU
在深度學習、光線追蹤的一系列熱場後,黃仁勳突然從放置抹刀的瓶子後,拿出了了一塊 RTX 3080,開始正式介紹 RTX30 系列。
總體來說,GeForce RTX 30 系列確實佔據了 GPU 界的多項「第一」:首款有著 24GB GDDR6X 顯存的遊戲圖形卡;首批支持 HDMI 2.1 的 GPU,一塊顯卡即可實現 4k 高刷新率或 8k 遊戲;首批支持 AV1 編解碼器的獨立 GPU,實現以更少的帶寬觀看更高解析度的視頻流。
最大號的 GeForce RTX 3090,當然還是要從烤箱裡拿出來。
RTX 3090 是世界上第一個 8K 遊戲 GPU。為什麼一定要 8K?在英偉達看來,解析度的提高會讓視覺效果更加清晰銳利,讓玩家更好地辨認出遠方的遊戲元素,以及讓細節更加真實,比如頭髮、衣服縫線和皮膚皺紋。
這款顯卡更類似於 Titan 系列,比上一代「正常範圍內」的最高級顯卡 GeForce RTX 2080 Ti 的性能要強大許多。RTX 3090 將於 9 月 24 日上市,起始價為 1499 美元。如果說沒有傳說中 40G 顯存的新泰坦,它就是旗艦 GPU 了。
在具體參數上,RTX 3090 使用代號為 GA102 的核心,和前代泰坦一樣擁有 24G 顯存,但型號升級為 DDR6X,顯存速度 19.5Gbps,384bit 位寬,擁有 10496 個等效 CUDA 核心,相比 GeForce RTX 2080 Ti,3090 的核心數量增加一倍不止,功耗則達到了 350W。
另外,RTX 3080 是 320bit 位寬,內建 8704 個 CUDA,顯存 10G,功耗 320W。RTX 3070 則有 5888 個 CUDA。
相比之下,2080Ti 的 CUDA 核心是 4300 個,所以黃仁勳在發布中說 3070 性能超過 2080Ti,看來是沒什麼問題的。
單從核心數量上來看,這巨大的提升讓最近買了 RTX 20 系列的人有了四九年入國軍的感覺。不過需要注意的是,英偉達官方標記的數據是等效核心,與之前的物理核心不同。
Nvidia GeForce 性能對比,來源:ANANDTECH
這些顯卡均支持 PCIe 4.0,還有 HDMI 2.1 和 DP 1.4a 等接口,並內含第二代光追核心 RTX Core、第三代張量核心 Tensor Core。
可以看到,RTX 3090 和 RTX 3080 顯存容量差距較大,這或許是在為稍後推出的 RTX 3080 Super 留位置。另外,3090 的 24G 內存和 1399 美元的價格或許能夠讓很多對深度學習有需求的用戶省下買泰坦的預算。如果你真的想要「Titan Ampere」,預計它會是一個顯存 40G,售價 3000 美元的誇張顯卡。
另外需要注意的是 GPU 代工廠,今天發布的 GeForce RTX 30 系列均採用了三星的 8 納米製程「英偉達定製工藝」,選擇三星而不是臺積電,不知是出於什麼樣的考慮。
安培架構,AI 算力再上臺階
這些強大的 GPU,採用的都是今年 5 月剛剛推出的最新 7 納米製程架構安培,其首先被 Tesla A100 所採用。
在當時的 GTC 大會上,英偉達推出的安培架構計算卡 A100,成為了當時人類製造出的最大 7 納米製程晶片。這塊 AI 計算卡採用先進的臺積電7 納米工藝,擁有 540 億個電晶體,它還是一塊 3D 堆疊晶片,面積高達 826mm^2,最大功率達到了 400W。
除了製程提高,安培架構還有一些針對 AI 計算特有的機制,其中的三代 Tensor Core 會對稀疏張量運算進行特別加速:執行速度提高一倍,也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統會自動將數據轉為 TF32 格式加速運算,現在你無需修改任何代碼量化了,直接自動訓練即可。
針對稀疏矩陣的加速可以讓安培架構 GPU 處理 AI 任務的效率提高一倍。
最終在跑 AI 模型時,如果用 PyTorch 框架,相比上一代 V100 晶片,A100 在 BERT 模型的訓練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。
不過由於消費級和專業級晶片的結構不盡相同,我們不能把 Ampere A100 晶片的 AI 訓練性能簡單地直接拿來作為參考,還需要等待官方公布,以及最終實測的數據。
黃仁勳表示,GeForce RTX 30 系列顯卡具備三項基礎處理技術:30TFLOPS 算力的可編程著色器,雙倍吞吐量,用於光追的 RT Core,以及可自動忽略次要 DNN 權重的 Tensor Core。
三個方面,性能相比前一代都是翻倍。
AI 是目前科技領域最強大的技術力量,可以讓計算機從大量數據中學習知識,甚至據此編寫出軟體。在圖形領域,我們仍然可以通過 Tensor Core 的力量增強視頻的畫面。「我們現在可以只計算低解析度圖像的光追,再用 Tensor Core 通過 DLSS 將其還原成高解析度,同時還能提高畫面幀率。」黃仁勳說道。
英偉達通過自己的超級計算機訓練了多種不同場景的圖像,並將訓練好的模型以顯卡驅動的程序安置在你的電腦中。在遊戲運行時,AI 會通過上一幀高清圖對現有低分辨圖進行渲染,最終達到超過原畫的效果。據介紹,在最新版的 DLSS 2.0 上,Tensor Core 可以把 RTX 的性能提升一倍——這也意味著遊戲的有效幀數可以變成兩倍,現在光線追蹤、高解析度和高幀率可以同時擁有了。
用它來打遊戲會是什麼樣
除了新的圖像增強工具 DLSS 2.0,隨著安培架構的 GeForce 顯卡,英偉達推出了 Nvidia Reflex、Nvidia Broadcast、Machinima 等工具,基於 RTX 的強大算力,現在人們不僅可以獲得更好的遊戲畫面,也可以在遊戲時獲得更低的延遲、直播時屏蔽環境噪音,替換背景,實現綠幕效果、甚至直接用遊戲裡的元素創作出你想要的電影。
如今,大型 3D 遊戲的容量已經超過了 200G,大量圖像材質需要從被解壓縮,進而交由 GPU 處理。在使用了 PCIe-4 和固態硬碟之後,CPU 解壓縮成為了這個流程的瓶頸。現在,通過新技術 RTX IO,GPU 可以無損進行解壓縮工作了。
自 Turner Whitted 等人首次發表光線追蹤的論文以來,已過去了 40 年,如今這項技術從計算及圖形的聖杯變成了人人都可以體驗的實時遊戲畫面。黃仁勳還宣布《堡壘之夜》已經支持英偉達的光線追蹤技術。「現在,全球排名前二的最受歡迎遊戲,《我的世界》和《堡壘之夜》,都已支持光追。」黃仁勳說道。
為了讓新一代 GeForce 顯卡能夠充分發揮作用,英偉達還發布了一款誇張的 360Hz 刷新率 G-Sync 屏幕,預計今年秋天就會出現在宏基、華碩、微星、外星人等品牌的電腦配置單上。
幾個月前,黃仁勳在 GTC 上展示了 Turing 進行數百光源的光追實時渲染的 Marbles 撞球遊戲視頻,使用 Turing RTX Quadro 8000,達到 720p 25 幀。而使用安培架構的 GPU,現在我們可以實現 1440p、30 幀,並增加更多的特效,這是超過四倍的性能。
還想要更好的效果?你也可以通過 NVLink 把兩張 GeForce RTX 3090 進行 SLI,以達到性能的大幅度擴展。不過看看一張卡的價格,這種事估計只有玩微軟模擬飛行的時候才會有人幹吧。
最後,對於 RTX 3090 在常規任務中的性能,目前已有了一些傳聞,據稱基於 GA102 的未定型顯卡在未優化完整的遊戲中以 4K 解析度跑起來比 RTX 2080 Ti 的幀數高 40%,而優化過的遊戲中性能更是要高出 50%,在針對安培架構進行優化最佳情況下,性能提升可高達 70%。想要在 4K 解析度下看高刷新率畫面,現在不是問題了。
採用英偉達大量最新技術的遊戲《賽博朋克 2077》,預定在今年 11 月 19 日與人們見面。
在星際迷航中,劇中人會使用 Holodeck 創造虛擬實境環境進行任務,現在這種科幻的夢想很大程度上成為了現實。「未來,GeForce 就是你的 Holodeck,你的光速飛船,你的時間機器。」黃仁勳說道。
正如人們所預料,RTX 3090 的性能絕對強勁。現在,問題來到了我們這邊,1 萬元一塊的泰坦級顯卡,你會不會買?