北京時間9月2日凌晨,RTX 30系顯卡的發布對於眾多科技愛好者來說絕對是重磅新聞,幾經延期的30系顯卡終於在官方倒計時結束後與大家見面。關於這場發布會,我相信給了全世界用戶足夠的震驚,一方面是性能的翻倍提升,10系顯卡性能翻倍的神話在30系顯卡中居然再次出現了。而另一方面則是價格,雙倍的加量不加價,這足以讓任何人狂歡了。
21天21年,這21天NVIDIA沒有讓我們白等,這21年也讓我們見證了NVIDIA在計算機圖形領域中的輝煌成就。
其實早在發售前2個月,各種真假消息就已經不斷開始流出了,從最開始的「今年會出3090,取代以往TITAN」的型號變革,到「3090有5248的CUDA」的具體參數,再到「供電接口改為單12pin」,真真假假讓人摸不清頭腦。
本次30系顯卡主要提升的幾點
在9月2日的發布會中,黃仁勳先生不止一次強調了「這是有史以來最偉大性能提升」。而從發布會展示的效果來看,RTX 30系顯卡用雙倍加量不加價來形容都不為過。並且第二代RTX的Ampere架構所帶來最直接的變化就是在性能方面暴漲,所以發布會前的種種煙霧彈也就顯而易見了,下面筆者就給大家帶來NVIDIA GeForce RTX 3080的首發評測。
01 NVIDIA GeForce RTX 3080 外觀
下面我們先來看看這次NVIDIA RTX 3080 顯卡的外觀,首先在外包裝上,一向是NV的極簡風格,方方正正的硬紙盒子,主色調以黑色為主,輔以玫瑰金色紋路,而這次NVIDIA也罕見的沒有用綠色,整體看起來有點像Tesla V100。
外包裝與顯卡
入手顯卡之後,給人的第一感覺就是質感極強,堪稱工業設計典範。在發布會當中我們也看到此次的RTX 30系顯卡在外觀方面做了極大改變,卡身大面積被散熱鰭片覆蓋。
而在拿到顯卡後,我居然發現所有散熱鰭片上都有啞光塗層,所以觸感更偏溫潤。而顯卡的外殼部分,採用了大面積的金屬包裹,表面為磨砂材質。
散熱鰭片全部採用了啞光塗層
NVIDIA這款RTX 3080拿在手裡給人的第一感覺就是——完美。這絕對是件藝術品,雖然以往在公版評測的時候我們都會驚嘆其做工精緻,但像這次如此巧妙地將大面積的金屬融合在一起,形成剛柔並濟,絕對在設計之初下了很大功夫,而這種效果弄不好就會成為一個「鐵疙瘩」。
GeForce RTX 3080外觀展示
之所以RTX 30系顯卡的外觀需要大改,是因為在散熱方面同樣做了顛覆性的設計。它採用了雙軸流式設計,RTX 3080主動散熱的風扇為一前一後,根據官方數據,空氣流量相較於之前的設計增加55%,散熱效率提升30%,靜音效果提升至3倍。
散熱系統示意
具體的工作原理如上圖所示,這也是NVIDIA顯卡第一次將散熱系統與機箱整體散熱結合,形成協同工作。
散熱系統工作原理
新的散熱系統,可以吸入外部的冷空氣,流經GPU,並將熱空氣直接從機箱背部排出。另一個背面拉動式風扇同樣吸入冷空氣,但流經熱管上的散熱鰭片,並通過機箱整體的散熱系統引導至機箱背部排出。
PCB版對比
在顯卡內部的PCB板上NVIDIA也做了非常大的調整,為了搭配新的散熱系統,此次採用了超高密度的PCB板設計,前端為「V」字造型,體積較之前縮小了50%。
從圖中可以看到板子上密密麻麻的元件排布,中間為RTX 3080的核心,四周分布10顆顯存顆粒,同時還有兩個空焊位置。
GeForce RTX 3080 PCB大圖
18相供電依次排列在晶片左右兩側,鉭電容分布在邊邊角角的位置。另外供電接口可以看到位於整塊板子的右上方,其空間也真的只能容納下單接口了,可以說整塊PCB板幾乎沒有任何富裕位置。
內附的供電轉接線
由於本次公版顯卡採用了單12pin的供電接口,為了方便適配玩家現有的電源,包裝內還附帶了一根轉接線,可以將單12pin轉為8+8pin,不過由於接口的方向設計,會正好擋住「GeForce RTX」的信仰logo,略微有些瑕疵。
02 NVIDIA Ampere架構帶來的變化
下面我們就來看看,「有史以來最偉大性能提升」相比第一代的RTX Turing架構,NVIDIA Ampere會有哪些變化吧。
第一代RTX架構 Turing
第二代RTX架構 Ampere
首先來簡單回顧一下在9月2日發布會的PPT上我們都看到了什麼,相較於初代的Turing RTX架構,NVIDIA Ampere架構在算力上有著成倍的增長,每個時鐘執行2次著色器運算,而Turing為1次,著色器性能達到30 TFLOPS單精度性能,而Turing為11 TFLOPS。
NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到58 RT TFLOPS,而Turing為34 RT TFLOPS。
另外在全新的Tensor Core中,可自動識別並消除不太重要的DNN權重,處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
晶片說明
全新的NVIDIA Ampere GPU核心擁有280億個電晶體,628平方毫米的面積,基於三星的8nm NVIDIA定製工藝,來自美光的GDDR6X顯存,以及我們上面說的,三大處理核心均為初代Turing的兩倍速率,構成了有史以來性能最強大的Ampere。
而NVIDIA Ampere架構的強大性能並不是NVIDIA一蹴而就,可以說在20系顯卡中所採用的Turing架構功不可沒,下面我們先來看看完整的GA102核心。
完整的GA102核心
完整的GA102 GPU包含7個GPC(圖形處理集群)42個TPC(紋理處理集群)以及84個SM(流處理器)組成。GPC是佔據主導地位的高級模塊,擁有所有的關鍵圖形處理單元,每個GPC包含一個專用光柵引擎。在新的NVIDIA Ampere架構中,每個GPC還包含了兩個ROP分區,每個分區包含8個ROP單元。下面我們來看看每個SM單元的變化。
SM詳解
在每個SM中,包含四個大的處理分區共128個CUDA核心,4個第三代Tensor Core,1個第二代RT Core,1個256 KB的緩存文件,1個128 KB的L1緩存,這個L1緩存可以根據不同的工作需求來調配緩存,工作效率發揮至最大。
另外大家都知道本次RTX 3080的CUDA數量暴增至8704個,而RTX 3090的CUDA數量更是達到了驚人的10496個,但是大家要知道專業計算卡Tesla A100的GA100核心,擁有更大的核心面積,更多的電晶體數量,理論上只有8192個CUDA,那RTX 3080又是如何達到這種效果的呢?
其實是因為本次NVIDIA Ampere的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍。
完整的GeForce RTX 3080核心
而通常我們計算顯卡的CUDA數量,並不是把SM中的所有單元加起來計數,而是只統計FP32單元的數量,所以這樣一來答案就顯而易見了,SM中的FP32 : INT32 從 1:1 變為 2:1,如RTX 3080的8704個CUDA,其實它只有4352個INT32單元,但由於內部的FP32數量翻了一倍,所以最終實現了8704這個驚人的數字。
不過這樣究竟算不算「虛標」?其實對於現在的遊戲來說,浮點運算相比整數計算要常用的多,所以翻倍的FP32真的能帶來性能翻倍的提升。
光追工作原理示意
在此次的NVIDIA Ampere架構中,NVIDIA官方宣布為第二代RT Core,它和第一代有什麼不同呢。首先要知道RT Core的工作原理是,著色器發出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。基於BVH算法來判斷,如果是方形,那麼就返回縮小範圍繼續測試,如果是三角形,則反饋結果進行渲染。
而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。
RT Core的變化
在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 裡,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。
運動模糊渲染原理
第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。
稀疏深度學習
除了光線追蹤的強化,Ampere架構的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別並消除不太重要的DNN(深度神經網絡)權重,同時依然能保持不錯的精度。
首先原始的密集矩陣會經過訓練,刪除掉稀疏矩陣,再經過訓練稀疏矩陣,從而實現稀疏優化,進而提高Tensor Core的性能。
第三代Tensor Core的處理能力大大提升
所以最終的結果就是Tensor Core在處理稀疏網絡的速率是Turing的兩倍,算力高達238 Tensor TFLOPS,而Turing為89 Tensor TFLOPS。
同時在發布會中,黃仁勳還提到了一項新技術——RTX IO。目前很多遊戲動輒幾十G甚至百G的安裝空間,對於存儲空間的負擔暫且不提,但存放在硬碟中的數據,如果顯卡想要讀取到,需要先由CPU從硬碟中讀取壓縮過的數據,經過解壓縮再發送到顯存中。
傳統的數據交換
在這個過程中,會佔用多個CPU核心,壓力急劇增大,佔用較多的內存,而此時其實GPU是處於閒置狀態的。RTX IO的作用就是越過CPU解壓再傳輸數據這一步,直接從PCIE總線讀取硬碟上經過壓縮的數據,並且完成解壓,降低CPU佔用,變向提升了性能。
RTX IO可以極大解放CPU負擔
當然這項技術作為系統底層的運行方式改變,還需要藉助微軟發布的DirectStorage來實現,對於目前容量的遊戲來說,RTX IO的改善效果有限,但假以時日等遊戲容量上百G成為常態的時候,這項技術將會發揮巨大的功效。
GDDR6X
在RTX 3080中,採用了GDDR6X顯存,GDDR6X擁有320bit的位寬以及19Gbps的帶寬速度,與採用GDDR6的Turing相比可提升40%的速度,在相同時間內GDDR6X可以比GDDR6傳輸多2倍的數據。這對於需要大量數據負載的工作尤為重要,如光線追蹤的遊戲、AI學習和8K視頻渲染。
同時搭配新增的HDMI2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。
03 3DMARK 理論性能測試
首先介紹一下測試平臺,為了保證此次評測能夠發揮RTX 3080顯卡的最佳性能,主板和CPU採用了目前桌面旗艦級配置,具體如下。
在測試成績上,基準測試採用3DMARK,遊戲性能測試使用遊戲自帶Benchmark和FrameView取同場景平均值。
飛利浦猛騰275M1RZ
配合全新的Nano IPS顯示器可以暢快的體驗畫質和色彩的全方位升級,飛利浦猛騰275M1RZ顯示器不但帶來了全新的面板技術,還帶來了流光溢彩的燈效。在遊戲和創作時也能給我們新的靈感和體驗。
鑫谷崑崙KL-750G電源
鑫谷崑崙KL-750G是為高端遊戲平臺打造的金牌電源,這款產品沿用了崑崙系列的中國風設計,750W額定功率可以滿足高端遊戲平臺的用電需求,80 PLUS金牌效能帶來了更好的節能表現,全模組輸出還能提供清爽的背線效果,和30系顯卡搭配相得益彰。
GPU-Z參數
首先看一下GPU-Z的參數,RTX 3080採用了GA102核心,三星8nm,晶片面積達到了628平方毫米,擁有8704個CUDA,頻率為1440-1710MHz,採用10GB GDDR6X顯存,位寬為320bit,顯存帶寬達到了760.3GB/s,光柵單元和紋理單元分別為96和272。
下面先進行的是用來衡量顯卡DX11理論性能的3DMARK FS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
3D MARK FS套裝測試
在針對顯卡DX11性能的3DMARK FS套裝測試中,RTX 3080比RTX 2080在FS中分數高54%,在FSE中分數高58%,在FSU中分數高67%。不難發現在越高的解析度分數差距越大,同樣的在光追效果和DLSS效果中差距也會更大,下面我們會詳細介紹。
3D MARK TS套裝測試
而在針對DX12性能的Time Spy和Time Spy Extreme測試中,RTX 3080比RTX 2080的TS分數高65%,TSE中分數高76%。不難發現,在DX12環境中RTX 3080的表現尤其突出。
3D MARK 光追測試
PortRoyal是3DMARK中專門針對光追性能的測試項,RTX 3080相比RTX 2080的分數提升了79%。
理論測試的分數雖然是顯卡性能非常重要的評判標準,不過實際的遊戲幀數表現可能才是玩家最關心的,下面我們來看遊戲實測。
04 遊戲性能測試
在遊戲性能測試中,我們選擇了《控制》、《古墓麗影暗影》、《DOOM Eternal》、《德軍總部新血脈》《孤島驚魂5》、《刺客信條奧德賽》、國產遊戲《邊境》、《光明記憶:無限》的benchmark跑分軟體。其中《控制》和《DOOM Eternal》沒有遊戲自帶benchmark,所以我們選擇FrameView取同場景遊戲的平均值來做計算,但準確性肯定無法和benchmark相比。
《控制》遊戲測試
首先是大作《控制》,目前《控制:最終合輯》登錄steam,這款遊戲在物理破壞和光影效果十分出色,並且由於設置中自帶多項選擇,所以我們的測試分為2組6測,第一組為預設最高畫質下,RTX OFF/DLSS OFF,第二組為預設最高畫質下,RTX 高/DLSS ON,我們可以看到上圖中的具體表現。
其中在1080P解析度下RTX 3080比RTX 2080的分數高58%和55%;2K解析度下高73%和68%;4K解析度下高71%和84%,可以看出解析度越高,光追效果越好,RTX 3080領先分數就越多。
《古墓麗影暗影》遊戲測試
在《古墓麗影暗影》中,由於加入了光追和DLSS效果,所以我們也分為2組6測,第一組為預設最高畫質下,RTX OFF/DLSS OFF,第二組為預設最高畫質下,RTX 超高/DLSS ON。其中RTX 3080比RTX 2080在1080P解析度下,高30%和45%;2K解析度下高57%和55%;4K解析度下高70%和65%,整體提升幅度在50%-70%之間。
《DOOM Eternal》遊戲測試
《DOOM Eternal》是毀滅戰士系列的最新作品,對於機器的配置要求比較低,主要以爽快為主。其中RTX 3080比RTX 2080在1080P解析度下高47%;2K解析度下高59%;4K解析度下高74%。不過由於《DOOM Eternal》同樣沒有benchmark,只能去場景平均值,並且場景內存在大量煙霧效果,幀數並不準確,僅供參考。
《德軍總部新血脈》遊戲測試
在《德軍總部新血脈》中,由於自帶兩個benchmark,所以我們的數據取跑分均值。其中RTX 3080比RTX 2080在1080P解析度下的分數高23%,2K解析度下高44%;4K解析度下高57%。
《刺客信條奧德賽》遊戲測試
接下來是眾生平等奧德賽,雖然叫眾生平等,但從圖中我們可以看到真的有顯卡能在4K解析度下穩定60幀以上了。其中RTX 3080比RTX 2080在1080P解析度下分數高38%;2K解析度下高42%;4K解析度下高54%。
《孤島驚魂5》遊戲測試
《孤島驚魂5》同樣算是優化比較到位的3A大作,RTX 3080比RTX 2080在1080P解析度下分數高20%;2K解析度下高61%;4K解析度下高92%。
《光明記憶:無限》遊戲測試
《光明記憶:無限》是由飛燕群島工作室開發的《光明記憶》新系列,目前還沒有遊戲提供試玩,不過benchmark的跑分軟體官方已經提供,我們在測試的時候由於無法關閉光追選項,故所有測試成績均為「RTX 高/DLSS 質量」模式下進行。
在1080P解析度下,RTX 3080比RTX 2080分數高58%,2K解析度下高91%,4K解析度下高105%。
《邊境》遊戲測試
《邊境》同樣是一款來自柳葉刀工作室的國產3A大作,具體發售日期不明,目前僅提供了benchmark跑分軟體。同樣的目前跑分軟體不支持關閉光追選項,所以在測試時我們選擇「RTX 高/DLSS 質量」下進行。
在1080P解析度下,RTX 3080比RTX 2080分數高68%,2K解析度下高75%,4K解析度下高79%。
05 溫度功耗測試
在溫度功耗測試方面,室溫24℃,我們並沒有採用全封閉式的機箱,而是採用測試平臺的方法,這樣做可以最大限度的保證顯卡除了自身散熱外將風道等外因減小到最低。
功耗測試(點擊查看大圖)
功耗測試中,我們選擇FurMark軟體進行拷機測試,功耗僅計算顯卡自身。可以看到新的NVIDIA Ampere架構顯卡,確實是功耗大戶在峰值情況下兩款軟體略有出入,但整體平均在310W-315W之間。
溫度測試
溫度方面,本次的RTX 3080依然控制在75℃左右,而RTX 2080的核心面積為545平方毫米,RTX 3080的核心面積為628平方毫米,足足大了15%,但溫度依然控制的不錯,在散熱設計方面,RTX 3080確實是下了功夫的。
06 Ampere On the Way
關於NVIDIA GeForce RTX 3080顯卡的測試在這裡就告一段落,而NVIDIA在發布會中公布的更多軟體及技術我們後續也將會為大家帶來詳細的體驗和測試。
相信在看完發布會後,所有玩家大呼「過癮!真香!」性能顯著提升但價格不變,用震驚世界這個詞來說也絲毫不為過。當年GTX 10系顯卡性能翻倍的神化,在RTX 30系顯卡中再次實現了。
30系顯卡綜合參數
其實在整場發布會下來,最讓筆者感到不可思議的還是Marbles場景演示。在兩個月前發布GA100中的廚房演講上,黃仁勳展示了完全光線追蹤的實時圖型Marbles,當時使用的顯卡為 Quadro RTX 8000 專業圖形卡,但僅能以720P 每秒25幀來呈現。而發布會中黃仁勳帶來了增強版的夜間Marbles模型,增加了更多光線效果並且還增加了景深效果,最終能以1440P解析度 每秒30幀來呈現,性能提升了4倍。
更加複雜的Marbles模型場景
演示中的動畫完全由光線追蹤完成實時渲染,無光柵化處理,並且場景中多達數百個光源,完全沒有預烘焙,所以最終呈現在我們眼前的是這樣電影級的畫質。
完全的純光線追蹤,完全的路徑追蹤,這在圖形學是作為聖杯級別的存在,而現在它竟是標配,對於視頻的演示效果,筆者只想說,Ampere作為有史以來最大的性能飛躍,毫不誇張。
未來可期
而價格方面,30系顯卡的整體定價非常良心,RTX 3080相比RTX2080性能接近2倍提升下,售價保持不變。而RTX 3080的定位大家不要忘了是目前的旗艦級產品,對於大部分玩家來說是性能過剩的,所以在不久的將來30系普及後,相信3000-5000元的價位就能讓用戶輕輕鬆鬆享受到頂級體驗。即便預算不夠,後續NVIDIA還將會推出甜品級的顯卡,性能較今天的甜品級也是有翻倍提升。至於萬元以上的RTX 3090顯卡,會用在更多有深度學習需求的用戶上,至少以目前來說,它的定位依舊是在遊戲之上。
同時也有玩家會問,RTX 20系顯卡如此「短壽」算不算失敗的一代,我認為不算。Turing為我們開創了光線追蹤和AI學習的新世界,奠定了GPU未來的發展方向,真正意義上實現從性能的堆砌到質的改變。而Ampere則是站在巨人的肩膀,將上一代的路走的更寬更紮實。
07 各家AIC顯卡外觀展示
iGame
華碩
影馳
技嘉
耕升
索泰
映眾
本文屬於原創文章,如若轉載,請註明來源:NVIDIA RTX 3080首測 性能顛覆下的精雕細琢http://diy.zol.com.cn/749/7495167.html
http://diy.zol.com.cn/749/7495167.html diy.zol.com.cn true 中關村在線 http://diy.zol.com.cn/749/7495167.html report 14164 北京時間9月2日凌晨,RTX 30系顯卡的發布對於眾多科技愛好者來說絕對是重磅新聞,幾經延期的30系顯卡終於在官方倒計時結束後與大家見面。關於這場發布會,我相信給了全世界用戶足夠的震驚,一方面是性能的翻倍提升,10系顯卡性能翻倍的神話在30系顯卡中居然再次出現了。...