老黃在2016年5月發布會上發布的Pascal架構產品之後,慢慢完善了自己的Pascal顯卡框架帝國,但是由於後面各種因素,導致售價居高不下,然後很多DIY玩家慢慢淡了對Pascal架構顯卡的期望,等待下一代新顯卡,從TITAN V的發布,到後面「安培」「圖靈」各種小道消息傳遍了整個DIY圈,英偉達估計自己也知道,DIY圈對於新顯卡的期盼。正如所說,老黃在8月20日的新品發布會上上來就調侃大家到「歡迎來到GTX11系發布會的現場,網上曝光的參數其實都是錯誤的」,但是老黃沒有辜負大家的期待發布了新一代的「核彈」RTX20系列。筆者在第一時間拿到了大家翹首以盼的新顯卡——影馳的非公版RTX2080 大將顯卡。
規格參數一覽
以TU102和GP102核心為例,從規格上來看,CUDA核心的數量增長並不是非常誇張,相對而言最大的變化就是增加了用於光線追蹤的RT Cores 和深度學習用的Tensor Cores。這也是這一代顯卡最重量級的升級。新成員的加入也讓圖靈架構的顯卡核心面積大幅度增加。TU102相比GP102在面積上就增加了60%。相應的頻率也有所增加,但幅度相對較小。
TU102核心透視實拍
TU102的電晶體數量達到了186億,而前一代GTX 1080Ti所使用的GP102則只有118億,增加了57%。這顆GPU核心也順理成章成為了目前規模最大的遊戲顯卡核心。巨大的規模帶來的副作用就是潛在的功耗和發熱量的增加。
相比兩年前Pascal時代28nm到14/16nm工藝的巨大工藝紅利來說,這一代從16nm 到12nm 的提升幅度就沒那麼誇張,一定意義上來說,臺積電以及三星的12nm工藝更多的是在之前14/16nm工藝基礎上的小改成果。所以雖然有一定的效果,但對於NVIDIA來說並不會有太多頻率和發熱控制上的顯著進步。
早前發布的專業卡RTX6000採用的完整TU102核心,其擁有72個SM單元,很不幸的是RTX2080Ti閹割掉了4個SM單元,僅有68組。相應的內存控制器也閹割掉了一組,剩下11個,整體的策略和GTX 1080Ti時期對TITAN Xp的完整GP102核心的「刀法」閹割完全一致。不得不驚嘆老黃的手法。
每一組SM單元中都配備了一個RT Core,以及兩兩成對的TENSOR Cores。可以看出,事實上這一代FP32和INT32單元所佔據的比例其實相對不那麼高。可以說這一代是近幾年來,在底層變化最大的一代產品。
如果細化到Tensor Core本身,圖靈架構的Tensor Core相對於Pascal上搭載的相同結構的最大變化就是將處理方式從2D平面升級到了3D,這意味著以數量級計的效率提升。
GDRR6顯存:求穩之舉
由於5月份韓國SK Hynix 也就是我們俗稱的海力士與和NVIDIA悄然籤了個大訂單,為其提供GDDR6顯存。再加上HBM2顯存產能和良品率的低迷。新一代的RTX20系顯卡繼續使用了最新的DDR顯存,也就是GDDR6顯存。
架構上沒有多少變化的GDDR6是基於前一代產品的繼續優化產物,通過提升頻率到7000MHz(等效14000MHz)將帶寬提升到了14Gbps的水平,同時降低了40%的串擾。雖然性能仍然不可能與HBM相比,但勝在成本低,良率高,可以持續大規模供貨,不至於出現被顯存拖累的窘境。
前文我們說到,RT Cores佔用了很大的核心面積,而這些單元並不會提升傳統的光柵渲染效能。他們的用途要比單獨提升遊戲的FPS值更有價值。基於這些單元,NVIDIA在這一代顯卡產品中加入了醞釀多年的「實時光線追蹤」(RTX)技術。這也是為什麼這一代顯卡產品的命名從「GTX」變成「RTX」的原因。
光線追蹤與實時光線追蹤
傳統的光柵化渲染其實將一個3D圖形的幾何信息轉變為一個個柵格組成的2D圖像的過程,可以理解為在這個3D圖形的每個點都包含有顏色、深度以及紋理數據,經過一系列計算變換後,將其轉換為2D圖像的像素,進而呈現在顯示設備上。更多的是一種基於作者認為「這裡應該有這個」的創作性質的圖形渲染方式,一定以上來說就是已知結果並把結果寫出來,而並不能知道這個結果是正確的還是錯誤的。
而光線追蹤技術則是通過通過光源位置、射線、和物體關係進行真實的光線模擬運算,來得出這裡應該有哪些光線,有怎樣的反射關係。這樣得出的遊戲畫面的光影效果也就更加真實。
光線追蹤在以往遊戲中的應用都是在遊戲的製作中提前進行運算,將得出的結果寫到遊戲程序中,顯卡所做的也僅僅是將已經寫好的「臺詞」念出來。這樣的做法意味著無法實現大量且精細的光線追蹤,那將意味著海量的計算過程和無比巨大的供調用的結果數據。
而「實時光線追蹤」就是將光線追蹤的運算過程拿到遊戲過程中來,實時地計算出光線應該投影和反射形成的效果。如果性能足夠強大,不僅可以在同樣的場景中做到更高數量級的光線追蹤效果,遊戲畫面可以得到顯著的提高,還能大幅度降低遊戲開發者的運算量。
如果把圖形渲染比喻成一場數學考試,那麼光柵化渲染基本上約等於不會做題目所有的選項都靠「三短一長選最長」的直覺來回答;而「光線追蹤」則是將儘可能多的題目死記硬背,靠題海戰術來完成答卷;而「實時光線追蹤」(RTX)技術則是將做題的方式學會,通過聰明的大腦來運算解決遇到的每一個題目。這樣毫無疑問,最後一種方式所得到的分數必然要遠勝前兩者。
落實到遊戲的話,目前支持光線追蹤的遊戲並不多,近期《古墓麗影:暗影》雖然已經承諾支持,但並未在首發版本中加入。而另一款NVIDIA演示的RTX遊戲《戰地V》也延期上市。所以目前還不能玩到支持實時光線追蹤技術的遊戲。但是相信不久的將來,在NVIDIA的推動下,會有更多的支持RTX技術的遊戲來到我們面前。
DLSS技術
科隆發布會上佔據時長同樣多的還有全新的基於AI人工智慧技術的「深度學習超級採樣」(DLSS)技術。這也是圖靈GPU核心中的那些Tensor Core的用途所在。
原理是這樣的,NVIDIA 使用自己的超級計算機以64 倍於標準解析度的解析度運行遊戲,繪製出極多的超高畫質的畫面,再用一定的方式挑選出一些細分畫面作為完美渲染的「標準答案」。然後通過DLSS深度學習,將標準解析度的畫面和這些畫面進行對比,生成一張最優畫面,然後再與全尺寸(64倍超採樣)進行對比,得出差別,然後將這些差別反推到神經網絡中,進行循環訓練。在幾輪之後就人工智慧網絡就可以學會如何將標準畫面渲染到接近64倍解析度原圖的方法。
這些學習結果定期通過軟體更新提供給圖靈GPU的顯卡,通過Tensor Cores,就可以進行實時比對,將較低解析度的畫面「腦補」為正確的高解析度畫面,從而實現畫面細節的提升。超採樣也消滅了畫面中可能存在的鋸齒。
最終的效果就是,要得出一個4K解析度的高畫質反鋸齒畫面,通過DLSS技術並不需要真的在4K解析度下渲染畫面,實際渲染一個低解析度畫面,通過DLSS技術即可達到需要的效果。這樣不僅畫質有所保證,還可以大幅度降低遊戲的性能需求,遊戲的運行效率將大幅度提升。
雖然效率提升,但畫質方面卻並不會因為DLSS技術而受到損失,相反的,相比TAA(時間性反鋸齒),DLSS技術大量的機器學習可以避免拖影和細節錯位,從而獲得更好的反鋸齒效果。
相比需要更深度技術基礎的實時光線追蹤而言,DLSS更加容易實現,所以很多現有的遊戲很快就可以經過NVIDIA的運算後支持DLSS技術,運行效率,尤其是4K下的性能會顯著提升。目前NVIDIA承諾的DLSS技術遊戲包括《絕地求生》《古墓麗影:暗影》《劍俠情緣三》等眾多我們熟悉的作品。
不過由於需要硬體層面的支持,DLSS技術也是圖靈架構GPU的專屬功能。
我們這回測試的是拿到的來自影馳的的非公版大將顯卡。
新一代影馳包裝繼承了人像以及「WHAT'S YOUR GAME?」的口號,大大的RTX標明在左下角表明這代顯卡是RTX系列,二維碼以及贊助就不多贅述了。
打開外包裝,黑色一體的紙箱浮現在眼前,正面印有「WHAT'S YOUR GAME?」的標誌。
「WHAT'S YOUR GAME?」
打開之後發現上部同樣印有反光的GEFORCE RTX標誌
全家福一覽,發現這代沒有配備驅動光碟,還將大D口轉顯卡供電線放在了小黑盒中。
20系大將並沒有一貫使用之前大將所採用的雙風扇,而是搭載了由影馳內部研發的星爵三風扇散熱系統,前文我們也提到了,這代顯卡發熱量比前代更高。
接口保持和公版一致的DP1.4a x 3,HDMI2.0b x 1 以及額外的一個Type-C視頻接口,用於VR頭顯的接駁,支持VirtualLink,帶有35W的供電能力。
整卡長達309mm,屬於很長的顯卡了,小機箱特別注意哦。
整卡厚度達到了50mm,佔據兩槽半。尺子旁邊的GALAX的LOGO是可以進行RGB呼吸的。
背板採用了鏤空設計的三角形圖案,並且也有「WHAT'S YOUR GAME?」的宣傳標語,NV Link接口並沒有隱藏設計。
供電與公版2080一致,為8+6Pin供電,且堵死了額外2Pin插槽。
RGB燈光展示
整體來看,影馳RTX2080 大將,相比於之前的大將產品,更好的優化了散熱,但依然外觀低調,RGB的點綴讓整卡更加有內涵。
為了給時隔兩年的全新一代顯卡的評測做準備,筆者準備了一套性能強悍且十分對遊戲有針對性的測試平臺。
我們所使用的10系對比卡為華碩GTX1080Ti-O11G 猛禽與華碩GTX1080-A8G 猛禽。
測試環節:
首先是傳統的3DMark測試:
Fire Strike:
Fire Strike Extreme:
Fire Strike Ultra:
Time Spy:
Time Spy Extreme:
總體來看分數,在基於DX11的FireStrike的三項測試中,RTX 2080則相對於GTX 1080有著26-28%的性能提升,而相對於GTX 1080Ti有著5%左右的差距。而來到基於DX12的Time Spy測試中,RTX2080,相對GTX 1080有著38%和51%的性能提升,相對於GTX 1080有著14%和11%的性能提升。
DLSS技術效能測試:
我們使用《最終幻想15》的DLSS Benchmark程序進行了開啟DLSS技術的對比測試。解析度為1920x1080和3840x2160。
RTX2080在最終幻想15跑分中,效能比1080提升約40%,比1080Ti高7%。特別是開啟DLSS技術之後分數相對於關閉DLSS技術分數更高,更流暢。
奇點灰燼:
古墓麗影:暗影(未開啟RTX):
古墓麗影:崛起:
彩虹六號:
殺出重圍:人類分裂:
在實際遊戲中,RTX 2080則波動較大,總體戰平GTX1080Ti,相比GTX 1080的提升幅度在30-40%,表現不錯。
可以看出,這一代顯卡在現有非DLSS遊戲中的提升沒有上一代Pascal和Maxwell換代時的驚豔。表現基本上向上進步了一檔,次旗艦RTX 2080戰平前代旗艦GTX 1080Ti。但必須強調的是這都是在DLSS和RTX技術沒有引入的情況下得出的結論。
功耗測試:
我們使用FurMark進行壓力測試,設定為2560x1440解析度。RTX 2080整機功耗為300W,那麼一款額定功率為500W並且轉化率良好的電源是20系顯卡驅動的最低標準,如果考慮到其他硬體睿頻甚至超頻的情況下,官方給出的650W電源需求基本上是合理的。
評測總結:
新一代的RTX系列顯卡出乎我們意料地選擇了對畫質的提升以及對人工智慧在玩家中使用的探索,而不是相對於帕斯卡架構對比麥克斯韋架構的大幅度的理論性能提升。從這張影馳 RTX2080大將在遊戲中的幀數表現來說,英偉達更加重視新技術的支持和優化。這也體現在RTX和DLSS技術的實踐上,一個「腦補」4K和一個光線的實時追蹤,讓以後的遊戲更接近於真實。