在陸續發布了RTX 3090/80/70之後,NVIDIA終於又開始了全新的動作,但讓大家絕對沒有想到的是,發布的新品竟然是RTX 3060Ti,很讓大家驚訝。一般來說帶有Ti後綴的顯卡會在普通版本發布後幾個月再推出,同時一般大家最早見到的會是80Ti級別的顯卡。筆者這次拿到了一張影馳 RTX 3060Ti 金屬大師 OC顯卡,可以給大家仔細評測一番。
這一代3060Ti確實是筆者最期待的一款產品,它也必將會有非常出色的銷量。至於原因嘛,非常簡單,甜品級別的價格卻能帶來超越前代次旗艦的性能,自然會讓每個人都想把它收入懷中。
影馳RTX 3060Ti 金屬大師 OC
這次,筆者就對影馳的一款RTX 3060Ti 金屬大師 OC顯卡進行評測,讓大家通過這款性能出色外觀好看的非公版顯卡,更加直觀的對RTX 3060Ti顯卡增加了解。
01 特點簡介及購買建議
按照慣例,在文章開頭,筆者會向大家簡單介紹一下影馳RTX 3060Ti金屬大師 OC的主要特點,方便大家對產品建立起初步的印象,然後結合售價給出購買建議,再進行細緻評測。
1、以60級別的售價給出超越80S的性能表現,並進行了出廠預超頻。甜品價格,旗艦性能2、全金屬上蓋,堅固耐用冰冷有質感3、三風扇散熱,靜音速冷4、光線追蹤、DLSS等功能加持,遊戲畫面更加真實暢爽
購買建議:影馳RTX 3060Ti金屬大師 OC的定價為3199元,厚道的讓人難以置信。雖然它定位於甜品級別,但實際上的性能已經超越了前代的次旗艦級別80S系列,價格卻依舊保持在甜品價位段,讓人不由得不心動。其外觀冷酷帥氣,散熱表現出色,性能方面足以通吃3A大作,是遊戲玩家們近期裝機的優秀選擇。
02金屬外殼 冷酷帥氣
影馳RTX 3060Ti金屬大師 OC顯卡的具體尺寸為318×107×49mm。系列大量使用金屬,冷酷又堅固的設計風格被很好的延續了下來。和這一系列的其他產品一樣,3060Ti金屬大師採用了全鋁合金的上蓋設計,純銀色的金屬外觀頗具質感,純金屬背板同樣為銀色,保持了很好的統一性。
全鋁合金上蓋
無論是上蓋還是背板,都進行了複雜的幾何設計和鏤空切割,在保證美觀的同時兼顧了使用強度和散熱透氣。影馳RTX 3060Ti金屬大師 OC在背板的圓環狀鏤空中間,還有影馳金屬大師logo的露出,非常帥氣。
頗具設計感的鏤空背板
背板甚至在邊緣處進行了彎曲,從而對PCB板進行格外加強的保護。同時,我們可以看到,影馳RTX 3060Ti金屬大師 OC顯卡採用單8PIN供電,其設計TGP為220W,推薦電源功率為650W以上。
背板彎曲 增強保護
影馳RTX 3060Ti金屬大師 OC的散熱方面,三個90mm風扇組成的寒光星散熱系統很好的完成散熱工作,靜霜三摺扇葉的獨特形狀可以提高風量,減少噪音。
90mm散熱風扇
03 NVIDIA Ampere架構下RTX 3060 Ti
影馳RTX3060 Ti金屬大師OC採用了NVIDIA Ampere架構,我們首先來看一下RTX 3060 Ti的提升。
第一代RTX架構 Turing下的RTX 2060 SUPER
第二代RTX架構 Ampere下的RTX 3060 Ti
相較於初代的Turing RTX架構,NVIDIA Ampere架構在算力上有著成倍的增長,這一點在RTX 3060 Ti中依舊有體現,每個時鐘執行2次著色器運算,而Turing為1次,RTX 3060 Ti的著色器性能達到16.2 TFLOPS單精度性能,而Turing為7.2 TFLOPS。
NVIDIA Ampere架構翻倍了光線與三角形的相交吞吐量,RT Core達到31.6 RT TFLOPS,而Turing為21.7 RT TFLOPS。
全新的Tensor Core可自動識別並消除不太重要的DNN權重,處理稀疏網絡的速率是Turing的兩倍,算力高達129.6 Tensor TFLOPS,而Turing為57.4 Tensor TFLOPS。
RTX 3060 Ti採用GA104核心擁有174億個電晶體,392平方毫米的面積,基於三星的8nm NVIDIA定製工藝,另外在RTX 3060 Ti中我們都知道仍然採用了GDDR6顯存,不過不同於RTX 3080的Micron,RTX 3060 Ti採用了三星的GDDR6顯存。
我們在發布會中經常聽到性能翻倍的說法,其實是因為本次NVIDIA Ampere架構的SM在Turing基礎上增加了一倍的FP32運算單元,這就使得每個SM的FP32運算單元數量提高了一倍,同時吞吐量也就變為了一倍。
而通常我們計算顯卡的CUDA數量,並不是把SM中的所有單元加起來計數,而是只統計FP32單元的數量,所以這樣一來,SM中的【FP32 : INT32】 從 1:1 變為 2:1。
RTX 3060 Ti共有4864個CUDA,其實它有2432個INT32單元,但由於內部的FP32數量翻了一倍,所以最終實現了4864這個驚人的數字。
而這樣粗暴的提升CUDA數量對於遊戲其實有著非常大的幫助,通常在遊戲中浮點運算相比整數計算要常用的多,圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數指令,而FP32的加速也有助於光線追蹤降噪著色器。
光追工作原理示意
在此次的NVIDIA Ampere架構中,NVIDIA官方宣布為第二代RT Core,它和第一代有什麼不同呢。首先要知道RT Core的工作原理是,著色器發出光線追蹤的請求,交給RT Core來處理,它將進行兩種測試,分別為邊界交叉測試(Box Intersection testing)和三角形交叉測試(Triangle Intersection testing)。基於BVH算法來判斷,如果是方形,那麼就返回縮小範圍繼續測試,如果是三角形,則反饋結果進行渲染。
而光線追蹤最耗時的正是求交計算,因此,要提升光線追蹤性能,主要是對兩種求交(BVH/三角形求交)進行加速。
RT Core的變化
在Turing的RT Core中,可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交,在第二代RT Core 裡,NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊,這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。
運動模糊渲染原理
第二代RT Core可以讓光線追蹤與著色同時進行,進行的光線追蹤越多,加速就越快,它將光線相交的處理性能提升了一倍,在渲染有動態模糊的影像時,按照NVIDIA自己的實測,比Turing快8倍。
稀疏深度學習
Tensor Core可以看作是GeForce RTX GPU上的AI大腦。可加速用於深度神經網絡處理功能的線性代數,這是現代AI的基礎。例如用於AI超解析度的NVIDIA DLSS和用於AI增強的聲畫處理技術NVIDIA Broadcast應用。
在本次的NVIDIA Ampere架構的Tensor Core也得到了極大地加強,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自動識別並消除不太重要的DNN(深度神經網絡)權重,同時依然能保持不錯的精度。
首先原始的密集矩陣會經過訓練,刪除掉稀疏矩陣,再經過訓練稀疏矩陣,從而實現稀疏優化,進而提高Tensor Core的性能。
與此次RTX 30系顯卡一同發布的還有一項新技術——RTX IO。目前很多遊戲動輒幾十G甚至百G的安裝空間,對於存儲空間的負擔暫且不提,但存放在硬碟中的數據,如果顯卡想要讀取到,需要先由CPU從硬碟中讀取壓縮過的數據,經過解壓縮再發送到顯存中。
雖然隨著NVMe SSD的推出,讀取速度相較機械硬碟能夠快20倍,但受制於傳統I/O限制,NVMe高達7GB/秒的高速讀寫對於CPU是極大的負擔。
傳統的數據交換
在這個過程中,會佔用多個CPU核心,壓力急劇增大,佔用較多的內存,而此時其實GPU是處於閒置狀態的。RTX IO的作用就是越過CPU解壓再傳輸數據這一步,直接從PCIE總線讀取硬碟上經過壓縮的數據,並且完成無損GPU解壓,降低CPU佔用,變向提升了性能。
RTX IO可以極大解放CPU負擔
當然這項技術作為系統底層的運行方式改變,還需要藉助微軟發布的DirectStorage來實現,對於目前容量的遊戲來說,RTX IO的改善效果有限,但假以時日等遊戲容量上百G成為常態的時候,這項技術將會發揮巨大的功效。
同時搭配新增的HDMI 2.1接口,可以支持單線8K的視頻輸出,而上一代HDMI 2.0僅支持4K 98Hz的視頻輸出,如果想要連接8K電視,則需要更多的線纜支持。
04 強大核心 出廠超頻 用料厚道
首先介紹一下測試平臺,為了保證此次評測能夠發揮影馳 RTX 3060 Ti金屬大師 OC 顯卡的最佳性能,主板和CPU採用了目前桌面旗艦級配置,具體如下。
配置信息
首先看一下GPU-Z的參數,影馳 RTX 3060 Ti 金屬大師 OC 顯卡使用了GA104晶片,晶片採用8nm工藝製成,擁有4864組CUDA核心,其核心頻率為1410-1750MHz,進行了出廠超頻,比公版性能更強。顯卡採用8GB GDDR6顯存,位寬為256bit,顯存帶寬達到了448GB/s,光柵單元和紋理單元為80和152。
GPU-Z參數
下面先進行的是用來衡量顯卡DX11理論性能的3DMARK FS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
3D MARK FS套裝測試
在針對顯卡DX11性能的3DMARK FS套裝測試中,我們主要對比影馳 RTX 3060 Ti 金屬大師 OC和RTX 2080 SUPER,整體來看各項成績中均小幅領先RTX 2080 SUPER。
3D MARK TS套裝測試
而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,影馳 RTX 3060 Ti 金屬大師 OC同樣全面領先於RTX 2080 SUPER,領先幅度在5%左右。
3D MARK 光追測試
PortRoyal是3DMARK中專門針對光追性能的測試項,影馳 RTX 3060 Ti 金屬大師 OC的測試結果要優於RTX 2080 SUPER,幅度為3%左右。
在理論測試中,影馳 RTX 3060 Ti 金屬大師 OC的各項成績均領先於RTX 2080 SUPER。以甜品級顯卡之軀,完成了反殺前代次旗艦級別顯卡的壯舉,可以說是我們這一代裝機玩家們的福音了。
06 遊戲性能測試
在遊戲性能測試中,我們選擇了《古墓麗影:暗影》、《德軍總部新血脈》、《孤島驚魂5》、《刺客信條:奧德賽》、國產遊戲《邊境》、《光明記憶:無限》的benchmark跑分軟體。
另外在遊戲測試中,由於顯卡驅動的版本更新和遊戲更新非常影響遊戲幀數,所有benchmark跑分成績均以本次成績為準。
《古墓麗影:暗影》遊戲測試
《古墓麗影暗影》遊戲中,我們測試了在光追和DLSS均開啟的情況下benchmark分數。可以看出,影馳 RTX 3060 Ti 金屬大師 OC在遊戲實測中依舊領先於RTX 2080 SUPER,領先幅度在2~4幀左右。
《德軍總部新血脈》遊戲測試
《德軍總部新血脈》由於自帶兩個benchmark,所以我們的數據取跑分均值。影馳 RTX 3060 Ti 金屬大師 OC相較RTX 2080 SUPER在1080P解析度下提升8%,2K解析度下提升17%,4K解析度下提升4%。
《刺客信條:奧德賽》遊戲測試
接下來是《刺客信條:奧德賽》,其中影馳 RTX 3060 Ti 金屬大師 OC比RTX 2080 SUPER在1080P解析度下分數高4%;2K解析度下高4%;4K解析度下高9%。
《孤島驚魂5》遊戲測試
《孤島驚魂5》同樣算是優化比較到位的3A大作,影馳 RTX 3060 Ti 金屬大師 OC比RTX 2080在1080P解析度下分數高4%;2K解析度下高16%;4K解析度下高18%。
《光明記憶:無限》遊戲測試
《光明記憶:無限》是由飛燕群島工作室開發的《光明記憶》新系列,目前還沒有遊戲提供試玩,不過benchmark的跑分軟體官方已經提供,玩家可以在steam上自行下載。另外我們在測試的時候由於無法關閉光追選項,故所有測試成績均為「RTX 最高/DLSS 質量」模式下進行。
這款benchmark跑分軟體在光追效果最高的情況下,運用了多種光線追蹤技術,所以即使強如RTX 3080在4K解析度下也只能跑到35幀。
《邊境》遊戲測試
《邊境》同樣是一款來自柳葉刀工作室的國產3A大作,具體發售日期不明,目前僅提供了benchmark跑分軟體。同樣的目前跑分軟體不支持關閉光追選項,所以在測試時我們選擇「RTX 最高/DLSS 性能」下進行。
07 溫度與功耗測試
在溫度功耗測試方面,室溫24℃,我們並沒有採用全封閉式的機箱,而是採用測試平臺的方法,這樣做可以最大限度的保證顯卡除了自身散熱外將風道等外因減小到最低。
功耗測試(點擊查看大圖)
功耗測試中,我們選擇FurMark軟體進行拷機測試,功耗僅計算顯卡自身。作為甜品級顯卡的影馳 RTX 3060 Ti 金屬大師 OC的功耗並不是非常高,在高負載的情況下整體平均在210W左右。
溫度對比
溫度方面,本次的影馳 RTX 3060 Ti 金屬大師 OC溫度控制還是不錯的,比公版更低,出色的散熱設計在10多分鐘的拷機中,溫度保持在67℃。
08 部分遊戲光追效果展示
上面我們測試了部分遊戲的光追和DLSS性能表現,這些效果具體在遊戲中是什麼表現,下邊筆者選擇了兩款遊戲給大家展示一下。
《堡壘之夜》RTX ON(點擊查看大圖)
《堡壘之夜》RTX OFF(點擊查看大圖)
堡壘之夜的光追效果還是比較明顯的,其中加入了反射、全局照明和路徑追蹤等效果。卡車車身上的反射較為明顯,角色身上的環境光在打開光追後更為寫實,另外仔細看的話遠處建築物的玻璃同樣有光線的反射,整體畫質改善非常明顯。
《魔獸世界9.0》RTX ON(點擊查看大圖)
《魔獸世界9.0》RTX OFF(點擊查看大圖)
第二組對比來自最新的《魔獸世界9.0》,同樣作為一款卡通渲染的網遊來說,魔獸的年代更加久遠,此次加入光追效果在整體視覺上沒有堡壘之夜明顯。不過如遠處的樹木陰影,以及近處石臺下方的陰影都比較明顯。
《控制》RTX ON(點擊查看大圖)
《控制》RTX OFF(點擊查看大圖)
第三組對比為《控制》遊戲,這款遊戲所採用的引擎物理效果非常出色,同時光追開關的對比也是肉眼可見的明顯。包括玻璃上的人物反光,遠處地面的植物反光都比較清晰,同時打開光追後屋頂處的明暗對比也更加明顯。
09 軟硬兼施 鑄就Ampere架構
好的硬體沒有軟體的加持,相當於空有長柄沒有槍頭,想要發揮十成威力則必須軟硬搭配,反之亦然。此次隨著發布會共同推出的還有以下幾項非常值得大家關注。
NVIDIA Reflex
以往我們關注延遲大多從顯示器上了解到幾毫秒極速響應,但那只是作為最終端的顯示輸出效果,你是否想過從系統內部到實際看到的畫面有多大延遲?
NVIDIA Reflex
在20系顯卡中NVIDIA反覆提及的「幀能贏」,在30系顯卡中也做了更進一步的突破,除了NVIDIA將推出自己的電競顯示器NVIDIA 360Hz G-SYNC ESPORTS,還有NVIDIA Reflex技術。
以往如果想測量系統延遲需要高速相機以及定製的LED滑鼠電路。而使用帶有NVIDIA Reflex技術的顯示器將內置精確的延遲分析工具,可在CPU和GPU中優化渲染管道,極大減少延遲時間,將系統延遲整體降低至30ms以下。不過就像圖中所示,為此你需要一個支持反射延遲分析的滑鼠。
NVIDIA Broadcast
NVIDIA Broadcast是一款易用且專業的直播軟體,它的強大之處就在於主播不再需要任何的背景布置,只需要一個普通的攝像頭和一張GeForce RTX系列的顯卡即可。
它戳我臉!
這款軟體可以讓你雜亂無章的房間立即變成直播間,其內置了音頻降噪、背景虛化、虛擬背景、頭部追蹤等功能。NVIDIA Broadcast的工作原理是利用AI算法通過DGX超級計算機深度學習而來。
NVENC編碼
同時RTX 30系顯卡擁有目前最好的硬體解碼器,大部分用戶的電腦在直播時打開OBS推流後CPU佔用會直接飆升到50%左右,而基於GPU的NVENC解碼可以極大地減輕CPU負擔。
NVIDIA Studio
對於內容創作者來說,提到軟體可能大部分只會想到內容創作的相關軟體,但NVIDIA專為內容創作者推出的NVIDIA Studio驅動則是承擔著連接創作軟體和顯卡功能的關鍵。
NVIDIA Studio
NVIDIA Studio驅動經過更新與優化,對於最新版本的Adobe系列軟體支持更為穩定,同時附帶更出彩的創作功能。利用NVIDIA CUDA技術,GPU加速特效可實現更快的實時視頻編輯並加速渲染輸出,並讓原本只能進行軟體編碼輸出的視頻輕鬆得到硬體的支持。另外在AI計算方面的優勢,包括自動標記片段、特效追蹤和人臉識別等功能,都有顯著的速度提升。
以GPU渲染為14.98秒 而CPU渲染為11分鐘
當然NVIDIA Studio的加速創作絕不止Adobe一家,DaVinci、Keyshot、Blender、D5等專業軟體中都有非常亮眼的表現。不僅能提供強大且穩定的運行環境,更能以GPU加速,有效提升創作效率。
10 總結
影馳 RTX 3060 Ti 金屬大師 OC顯卡在外觀、性能、散熱等方面很好地完成了兼顧。外觀上,經典的全金屬構造外觀設計,延續了金屬大師系列一貫以來的硬朗風格。雖然是比較樸實無華的無燈設計,但金屬大師的設計語言讓它在機箱裡同樣有著不容忽視的存在感。
影馳 RTX 3060 Ti 金屬大師 OC
而在性能上,影馳 RTX 3060 Ti 金屬大師 OC顯卡在理論性能測試和實際遊戲測試環節,均以不小的優勢戰勝了上一代的次旗艦定位顯卡RTX 2080 SUPER。即便性能出現了飛躍,起定價卻依舊和60Ti的後綴相貼合,為甜品級價格。在筆者看來,這可能是近近幾年來,性能最不像甜品的甜品卡,也是最值得購買的甜品卡。
影馳 RTX 3060 Ti 金屬大師 OC
而遊戲實測也告訴我們,目前市面上的絕大部分3A大作,都可以使用這張顯卡4K暢玩。而面對部分性能要求極高的遊戲時,將解析度降低到2K也是可以接受的。同時,文章中介紹過的RTX顯卡在直播、設計等場景下的優化,也讓影馳 RTX 3060 Ti 金屬大師 OC顯卡成為了遊戲玩家、主播、設計師等需要高性能顯卡的用戶們的絕佳選擇。