英偉達在北京時間9月2日舉辦新品發布會,正式發布了全新的英偉達RTX 30系顯卡,包括RTX 3070、RTX 3080以及RTX 3090,採用了最新的安培架構以及高度定製的三星的8nm製程工藝,在性能上也取得了極大的提升,可以說幾乎橫掃了所有的20系顯卡。
英偉達官方表示RTX 3080擁有2倍的RTX 2080的性能,而RTX 3070則超過了RTX 2080 Ti,至於最旗艦的RTX 3090更是能夠滿足8K解析度和60幀的終極目標,而第三代深度學習單元,第二代的RTX光追處理單元又讓新一代顯卡更加出色,那麼為什麼今年的30系顯卡如此給力,它又有什麼黑科技呢?
目前英偉達舉辦了關於30系安培顯卡的技術講解會,詳細地介紹了新一代的安培架構,也介紹了在安培顯卡上所採用的全新的圖形特性。而在本文中我們也將淺顯地介紹安培架構,此外也將為大家帶來英偉達在30系顯卡上所採用的眾多黑科技。
架構的革新:CUDA數量大幅提升
對於新一代顯卡來說,架構的改進能夠極大地提升顯卡的性能,而光線追蹤遊戲的加入又讓英偉達的顯卡在架構上有著革命性的變化,這種變化在20系顯卡中就已經初顯端倪,英偉達在20系顯卡中除了傳統的FP32計算單元之外也額外加入了RT計算單元以及Tensor Core計算單元,其中RT計算單元用於光追的計算,而Tensor Core則是降低實際圖形的渲染解析度,降低GPU的運算壓力,讓光追遊戲更加流暢。
而到了30系顯卡,英偉達又對安培架構進行了更新和改良,其中最大的改動便是更改了每個SM單元中的FP32單元。圖靈架構中一個SM單元擁有一個FP32計算單元,此外還包括RT Core,Tensor Core與INT32計算單元。而到了安培架構,英偉達在一個SM單元中除了設立了獨立的FP32計算單元外,還額外讓INT 32與FP32共享一個計算單元,也就是說在安培架構顯卡中,每一個SM單元的構成為獨立的FP32和INT 32與FP32的組合單元與Tensor Core計算單元。
和圖靈顯卡相比,安培架構單個用於負責FP32計算的單元翻倍,因此消費者看到的是30系顯卡相當誇張的單精度性能以及CUDA數量。其中RTX 3070擁有5888個CUDA,RTX 3080擁有8704個CUDA,RTX 3090擁有10496個CUDA,讓性能也能得到極大的提升,RTX 3080的單精度浮點可以達到30T之多。和圖靈顯卡相比,安培顯卡除了能夠提供2倍的FP32性能之外,在L1的帶寬速度也提升了2倍,容量提升了33%,而第二代的光追計算單元和第三代Tensor Core能夠擁有2倍的多邊形渲染與稀疏矩陣的性能。
並且為了能夠與30系顯卡暴增的CUDA相搭配,全新一代的顯卡也採用了美光最新的GDDR6X顯存,全新的GDDR6X顯存採用了四級脈衝幅度調製(PAM4)信令,可在不增加SGRAM功耗的情況下顯著提高性能,讓顯卡擁有更高的顯存帶寬,其中旗艦版的RTX 3090甚至擁有1TB/S的顯存帶寬,從而也能極大程度地提升遊戲性能。30系顯卡最高能夠擁有1.9倍的RTX 20系顯卡的能耗比。
三星8nm製程:更多電晶體帶來性能飛躍
從上述架構描述便可以看到,和圖靈顯卡相比,安培顯卡在規模上得到了極大的提升,這就需要更多的電晶體以及計算單元才可以實現。而圖靈顯卡所採用的12nm FNN工藝已經達到了極限,而顯卡的GPU面積又不能無限擴大,因此更換製程工藝成為了提升顯卡電晶體的不二法門了。
英偉達在Tesla A100計算卡上選擇的是臺積電的7nm製程工藝,不過在安培顯卡上使用的是深度定製的三星的8nm製程工藝,英偉達將其稱之為三星8N。和12nm FNN製程相比,三星8nm工藝可以帶來更高的電晶體密度,從而在相同Die面積下塞入更多的電晶體。英偉達稱面積最大的GA 102可以擁有280億個電晶體,這個數量是圖靈顯卡的1.5倍,不過與A100計算卡的542億個電晶體相比,還是少了很多,這額外增加的140億個電晶體自然是增加到了Tensor、RT以及FP32計算單元中,從而確保30系顯卡能夠擁有如同怪獸般的規格與性能。
很多消費者會疑問,為什麼新一代安培顯卡在光追以及深度學習性能上比圖靈顯卡強這麼多,在這一次的技術講解會上,英偉達也詳細地為大家介紹了在安培架構下的幀生成時間。
首先是帕斯卡架構,這個架構採用的是傳統的FP32計算單元,沒有光追架構和深度學習架構,在進行傳統遊戲的幀生成時間為12ms,但是如果遇到擁有光線追蹤的遊戲,那麼帕斯卡架構只能依靠SM單元強行運算,極大地降低了遊戲的速率,幀生成時間也提升至92ms。
而到了圖靈顯卡,由於對SM單元進行了優化,此外也加入了RT單元和Tensor Core單元,因此純SM單元計算光追的幀生成時間為51ms,已經比帕斯卡要快得多,而獨立的RT單元讓幀生成時間降低至19ms,而如果加入DLSS,那麼幀生成時間則縮減至13ms,已經與傳統遊戲無異。
至於安培架構,英偉達對SM單元的光追性能進行了再一次的改良和強化,如今使用安培架構的顯卡純RT運算的幀生成時間為11ms,而加入了DLSS則降低至7.5ms,要是遊戲支持第二代的RT以及DLSS,那麼幀生成時間甚至可以降低至6.7ms,已經是帕斯卡渲染傳統遊戲的一半時間,自然在性能上更加出色。
RTX IO:遊戲瞬間完成加載
2020年是遊戲設備更新換代的一年,目前在遊戲機領域, 包括索尼和微軟都表示通過最先進的技術讓遊戲的加載時間成倍降低,其中索尼表示PS5所集成的超高速SSD讓遊戲加載時間降低到一個相當喜人的成績。而這一次英偉達也推出了全新的RTX IO技術,通過GPU與SSD之間進行數據交換,從而降低遊戲的加載時間,提升玩家們的遊戲體驗。
英偉達稱,傳統的數據交換是由硬碟中的文件先與CPU和內存進行數據交換,隨後CPU將這些數據與顯卡進行交換,也就是說以CPU為數據中心進行傳輸,這樣子在運行遊戲的時候,考驗的是CPU的性能。過去由於硬碟的速度沒有達到一個很高的水平,因此CPU的性能尚且可以應付數據流。
而如今隨著SSD的速度越來越大,CPU處理數據流的壓力也越來越多,所需要的CPU處理單元也日益增高,尤其是PCIe 4.0的數據量,更是讓CPU壓力巨大,自然處理其他方面的單元就少了很多。英偉達以HDD所需的CPU性能為1,如果讓CPU處理基於PCIe 4.0通道傳輸的壓縮數據流,那麼需要24的CPU性能,顯然極其影響CPU發揮其作用。
而RTX IO的出現則讓顯卡率先實現與存儲設備的數據交換,而顯卡與CPU之間再進行數據交換,從而解放CPU的算力,英偉達表示使用RTX IO之後,如果是PCIe 4.0的SSD,那麼原本24的性能需求如今只需0.5的相對性能就可以實現相同的功效,極大程度地提升了CPU的使用效率,具體而言就是大幅地提升遊戲的加載時間。
英偉達也拿視頻進行了對比,同樣加載實機畫面,HDD的加載速度為4.87秒,而NVMe的加載速度為4.87秒,如果基於RTX IO,那麼加載時間僅為1.62秒,可以說基本上實現了遊戲的秒加載。
英偉達還表示微軟計劃明年為遊戲開發者推出面向 Windows 的 DirectStorage 開發者預覽版,屆時擁有NVIDIA RTX顯卡的玩家便可享受到這種技術。
8K DLSS:為8K解析度而生
英偉達的DLSS已經升級至了2.0版本,相比較初代DLSS,DLSS 2.0擁有更高的圖形顯示效率以及畫面素質,在部分場景中畫質甚至超過了傳統的抗鋸齒,獲得了玩家們的好評。而到了30系顯卡中,英偉達表示旗艦卡皇RTX 3090的目標便是8K 60幀,於是DLSS也理應推出了8K DLSS,讓顯卡流暢運行8K遊戲不再是夢想。
在目前的幾個DLSS中,1080P的DLSS原生渲染解析度為1280*720,1440P的原生渲染解析度為2560*1440,4K的渲染為1920*1080,而到了8K則提升至2560*1400。考慮到8K所需的渲染能力十分地苛刻,英偉達的AI需要處理高達9倍的像素,從而對於顯卡的AI性能也是一個極大的考驗。
當然高像素填充率帶來的是圖形畫質的質的飛躍,英偉達放出了8K DLSS,原生4K與原生1080P之間的畫質,顯然8K DLSS能夠擁有更強的畫質,甚至已經不是一個時代了,另外英偉達也放出了眾多遊戲在8K解析度下的性能表現。其中《Control》的8K DLSS支持得最為完美,通過8K DLSS,原本僅有十幾幀的速度可以達到57幀,基本上實現了流暢運行。而未來隨著支持DLSS的3A大作日益增多,8K DLSS也將擁有更多的用武之地。
RTX GI:光照更加自然
目前的光線追蹤已經能夠讓遊戲畫面的光照接近真實世界,但是和真實世界相比,由於性能的限制,有很多的光照特性並沒有體現在遊戲之中,因此各大遊戲廠商與顯卡廠商通力合作,通過更新的開發工具來提升光線追蹤的品質,從而讓遊戲畫面愈發接近於真實畫面。
RTX全局照明(RTXGI)SDK為開發者提供了在多重反射下的非直射光線可擴展的解決方案,無需預烘焙、不漏光、無需繁重的每幀負載。所有支持DXR API的顯卡均支持RTXGI,RTXGI是現有工具、認知和能力下引入光線追蹤的理想起點。可以說通過更新一代的顯卡開發工具,開發者可以更好地進行遊戲的開發,從而實現更加出色的光線追蹤效果。
新一代散熱器:更高風量,更低溫度與噪音
英偉達在新一代顯卡上採用了如此多的黑科技,而消費者最終拿到則是RTX 3090、RTX 3080以及RTX 3070這三款顯卡成品,由於這一代塞入了更多的電晶體,因此顯卡在發熱和功耗上自然也水漲船高,從而對顯卡的散熱能力提出了挑戰。
為此,英偉達在三款顯卡上均重新設計了散熱器的規格,同時PCB版也進行了重新設計,以RTX 3080為例,全新的PCB為V字型異形板,和RTX 2080相比體積大幅減少,同時擁有12Pin的供電與18相的供電,可以說十分地豪華,從而確保顯卡在滿載時候的穩定運行。
而在散熱器的設計上,RTX 3080不計成本地採用了勻熱板的設計,最大程度地提升了GPU的散熱範圍,而且前後雙風扇設計能夠最大程度地排盡GPU所散發的熱量,確保顯卡的穩定運行,並且配合機箱的風道讓散熱效率最大化。
英偉達以RTX 3080和RTX 2080為例,在相同風速下,RTX 3080的溫度可以降低20攝氏度,而相同溫度下,RTX 3080的噪音又可以降低10分貝。而RTX 3090則和Titan RTX相對度,其餘條件相同的前提下,RTX 3090最高獲得30攝氏度的溫度下降以及20分貝的噪音降低,十分地給力。
當然也有用戶擔心由於全新的散熱方式會將熱量散發至內存以及CPU的風冷,從而影響它們的散熱效果,對於英偉達表示他們經過了多次的測試,發現並沒有特別的影響,玩家完全可以不用擔心自己的內存和CPU受到損壞。
總結:為玩家打造的新一代王牌
9月2日的凌晨,當老黃拿出新一代顯卡的時候,整個DIY行業歡呼雀躍,畢竟和20系顯卡相比,全新的30系顯卡可以說是真正的革命性的進步,無論是性能還是新特徵,RTX 30系顯卡的出現讓玩家紛紛表示過癮,更為重要的是這一次老黃是加量不加價,更是讓玩家們捨得為這些性能出色的顯卡買單。
隨著光追性能的大幅提升無疑將促進相關遊戲的普及,推動遊戲行業的發展,除了為8K而生的旗艦級顯卡,未來即使入門級顯卡也有可能實現更為優秀的光追體驗,越來越多的玩家將有機會體驗到更高的遊戲畫質,至於RTX30系列顯卡的實際表現如何?就讓我們拭目以待吧。