Titan,偉大的巨人神祗,希臘神話中曾統治世界的古老的神族,這個家族是天穹之神烏拉諾斯和大地女神蓋婭的子女,他們曾經主宰著這個世界,至今仍然象徵著巨大、宏偉以及不朽的力量。現在,他們回來了,帶著令人窒息的強大力量回來了。他們的目的只有一個,就是再次統治人類的桌面遊戲顯卡業界,而且很明顯的,他們已經辦到了。
北京時間2013年2月19日22時,NVIDIA全球發布了最新的桌面遊戲顯卡產品——GeForce GTX Titan。這款基於GK110架構的桌面顯卡不僅擁有震撼人心的強大性能以及同樣震撼人心的售價,同時還將Kepler架構的完整特性首次展現在了世人面前。
先期於去年發布的GeForce GTX 680是NVIDIA在Kepler架構上的第一次突擊,它以比競爭對手更小更涼的核心提供了超越競爭對手Radeon HD7970的性能,這種震撼一直持續了近一年之久。現在,GeForce GTX Titan成功的延續了這樣的震撼,它的性能功耗比繼續被提升到了新的高度,它的遊戲性能讓任何單芯顯卡都望塵莫及,它甚至沒有一個數字的編號——常規的NVIDIA產品線數字編號已經找不到容納它的合適位置了。
GeForce GTX Titan——神祗歸來
作為首批獲得這款震撼級產品的幸運者,我們在過去的數日間都承受著Titan給我們心靈所帶來的衝擊。所以在今天的測試文章中,我們將會把這份衝擊傳遞個屏幕前的諸位。接下來,就讓我們一起抵近觀察這位回歸的「神祗」吧。
》現在去顯卡道轉轉《 | 》看看今日最新文章《
》顯卡精彩美圖匯總《
● Titan規格一覽
GeForce GTX Titan與我們之前所見的Kepler架構存在巨大的規模差異。它擁有71億的電晶體規模,核心面積因此達到了573.4平方毫米(23.5X24.4毫米),這一數值十分接近但並未超越NVIDIA在DirectX 11時代所劃D線(什麼是D線? 它會導致怎樣的問題?)的上限(529+52.9平方毫米)。與GeForce GTX 680相比,其運算資源總量從1536個ALU上升到了2688個,Texture Filter Unit由128個上升到了224個,構成後端的ROP則從32個提升到了48個。Titan擁有Kepler架構中最龐大的MC結構,6個64bit雙通道顯存控制器組合形成了384bit顯存控制單元,Titan也因此採用了容量高達6144MB的尺寸空前的顯存體系。
GeForce GTX Titan 顯 卡 對 位 產 品 規 格 比 較 表 | |||||
顯卡型號 | GeForce GTX Titan | GeForce GTX 680 | Radeon HD 7970 | Radeon HD 6970 | GeForce GTX 580 |
市場定價 | 7999 元 | 3999 元 | 4299 元 | 2999 元 | 3999 元 |
GPU代號 | GK110 | GK104 | Tahiti | Cayman | GF110 |
GPU工藝 | 28nm | 28 nm | 28 nm | 40 nm | 40 nm |
GPU電晶體 | 71億 | 35.5 億 | 43 億 | 26.7 億 | 30 億 |
著色器數量 | 2688 | 1536 | 2048 | 1536 | 512 |
著色器組織 | 1D*2688 | 1D*1536 | Vector*2048 | 4D*384 | 1D *512 |
ROPs數量 | 48 | 32 | 32 | 32 | 48 |
紋理單元數量 | 224 | 128 | 128 | 96 | 64 |
核心頻率 | 837 MHz | 1006 MHz | 925 MHz | 880 MHz | 772 MHz |
著色器頻率 | 837 MHz | 1006 MHz | 925 MHz | 880 MHz | 1544 MHz |
理論計算能力 | 4.5 TFLOPs | 3.09 TFLOPs | 3.79 TFLOPs | 2.7 TFLOPs | 2.37 TFLOPs |
等效內存頻率 | 6008 MHz | 6008 MHz | 5500 MHz | 5500 MHz | 4008 MHz |
內存位寬 | 384 bit | 256 bit | 384 bit | 256 bit | 384 bit |
內存帶寬 | 288.4 GB/S | 192.3 GB/S | 264 GB/s | 176 GB/s | 192.4 GB/s |
內存類型 | GDDR5 | GDDR5 | GDDR5 | GDDR5 | GDDR5 |
內存容量 | 6144MB | 2048 MB | 3072 MB | 2048 MB | 1536 MB |
DX版本支持 | 11.1 | 11.1 | 11.1 | 11 | 11 |
HD視頻技術 | PureVideo HD+NVENC | PureVideo HD+NVENC | UVD3.0 VCE | UVD3 | PureVideo HD |
通用計算接口 | CUDA | CUDA | Stream | Stream | CUDA |
註:市場定價均為官方首發限價
Titan的默認核心及顯存運行頻率為837/6008MHz,默認Pixel Fillrate能力為40.2G/S,默認Texture Fillrate能力為182.3G/S,顯存帶寬288.4GB/S。Titan擁有4.5T Flops的單精度浮點運算能力,同時並未對雙精度浮點運算能力進行限制,因此也就保留了1/3速DP的運算特徵,雙精度浮點運算能力為1.3T Flops。
值得注意的是,Titan的雙精度浮點運算能力是可以手動開啟或者關閉的。當我們在驅動中關閉雙精度浮點運算能力時,Titan僅提供1/24速的雙精度浮點運算能力,而當我們開啟雙精度浮點運算能力時,Titan將會運行在Tesla K20X的默認頻率上,因此其雙精度浮點運算能力為1.3T Flops。
GeForce GTX Titan恐怖的規模
Titan採用的GK110與GK104同屬Kepler架構,但只有GK110開放了Kepler架構全部功能性設計和特點,我們甚至可以這樣說——只有GK110才是真正意義上的Kepler架構。由以下主要的部分組成:
1、更加成熟的基於HKMG的TSMC 28nm工藝。
2、與GK104不同的宏觀並行結構,15組SMX單元(Titan開放14組)被分為5個GPC,每個GPC包含3組SMX。
3、14組包含了幾何引擎、光柵化引擎以及線程仲裁管理機制的SMX單元。每個SMX單元的細節同GK104完全相同,均包含一組改進型的負責處理幾何任務需求的PolyMorph Engine,192個負責處理運算任務及Pixel Shader的ALU,16個負責處理材質以及特種運算任務如卷積、快速傅立葉變換等的Texture Array,二級線程管理機制以及與它們對應的shared+unified cache等緩衝體系。
4、基於Dynamic Parallelism的全新本地任務管控機制,以及由此帶來的更高的單元復用率。
5、調節粒度更細同時頻率控制範圍更大的新一代GPU Boost。
GK110核心照片
Kepler構架曾經是一個充滿了神秘感的存在,伴隨著GK104的發布,我們在過去的一年裡曾經對它的各種細節,諸如ALU團簇單元、Cache、線程仲裁機制、動態頻率調節體系等等進行過相關的分析,但這些分析都不足以完全為我們揭示Kepler架構的全部特色、目的以及意義。隨著GK110的到來,Kepler架構終於完整的展現在了我們的面前,接下來就讓我們一起正式深入Kepler架構,來一睹「黑科技」的真正內幕吧。
● 宏觀並行體系
NVIDIA於Fermi架構中首次引入了宏觀並行結構設計,它將若干組ALU團簇綁定為一個GPC,並輔以完整的幾何處理及光柵化流水線,這讓每個GPC因此成了與傳統GPU同等級的存在。在執行符合DirectX 11特徵的程序時,一級任務管理機制只需將Kernel並行的發放給不同的GPC,即可達成整個架構的並行kernel處理過程。因此這種設計不僅可以比較直接的為架構帶來更好的幾何和光柵化處理能力,同時還可以提升任務的執行效率。
與去年發布的GK104不同,NVIDIA在GK110架構中使用了新的宏觀並行結構。GK104的8組SMX單元被兩兩分組結合成一個GPC,整個架構的8組SMX單元被劃分成了4 GPC並行的形式。而GK110則是將15組SMX單元以三組為單位結合成一個GPC,整個架構被劃分成了5 GPC並行的形式。
完整規格GK110架構圖
由於NVIDIA採用了Setup以及Rasterizer同GPC綁定的方案,因此GK110架構可以實現單周期輸出5多邊形,在同頻下擁有了比GK104多20%的多邊形泵出能力以及光柵化處理能力。
宏觀並行度的進一步提升有助於體系在處理並行Kernel時的效率,但從外表上來看GK110對於宏觀並行度的提升與其運算單元(SMX/ALU)規模的提升並不成比例,單個GPC的規模較之GK104提升了50%,這樣的做法給人一種整個架構開始偏重於吞吐而非強調任務效率以及單元復用率的感覺。這是否意味著NVIDIA打算放棄堅持了多年的既有設計思路,開始放棄效率並轉向提升架構的吞吐能力了呢?
恐怖的吞吐能力提升是否意味著Titan的效率會下降呢?
事實並非如此,因為NVIDIA在GK110中為我們帶來了另外兩個重要的特性——Dynamic Parallelism和Hyper-Q,這兩個特性不僅極大地提升了整個架構的任務效率/密集度,同時將單元復用率以及整個Kepler架構的意義提升到了一個全新的高度。
● 最重要特性——Dynamic Parallelism
在GK110架構中,NVIDIA在傳統的二級仲裁機制CWD(CUDA Work Distributor,CUDA分配器)之外加入了全新的GMU(Grid Management Unit,Grid管理單元),GMU可以對CWD收到的Grid進行啟停管理、回收、判斷、掛起以及重排序等操作,令其以更加靈活的方式在必要時進入執行單元,這避免了Grid像過去那樣以缺乏排序的順序模式被送入SM,而且一旦進入SM之後就只能等到全部執行結束才能出來。
Dynamic Parallelism特性
GMU的引入為動態片上創建Kernel提供了條件,所以NVIDIA在GK110中引入了全新的Dynamic Parallelism(動態並行)特性,該特性允許GPU根據需要直接對Grid的結果進行判斷並在本地創建新的Kernel,這與傳統的Kernel執行完畢之後由CPU進行回收判斷並創建新的Kernel再行發放有了很大的不同。
Dynamic Parallelism帶來的變化(傳統模式 VS Dynamic Parallelism)
Dynamic Parallelism減少了GPU同CPU之間的通訊需求,減輕了與CPU頻繁通訊所帶來的等待周期產生的延遲影響,提升了GPU內部的Kernel密度和執行連貫度,對於低負載高密集任務中單元復用率改善有不小的幫助。
● 「送出去,請進來」
從去年GK104架構發布之後起,我們在過去接近一年的時間裡一直都在嘗試著去解析Kepler架構的真實目的和意義。但遺憾的是由於NVIDIA的產品定位以及發布策略的困擾,Kepler架構的特性並沒有在GK104中得到完整的闡釋,我們的討論也僅能止步於「黑科技」以及「將寄存器設計水平優勢轉化成性能功耗比」這樣的程度。
伴隨著GK110的發布,Kepler架構的完整特性終於全部來到了我們的面前,尤其是Dynamic Parallelism和Hyper-Q的出現,為我們進一步勾勒出了更加豐滿的Kepler架構的輪廓。它們與已經先期在GK104及其後的所有Kepler架構中出現的新Scheduling過程一起為我們帶來了Kepler區別於以往架構的最大特點,那就是「送出去,請進來」。
Kepler構架與Fermi構架執行Scheduling過程的差異
通常來講,可重複性較低且需要運算過程的判斷性工作並不適合固定單元來執行,更加靈活的具有可編程性的通用運算單元來完成這類工作會比較得心應手。而那些具有較高可重複性,過程相對固定且基本具備可預期性的控制類工作,則更加適合具有特定針對性功能的電路來完成。如果我們以可編程的通用處理單元來完成判斷性工作,讓控制工作更多地被特定功能電路所執行,就可以達到最高效率的利用不同單元,以最低的能耗來完成最多工作的目的。
但是很遺憾,Kepler之前的GPU並沒有這樣的獲得最高性能功耗比的幸運。傳統結構的GPU會在晶片本地以固定電路自行處理絕大部分具有判斷性特徵的Scheduling過程,而Kernel的啟停和發放則完全依賴CPU,這實際上等於是通過通用處理單元來完成本該由更高效的特定功能電路或者說專用單元來完成的工作。這種讓專用電路幹通用電路的事,讓通用處理器做專用單元的事的局面,與性能功耗比的訴求完全是相反的。
Pre-Scheduling過程變化(圖片修改自後藤弘茂先生博客)
在Kepler中,NVIDIA實際上完成了一個「送出去,請進來」的過程——把一部分Scheduling過程從本地「送出去」,也就是轉移到了CPU中以運算的形式來完成,同時通過引入GMU單元以及添加Dynamic Parallelism特性來降低CPU控制對任務的介入和影響,將控制工作更多地「請進來」,亦即移動到本地的GMU完成。這種執行位置和執行對象的互換扭轉了過去「滿擰」的局面,將適合通用處理單元的工作從GPU中拿出來交給了通用處理單元,也將不適合通用處理單元完成的工作交還給了GPU中的固定單元來完成,從而達到了各種單元均可以以更合適的功耗完成更多工作的目的。
Dynamic Parallelism的片上直接Kernel創建特性減小了CPU對控制的介入
關於將Scheduling移交給通用處理器完成的目的和意義,我們在過去的一年裡已經進行了詳盡的分析和解讀,這是一個與NVIDIA未來架構發展息息相關的系列過程,在這裡不再贅述,有興趣的朋友可以點擊這裡閱讀。而引入Dynamic Parallelism則帶來了更多顯而易見的好處,無論是計算任務還是圖形處理任務,Kernel現在都無需亦步亦趨的頻繁與CPU進行交換,GPU本地的任務密度將會得到進一步的提升,在此基礎上,Hyper-Q的出現讓更多的CPU線程可以向GPU發送Kernel,這進一步減少了GPU等待前端發放任務的周期並提高了任務密度。兩者的共同作用導致了必然的結局——GK110架構的單元任務密度將進一步提升,單元復用率也將會因此而獲益,這對於GPU的圖形執行效率和運算執行效率是同樣有益的。
● Kepler架構的目的和意義
通過GK110的「送出去,請進來」,我們已經可以明確的掌握Kepler架構的目的和意義了——Kepler架構的目的在於在NVIDIA從G80一直延伸到Maxwell及其後架構的路線圖中扮演承前啟後的角色,它嘗試著將一部分邏輯判斷性任務交給通用處理器執行,同時將一部分不適合通用處理器執行的控制性工作轉移到對應的專用單元來處理,以釐清任務執行地點和執行特徵、優化任務處理對象的選定、積累通用處理器使用經驗以及收集執行過程中的能耗比特徵等一系列手段,為未來Maxwell融合架構中最終接納ARM架構通用處理器打下了必要的基礎。
Maxwell的後續——Echelon架構細節
而Kepler架構的意義則更加單純,那就是強調性能功耗比屬性。讓合適的單元以儘可能合適的功耗去完成儘可能合適它們完成的任務,進而讓整個架構以更小的功耗達成更大的性能輸出能力,這就是Kepler架構最突出的特徵和意義。我們在過去一年間面對的以及等待的各色「黑科技」,包括高效的register體系、新Scheduling過程、GPU Boost以及Dynamic Parallelism等等,全部都是為這一意義而存在的。
通過調節SMX結構提升體系的吞吐能力,同時以優秀的緩衝體系、合理的仲裁和任務管理機制以及各種全新的技術來保證體系的單元復用率以及執行效率,這種平衡的理念賦予了Kepler架構強大的性能和成熟穩健的性能功耗表現。Kepler架構的注意力並沒有片面的集中在某些特性或者單純運算能力的提升上,它對任務分派管理機制的調整和改進屬於最底層的架構效率優化,正是這種能夠讓所有架構中運行的任務,無論是運算任務還是圖形任務均能受益的改動,為Kepler帶來了令人難忘的表現。
G80~GF100架構發展示意,向你們致敬(圖片引自後藤弘茂先生博客)
當然,我們同樣不能忘記那些站在Kepler背後的英雄們,Kepler之前諸架構對於任務管理體系的不斷完善,寄存器及寄存器溢出緩衝體系使用經驗的積累,架構設計理念的逐步驗證、檢討和補充修正同樣是造就Kepler架構的成功的重要因素,而正確平衡成本關係並在DirectX 11時代的起點劃下了空間充分的D線,又在可製造型層面為Kepler架構的最終實現奠定了最根本的基礎。NVIDIA充分的計劃性和推進這些計劃的執行力,逐漸將這些積累轉化成了實際的架構和產品,並最終帶來了今天我們所見到的基於GK110架構的產品——GeForce GTX Titan。
除此Dynamic Parallelism之外,GK110架構還將更多更新的技術引入到了體系當中,其中最典型的就是全新的GPU Boost——GPU Boost 2.0。
● 更開放+更細膩:GPU Boost 2.0
GPU Boost是NVIDIA在GK104中首先引入的動態功耗/性能平衡調節機制,它可以動態遊戲及應用負載,並將負載同設計功耗上限進行比較,接著將實際負載同設計功耗上限之間的差值轉化成實時頻率的提升,同時還能根據用戶自定義的遊戲幀數上限來判斷性能需求,進而將多餘的性能以降頻的形式予以消去,並最終讓用戶獲得更低的使用能耗。
GPU Boost 2.0
伴隨著Titan的發布,NVIDIA將GPU Boost從1.0升級到了全新的2.0版本,新版本GPU Boost支持以下新特性:
更細膩和敏感的頻率調節段位。
溫度監控出現在控制要素中。
更加集中於「常規使用溫度區間」的性能調節區間。
擁有更大的電壓調節上限。
支持全新的電壓上限/溫度聯動調節功能,GPU溫度越低,可用的電壓上限就越高。
支持溫度目標值設定及對應的自動調節頻率功能。
更多可調節選項。
顯示器刷新率調節功能。
GPU Boost 2.0提供了更豐富的可調選項
GPU Boost 2.0比1.0版本更加敏感,可以更加積極的完成功耗和性能之間的互換,其調節模式也發生了變化,監控機制對GPU頻率的調節判斷機制將不僅限於功耗數值,溫度因素現在也已經被納入到了判斷機制當中。在GPU Boost 2.0默認控制下,Titan將會在更多的時間裡處於80度附近這樣一個小範圍的溫度區間中。玩家現在除了可以通過限定自定義幀數上限來達到節能降耗的目的之外,還能通過設定任意的自定義溫度上限來達到相同的目的。
GPU Boost 2.0特性
GPU Boost 2.0特性
除了加入溫度要素之外,GPU Boost 2.0還開放了電壓控制的上限,玩家在進行超頻時可以擁有更大的電壓可調空間。另外,電壓上限還可以與溫度因素進行聯動,如果玩家有能力改造散熱並達到更低的使用溫度,那麼在GPU Boost 2.0中將可以獲得比常規散熱更多地電壓上限空間。
GPU Boost 2.0特性
GPU Boost 2.0引入的最後一個值得注意的變化來自全新的顯示器刷新率超頻能力,它允許Titan將顯示器的刷新率從60Hz提升至80Hz,進而通過自適應垂直同步將垂直同步的幀速上限設定為80Hz而非過去的60Hz,更高的幀數設定可以讓玩家在不產生畫面撕裂的前提下獲得更高的幀數,這一特性對於需要快節奏激烈對抗的FPS玩家而言應該會非常有趣。NVIDIA並未公開該技術的具體實現細節,僅聲稱「絕大部分國際一線品牌的產品均支持該項特性」,我們猜測該特性應該是透過更改顯示器驅動電路單片機中的時鐘信息來完成的,因此原則上並不支持使用固定晶振來完成刷新率控制的顯示器。我們會在未來展開針對該項特性的專門測試,敬請期待。
● 更多豐富的特性
除了本身的強大,GeForce GTX Titan還支持許多新奇的應用性特性,NVIDIA GeForce Experience以及與Project Shield之間的配合就是其中典型的代表。
好吧,即便是我們自己,在遇到諸如SMAA或者SBDOF之類新出現的特效之後往往也懶得去深究它們究竟是些啥……玩遊戲圖的是開心,要是玩個遊戲還要先跑去學一大堆的圖形術語,接著搞清楚面前這些花裡胡哨的特效都代表了些什麼效果,然後再去思考這些特效到底怎麼取捨才能讓自己的顯卡流暢的運行起來……這麼折騰一番再去玩遊戲,那人生豈不是太苦短了?
GeForce GTX Titan特性
為了讓玩家能夠更加方便的設置遊戲中的特效選項,讓顯卡可以快速在性能和特效之前達成最佳的平衡,NVIDIA推出了GeForce Experience技術,它基於NVIDIA設置在雲端的龐大資料庫,可以在連線後分析用戶的硬體及遊戲需求,然後自動完成以最佳圖形表現為基礎的最適合當前硬體性能的圖形設置工作。只需點擊一下,遊戲即可以理想的流暢視覺表現呈現在你的面前。GeForce GTX Titan支持GeForce Experience,它的強大似乎可以讓它在幾乎所有遊戲中直接面對最高級別的特效設置,但即便強大如廝,也依舊會有難以應對的場面,比如說……好吧,我們暫時不劇透了,等一下你自然就會知道答案了。
GeForce GTX Titan的新搭檔——Project Shield
除了GeForce Experience之外,與Project Shield的配合也是GeForce GTX Titan的一大特色,它可以通過家庭雲互聯的形式,讓Project Shield直接調用其強大的運算和渲染能力完成遊戲的本地渲染,然後再將結果呈現在Project Shield的屏幕之上。有了GeForce GTX Titan,在馬桶上玩Crysis3也不再是不可能的夢想了。
● 見龍卸甲——Titan拆解賞析
從工業設計的角度來看,GeForce GTX Titan的硬朗外觀還是十分成功的。銀色金屬磨砂處理的散熱搭配黑色色調的卡身成了這款全新單芯王者的主基調。以下就是Titan的各種拆解細節。
GeForce GTX Titan
帶卸壓槽的渦輪散熱風扇
可以透過亞克力材質看到的散熱鰭片
GeForce GTX Titan拆解
GeForce GTX Titan拆解
DP+HDMI+雙DVI接口
6+8Pin供電接口
尺寸小巧的均熱板
2012年12月的晶片,你懂得……
PCIE-3.0接口
PCB元件
6+2相供電體系
三星FC03顯存顆粒
還記得這個小傢伙麼?這次它被挪到了正面
GeForce GTX Titan元件細節
GeForce GTX Titan的卡身長度並不誇張,略短於GeForce GTX 690,甚至並不比Radeon HD 7970長。這樣的身量尺寸似乎並不誇張,那麼GeForce GTX Titan的性能究竟是否如傳說中那樣恐怖呢?
● Titan家族全集合
七彩虹GeForce GTX Titan
映眾GeForce GTX Titan
● 測試平臺一覽
為保證測試能夠發揮顯卡的最佳性能,本次測試的平臺由Intel 酷睿i7-3970X處理器、X79晶片組主板、芝奇16GB DDR3-1600四通道內存組建而成。詳細硬體規格如下表所示:
測 試 平 臺 硬 件 環 境 | |
![]() | 中 央 處 理 器 |
Intel Core i7-3970X | |
(6核/12線程/3.5GHz/15MB L3) | |
![]() | 散 熱 器 |
Intel RTS2011LC | |
(原廠水冷散熱器 / 選配件) | |
![]() | 內 存 模 組 |
G.SKILL RipjawsX DDR3-1600 16GB | |
(SPD:11-11-11-28-1T) | |
![]() | 主 板 |
ASUS RAMPAGE IV EXTREME/BF3 | |
(Intel X79 Chipset) | |
![]() | 硬 盤 |
Seagate Barracuda 1TB | |
(1TB/7200RPM/32MB緩存/SATA3) | |
![]() | 電 源 |
NERMAX 白金冰核 1500W | |
(CSCI Platinum 80Plus/ 1500W) | |
![]() | 顯 示 器 |
DELL Ultra Sharp 3008WFP | |
(30英寸LCD / 2560×1600解析度) |
● 測試平臺軟體環境一覽
為保證系統平臺具有最佳穩定性,本次產品測試所使用的作業系統為Microsoft Windows 7正版授權產品,除關閉自動休眠外,其餘設置均保持默認,詳細軟體環境如下表所示。
操 作 系 統 及 驅 動 | |
![]() | 作業系統 |
Windows 7 Ultimate RTM SP1 | |
(64bit / 版本號7601) | |
![]() | 主板晶片組驅動 |
Intel Chipset Device Software | |
(WHQL / 版本號 9.2.3.1022) | |
![]() | NVIDIA顯卡驅動 |
NVIDIA GeForce GTX | |
(Beta / 版本號 314.09) | |
![]() | AMD顯卡驅動 |
AMD Catalyst | |
(Beta / 版本號 13.2 beta4) | |
![]() | 桌面環境 |
Windows 7 Ultimate RTM SP1 | |
2560×1600_32bit 60Hz |
需要特別說明的是,為了保證遊戲及測試過程中雙方特效設置的完全相同以及公平公正,我們調整了AMD催化劑驅動的AI控制功能,將鑲嵌等級從驅動默認的「AMD優化」改回了應有的「應用程式控制」。只有在這樣的設置下,AMD顯卡才會在遊戲中使用正確的遊戲自身設置的曲面細分等級,而不是AMD預設的更低的曲面細分等級。
● 理論性能測試:3DMark Series
有別於以往,我們在本次Titan的首發測試中使用3Dmark 11及新3Dmark來完成理論性能測試,兩款軟體均針對DirectX 11顯卡。測試成績主要由顯卡測試和CPU測試兩部分總和構成,整個測試軟體更加偏重整機性能。
3Dmark 11
新3Dmark
3Dmark 11 P模式測試結果
3Dmark 11 X模式測試結果
新3Dmark X模式測試結果
新3Dmark P模式測試結果
Titan的性能震撼從測試的開始便降臨到了我們的面前,其性能較之GeForce GTX 680以及Radeon HD 7970都太過明顯,很難想像這樣的測試結果來自同樣工藝的同時代產品。
● 遊戲測試:Crysis3
《孤島危機3》是《孤島危機》的最新續作,遊戲採CryENGINE 3引擎所製作,其卓越的畫面表現以及精彩的劇情相信已無需多言。作為硬體殺手的第三代,只支持DirectX 11的Crysis3 PC版再次將遊戲的畫面精美程度和硬體需求提升到了新的高度。
孤島危機3
我們採用運行Origin平臺啟動遊戲並進行第一關至進入建築物為止,同時收集期間的平均幀數的方式來完成測試,測試進行三次,取平均成績作為最終測試結果。
1920X1200 0XAA Crysis3測試結果
1920X1200 4XAA Crysis3測試結果
2560X1600 0XAA Crysis3測試結果
2560X1600 4XAA Crysis3測試結果
作為最新的硬體殺手,Crysis3為我們展現了碾壓一切的實力,極限解析度下的它甚至將Titan成功的壓制在了30幀以下。但即便如此,Titan依舊向我們展現了它絕對絕對強勁的性能——因為其他參測顯卡連突破20幀都做不到……
● 遊戲測試:Crysis2
《孤島危機2》是《孤島危機》的續作,遊戲採CryENGINE 3引擎所製作,故事發生在距一代3年後的2023年。外星人在地球上的大片區域挑起了戰爭,各大城市都遭到攻擊,人口銳減,玩家將要進行捍衛地球的末日戰爭。
孤島危機2
我們採用Crysis2 BenchmarkTool來完成測試,場景選擇Downtown,測試進行三次,取最高成績作為最終測試結果。
1920X1200 0XAA Crysis2
1920X1200 4XAA Crysis2
2560X1600 0XAA Crysis2
2560X1600 4XAA Crysis2
Titan恐怖的性能在Crysis2中再一次得到了展現。2560X1600這樣的極限解析度設置下,Titan差一點便以單芯突破了60幀的水平,其性能提升相對於GK104實屬巨大。
● 遊戲測試:Call of Duty MW3
由動視暴雪於2011年11月初發布的使命召喚:現代戰爭3延續了前作的諸多特色,其完美的劇情創造了良好的代入感。圖形引擎方面則沿用和改進了已經服役兩年的IW4.0+引擎,因此擁有良好的硬體「親和力」。
使命召喚8
我們選擇遊戲第一關過場動畫結束主角翻車至玩家再次恢復控制之間的即時渲染部分作為測試場景,無人為控制幹擾因素,測試時長50秒,測試執行3次,取期間的平均幀數作為最終測試結果。
1920X1200 0XAA使命召喚8測試
1920X1200 4XAA使命召喚8測試
2560X1600 0XAA使命召喚8測試
2560X1600 4XAA使命召喚8測試
使命召喚8的IW4+引擎相對老舊,已經很難發揮出最新硬體的全部實力,即便如此,Titan依舊擊敗了所有單芯競爭敵手的挑戰。
● 遊戲測試:Metro 2033
本作題材基於俄羅斯最暢銷小說Dmitry Glukhovsky。由烏克蘭4A遊戲工作室開發,採用4A遊戲引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,世界被一次災難性事件毀滅,幾乎所有的人類都被消滅,而且地面已經被汙染無法生存,極少數倖存者存活在莫斯科的深度地下避難所裡,人類文明進入了新的黑暗時代。直至2033年,整整一代人出生並在地下成長,他們長期被困在「地鐵站」的城市。
地鐵2033
我們採取遊戲提供的Benchmark程序來完成測試,該Benchmark所包含的場景具有光照系統,煙霧系統以及激烈交戰場景,能夠全面反映顯卡在面對Compute Shader以及超高解析度材質時的表現。需要註明的是,有介於既往測試的經驗,我們在本次測試中關閉了所有參測顯卡的DOF選項設置,以期獲得「可以用來玩的幀數」數據。
1920X1200 4XAA 地鐵2033測試結果
2560X1600 4XAA 地鐵2033測試結果
在關閉DOF之後,地鐵2033終於變得不再是屠殺所有硬體的存在了,起碼Titan倖存了下來,甚至還超過了GeForce GTX 690。
● 遊戲測試:LostPlanet 2
《失落的星球2》背景設在原來第一季的十年後。氣候變化融化冰雪覆蓋的大陸,創造了新的環境,如叢林。在EDN-3rd的改變下,10年過去了。地球發生了重大改變,冰川已經融化,熱帶叢林,沙漠冷酷無情。玩家將進入新的環境,與雪賊戰鬥,以抓住不斷變化的地球控制權。玩家將控制他們的英雄跨越6個相互關聯的事件,創造一個真正獨特的互動體驗。有了這個概念,玩家將會有機會從不同的發展角度來動態的改變故事情節。
失落星球2
我們採用遊戲自帶的Benchmark來完成測試,測試進行三次,取三次平均值作為最終結果。
1920X1200 0XAA 失落星球2測試結果
1920X1200 4XAA 失落星球2測試結果
2560X1600 0XAA 失落星球2測試結果
2560X1600 4XAA 失落星球2測試結果
失落星球2的測試延續了Titan在前面遊戲中的強勢,它依舊是毋庸置疑的單芯王者。
● 遊戲測試:Dirt 3
《Dirt 3》是Codemasters製作發行的一款賽車競速單機遊戲,作為AMD Gaming Evolution的一款遊戲,它採用與《F1 2010》同樣的Ego引擎,支持DirectX 11 API,擁有更加擬真的天氣系統及畫面效果。遊戲將包含冰雪場景、動態天氣、YouTube上傳、經典的賽車、分屏對戰、party模式、開放世界、更多真實世界中的贊助商和車手等特點。
塵埃3
我們採用遊戲自帶的Benchmark來完成測試,最終結果以顯示平均幀數為準。
1920X1200 0XAA 塵埃3測試結果
1920X1200 4XAA 塵埃3測試結果
2560X1600 0XAA 塵埃3測試結果
2560X1600 4XAA 塵埃3測試結果
作為第一代DirectX 11遊戲,塵埃3已經十分「老舊」了,最新硬體在其上已經難以發揮出全部的性能優勢了,但即便如此,Titan仍然在該款遊戲中表現了強大的實力。
● 遊戲測試:蝙蝠俠阿克漢姆之城
蝙蝠俠:阿甘之城(Batman: Arkham City)是2009年最佳動作遊戲《蝙蝠俠:阿甘瘋人院》的續作,由華納兄弟出品,該作由Rocksteady工作室負責開發,世界架構仍然建立在《阿克漢姆瘋人院》的氣氛上,不過這次上升至阿克漢姆之城——高譚市內戒備森嚴的,關押了大量暴徒的監獄之中。新作匯集了眾多明星參與的配音陣容以及蝙蝠俠中的極度兇殘的惡棍,並改進和加強了一遊戲特點,讓玩家們擁有像《蝙蝠俠:黑暗騎士》一般的終極遊戲體驗。
蝙蝠俠:阿克漢姆之城
我們採用遊戲自帶Benchmark進行性能測試。測試進行三次,取三次平均值作為最終結果。
1920X1200 0XAA解析度蝙蝠俠2測試結果
1920X1200 4XAA解析度蝙蝠俠2測試結果
2560X1600 0XAA解析度蝙蝠俠2測試結果
2560X1600 4XAA解析度蝙蝠俠2測試結果
Titan的成績已經沒有任何懸念和值得懷疑的地方了。非常接近GeForce GTX 690的測試結果已經讓這款單芯顯卡產品成了當之無愧的單芯王者。
● 遊戲測試:無主之地2
《無主之地》為一款RPG風格合作FPS遊戲,作為《無主之地》的續作,這款卡通渲染風格的二代遊戲可以讓玩家仍然扮演來自前作的自定義英雄,同時引入了名為「聖安德列斯風格」的升級系統。並且該作取消在線多人模式,支持合作模式。
無主之地2
我們採用運行遊戲第一關至第一個洞口的方式來完成遊戲測試,整個測試過程重複3次,取平均幀數為測試結果。
1920X1200 FXAA 無主之地2測試結果
2560X1600 FXAA 無主之地2測試結果
無主之地2的卡通渲染風格對GPU的性能要求並不算過分苛刻,因此Titan在該款遊戲中的亮點主要集中在提高解析度時相對更低的性能衰減。
● 遊戲測試:殺手5
《殺手5:赦免》採用IO Interactive自主研發的冰川2(Glacier 2)引擎製作,遊戲內容都是在引擎下實時進行反饋的,所有動作都是即時生成的。新作主要場景發生在芝加哥,名為代號47的主角在本作中將更加靈活,更好控制。他將可以攀在懸崖邊,還可以保持平衡,遊戲融入了掩護系統,挾持人持的功能回歸。
殺手5:赦免
我們使用遊戲自帶的Benchmark程序來完成設置,測試進行三次,取平均值為最終結果:
1920X1200 0XAA 殺手5測試結果
1920X1200 4XAA 殺手5測試結果
2560X1600 0XAA 殺手5測試結果
2560X1600 4XAA 殺手5測試結果
在最新發布的殺手5中,Titan繼續維持著強勁的性能表現並超越了所有的參測單芯顯卡,而且領先幅度非常可觀。隨著驅動的進一步優化,相信Titan還可以表現出更加強大的性能。
● DirectX 11應用測試:天堂4.0 《Heaven Benchmark》是由俄羅斯Unigine遊戲公司開發設計的一款Benchmark程序的最新版本,該程序是由Unigine公司自主研發的遊戲引擎設計,支持DirectX 9、DirectX 10、DirectX 11與OpenGL 3.2 API,通過數十個場景的測試最終得出顯卡的實際效能。 有介於前面遊戲測試中Titan所表現出的近乎於過剩的性能,我們決定直接在天堂4.0測試中使用最大極限設置——2560X1600環境下開啟8XMSAA。如此高的解析度下繼續開啟最高級別的抗鋸齒對遊戲畫面的質量提升已經沒有任何意義,但卻可以為我們提供一個考驗性能的極限環境作為參考。Titan在這樣設置下的性能表現依舊搶眼,領先其他單芯顯卡的幅度均超越了50%。以這樣的成績而言,Titan甚至可以說是一款面向未來的產品了。
天堂4.0
2560X1600 8XAA 天堂4.0測試結果
● Titan遊戲性能綜合比率
我們收集了全部9款參測遊戲的幀數數據,以GeForce GTX Titan為基礎將在遊戲中的表現與所有參測顯卡進行了一一對比,下面就是所有參測顯卡在全部測試遊戲中相對於Titan比率的平均值。為方便進行更加直觀的對比,我們還分別製作了以GeForce GTX 680、Radeon HD7970 GHz Edition以及Radeon HD7970為基準的性能比率圖,以便讓大家了解Titan相對於各款旗艦級產品的性能提升幅度,以下就是我們所獲得的結果。
GeForce GTX Titan性能比率(1920解析度)
GeForce GTX Titan性能比率(2560解析度)
GeForce GTX 680性能比率(1920解析度)
GeForce GTX 680性能比率(2560解析度)
Radeon HD 7970 GHz Edition性能比率(1920解析度)
Radeon HD 7970 GHz Edition性能比率(2560解析度)
Radeon HD 7970性能比率(1920解析度)
Radeon HD 7970性能比率(2560解析度)
在2560X1600解析度下,GeForce GTX Titan的遊戲性能領先GeForce GTX 680的幅度為46.8%,領先Radeon HD 7970 GHz Edition的幅度為44.6%,領先Radeon HD 7970的幅度為54.9%,落後GeForce GTX 690的幅度為11.5%。這組比例,應該可以相當直接的反映出GeForce GTX Titan無與倫比的性能等級了。
還記得上一次看到這樣的性能提升幅度是在什麼時候麼?努力回憶一下那段幸福的時光吧。
● SLI多卡性能延伸測試
GeForce GTX Titan支持3way SLI設置,可以以三卡互聯的方式進一步拓展其性能界限。因此我們分別使用3Dmark 11以及極限設置的天堂4.0完成了多卡互聯性能的測試,結果如下:
3Dmark 11 P模式Titan多卡SLI性能測試
3Dmark 11 X模式Titan多卡SLI性能測試
新3Dmark P模式Titan多卡SLI性能測試
新3Dmark X模式Titan多卡SLI性能測試
天堂4.0極限畫質設置Titan多卡SLI性能測試
好吧,怎麼說呢……如果你很有錢,同時又渴望獲得這個世界上最快的個人電腦圖形性能的話,那就去買3塊GeForce GTX Titan吧,因為你已經沒有第二個選擇了。
● 架構通用計算測試:Fluid simulation
由於目前NVIDIA的Open CL驅動依舊錶現不正常,諸如顯存中進行原子操作會快於Shared/cache之類的問題仍然存在且沒有任何改觀,我們只能繼續放棄基於OpenCL的通用計算測試軟體——GPCBenchmark,轉而採用DirectX SDK來完成底層性能及通用計算性能數據的收集。待到NVIDIA的官方驅動能夠提供正確的OpenCL支持之後,我們將會補上GPCBenchmark的相關測試。
我們首先進行的DirectX SDK測試,是使用Direct Compute完成的流體力學模擬——Fluid dynamics simulation。Fluid dynamics simulation基於彈性力/黏著力/重力為基礎的顆粒碰撞模擬,每一個顆粒均擁有獨立的力學參數。通過對顆粒本身在統一的重力參數作用下自有力學參數以及交互作用的計算,可以模擬大量顆粒的行為並達到模擬由它們構成的「流體」特性的目的。
Fluid dynamics simulation
Fluid dynamics simulation分別提供了對shared性能以及Grid性能的測試,力學計算本身需要應用包括矩陣運算在內的多種數學方法,顆粒之間的力學交互作用存在條件分支關係,因此該項測試可以全面考驗不同構架對圖形通用計算以及有針對性的物理特效計算的性能。
GeForce GTX Titan通用計算性能測試之FluidCS
Kepler架構的通用計算能力是毋庸置疑的,這一點在我們之前進行的GeForce GTX 680發布中就已經明確過了。Titan在Fluid dynamics simulation中的性能表現再次佐證了這一點,它以非常明顯的幅度領先於其他所有參測顯卡。
● 架構通用計算測試:Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一種基於陰影深度進行的陰影判斷及快速操作模式,CSM通過將整個陰影劃分成若干級的層次,以層次內部像素的深度來定義和快速判斷陰影位置,並對近景陰影採取高精度貼圖,遠景陰影採用低精度貼圖的方式來達到節約資源同時快速準確實現陰影貼圖的目的。CSM可以極大地加快陰影操作的速度,同時避免大多數因為光源形態、陰影深度與像素尺寸差異所導致的陰影邊緣及內部貼圖錯誤。
Cascaded Shadow Maps
CSM大量涉及矩陣運算及坐標判斷,因此在DirectX 11環境下可以透過Compute Shader來進行。對CSM的性能測試,有助於我們了解構架的矩陣操作等通用計算性能。
GeForce GTX Titan通用計算性能測試之CSM
依舊是令人難以置信的領先程度,Titan以及整個Kepler架構通用計算能力的強勁已經沒有任何質疑的必要了。
● 構架底層延展測試:OIT
半透明是3D圖形中一種重要的特效,但傳統的Alpha混合基本上無法完成對不同半透明物體以及同一物體不同半透明部分的層次判斷,因此如果以Alpha操作來簡單的實現半透明效果,很多時候獲得結果都是錯誤的。所以在DirectX 11中,微軟為我們引入了OIT(透明獨立疊加)技術來解決這一問題。
OIT
在實現OIT技術的過程中,程序會將處於同一層次的部件所對應的線程/任務以Atomic(原子操作)的形式保護起來,使這些線程在被執行結束之前變成一個不可再分的整體。接下來這些Atomic會被放置在buffer中進行處理優先級的排序,通過這些操作,物體及部件所在的層次和正確的顯示效果就被最終確定下來了。如果構架擁有cache等可讀寫近存近取緩衝,則可以極大地加快OIT的亂序操作過程。因此對OIT的性能測試,將可以讓我們了解構架是否具有足夠的靈活度、充足的緩衝密度以及完整的Atomic特性支持能力
GeForce GTX Titan通用計算性能測試之OIT
在OIT的測試中Titan似乎遇到了一些不該有的狀況,它的性能尚不及先期發布的GeForce GTX 680,我們無法斷定這究竟是驅動不完善還是GK110架構的cache體系存在設計問題所導致的,伴隨著未來NVIDIA逐步更新和完善驅動程序,我們會持續關注這一問題的解決過程。
● 構架底層延展測試:nBody Gravity CS11
nBody Gravity的前身來自nBody仿真,nBody仿真的目的在於模擬一個多體系統的演化過程,該系統中的每個個體(Body)都會與周圍的其他物體發生非接觸力學吸引/排斥作用。通過nBody仿真,我們可以獲得大量長程力作用的系統,比如小到範德華力作用下的原子/分子群或者大到萬有引力作用下的星系之類各色場合的模擬結果。對於氣流等稀薄流體的模擬同樣可以歸約成nBody仿真過程並予以解決。
nBody Gravity
nBody Gravity將場景設定為大量粒子在引力這一種基本長程力下高速運動作用形成的多體問題,儘管粒子間不考慮接觸力學傳遞,但整體而言nBody Gravity模擬與我們前面進行的Fluid dynamics simulation測試一樣,都需要大量應用到矩陣操作等大量常見的數學方法。在此基礎上,由於長程力一次影響的對象遠較流體模擬中彈性碰撞傳遞所能夠影響的對象要多,其背後所對應的線程量非常龐大,因此nBody Gravity對於硬體構架的並行度有極高的要求。透過nBody Gravity的測試,我們可以了解到被測對象的吞吐能力、對基本條件分支的應對能力、並行處理能力以及對矩陣等常規數學方法的處理能力。這些能力,最終都將反映構架執行DirectX 11特性尤其是Compute Shader的效率。
GeForce GTX Titan通用計算性能測試之nBody Gravity
Titan在nBody Gravity測試中恢復了正常的性能,我們再次體會到了GK110以及Kepler架構令人滿意的通用計算性能以及整個架構正確的通用計算性能延續性。但願前面OIT測試中所遇到的問題屬於驅動引發的個案。
● 功耗溫度及性能功耗比測試
在功耗、溫度及噪音測試環節,我們採用Furmark滿載的方式讓顯卡達到全負荷工作的方式,來收集Titan及Titan三卡互聯的滿載平臺功耗溫度及噪音數據。
GeForce GTX Titan平臺待機功耗
GeForce GTX Titan平臺滿載功耗(Furmark)
GeForce GTX Titan平臺3卡滿載功耗(Furmark)
GeForce GTX Titan的功耗表現令人相當滿意,其Furmark滿載平臺功耗為376W,甚至低於我們之前測試過的標準版Radeon HD 7970的380W。3Way SLI的Furmark滿載平臺功耗為920W,亦低於之前Radeon HD 7970 3Way CrossFireX獲得的1139W的平臺功耗數據。
GeForce GTX Titan單卡滿載溫度
GeForce GTX Titan三卡滿載溫度
GeForce GTX Titan的Furmark滿載溫度為81度,3Way SLI時的溫度上升亦可以接受。噪音部分的測試則為我們帶來了不小的挫敗感——無論我們怎麼努力,Titan的運行噪音始終都淹沒在背景噪音,或者說Intel CPU原裝水冷散熱的風扇噪音當中,我們無法在噪音計上獲得有效地Titan默認及滿載運行狀態下的噪音數據,因此只能以「GeForce GTX Titan的運行噪音基本上無法被聽到」來作為噪音測試的結果了。
● 測試總結:從難以理解到可以被理解的強大
GeForce GTX Titan的測試到這裡就全部結束了,相信無論是架構意義還是最終性能的展現,屏幕前的各位對於Titan的震撼表現都應該有一個全面的認知了。對於Titan帶來的震撼,我們甚至可以戲謔的套用競爭對手AMD的話來形容,那就是「這東西(Titan)壓根就不是當顯卡設計的(this is not something which was designed to be a graphics card)」。
「GeForce GTX Titan不是顯卡」……?
GeForce GTX Titan以與HD7970標準版完全相同的工藝完成製造,功耗表現也與其相當甚至更低,但GeForce GTX Titan卻在這樣的前提之下實現了超過後者55%的圖形性能,而且Titan在計算層面上甚至提供了與Tesla幾乎完全相同的特性(以至於我們無法再用GK104時代的「閹割了計算特徵」來進行搪塞)並將顯存容量提升到了6GB,這樣的事在正常的半導體產品對決中幾乎是完全不可能出現的。
儘管不同的邏輯結構會帶來不同的性能功耗比表現,但在「給多少電就幹多少活」的半導體工業,同代工藝下雙方的同功耗性能相差應該不會過於巨大。消耗同樣的功耗,某個邏輯結構竟然可以輸出比同檔次競爭結構多一半以上的性能,這甚至是連錯代工藝都是極難實現的。即便是CPU領域的推土機 VS SNB-E,也沒有表現出這樣程度的差距。如果我們無法接受「Tahiti以及AMD自身依舊存在太多問題從而導致了現在的局面」這種結論的話,那也就只能以「這東西(Titan)壓根就不是當顯卡設計的」來作為解釋Titan性能的理由了……
Titan VS HD7970 VS GTX680
GeForce GTX Titan的表現源自一系列因素綜合的必然——先前架構的完善積累、對GPU設計理念的正確把握、更優秀的研發節奏把握、正確的路線圖發展順序以及堅定的對路線圖的執行力、合理的D線及對D線空間的利用(什麼是D線? 它會導致怎樣的問題?)、在成本/短期利益和有效經驗/長期利益間果斷選擇後者……一連串正確或者正面的要素都將GeForce GTX Titan導向了今天的局面當中。GeForce GTX Titan絕非偶然,它身上所表現出來的諸多符合因果鏈的現象和經驗,都是值得整個業界討論並學習的。
GeForce GTX Titan是毋庸置疑的單芯旗艦顯卡,這不僅表現在單卡性能層面,同時還表現在平臺性能界限層面上。儘管GeForce GTX 690在測試中表現出了略快於GeForce GTX Titan的單卡性能,但其性能延展度僅能止於雙卡,能夠完成3way SLI的GeForce GTX Titan才是平臺絕對性能上限需求的最理想滿足者。除此之外,更加開放的GPU Boost 2.0也在改善了可玩性的同時將這款顯卡的易用性提升到了超越GK104的高度。對於渴望獲得史上最強大GPU架構及性能體驗的發燒友而言,GeForce GTX Titan無疑是極佳的選擇。
Titan 3way SLI是當前最強的圖形平臺之選
除了性能以及性能功耗比等等鮮明的優勢之外,GeForce GTX Titan還首次將接近完整的Tesla特性延伸到了桌面級的GeForce遊戲顯卡產品當中,這進一步拓展了其存在的價值和意義。由於雙精度是驅動中的可選開啟項,所以在開啟之後的單卡GeForce GTX Titan完全可以被視作是不支持ECC特性的Tesla K20X。這種特徵讓Titan的存在對許多資金有限的基層科研工作者有了全新的含義——在小型計算平臺的規模上,GeForce GTX Titan大幅降低了人們體驗並獲得Tesla級別運算能力幫助的門檻,資金有限的人們現在可以少付出3000美元便能獲得最頂級的運算卡所提供的運算特性了。對於那些經費緊張但卻心懷抱負的學生/科研工作者來說,GeForce GTX Titan將是更具吸引力的顯卡。
當然,這世界上是不存在絕對的完美無瑕的。GeForce GTX Titan的表現的確令人嘆為觀止,但這並不能讓我們忽視其身上存在的弱點和缺陷。
儘管GeForce GTX Titan提供了非常完整的運算特徵,甚至幾乎可以被看做是一塊便宜了數千美元的Tesla K20X,但其所提供的關於雙精度浮點運算能力的特性,對於常規遊戲玩家而言是沒有意義的。在可以預期的(亦即可通過路線圖或技術規劃推斷的)近未來中,包括DP Shader在內的一系列可以利用雙精度浮點運算能力的圖形技術在一兩代產品周期內都不會來到我們的面前,桌面級應用中可以利用到雙精度浮點運算能力的場合鳳毛麟角,甚至可以說完全沒有。儘管雙精度浮點運算對許多科研活動至關重要,但普通玩家也會因此而買單這件事也是無法被忽視的。能否平衡普通遊戲玩家與運算性能需求者之間的關係,以諸如積極推動更高數據精度應用在圖形領域的進展之類活動讓玩家的投資獲得更大的回報,是擺在NVIDIA以及GeForce GTX Titan面前的一個重要的問題。
花更少的錢買一塊K20X能否被所有人接受呢?
除了售價之外,GeForce GTX Titan架構本身的表現也存在一些值得注意的問題,那就是Cache性能的不穩定。我們無法斷定Titan測試過程中表現出的Cache問題,比如OIT測試中的表現究竟源自驅動的不完善還是Cache體系本身的設計出現了缺陷,同時在過去一年的時間裡,Kepler架構在Open CL環境下也一直無法提供令我們滿意的局域存儲器性能測試結果。這樣的結果對於當前GeForce GTX Titan的遊戲圖形表現影響還不是很大,但如果放置不管,這些問題最終將可能醞釀出更大的隱患。
以GPU體系而言,引入Unified Cache無論是對運算任務還是對圖形任務來說都是意義非凡的,但是引入Unified Cache同時也意味著將Cache體系的諸多麻煩,比如命中率問題或者一致性問題等等也一併帶入到了GPU界,這些麻煩對於已經先期踏過統一定址關口,正在積極推進通用計算和統一運算架構,且本身並沒有豐富的Cache使用經驗的NVIDIA來說會十分棘手。緩衝體系的崩潰將會帶來多麼糟糕的結果這件事已經有NV3X和Tahiti做前車之鑑了,沒人希望NVIDIA在Cache層面重複這樣的悲劇。所以無論是驅動問題還是架構本身存在隱患,儘快予以解決都是上策。Kepler架構已經證明了自己在寄存器層面積累的成功,我們希望NVIDIA能夠在未來的架構發展中將這種積累以及相應的經驗繼續拓展到Cache體系當中。
NVIDIA首次在Fermi中引入了Unified Cache,但願它也能笑到最後
至於AMD將如何面對GeForce GTX Titan帶來的衝擊這件事,說老實話我們是很沒有底的。Tahiti與Kepler架構之間的差距已經伴隨著GeForce GTX Titan的發布而毫無保留的被表現了出來,這種差距甚至已經超過了代差所能夠承受的極限。以GPU發展的一般規律而言,AMD基本上已經喪失了在短期內追平的可能性。GeForce GTX Titan沒有對手,其獨特的市場定位以及高昂的售價也讓這款產品難以找到能夠與之對應的競品,也許這可以讓AMD暫時放心,但GeForce GTX Titan所表現出的雙方在邏輯結構設計水平層面的巨大差異,以及包括GPU Boost 2.0在內的諸多值得Tahiti改進架構借鑑的經驗,是必須要引起AMD高度重視的。
我們無法揣度GeForce GTX Titan對HD8000系列架構的核心設計所造成的影響,因為諸如寄存器層面的技術差異不是一代改進型架構能夠解決的,但我們認為一些更加外圍且更加直接的技術革新將會因為GeForce GTX Titan的出現而獲得AMD更大的重視,比如說未來的AMD Boost一定會借鑑更多GPU Boost技術中的成功經驗,而功耗與性能的平衡也將成為AMD未來重點關注的對象之一。無論做何種改進,只要AMD肯進行有意義的改進,並且能夠積極同時正面地去推動這些改進,用戶就必定能從這些改進中獲得好處並重拾對AMD的信心。
Titan,世界上最強大的遊戲超級計算機
GeForce GTX Titan對性能定義的震撼是巨大的,其全新的定位以及售價同樣給人以強烈的衝擊。GeForce GTX Titan身上的很多特徵都是前所未有的,其對業界造成的衝擊和影響到底有多深遠,這樣的問題恐怕只有時間才能予以回答了。GeForce GTX Titan的命運將會如何?NVIDIA的命運將會如何?AMD的命運將會如何?整個業界的命運又將會如何?就讓我們一起拭目以待吧。
NVIDIA新一代單芯旗艦產品——GeForce GTX Titan正式發布,這款同樣基於Kepler架構的產品相比上一代單芯/雙芯旗艦會有怎樣的性能比較呢?這個看不到數字型號的新旗艦,會有怎樣的新特性,會有怎樣的定價?讓我們通過本文的全面測試,詳致了解一下GeForce GTX Titan。