我們曾經將次旗艦級顯卡定義為遊戲顯卡中的「戰列巡洋艦」。它們比旗艦級產品更輕(能耗更低),更靈活(成本更低),但火力(性能)卻並不遜於旗艦級顯卡。對於遊戲玩家而言,次級旗艦級的顯卡產品更值得關注和購買。
2013年11月5日,AMD正式發布了基於Hawaii架構打造的新一代次級旗艦顯卡——Radeon R9-290。Radeon R9-290承襲了先前發布的Radeon R9-290X的絕大部分特點,面向高端遊戲玩家,以包括4K UltraHD解析度及多屏拼接在內的各種高解析度/超高解析度應用場合為目標。該款顯卡的發布,標誌著Hawaii架構的全面來臨以及AMD同NVIDIA在遊戲顯卡市場的新一輪競爭正式拉開了帷幕。
Radeon R9-290
Radeon R9-290相對於Radeon R9-290X都有哪些變化和不同?它的實際表現又將會是怎樣的呢?在接下來的測的是當中,我們將會為您全面的展現該款顯卡的特色。
》現在去顯卡道轉轉《|》看看今日最新文章《
》顯卡精彩美圖匯總《
● R9-290規格揭秘
Hawaii架構是Graphic Core Next的最新改型,基於該架構的Radeon R9-290與Radeon R9-290X一樣擁有了AMD史上最為龐大的規模。它集成62億電晶體,核心面積上升到了438平方毫米,這一數值已經超越了AMD在DirectX 11時代所劃D線(什麼是D線? 它會導致怎樣的問題?)上空間的上限(338+33.8平方毫米)。Hawaii的GPU晶片集成度,亦即單位面積的電晶體密度有了較大改變,集成度的提升降低了晶片總面積以及晶片的製造難度,但同時也改變了晶片內部的熱密度分布,對於紓解D線壓力可謂是一把雙刃劍,而且為Hawaii的功耗表現埋下了伏筆。
與Radeon R9-290X相比,Radeon R9-290的運算資源總量從2816個ALU下降到了2560個,Texture Filter Unit由176個削減到了160個,構成後端的ROP則維持了相同的64個。Hawaii擁有龐大但經過重新設計的MC結構,8個64bit雙通道顯存控制器組合形成了512bit顯存控制單元,顯存容量也因此而從Tahiti的3072MB提升到了4096MB。這一系列後端特性在Radeon R9-290上均得到了保留。
*註:市場定價均為官方首發限價
Radeon R9-290的默認核心及顯存運行頻率為947/5000MHz,AMD Boost可將核心頻率調回至800MHz,其默認Pixel Fillrate能力為60.6Gpiexls/S,默認Texture Fillrate能力為152Gtexels/S,顯存帶寬320GB/S。Radeon R9-290擁有4.9T Flops的單精度浮點運算能力,理論上擁有1.225T的雙精度浮點運算能力。
Hawaii架構圖
Hawaii架構晶片由以下主要的部分組成:
1、與Tahiti相同的基於HKMG的TSMC 28nm工藝。
2、與Tahiti不同的宏觀並行結構,44組CU單元被分為4個Shader Engines,每個Shader Engines包含11組CU。Radeon R9-290削減至40組但仍維持4SE並行結構。
3、與Shader Engines一一對應的4組Geometry Unit(幾何處理單元)以及4組Rasterizer(光柵化單元)。
4、ACE異步計算單元的總量由2組提升至8組。
5、改進結構的MC單元,當前的8x64bit雙通道顯存控制器可以實現512bit顯存位寬,並可在5000MHz顯存頻率上實現320GB/S的理論位寬,但該顯存控制器所佔資源數量卻不到現有顯存控制器邏輯設計方案的50%(面積/電晶體)。
6、調節控制粒度、突出低噪音及高溫高性能耐受能力、同時頻率控制範圍更大的新一代AMD Boost。
Radeon R9-290照片
相對於我們所熟悉的Tahiti,Hawaii架構既親切又有些陌生。儘管我們已經在Radeon R9-290X中對其架構革新進行了詳盡的描述及意義探討,但這一新鮮架構的特性仍未被更多公眾所獲知。所以接下來,就讓我們從細節層面再次複習一下Hawaii架構的各種特點吧。
● 奮起直追的並行度
作為GCN架構的改良版本,Hawaii在諸多方面進行了修改,並行度的提升便是其中之一。宏觀並行結構本身並不會給GPU帶來通常意義上的直接可量化圖形性能提升,但宏觀並行度提升的副產品,也就是幾何單元以及光柵化單元的增加,以及宏觀並行度提升所帶來的線程管理以及任務執行效率的增長,都將會給GPU的性能增長帶來助益。
宏觀並行度提升的Hawaii架構
Hawaii擁有4 Shader Engines的宏觀並行結構,單位周期內可以並行處理4個多邊形,幾何處理能力以及坐標變換等光柵化處理能力均為前代Tahiti架構的兩倍。
Hawaii的另一大前端改進來自ACE單元,這與整個體系的並行度及並行執行能力息息相關。ACE全稱Asynchronous Compute Engine,譯為異步計算引擎。作為AMD GPU最前端的組成部分,它的實際作用其實與幾何以及光柵化等圖形過程並沒有直接的聯繫。ACE位於整個GPU的最前端管理任務隊列,它會將線程塊規整的分發給後面的ALU團簇。ACE是所有GPU任務的起點,它的存在和表現直接關係到了GPU進行圖形及通用計算任務是的效率表現。在Hawaii架構當中,ACE的總量較之Tahiti提升了4倍,達到了8組。
8組ACE單元
除此之外,Hawaii的ACE單元在功能性層面也有提升。新的ACE單元支持L2 cache及GDS的直接訪問及管理工作,可同時管理總計64個任務隊列(8x8 queues),支持獨立並行的任務運作及調度,可以實現圖形命令及任務的並行處理,這不僅有助於整個架構實現更為快速的上下文切換功能,同時進一步改善任務密度和單元復用情況。
Hawaii的宏觀並行結構
Hawaii內部劃分明確的子處理單元代表了AMD在宏觀並行度層面對競爭對手的追趕,從結構角度而言,Shader Engine與GPC的差異已經不大。儘管多shader engines構成的ALU集群仍舊可以被視為一個整體,同時也沒有跡象表明AMD放棄了搶佔式多線程等前端任務管理機制,但Hawaii架構的宏觀並行度較之Cayman/Tahiti架構仍舊有了明顯的提升。這是AMD GPU架構演進過程中裡程碑式的一步,將會對未來的AMD圖形架構乃至整個HSA通用計算架構的發展產生至關重要的影響。
● 延續結構的core
較之並行度方面的提升,Hawaii的直接運算部分亦即CU單元的結構並沒有發生任何本質性的變化,它依舊維持和沿用了GCN架構的標準結構。在首代GCN架構的Tahiti當中,AMD將ALU團簇從VLIW SIMD改進成了Vector Compute Unit,我們亦可簡稱其為CU。CU單元內部包含4組SIMD CORE,每組SIMD CORE由16個標準Vector ALU構成,所以一個CU單元擁有64個Vector ALU。
Hawaii沿用了這樣的CU單元設計,架構總計包含44個CU單元,合計擁有2816個Vector ALU。除了負責浮點吞吐的SIMD CORE之外,Hawaii構架的每個CU單元同樣擁有在一個Scalar Unit,Scalar單元中包含Int ALU單元,可以用來處理整數指令以及特殊函數。另外,對線程效率至關重要的原子操作(Atomic)也在該單元中執行。
Tahiti構架CU結構細節
運算單元之外,Hawaii構架的每個CU還綁定了由Branch和Scheduler構成的二級線程控制機制,以及一個完整的Texture Array,Texture Arroy的作用與傳統AMD構架中的TMU基本相同,包含了完整的Texture Fetch Load/Store Unit以及Texture Filter Unit。
由於整個結構並未發生變化,Hawaii的CU內部以及CU周邊的緩衝資源也維持了前代的標準。CU內部擁有獨立的32K GDS(Golbal Data Share),其中可以劃分出16K作為L1 Data cache,另外每個CU還擁有獨享的64K LDS(Local Data Share)。在一級緩衝和Shared之外,Hawaii的CU單元還擁有共享的L1 Instruction cache和Kernel cache,密度應與Tahiti維持一致,計每4個CU共享16K的L1 Instruction cache和32K的Kernel cache。
Hawaii架構的CU結構
最後,由於後端的直接放大以及cache體系的必要調整,Hawaii構架的L2 Data cache尺寸發生了變化,L2 cache擁有溝通上級緩衝與顯存的作用,它需要與MC一一對應,因此Hawaii共擁有8組合計1024K的L2 cache。L2 cache面向所有CU中的單元開放,ALU可以用它緩衝數據,TMU也可以用它充當Texture cache。值得注意的是,由於Hawaii的CU單元數量增長與L2規模增長不成比例(40/6 VS 44/8),每個CU單元能夠獲得的L2使用密度(時間/空間)較之Tahiti有所下降。但AMD將Hawaii架構的L1/L2傳輸帶寬提升到了1TB/S,在一定程度上衝淡了資源密度下降帶來的影響。
整個Hawaii架構中最重要的革新來自其全新結構設計的顯存控制器體系,新的顯存控制器以更小的面積和資源實現了更大的理論位寬,大大增加了每平方毫米可用帶寬數量。
Hawaii擁有8組64bit雙通道顯存控制器,其理論總位寬達到了512bit,在此基礎上,AMD宣稱該組顯存控制器的「佔地面積」相當小,比現行架構中的6x64bit方案還小20%,每平方毫米顯存控制器單元的理論可用帶寬由此增加了50%。
Hawaii架構的MC體系
常規來講,由於互聯以及控制單元的激增,維持延遲在可控範圍內的高頻512bit顯存控制器通常會比384bit顯存控制器多佔用接近100%的資源總量(面積/電晶體),Hawaii這一顯存控制器所佔資源情況,意味著其所採用的單位邏輯結構方案較之現行方案減小了50%以上的規模。這不僅為GPU節約了大量寶貴的電晶體資源,同時也大幅削減了晶片的最終面積,尤其是面積的削減對於飽受D線壓迫的AMD來說是極其珍貴的。
全新設計的顯存控制器
當然,顯存控制器的改變看似脫胎換骨,實則並沒有所謂的奇蹟存在,新設計的顯存控制器是一個更加傾向與理論而非實際吞吐性能的結構,儘管AMD沒有公布更多細節,我們無從知曉新的顯存控制器究竟是在互聯還是其他層面進行了結構縮減,但我們可以肯定它並沒有挑戰現行的顯存控制器設計基礎,也沒有採用本質上可以提升單位有效吞吐能力的新結構。我們會在接下來的測試中見識這一結構產生的真實性能,並剖析其對整個架構帶來的性能影響。但請注意,我們並不是為了要指摘這一結構設計的失當,相反,我們對Hawaii的顯存控制器設計報以了極高的評價。
Hawaii架構的顯存控制器是一個在較少的資源消耗和較低的有效性能當中求得平衡的設計,其中最值得注意的並非最終性能,而是AMD所進行的平衡。新結構的MC單元與其說是源自功能性和結構性的改變,倒不如說是AMD的GPU架構設計思路發生了重要變化,這一變化頗為關鍵,甚至可以說是一門藝術。
● 新MC的評價——正確的抉擇
邏輯結構的設計實際上是一個資源使用的平衡與取捨的藝術,在有某種特定約束範圍作為前提的情況下,如何正確的使用定量資源並將其劃分成正確比例的部分,進而有針對性的解決不同的矛盾,是一個體系能夠成功的基礎。
讓我們換幾個通俗的說法吧——就那麼多錢的話,怎麼最有效率的花出去是關鍵。就那麼多電晶體的話,怎麼最有效率的將其用在最需要的地方是關鍵。就那麼多晶片面積的話,從一切可能的地方擠出面積來給最需要面積的部分是關鍵。
以Hawaii架構以及當前的AMD而言,邏輯結構設計過程中最大的問題無疑在於D線和既有的寄存器負擔的強烈壓迫。受限於D線對晶片面積的約束,在DirectX 11時代缺乏大晶片設計製造經驗的AMD不可能隨心所欲的製造與競爭對手同等規模的「巨無霸」,甚至在挑戰400平方毫米級別時,每向上一平方毫米所帶來的功耗增長及可製造性下降都會讓試探變得更加困難。與此同時,寄存器所導致的電晶體負擔也束縛了希望釋放運算資源規模的AMD的手腳。盡每一份可能瘦身並用更小的面積來實現更多的性能,顯然是AMD現在最迫切同時也是最困難的任務。究竟要怎樣做,才能達成這樣的任務呢?
平衡性能和消耗是AMD在Hawaii上面對的首要問題
AMD選擇了從顯存控制器這一極其消耗資源的部件著手,以單位有效帶寬更低但理論帶寬更高,同時更加節省資源的方案替代當前有效帶寬更高但更加消耗資源的方案。
細化到具體做法,就是先修改現有的顯存控制器邏輯結構,盡最大可能的簡化單位邏輯結構所需要消耗的電晶體和互聯資源,然後獲取由此結構簡化導致的新增延遲以及有效帶寬衰減情況,接著再通過添加同類單位邏輯結構總量進而提升總位寬的形式抵消這部分新增延遲以及有效帶寬衰減所造成的影響,最終在總有效帶寬不弱於當前GPU架構的前提下確定資源消耗最少的顯存控制器總位寬規模,這就是Hawaii顯存控制器的設計指導思想。
儘管Hawaii的顯存控制器並沒與表現出與正常規模顯存控制器相當的實際性能,但我們顯然並不排斥這樣的設計,它體現了AMD在GPU設計思路上仍舊保有的成熟。以最小的代價獲取最大的收益,或者說以最小的代價來儘可能的彌合體系內部其他矛盾所帶來的影響並獲取最大的收益,這是十分成熟的解決問題的思路。我們曾經認為AMD與ATI的合併、前CEO Ruiz的一系列屢破下限的愚蠢還有各種不利的其他因素,已經讓原本屬於AMD和ATI研發團隊的核心靈魂隨風而逝了,漂亮的解決問題的過程將越來越難以出現在AMD的邏輯結構設計過程當中,可是Hawaii又讓我們看到了希望。
在Hawaii身上,AMD/ATI之魂無疑仍在發光。
性能增長與晶片「瘦身」,新MC居功至偉
Hawaii以顯存控制器單元為基點,在維持一定性能層級的前提下從其中「相對」節省了大量電晶體和晶片空間資源,並將其轉化成了ROP/CU/ACE/Geometry乃至cache等等更為直接的性能提升資源,同時收窄了晶片面積並在所有的性能功耗組合方案當中找到了相對更理想的平衡,這種更有效的使用電晶體資源的抉擇完全可以用「漂亮」來形容。在目前手中的可選牌為數不多的情況下,這是AMD能夠打出的最出人意料同時也是最漂亮的一套組合。
這世界上沒有設計錯誤的邏輯結構,只有設計是不是符合時宜的邏輯結構,能夠在正確的被需要的時間出現,這種邏輯結構就是OK的。誠然,也許Hawaii這套新的顯存控制器的實際性能並不能令所有人感到滿意,也許把它放在別的GPU架構當中會導致該架構的最終落敗,但在此時此刻,在Hawaii身上,在飽受D線壓迫的AMD身上,這套顯存控制器是全世界最棒的方案。
● Hawaii的更多「武器」
除了邏輯結構層面的改進之外,Hawaii還進行了許多功能性層面的改進,這些改進包括新一代Eyefinity,DirectX 11.2、mantle以及TrueAudio。
新的增強型Eyefinity
新一代增強型的Eyefinity的改進並不多但卻相當務實,它大幅降低了組建三屏拼接組合的難度,它不再強制要求DP接口的參與,現在用戶們僅需使用DVI+HDMI接口,便可以直接輕鬆的完成三屏拼接顯示輸出的組建工作。
AMD新API——Mantle
DirectX 11.2是微軟為DirectX 11進行的一次小版本升級。除了各種面向接口的升級之外,DirectX 11.2帶來的最主要的更新來自Tiled Resources技術。該技術旨在允許程式設計師透過虛擬化的操作方式開闢虛擬顯存空間,同時透過Tiled的方式減少材質在渲染過程中的真實需求量。應用該技術可以減輕材質渲染對顯存容量以及位寬的壓迫,這不僅對PC系統的GPU有利,對採用小容量eSRAM作為緩存系統的XBOX One也將會產生重要的影響。
Mantle將會成為未來AMD的硬體優化組成部分
Mantle的情況較之前兩者更為特殊,按照AMD官方的描述,這應該會一個獨立在DirectX以及OpenGL以外的圖形API,可以允許程式設計師繞過上述API直接訪問AMD GPU的底層ISA並直接調用各種功能。儘管三緘其口同時對特性描述並不詳盡,但如果AMD的描述沒有問題的話,它將會是Glide之後的首個全新圖形API,它的出現不僅給AMD GPU帶來了新的契機,同時勢必會對微軟以及Khronos控制的圖形API生態環境提出全新的大膽挑戰。
TrueAudio技術
TrueAudio細節
TrueAudio是Hawaii架構最奇特的功能性改進。該功能通過內建在晶片中的Multiple integrated Tensilica HIFI EP Audio DSP,首次在GPU上實現了8聲道環繞立體聲輸出,並帶來了逼真的音效處理效果。TrueAudio可以在3.5mm耳機、USB輸出設備以及複數個支持HDMI/DP Audio的顯示設備上實現輸出,這為遊戲過程的體驗提升帶來了新的機會。
● AMD Radeon R9 290拆解賞析
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
AMD Radeon R9 290
● 微星 R9 290拆解賞析
微星 R9 290
微星 R9 290
微星 R9 290
微星 R9 290
● 鐳風 R9 290拆解賞析
鐳風 R9 290
鐳風 R9 290
鐳風 R9 290
鐳風 R9 290
● 測試平臺一覽
為保證測試能夠發揮顯卡的最佳性能,本次測試的平臺由Intel 酷睿i7-3970X處理器、X79晶片組主板、威剛16GB DDR3-1600四通道內存組建而成。詳細硬體規格如下表所示:
測 試 平 臺 硬 件 環 境 | ||||
中央處理器 | Intel Core i7-3970X | |||
(6核 / 12線程 / 3.5GHz / 15MB L3) | ||||
散熱器 | Sapphire Vapor-X | |||
(LAG2011 單塔風冷散熱器) | ||||
內存模組 | ADATA XPG DDR3-1600 4GB × 4 | |||
(SPD:9-9-9-24-1T) | ||||
主板 | GIGABYTE GA-X79-UD7 | |||
(Intel X79 Chipset) | ||||
硬碟 | Seagate Barracuda 1TB | |||
(1TB / 7200RPM / 32MB緩存 / SATA3) | ||||
電源 | Antec HCP-1000 | |||
(80Plus Platinum / 1000W) | ||||
顯示器 | DELL Ultra Sharp 3008WFP | |||
(30英寸LCD / 2560×1600解析度) |
● 測試平臺軟體環境一覽 為保證系統平臺具有最佳穩定性,本次橫向評測所使用的作業系統為Microsoft Windows 7正版授權產品,除關閉自動休眠外,其餘設置均保持默認,詳細軟體環境如下表所示:
測 試 平 臺 軟 件 環 境 | ||||
作業系統 | Microsoft Windows7 Ultimate RTM SP1 | |||
(64bit / 版本號:7601) | ||||
主板晶片組驅動 | Intel Chipset Device Software | |||
(WHQL / 版本號:9.2.3.1022) | ||||
NVIDIA顯卡驅動 | NVIDIA Forceware | |||
(for game ready / 版本號:331.58) | ||||
AMD顯卡驅動 | AMD Catalyst | |||
(Beta / 版本號:13.11 Beta V5/V6/V8) | ||||
桌面環境 | Microsoft Windows7 Ultimate RTM SP1 | |||
(2560X1600/32bit/60Hz) |
需要特別說明的是,為了保證遊戲及測試過程中雙方特效設置的完全相同以及公平公正,我們調整了AMD催化劑驅動的AI控制功能,將鑲嵌等級從驅動默認的「AMD優化」改回了應有的「應用程式控制」。只有在這樣的設置下,AMD顯卡才會在遊戲中使用正確的遊戲自身設置的特效設置等級,而不是AMD預設的更低的特效設置等級。
與此同時,為照顧習慣於默認驅動設置環境使用AMD顯卡的用戶,我們會同時給出AI優化默認開啟狀態下的性能測試結果,以供更多用戶進行對比及參考。
有介於雙方在本輪首發測試過程中所發布驅動的「浮華」,我們決定將AMD最新發布的催化劑13.11 Beta V8納入到測試當中並與V5/V6版進行平行對比,最終取V5/V6/V8驅動中較高的成績作為最終比較成績。
● 理論性能測試之3DMark FireStrike
於北京時間2013年2月5日推出的新3DMark,採用全新界面設計,除了測試分數,還會展現每個場景測試期間的實時曲線,全程記錄幀率、CPU溫度、GPU溫度、CPU功耗。新3DMark取消了傳統的E、P、X模式,取而代之的是根據負載不同所推出的三個場景,其中FireStrike專為基於DirectX 11顯卡搭建的高端遊戲平臺,而CloudGate則支持基於DirectX 10環境的主流硬體,IceStorm則支持入門級DirectX 9設備、手機、平板電腦等等。
3DMark FireStrike
新3Dmark FireStrike測試
新3Dmark仍舊是我們理論測試的起點,在這項測試當中,Radeon R9-290所表現出的性能已經超越了GeForce GTX 780。
● 理論性能測試之3DMark 11
PC遊戲隨Windows 7的發布進入DirectX 11時代,眾多DirectX 11顯卡早已摩拳擦掌上陣廝殺,卻遲遲沒有一個權威性的基準測試軟體來衡量遊戲顯卡DirectX 11性能的高低。終於,DirectX 11時代的3DMark 11來到大家面前。3DMark 11使用原生DirectX 11引擎,測試場景包括Tessellation曲面細分、Compute Shader以及多線程在內的大量DirectX 11特性。
3DMark 11
3Dmark 11測試
在3Dmark 11的測試當中,Radeon R9-290的性能來到了GeForce GTX 780與GeForce GTX 770之間,而其相對於Radeon R9-280X的領先幅度則十分明顯。
● 遊戲測試之Crysis3
《孤島危機3》是《孤島危機》的最新續作,遊戲採CryENGINE 3引擎所製作,其卓越的畫面表現以及精彩的劇情相信已無需多言。作為硬體殺手的第三代,只支持DirectX 11的Crysis3 PC版再次將遊戲的畫面精美程度和硬體需求提升到了新的高度。
《孤島危機3》
我們採用運行Origin平臺啟動遊戲並進行第一關至進入建築物為止,同時收集期間的平均幀數的方式來完成測試,測試進行三次,取平均成績作為最終測試結果。
1920X1200 4XAA Crysis3測試結果
2560X1600 4XAA Crysis3測試結果
按照AMD官方為其預設的目標,Radeon R9-290所要完成的任務是戰勝GeForce GTX 770。從Crysis3的測試結果來看,Radeon R9-290無疑完成了任務。
● 遊戲測試之Crysis2
《孤島危機2》是《孤島危機》的續作,遊戲採CryENGINE 3引擎所製作,故事發生在距一代3年後的2023年。外星人在地球上的大片區域挑起了戰爭,各大城市都遭到攻擊,人口銳減,玩家將要進行捍衛地球的末日戰爭。
《孤島危機2》
我們採用Crysis2 BenchmarkTool來完成測試,場景選擇Downtown,測試進行三次,取最高成績作為最終測試結果。
1920X1200 4XAA Crysis2
2560X1600 4XAA Crysis2
Radeon R9-290在Crysis2中的表現顯然超出了AMD為其預設的任務範疇,它在1920解析度下的表現甚至超越了GeForce GTX 780。
● 遊戲測試之殺手5
《殺手5:赦免》採用IO Interactive自主研發的冰川2(Glacier 2)引擎製作,遊戲內容都是在引擎下實時進行反饋的,所有動作都是即時生成的。新作主要場景發生在芝加哥,名為代號47的主角在本作中將更加靈活,更好控制。他將可以攀在懸崖邊,還可以保持平衡,遊戲融入了掩護系統,挾持人持的功能回歸。
《殺手5:赦免》
我們使用遊戲自帶的Benchmark程序來完成設置,測試進行三次,取平均值為最終結果:
1920X1200 4XAA 殺手5測試結果
2560X1600 4XAA 殺手5測試結果
殺手5的測試結果同Crysis2類似,Radeon R9-290在1920解析度下再次完成對GeForce GTX 780的超越。
● 遊戲測試之Metro LastLight
本作題材基於俄羅斯最暢銷小說Dmitry Glukhovsky,依舊由烏克蘭4A遊戲工作室開發並採用改進後的4A遊戲引擎。最後的曙光講述了一場為爭奪足以毀滅人類的世界末日裝置的內戰。人類依舊苟活在地下等死。不同派系之間的戰爭還在繼續,晚上依舊有各種變異生物潛伏在暗處。地面依舊是各種毒氣,但有傳言冰層開始融化,陽光開始穿透雲層。
《地鐵:最後的曙光》
我們採取遊戲提供的Benchmark程序來完成測試,該Benchmark所包含的場景具有光照系統,煙霧系統以及激烈交戰場景,能夠全面反映顯卡在面對Compute Shader以及超高解析度材質時的表現。
1920X1200 FXAA 地鐵:最後的曙光測試結果
2560X1600 FXAA 地鐵:最後的曙光測試結果
地鐵:最後的曙光當中,Radeon R9-290的性能介乎於GeForce GTX 780與GeForce GTX 770之間,並且明確無疑的超越了後者。
● 遊戲測試之古墓麗影9
《古墓麗影9》將講述蘿拉的首次冒險之旅,主角蘿拉·克勞馥的年齡被設定在21歲,那時的她還只是一名剛出茅廬的新人,經驗欠缺。隨著遊戲劇情的發展,玩家將與蘿拉共同成長,獲得新的武器和道具並習得新技能。在冒險的小島上,玩家可以在營地對道具進行組合,有些特定區域就需要特定道具和技能才能通過。島上的各個營地之間可以快捷傳送,玩家無需長途跋涉。而除了蘿拉外還將有其他角色出現在島上。
《古墓麗影9》
我們採取遊戲提供的Benchmark程序來完成測試,測試進行三次,取平均值為最終結果:
1920X1200 FXAA 古墓麗影9測試結果
2560X1600 FXAA 古墓麗影9測試結果
13.11 beta VX版測試驅動整體來講完全沒有讓AMD全系列顯卡在古墓麗影9當中發揮出應有的優勢,無論是後端亦或是其他方面皆是如此,看來AMD的驅動團隊還需要做更多工作,才可以讓Hawaii架構的優勢得到進一步發揮。
● 遊戲測試之Dirt 3
《Dirt 3》是Codemasters製作發行的一款賽車競速單機遊戲,作為AMD Gaming Evolution的一款遊戲,它採用與《F1 2010》同樣的Ego引擎,支持DirectX 11 API,擁有更加擬真的天氣系統及畫面效果。遊戲將包含冰雪場景、動態天氣、YouTube上傳、經典的賽車、分屏對戰、party模式、開放世界、更多真實世界中的贊助商和車手等特點。
《塵埃3》
我們採用遊戲自帶的Benchmark來完成測試,最終結果以顯示平均幀數為準。
1920X1200 4XAA 塵埃3測試結果
2560X1600 4XAA 塵埃3測試結果
以我們對於Hawaii架構以及Radeon R9-290的理解,Dirt3中該款顯卡的表現並不正常,在接下來的驅動當中對其進行補強是AMD需要面對的任務。
● 遊戲測試之蝙蝠俠阿甘之城
蝙蝠俠:阿甘之城(Batman: Arkham City)是2009年最佳動作遊戲《蝙蝠俠:阿甘瘋人院》的續作,由華納兄弟出品,該作由Rocksteady工作室負責開發,世界架構仍然建立在《阿克漢姆瘋人院》的氣氛上,不過這次上升至阿克漢姆之城——高譚市內戒備森嚴的,關押了大量暴徒的監獄之中。新作匯集了眾多明星參與的配音陣容以及蝙蝠俠中的極度兇殘的惡棍,並改進和加強了一遊戲特點,讓玩家們擁有像《蝙蝠俠:黑暗騎士》一般的終極遊戲體驗。
《蝙蝠俠:阿甘之城》
我們採用遊戲自帶Benchmark進行性能測試。測試進行三次,取三次平均值作為最終結果。
1920X1200 4XAA解析度蝙蝠俠2測試結果
2560X1600 4XAA解析度蝙蝠俠2測試結果
在蝙蝠俠阿甘之城的測試中,Radeon R9-290表現出了與Radeon R9-290X極為接近的性能。
● 遊戲測試之生化奇兵無限
《生化奇兵:無限》將玩家帶往1912年,那是巨型飛艇和浮空飛行器的全盛時期,在此背景下誕生了海底銷魂城的前輩,即天空之城「哥倫比亞」:這座遠離美國海岸自成一體的空中城市在信眾的歡呼聲中扶搖直上,寄託了美利堅強國之夢,但因其不可告人的目的使其似錦前程不久便急轉直下,武裝到牙齒的猙獰面目把原本光榮正確偉大的阿波羅登月變成邪惡的死星計劃,整座城市消失在雲端中自此再無人知曉。
《生化奇兵:無限》
1920X1200解析度 生化奇兵:無限測試結果
2560X1600解析度 生化奇兵:無限測試結果
憑藉後端的改進以及驅動的提升,Radeon R9-290在《生化奇兵:無限》中表現出了與GeForce GTX 780不相上下的性能,而Radeon R9-290X也從首測的與GeForce GTX 780戰平變成了超越。相信隨著驅動的進一步更新,Radeon R9-290/290X還將會有更多可以被挖掘的潛力。
● 應用測試之天堂4.0
《Heaven Benchmark》是由俄羅斯Unigine遊戲公司開發設計的一款Benchmark程序的最新版本,該程序是由Unigine公司自主研發的遊戲引擎設計,支持DirectX 9、DirectX 10、DirectX 11與OpenGL 3.2 API,通過數十個場景的測試最終得出顯卡的實際效能。
《天堂4.0》
2560X1600 8XAA 天堂4.0測試結果
在測試的結尾部分,Radeon R9-290以介乎於GeForce GTX 780和GeForce GTX 770之間的性能完成了全部測試。
● 遊戲性能綜合比率
我們收集了全部8款參測遊戲的幀數數據,以Radeon R9-290為基礎將在遊戲中的表現與所有參測顯卡進行了一一對比,下面就是所有參測顯卡在全部測試遊戲中相對於Radeon R9-290比率的平均值。
Radeon R9-290性能比率(1920解析度)
Radeon R9-290性能比率(2560解析度)
綜合所有測試項目來看,在遊戲中採用最高特效設置的前提下,Radeon R9-290在默認驅動設置時的性能表現介乎於GeForce GTX 780到GeForce GTX 770之間,如果採用更高的解析度,同時進一步平衡遊戲特效設置的話,Radeon R9-290的性能等級還將會有提升至GeForce GTX 780附近的餘地。
● 架構通用計算測試之Fluid simulation
Hawaii架構的各種改進進一步提升了其通用計算的效率,這些改進在Radeon R9-290身上能得到怎樣程度的體現呢?我們進行了相關的通用計算能力測試。與各種不明就裡或者只知道跑理論吞吐測試的第三方測試軟體不同,我們進行的DirectX SDK Simulation直接調用微軟的DirectX API來完成測試,這些測試的對象和過程都是構成DirectX環境下圖形與計算任務的基礎,是最直接的針對GPU實際運算性能的測試。以此為基準取得的測試結果,才是真實的能夠反映架構運算性能和效率的結果。
Fluid dynamics simulation
我們首先進行的DirectX SDK測試是使用Direct Compute完成的流體力學模擬——Fluid dynamics simulation。Fluid dynamics simulation基於彈性力/黏著力/重力為基礎的顆粒碰撞模擬,每一個顆粒均擁有獨立的力學參數。通過對顆粒本身在統一的重力參數作用下自有力學參數以及交互作用的計算,可以模擬大量顆粒的行為並達到模擬由它們構成的「流體」特性的目的。
Fluid dynamics simulation分別提供了對shared性能以及Grid性能的測試,力學計算本身需要應用包括矩陣運算在內的多種數學方法,顆粒之間的力學交互作用存在條件分支關係,因此該項測試可以全面考驗不同構架對圖形通用計算以及有針對性的物理特效計算的性能。
Radeon R9-290通用計算性能測試之FluidCS
Radeon R9-290的理論運算能力約為Radeon R9-290X的86%,而我們的FluidCS測試基本上吻合了這一結果。
25架構通用計算測試之CSM
● 架構通用計算測試之Cascaded Shadow Maps
Cascaded Shadow Maps(CSM)是一種基於陰影深度進行的陰影判斷及快速操作模式,CSM通過將整個陰影劃分成若干級的層次,以層次內部像素的深度來定義和快速判斷陰影位置,並對近景陰影採取高精度貼圖,遠景陰影採用低精度貼圖的方式來達到節約資源同時快速準確實現陰影貼圖的目的。CSM可以極大地加快陰影操作的速度,同時避免大多數因為光源形態、陰影深度與像素尺寸差異所導致的陰影邊緣及內部貼圖錯誤。
Cascaded Shadow Maps
CSM大量涉及矩陣運算及坐標判斷,因此在DirectX 11環境下可以透過Compute Shader來進行。對CSM的性能測試,有助於我們了解構架的矩陣操作等通用計算性能。
Radeon R9-290通用計算性能測試之CSM
CSM測試的結果再次顯示,儘管Hawaii架構相對於Tahiti架構有了長足的進步,但AMD在Compute Shader的實際應用環節還有很多工作要做。
半透明是3D圖形中一種重要的特效,但傳統的Alpha混合基本上無法完成對不同半透明物體以及同一物體不同半透明部分的層次判斷,因此如果以Alpha操作來簡單的實現半透明效果,很多時候獲得結果都是錯誤的。所以在DirectX 11中,微軟為我們引入了OIT(透明獨立疊加)技術來解決這一問題。
OIT(透明獨立疊加)
在實現OIT技術的過程中,程序會將處於同一層次的部件所對應的線程/任務以Atomic(原子操作)的形式保護起來,使這些線程在被執行結束之前變成一個不可再分的整體。接下來這些Atomic會被放置在buffer中進行處理優先級的排序,通過這些操作,物體及部件所在的層次和正確的顯示效果就被最終確定下來了。如果構架擁有cache等可讀寫近存近取緩衝,則可以極大地加快OIT的亂序操作過程。因此對OIT的性能測試,將可以讓我們了解構架是否具有足夠的靈活度、充足的緩衝密度以及完整的Atomic特性支持能力
Radeon R9-290通用計算性能測試之OIT
在OIT的測試中,Radeon R9-290相對於Radeon R9-290X的性能下降比較明顯,我們認為這種情況會隨著後續驅動的更新而改善。
● 架構通用計算測試之nBody Gravity CS11
nBody Gravity的前身來自nBody仿真,nBody仿真的目的在於模擬一個多體系統的演化過程,該系統中的每個個體(Body)都會與周圍的其他物體發生非接觸力學吸引/排斥作用。通過nBody仿真,我們可以獲得大量長程力作用的系統,比如小到範德華力作用下的原子/分子群或者大到萬有引力作用下的星系之類各色場合的模擬結果。對於氣流等稀薄流體的模擬同樣可以歸約成nBody仿真過程並予以解決。
nBody Gravity
nBody Gravity將場景設定為大量粒子在引力這一種基本長程力下高速運動作用形成的多體問題,儘管粒子間不考慮接觸力學傳遞,但整體而言nBody Gravity模擬與我們前面進行的Fluid dynamics simulation測試一樣,都需要大量應用到矩陣操作等大量常見的數學方法。在此基礎上,由於長程力一次影響的對象遠較流體模擬中彈性碰撞傳遞所能夠影響的對象要多,其背後所對應的線程量非常龐大,因此nBody Gravity對於硬體構架的並行度有極高的要求。透過nBody Gravity的測試,我們可以了解到被測對象的吞吐能力、對基本條件分支的應對能力、並行處理能力以及對矩陣等常規數學方法的處理能力。這些能力,最終都將反映構架執行DirectX 11特性尤其是Compute Shader的效率。
Radeon R9-290通用計算性能測試之nBody Gravity
AMD的驅動問題在通用計算測試的結尾再次顯現。我們期待AMD提供的新驅動能夠真正解放Radeon R9-290以及Radeon R9-290X的性能。
在功耗及溫度測試環節,我們繼續採用Furmark滿載的方式讓顯卡達到全負荷工作的方式,來收集Radeon R9-290X顯卡的滿載溫度及平臺功耗數據。
Radeon R9-290平臺待機功耗
Radeon R9-290平臺滿載功耗
Radeon R9-290單卡滿載溫度
高溫及高能耗問題再次出現並依舊困擾著Radeon R9-290,但同時我們也應該注意到,Radeon R9-290的功耗問題在Radeon R9-290X的基礎上還是有所改善的,這是良好的開端。在今後的AMD架構當中,功耗問題將有機會得到進一步的緩解。
● 測試總結——就看推廣了
綜合而言,Radeon R9-290是一款典型的次級旗艦產品。AMD對其進行了適度的或者說同以往相當的規模和頻率削減,在這些條件的限制下,其性能最終與旗艦級的Radeon R9-290X拉開了適當的距離。Radeon R9-290的性能符合AMD在R9產品線當中所需要的次級旗艦定位,同時毫無疑問並且超額的完成了AMD為其預設的「明確戰勝GeForce GTX 770」的任務。Radeon R9-290的性能及分級方面表現均相當合適,它能否成為一款成功的產品,已經不單純是性能一方面所能決定的了。
Radeon R9-290特性總覽
次級旗艦一直都是玩家們更為關注的產品,它的綜合性能表現通常都可以接近於單芯旗艦的九成,而功耗、售價以及性價比等其他使用性和可購買性因素要明顯優於旗艦。以最終表現來看,Radeon R9-290切實的提供了比Radeon R9-290X更好的上述指標。儘管高熱和高能耗問題依舊難以忽視,但相對而言,Radeon R9-290的情況還是要好上許多的。
4K Ultra HD解析度是未來的標準
未來的遊戲世界終將屬於4K解析度,這一點是毋庸置疑的,憑藉極為龐大的後端所帶來的更直接的「圖形能力」,Radeon R9-290應該會在該領域交上了一份令人滿意的答卷。它並不是最快的單芯顯卡,但對於現階段的大部分支持4K解析度的遊戲而言,Radeon R9-290無疑是頗具性價比的理想選擇之一。
Hawaii,well done
所以對於這樣Radeon R9-290而言,面前的最大的問題依舊來自AMD自身。如何對這款次級旗艦進行推廣,同時儘快開放非公版設計並進一步刺激市場需求,這都是AMD目前的當務之急。在此基礎上,驅動層面的完善同樣迫在眉睫,在去除bug並進一步釋放性能之後,Radeon R9-290的可購買性將會變得更高。
最後,還是那句老話——愛不是說出來的,做鍵盤卡神對AMD沒有任何幫助。如果您真的希望AMD的明天會更好,就請抬起鍵盤上的雙手擁抱Radeon R9-290/290X吧。
作為Hawaii的次頂級單芯顯卡——Radeon R9 290終於在今天亮相,其性能如何、功耗如何、規格如何,本文首測將會為您逐一解讀。無論你是A飯還是N飯,不妨看看「它」今天的表現吧。