前言導讀:3D性能原地踏步19個月?業界呼喚新王者!
第一章 王者回顧:DX10時代旗艦級顯卡發展
第一節 DX10時代NVIDIA三款旗艦級顯卡
GeForce 8800GTX
GeForce 8800Ultra
GeForce 9800GX2
第二節 DX10時代ATI兩款旗艦級顯卡
Radeon HD 2900XT
Radeon HD 3870X2
本章小結:NVIDIA和ATI設計理念的異同
第二章 架構解析:GTX200核心架構和技術解析
第一節 第一代統一渲染架構:統一「像素/頂點/幾何/物理」著色
第二節 第二代統一渲染架構:統一「圖形處理/並行計算」
第三節 標量流處理器架構:G80微架構的革命性解析
傳統SIMD(單指令多數據)架構GPU的弊端
G80革命性的MIMD(多指令多數據)架構解析
R600超標量SIMD架構的優缺點
小結:GF8/9完勝HD2000/3000的奧秘
第四節 GTX200晶片透視圖、架構圖、規格總表
第五節 GTX200核心架構解析:大幅擴充流處理器
GTX200核心微架構改進:SM可執行線程提升,SM指令寄存器加倍
第六節 GTX200核心架構解析:512Bit顯存消除瓶頸
AMD的512Bit環形總線顯存控制器
NVIDIA的512Bit交叉總線顯存控制器
第七節 GTX200圖形架構解析:優化幾何/紋理/光柵
幾何著色性能反超A卡
紋理單元進一步增強,但所佔比率下降
光柵單元規模增大,高倍抗鋸齒成為可能
第八節 GTX200並行計算架構方面的改進
提高雙指令執行(Dual-Issue)效率
支持雙精度64Bit浮點運算
第九節 GTX200核心支持業界最先進的功耗控制技術
AMD率先支持GPU晶片級節能技術
NVIDIA另闢蹊徑,Hybrid Power將顯卡功耗降為零
GTX200加入晶片級節能技術,待機功耗僅25W
GTX280顯卡在四種典型工作模式下的功耗
第三章 CUDA編程:開創GPU計算明日帝國
第一節 「並行計算」相對「串行計算」的優勢
第二節 CUDA:一個以GPU為中心的運算平臺
第三節 CUDA應用:視頻加速、期貨風險分析系統
第四節 CUDA應用:醫療行業、地理信息系統
第五節 CUDA應用:生命科學、CAD設計、MATLAB
第六節 CUDA應用:GPU的先天優勢和後天發展
第四章 物理加速:GPU物理加速修成正果,真正走向成熟
第一節 半路殺出來個Intel,NV/ATI的物理加速之夢破滅
第二節 被逼無奈,NVIDIA重金收購AGEIA
第三節 收購立竿見影,僅一月PhysX就能支持GeForce了
第五章 實物解析:GeForce GTX 280/260顯卡實物解析
第一節 8800GTX真正的接班人:GTX280
第二節 GTX200核心:14億電晶體怪獸+NVIO2代輸出
65nm製造14億電晶體又是一個奇蹟
GTX200何不採用最新的55nm工藝?
GTX200流處理器頻率為何如此之低?
NVIO二代輸出晶片:分久必合,合久必分
第三節 1GB 512Bit顯存,現代0.8ns GDDR3顆粒
第四節 N卡史上最豪華的數字供電模塊
第五節 大家來找碴:GTX280和GTX260外觀上有何異同?
第六節 GeForce GTX 260實物規格解析
GTX260的規格及核心架構屏蔽示意圖
GTX260少了兩顆顯存、兩相供電
第七節 七彩虹七彩虹GTX280/260,大陸獨家供貨充足
第八節 索泰GTX280高頻版,浮點運算歷史性突破1TFLOPS
第六章 演示DEMO:GeForce GTX 280演示DEMO解析
第一節 GeForce 6/7/8三款經典DEMO回顧
GeForce 6800Ultra:精心打造的美人魚Nalu
GeForce 7800GTX:黃皮膚美女Luna
GeForce 8800Ultra:超逼真的人臉渲染Human Head
第二節 GTX200演示Demo Medusa(美杜莎)賞析
第三節 Medusa的特色:集上代Demo優點與一身
第四節 Medusa的特色:模擬未來遊戲場景
第七章 性能測試:GeForce GTX 280/260性能全方位對比測試
第一節 頂級測試平臺配置和測試方法介紹
第二節 DX9C理論性能測試:3DMark06
第三節 DX10理論性能測試:3DMark Vantage
第四節 DX9C遊戲測試:《超級房車:起點》
第五節 DX9C遊戲測試:《使命召喚4》
第六節 DX9C遊戲測試:《帝國3:亞洲王朝》
第七節 DX9C遊戲測試:《半條命2:第二章》
第八節 DX9C遊戲測試:《極品飛車11》
第九節 DX9C遊戲測試:《虛幻競技場3》
第十節 OpenGL遊戲測試:《雷神戰爭》
第十一節 DX10遊戲測試:《孤島危機》
第十二節 DX10遊戲測試:《失落星球》
第十三節 DX10遊戲測試:《英雄連》
第十四節 DX10遊戲測試:《刺客信條》
第十五節 DX10遊戲測試:《衝突世界》
第十六節 DX10遊戲測試:《生化奇兵》
第十七節 DX10遊戲測試:《地獄門:倫敦》
第十八節 性能對比:GTX280 VS GTX260
第十九節 性能對比:GTX280 VS 9800GX2
第二十節 性能對比:GTX280 VS 9800GTX
第二十一節 性能對比:GTX280 VS 8800Ultra
第二十二節 性能對比:GTX280 VS 8800GTX
第二十三節 性能對比:GTX280 VS HD3870X2
第二十四節 多卡系統:GTX280 SLI效率測試
第二十五節 多卡系統:GTX280三路SLI效率測試
第二十六節 功耗測試:GTX200系列顯卡全平臺功耗測試
第二十七節 視頻解碼:高清CPU佔用率測試
第二十八節 CUDA應用測試:BadaBOOM視頻編碼
第二十九節 CUDA應用測試:Folding home
第八章 全文總結:未來GPU/遊戲展望
第一節 飯田慶太:GTX 280帶給遊戲更多的機會
第二節 鄧培智:性能翻倍 DirectX 10.1非主流
第三節 全文總結與展望
前言:3D性能原地踏步19個月?業界呼喚新王者!
19個月以前,首顆支持DirectX 10的圖形核心——G80(GeForce 8800GTX)正式發布;19個月過去了,至今都沒有任何一顆GPU能夠超越G80,這對於號稱「半年更新、一年換代」的圖形市場來說,不能不說是個悲哀!
目前NVIDIA/AMD已經將顯卡型號從GeForce 8/HD2000全面升級到了GeForce 9/HD3000系列,應該算是第二代DX10顯卡,但大家可以發現主流中高端顯卡的性能並沒有實質性提升,原因就在於GPU架構沒有明顯變化,主要依靠新工藝來提升頻率、降低成本。至於旗艦級顯卡方面,雙方不約而同地選擇了雙核心、組建3/4路顯卡並聯的技術來提升性能上限。
不難看出,近年來GPU的發展模式越來越接近於CPU:Intel提出了奇數工藝年和偶數架構年的概念,每兩年更新一次核心架構,在第二年通過更先進的工藝、進一步優化架構的方式改進性能。G92/RV670就相當於是G80/R600的工藝改進版,由於顯存位寬的縮減,兩者在性能方面雖然沒有超越前輩,但成本、功耗、發熱控制得非常好,相關衍生產品也深受消費者喜愛!
2006架構年、2007工藝年、今年又是個架構年,2008年6月17日,圖形巨頭NVIDIA提前發布了G80核心的正統繼承人——採用第二代統一渲染架構的GTX200核心,這顆GPU擁有史無前例的14億個電晶體,達到了G80/G92的兩倍左右,可想而之其性能將會有多麼恐怖!
自打DX10時代開始,NVIDIA一直就扮演者領導者的角色,8800GTX、8800Ultra、9800GX2三款旗艦的王位穩如泰山,競爭對手始終無法拿出像樣的產品來與之抗衡。看來,能夠戰勝NVIDIA的只有它自己,因此全新的GTX200系列備受期待!
首先來看看NVIDIA對於新一代GTX200核心的設計目標:
第一章 回顧:DX10時代旗艦級顯卡
旗艦級顯卡不僅僅代表最強的性能,更多的是一種形象和身份的象徵,它能夠反映出晶片廠商的研發實力、是一代顯卡性能表現的縮影。旗艦顯卡雖然銷量有限(相對於中低端來說),但它可以帶動中低端顯卡的銷售。因此,在介紹NVIDIA新旗艦GeForce GTX 280之前,有必要對昔日王者作一番簡單的回顧,這樣就能更清楚地反映出NVIDIA和AMD兩大圖形巨頭的真正實力及產品策略。
第一章/第一節 DX10時代NVIDIA旗艦級顯卡回顧
● 2006年11月8日,GeForce 8800GTX(G80)
G80核心的橫空出世宣告了DX10時代的來臨,8800GTX先於微軟的Vista和DirectX 10發布,雖然當時沒有任何一款DX10遊戲(半年後才陸續面市),但8800GTX強大的DX9C性能已經給大家留下了深刻印象,雙核心的7950GX2在8800GTX面前無地自容。
8800GTX強大的實力源自於多方面:首先兩倍於G71核心的6.81億電晶體功不可沒,這就奠定了G80龐大的渲染能力;其次顛覆傳統Shader架構的標量流處理器,最大限度的提升了核心的執行效能;當然384Bit顯存位寬也充分保證了數據吞吐能力;最後,由於發布時間很早,遊戲開發商為NVIDIA新一代架構的鼎力優化與支持,也成就了其強大的DX10遊戲性能。
● 2007年5月8日,GeForce 8800Ultra(G80)
在得知競爭對手將會與5月份發布R600核心的HD2900XT之後,NVIDIA適時地放出了基於G80核心的高頻版8800Ultra,當然這也是為了實現自家產品線半年更新的承諾。
嚴格來說8800Ultra並非全新產品,它只不過是將G80的製程從A2升級到A3,這樣良品率和衝擊高頻的能力會好些;顯存由1.0ns升級到0.8ns,另外散熱器風扇作了些改進,而PCB則沒有任何變化。簡言之8800Ultra就是8800GTX的官方超頻版,不過由於核心/流處理器/顯存頻率都提升不小,因此旗艦顯卡的實力得到了進一步增強。
● 2008年3月18日,GeForce 9800GX2(G92×2)
G92核心是G80的改良版,工藝從90nm進化到65nm使得它功耗、發熱、成本大幅下降,NVIDIA對於G92的定位就是中高端,因此使用了256Bit顯存來進一步控制成本。雖然G92核心的紋理單元和高清單元比G80強很多,而且核心頻率大幅提高,但顯存位寬限制了它的性能表現,基於G92單核心最強的9800GTX都未能超越一年前的8800GTX。不過NVIDIA還有殺手鐧,當年雙G71核心的7950GX2靈魂附體,雙G92核心的9800GX2震撼登場!
擁有7.54億電晶體的G92核心本身功耗發熱就不低(相對G80是好些),做成雙核心顯卡自然對供電和散熱提出了很高要求,所以9800GX2顯卡的結構和散熱系統都是史無前例的複雜,全密封式設計完全就像是一塊板磚。
性能方面單顆G92可以達到接近於8800GTX的水平,雙核心性能提高80%,9800GX2自然完全超越8800Ultra成為毫無爭議新王者。雙核心本身的效率不容置疑,但其弊端就在於組建Quad SLI之後四核心效率不高,當年的7950GX2完勝X1950XTX,但是7950GX2 Quad SLI不敵X1950XTX CrossFire。不過DX10時代NVIDIA重新設定了渲染模式,在驅動優化方面下了大功夫,而且很多新遊戲也開始對多GPU系統提供優化支持,因此9800GX2 Quad SLI系統的性能還是令人相當滿意的,四顆G92核心將3D圖形性能提升到了新的境界!
第一章/第二節 DX10時代AMD兩款旗艦級顯卡回顧
收購ATI之後的AMD不但背上了沉重的債務包袱,而且在產品研發方面遇到了重重困難,從DX9C向DX10轉型的過程不夠順利,由此導致產品屢次延期、架構相對落後、性能不如預期。
● 2007年5月15日,Radeon HD 2900XT(R600)
作為G80核心的命中宿敵,R600從一開始就被寄予厚望,R600使用了更先進的80nm工藝、擁有多達7億個電晶體及更高的主頻,可惜它依然使用了傳統的矢量Shader架構、Shader頻率與核心保持同步,由此導致執行效能偏低,最終只能與G80的閹割版8800GTS 640MB打成平手,與8800GTX有很大差距,更別說頻率更高的8800Ultra了。R600的性能讓關注它的玩家們大失所望,好在AMD也清楚地意識到了不足,因此上市價格非常厚道。
R600號稱擁有320個流處理器,實際上卻是64個5D架構的Shader,而且Shader頻率與核心同步,遇到複雜指令時的效率會大打折扣。R600相對落後的核心架構是其失敗的主要原因,由此導致AMD的HD2000和HD3000兩代產品始終受制於人、被壓製得抬不起頭來,不得不依靠低價策略來搶佔市場。
● 2008年1月26日,Radeon HD 3870X2(RV670×2)
R600的延期和失敗導致AMD在長達一年多的時間拿不出真正意義上的旗艦產品,痛定思痛的AMD迅速發布了RV670核心,並且使用兩顆核心製造了HD3870X2。單核心的HD3870雖然不敵8800GT,但雙劍合璧之後就能向8800Ultra發起挑戰了。終於HD3870X2以小幅優勢戰勝8800Ultra,重奪性能之王的寶座。
HD3870X2本身的性能是不錯的,但問題就出在3路或4路的效能方面,經測試發現CrossFireX在2路3路系統的效率還是很高的,但4路系統在不少遊戲中甚至還不如3路,如此一來頂級A卡系統的性能就大打折扣了。HD3870X2略勝8800Ultra,但是兩片HD3870X2肯定不是三片8800Ultra的對手!而且,NVIDIA的雙核心顯卡9800GX2也是蓄勢待發,HD3870X2的王位只坐了不到百日就被趕下臺!
● 本章小結:
雖然NVIDIA和AMD的旗艦顯卡性能差距較大,但雙方的產品策略居然驚人的相似:G80和R600核心都是採用較老的成熟工藝,將電晶體堆到極限的產物,也就是通過暴力手段、不惜成本(512/384Bit)製造超強性能的顯卡;而G92和RV670則是採用新工藝、向成本(256Bit)妥協之後的產物,在提升性能和效能的同時、還要兼顧晶片成本和顯卡製造成本,雖然性能沒有超越前輩,但性能價格比和性能功耗比得到了大幅提升!
G92和RV670採用新工藝之後功耗發熱得到了有效控制,這就使得雙核心方案成為可能,為了進一步提升圖形性能,雙方不約而同地發布了基於G92和RV670的雙核心顯卡及其3/4路並聯繫統,在單GPU性能原地踏步的情況下,通過多核心並聯的方式大幅提升了3D性能上限,為發燒玩家提供了更強悍的解決方案。
四顆GPU已經達到了電腦系統可以承受的極限,繼續提升3D性能又遇到了瓶頸,現在就必須重頭來過,想方設法繼續提升單GPU的實力。於是新一代怪獸級GPU誕生了,它就是擁有14億電晶體的GT200!
第二章:GTX200核心架構全面解析
通過前面對於旗艦顯卡的簡單回顧我們可以發現,R600比G80有著許多先天優勢:工藝先進、電晶體更多、頻率更高、還有512Bit顯存,但為何R600還不如G80的閹割版呢?這是因為決定性能的關鍵在於GPU核心架構,只有不停地優化架構,才能在電晶體、頻率一定的情況下,大幅提升執行效能。那麼現在我們就來研究下NVIDIA和AMD的DX10圖形架構。
第二章/第一節 G80核心第一代統一渲染架構解析
GTX200的核心架構是在G80的基礎上改進、優化、創新而來的,G8X/G9X都是第一代統一渲染架構,NVIDIA將GTX200稱為第二代統一架構,所以必須熟知G80的架構特色後才能深入理解GTX200的新特新。
● 第一代統一渲染架構:G80統一像素/頂點/幾何/物理
在G80以前,顯卡(GPU)的規格主要用管線(Shader,著色器)來形容,分為像素管線(Pixel Shader)和頂點管線(Vertex Shader)。晶片廠商在設計的時候並不會將頂點管線和像素管線按照相同的數目去做,一般像素管線數遠大於頂點管線。比如G70/G71核心擁有24條像素管線和8個頂點管線。那麼顯示晶片廠商為什麼要這麼做呢?答案是:這樣的結構和比例是晶片設計廠商根據常見遊戲的情況而決定的。
沿用了20年的管線式架構被統一渲染架構終結
不同的遊戲在開發的過程中,設計的圖像複雜度是不同的,有的遊戲3D模型相對簡單,這樣遊戲就可以在更多玩家的電腦上運行。有的遊戲的3D模型和後期特效就非常複雜,這樣在保證了遊戲的效果的同時就讓很多中低配置玩家難以流暢運行。除去遊戲複雜度的區別,遊戲的開發商和顯示晶片廠商還處在一個更加難以解決的怪圈中,這就是:遊戲開發商必須根據GPU的架構來調整圖形資源消耗(如像素/頂點或像素/紋理的比例),而晶片廠商又得預估未來遊戲的發展來定製GPU架構,出現了雙方互相牽制難以協調統一的局面。
具體來說就是,有的廠商會開發一些3D模型很複雜,頂點數目很多的遊戲,這些遊戲就需要耗費很大的頂點管線的資源,這類遊戲可以把場景設計得很複雜,裡面的3D模型的細節非常到位。而另一類廠商則會將焦點放在後期的象素級別的特效,這樣的好處就是可以給遊戲帶來更炫的視覺效果。
傳統管線式架構中像素和頂點負載不均衡,統一渲染架構就能自動分配負載
上圖可以看到一個典型的例子,第一場景(鯊魚)主要是由框架以及三角形來構成的,因此對於頂點的計算量是相當高的,而像素計算的部分卻非常少,像素管線資源被閒置。
而第二個例子描繪的是一個複雜水體模擬場景,是由大量的光影特效都是依靠像素處理實現的,因此對於像素單元的要求卻非常高,而頂點的操作早已完成,導致了資源的浪費。這兩個例子充分的證明了這樣一個事實,大部分的應用中,頂點和像素處理不平衡的現象非常普遍,導致部分Shader單元閒置,從而浪費寶貴的資源。這也正是Shader單元分離式設計顯卡的最大弊端之一。
在實際遊戲中,像素和頂點的負載並非一成不變,因此需要GPU自動協調獲得最高效能
在這種情況下,顯示晶片廠商只能按照最常見的遊戲的情況來設計顯示晶片,盡最大能力去滿足不同的遊戲。而遊戲廠商在設計遊戲的時候也不能隨心所欲的設計遊戲,必須滿足顯示晶片的性能配比,這樣才能在消耗性能最小的情況下達到最好的遊戲效果。這個矛盾一天不得到解決,顯示晶片最大的效能就不能充分的得到發揮,這也一直是顯示晶片的性能提高的最大瓶頸所在。
1. 遊戲廠商無法按照需要設計遊戲,必須向硬體性能妥協。
2. 顯示晶片的利用效率不高,運算單元被閒置的現象經常發生。
1.動態分配運算單元,提升利用率
在統一渲染架構下,每個處理單元都可以進行頂點和像素的運算,這樣一來,無論是怎樣的遊戲,都能夠充分利用顯卡的資源,再也不會有一些處理單元閒置,一些處理單元負載過高的情況出現了。
在需要大量頂點運算的遊戲中,Unified Shader將被分配去做頂點的運算,而在需要大量後期象素級別特效的時候,Unified Shader將被安排去做像素著色。
2.並行處理,提高利用效率
除了動態分配方面帶來的好處,這樣的結構還有利於處理並行性的提升,因為這些處理單元可以並行運行,不像原來的串行的結構那樣順序執行。
3.統一渲染架構還能夠協調分配幾何著色、物理著色等指令
除了傳統的像素著色和頂點著色之外,統一渲染架構還支持DX10新加入的幾何著色,在專用控制單元的支配下,GPU可以代替CPU動態的生成和銷毀幾何圖元數據,從而大幅提升執行效率,消除圖像渲染過程中的瓶頸。
第二章/第二節 GTX200核心第二代統一渲染架構解析
NVIDIA將G80稱為第一代「統一渲染架構」,而GTX200則被稱為第二代「統一架構」,渲染二字不復存在,從這個細微的變化就可以看出新一代的GPU的架構已經在朝著非圖形領域發展了。現在我們就來看看兩代核心架構圖:
GeForce 8全系列架構圖
統一渲染架構,說白了就是使用全新的Shader模塊(現在被稱為流處理器)取代之前的頂點管線和像素管線,然後通過專用的控制單元來統一協調指令分配,按照遊戲的負載來動態的調度頂點、幾何、像素指令。
所以從理論上來講,NVIDIA和AMD之前的GPU在統一渲染架構的設計原理上是一致的。第一代統一渲染架構,就是將像素、頂點、幾何、物理等圖形渲染指令統一了起來,按照比例和優先級交給流處理器處理。
GTX200核心架構圖
近年來,GPU除了進行圖形渲染的本職工作之外,開始越來越多地涉足非圖形計算領域,比如科學計算、媒體編碼、數據分析等。NVIDIA甚至專門發布GPGPU的新品牌——Telsa,而且為GPU開發了全新的CUDA語言,為GPU的通用化提供了簡單易用的新平臺。
兩年時間過去了,雖然G80能夠很好的勝任並行數據計算的需要,但NVIDIA發現圖形架構還有繼續改進的餘地,只要在核心內部設計全新的控制模塊,並對微架構進行專門的優化,就能將GPU的圖形架構改造成更加適合非圖形領域的並行數據處理架構。
通過核心架構圖可以看到,GTX200總共擁有十個流處理器陣列,每個陣列內部擁有8×3=24個流處理器,其中每8個為一組構成SIMT(單指令多任務架構),並共享16K指令緩存,三組SIMT共享一級緩存。這樣的標量流處理器設計適合執行高度並行化指令,無論對於傳統的圖形渲染,還是物理加速運算、大規模數據處理都遊刃有餘。
因此,第二代統一渲染架構的主要含義,就是將圖形處理架構和並行計算架構完美的結合起來,成為一顆真正意義上的通用處理器,超越圖形處理器的概念!
第二章/第三節 G80革命性的標量流處理器架構解析
統一渲染架構讓以往的像素管線和頂點管線成為歷史,取而代之的是全新的流處理器,從而讓著色單元不再區分渲染對象,提高了電晶體利用率和執行效率。目前NVIDIA和AMD的GPU都採用了統一渲染架構,但在雙方的渲染單元的微架構設計卻截然不同,下面就做對比分析。
● 傳統SIMD(單指令多數據)架構GPU的弊端
在圖形處理中,最常見的像素都是由RGB(紅黃藍)三種顏色構成的,加上它們共有的信息說明(Alpha),總共是4個通道。而頂點數據一般是由XYZW四個坐標構成,這樣也是4個通道。在3D圖形進行渲染時,其實就是改變RGBA四個通道或者XYZW四個坐標的數值。為了一次性處理1個完整的像素渲染或幾何轉換,GPU的像素著色單元和頂點著色單元從一開始就被設計成為同時具備4次運算能力的運算器(ALU)。
數據的基本單元是Scalar(標量),就是指一個單獨的值,GPU的ALU進行一次這種變量操作,被稱做1D標量。由於傳統GPU的ALU在一個時鐘周期可以同時執行4次這樣的並行運算,所以ALU的操作被稱做4D Vector(矢量)操作。一個矢量就是N個標量,一般來說絕大多數圖形指令中N=4。所以,GPU的ALU指令發射端只有一個,但卻可以同時運算4個通道的數據,這就是SIMD(Single Instruction Multiple Data,單指令多數據流)架構。
顯然,SIMD架構能夠有效提升GPU的矢量處理性能,由於VS和PS的絕大部分運算都是4D Vector,它只需要一個指令埠就能在單周期內完成4倍運算量,效率達到100%。但是4D SIMD架構一旦遇到1D標量指令時,效率就會下降到原來的1/4,3/4的模塊被完全浪費。為了緩解這個問題,ATI和NVIDIA在進入DX9時代後相繼採用混合型設計,比如R300就採用了3D+1D的架構,允許Co-issue操作(矢量指令和標量指令可以並行執行),NV40以後的GPU支持2D+2D和3D+1D兩種模式,雖然很大程度上緩解了標量指令執行效率低下的問題,但依然無法最大限度的發揮ALU運算能力,尤其是一旦遇上分支預測的情況,SIMD在矢量處理方面高效能的優勢將會被損失殆盡。
● G80革命性的MIMD(多指令多數據)架構解析
而G80打破了這種傳統設計,NVIDIA的科學家對圖形指令結構進行了深入研究,它們發現標量數據流所佔比例正在逐年提升,如果渲染單元還是堅持SIMD設計會讓效率下降。為此NVIDIA在G80中做出大膽變革:流處理器不再針對矢量設計,而是統統改成了標量ALU單元。
G80有8組陣列,每組陣列包含16個流處理器和8個紋理單元
如此一來,對於依然佔據主流的4D矢量操作來說,G80需要讓1個流處理器在4個周期內才能完成,或者是調動4個流處理器在1個周期內完成,那麼G80的執行效率豈不是很低?沒錯,所以NVIDIA大幅提升了流處理器工作頻率(核心頻率的兩倍以上),擴充了流處理器的規模(128個),這樣G80的128個標量流處理器的運算能力就基本相當於傳統的64個(128×2?)4D矢量ALU。
當然這只是在處理4D指令時的情形,隨著圖形畫面越來越複雜,1D、2D、3D指令所佔比例正在逐年增多,而G80在遇到這種指令時可說是如魚得水,與4D一樣不會有任何效能損失,指令轉換效率高並且對指令的適應性非常好,這樣G80就將GPU Shader執行效率提升到了新的境界!
與傳統的SIMD架構不同,G80這種超標量流處理器被稱為MIMD(Multiple Instruction Multiple Data,多指令多數據流)架構。G80的架構聽起來很完美,但也存在不可忽視的缺點:根據前面的分析可以得知,4個1D標量ALU和1個4D矢量ALU的理論運算能力是相當的,但是前者需要4個指令發射端和4個控制單元,而後者只需要1個,如此一來MIMD架構所佔用的電晶體數將遠大於SIMD架構!
G80的128個1D標量ALU聽起來規模很龐大,而且將4D矢量指令轉換為4個1D標量指令時的效率也能達到100%,但實際上如果用相同的電晶體規模,可以設計出更加龐大的ALU運算器,這就是R600統一渲染單元的架構。
● R600超標量SIMD架構的優缺點
R600核心還是採用了傳統的SIMD架構,核心擁有64個Shader Units(又稱Stream Processing Units),但它又在傳統Shader基礎上進行了該進,每個Shader內部包含了5個超標量ALU,因此AMD聲稱R600核心擁有64×5=320個流處理器。
R6XX採用了5D著色單元架構
R600和G80的電晶體數是差不多的,通過前面的分析我們可以知道,G80的128個標量流處理器的理論運算能力就基本相當於傳統的64個(128×2?)4D矢量ALU,而R600本身就擁有64個5D矢量ALU,再加上工藝和顯存帶寬優勢,理論上R600應該比G80強很多才對,但實際情況恰好相反!
經過實際測試證明,擁有320個流處理器(即64個5D矢量ALU)的RV670核心,其遊戲性能居然只能與64個流處理器(折算32個4D矢量ALU)的G94核心打成平手。由此就應驗了一個古語:兵貴在精而不在多,無論GPU還是CPU,架構的執行效率永遠是排在第一位的,核心頻率和核心數量只能作為輔助,無法起到決定性作用。
● 小結:GF8/9完勝HD2000/3000的奧秘
HD2000/3000系列使用了「超標量」架構的5D著色單元,雖然流處理器數量要遠大於GF8/9系,而且電晶體開銷更少,但在不同遊戲中的性能表現反差很大,總體來看執行效率不如人意,對於驅動程序的依賴性非常嚴重。
GF8/9能夠在較少電晶體、較低頻率、陳舊工藝等諸多不利局面下完勝HD2000/3000,靠的就是全新架構標量流處理器超高的執行效率!
GTX200核心就是在G80基礎上改進而來的,它繼承了G80高頻、高效能的標量架構流處理器,並擴充了規模、增強了功能,接下來就開始研究GTX200的核心架構。
前面之所以介紹這麼多關於G80和G92圖形架構方面的內容,是因為GT200的核心架構源自於G80,但這次NVIDIA對架構進行了大刀闊斧的改良,將GPU的作用進一步拓展,使它在保證更高效圖形性能的同時,還能夠勝任未來的一系列非圖形數據處理。
第二章/第四節 GTX200晶片透視圖、架構圖、規格總表
● GTX200晶片照片及模塊分布圖
● GTX200核心架構圖:並行計算架構和圖形處理架構的統一體
● GTX280和GTX260顯卡規格表
接下來就對GTX200核心的各個模塊和技術參數進行全面講解,如果有不太理解的地方,可以回過頭來參照本頁的圖表。
第二章/第五節 GTX200核心大幅擴充流處理器
首先來看看GTX200核心的細節部分,和上代的G80/G92相比,幾乎所有的微架構都作了調整,並大幅擴充規模:
G80/G92擁有128個流處理器,這些流處理器分為8組TPC(線程處理器簇),每組16個SP(流處理器),這16個SP又分為兩組SM(多核流處理器),SM是不可拆分的最小單元,是8核心設計。因此G8X系列規格最低的顯卡就是8個流處理器的8400GS和8400M G(筆記本顯卡)。
GTX200將TPC數量從8個擴充至10個,而且在每個TPC內部,SM從2個增加到3個,SM依然是8核心設計。如此一來,GTX200核心的流處理器數量就是,8×3×10=240個,幾乎是G80的兩倍!
紋理單元部分,GTX200的每個TPC內部擁有8個TF,這樣總共就是8×10=80個紋理單元。這裡GTX200的紋理過濾單元和定址單元的數量是相等的,而G80的紋理定址單元只有紋理過濾單元的一半(事實上G92核心中TA和TF數量就相等了)。
● GTX200核心微架構改進
GTX200核心在流處理器、紋理單元數量上的擴充是很容易理解的,其實除了擴充規模之外,在架構的細微之處還有不少的改進,這些都有助於提高新核心在未來遊戲或通用計算中的執行效能:
1. 每個SM可執行線程上限提升:G80/G92核心每個SM(即不可拆分的8核心流處理器)最多可執行768條線程,而GTX200核心的每個SM提升至1024條,而且GTX200擁有更多的SM,晶片實力達到原來的2.5倍!
2. 每個SM的指令寄存器翻倍:GTX200與G80核心在SM結構上基本相同的,但功能有所提升,在執行線程數增多的同時,NVIDIA還將每個SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用於存儲SM即將執行的上千條指令,容量增大意味著可以存儲更多的指令、超長的指令、或是各種複雜的混合式指令,這對於提高SM的執行效能大有裨益。
雙倍寄存器的優勢:代表DX10性能的3DMarkVantage得分直接提升15%
當前和未來的DX10遊戲,越來越多的使用複雜的混合式Shader指令,一旦排隊中的超長指令溢出或者在N個周期內都排不上隊,那麼就會造成效率下降的情況,此時雙倍寄存器容量的優勢就體現出來了。由於Local Memory並不會消耗太多電晶體,因此將其容量翻倍是很合算的。
第二章/第六節 GTX200核心不惜成本啟用512Bit顯存
無論CPU還是GPU,在核心處理能力大幅增強的同時,對於外部總線的帶寬也提出了更高要求,512Bit顯存控制器被啟用。
● AMD的512Bit環形總線顯存控制器
首顆使用512Bit顯存的GPU是AMD的R600,可惜這顆GPU的效能太差,根本用不到512Bit顯存的海量帶寬,通過其後續產品RV670核心的性能來看,512Bit相對256Bit的優勢微乎其微,以至於AMD在下一代GPU中都放棄使用512Bit設計。
R600的內部1024Bit、外部512Bit環形總線架構
AMD使用的是環形總線(Ring Bus),顯存控制器並不會直接從顯存顆粒中讀寫數據,而是只把數據放在環形總線之中,然後程序自行通過環站取回所需數據包,從而減輕控制器複雜度和壓力。但這種結構會使單個的存取操作的延遲變大,但總體來說能夠提高大規模數據讀取的命中率。
環形總線有很多優勢,位寬擴充相對容易、PCB布線相對容易、顯存頻率可以輕鬆達到很高,但卻又不得不面對延遲增加和效率降低的問題,位寬越大效率就越低,至少我們沒有在R600身上看出512Bit環形總線能比256Bit強多少。
● NVIDIA的512Bit交叉總線顯存控制器
NVIDIA方面,大家都知道G92核心未能超越G80,原因主要就出在顯存位寬上面,G92雖然擁有更高的頻率、更強的紋理單元,但是256Bit無論如何都無法超越384Bit,9800GTX只是勉強接近於8800GTX的性能,高帶寬在DX10遊戲和開高倍AA的情況下有著決定性作用!
G80的6個ROPs和6個64Bit顯存控制器
而NVIDIA則是沿用了傳統的交叉式總線(Crossbar),每組顯存控制器都與光柵單元(ROP)和紋理緩存(L2)綁定,從G70到G80增加了兩個64Bit控制器,這就構成了64×6=384Bit位寬。
GTX200核心的8個ROPs和8個64Bit顯存控制器
現在從G80到GTX200,NVIDIA又增添了2個64Bit控制器,這就組成了64×8=512Bit位寬。Crossbar相比RingBus的優勢就是數據存取延遲低,但是遇到大規模數據傳輸時,為了提高命中率就必須把控制器設計的相當複雜,由此導致電晶體開銷很大:
顯存控制器在GTX200核心中所佔據的晶片面積僅次於流處理器
NVIDIA從G70的256Bit、到G80的384Bit、再到GTX200的512Bit,是一個循序漸進的過程,位寬越高設計難度和電晶體開銷就越大,因此必須權衡付出的成本代價及性能收益、根據現有的製作工藝來決定是否使用512Bit控制器。
現在隨著DX10遊戲對帶寬的要求日益苛刻,高位寬所獲得的性能提升也很顯著,因此在新一代GPU設計時,NVIDIA不惜成本啟用了512Bit顯存控制器,用以消除性能瓶頸。
數量和規格上的擴充是一目了然的,不過GTX200核心不止是堆積電晶體和擴充規模而已,在一些技術細節部分,GTX200的改進也很明顯。
第二章/第七節 GTX200圖形架構細節方面的改進
為了能夠更加勝任於未來的DX10遊戲,NVIDIA針對圖形渲染的三大重要環節進行了改良:幾何著色、紋理單元和光柵單元。
● 改進幾何著色性能
幾何著色(Geometry Shader)是DX10的新增的著色器,它允許GPU來動態的生成和銷毀幾何圖元數據,通過和新的數據流輸出功能配合使用,許多以前無法實時使用的算法現在都可以在GPU中使用了。相比以往由CPU來處理簡單的幾何坐標變換,現在DX10渲染的效能增加不少(相同畫質下DX10的效率高與DX9C),而且圖形變換也可以做的更加複雜。
G8X相對於R6XX系列有著絕對的性能優勢,但是它有個致命的缺點就是幾何著色效能一般,這也成為ATI攻擊NVIDIA的重要把柄,記得當時ATI在其內部演示PPT中指出,R600的理論幾何著色性能可達G80的好幾倍!
由於第一批DX10遊戲對於幾何著色的使用還不夠廣泛,因此G8X的弱點並沒有體現出來,不過NVIDIA官方還是承認自己在幾何著色方面確實不如ATI做的好。通過Rightmark 3D理論測試可以看出,HD3870的幾何著色性能就要比8800GTX強不少,HD3870X2則更加強大。
在GTX200核心中,NVIDIA主要通過改進數據流輸出(Stream Output)及幀緩衝(Frame Buffer Memory)的方式,有效地提高了幾何著色器的效能。數據流輸出也是DX10新增的特性,它允許數據從頂點著色器或幾何著色器中直接被傳入幀緩衝,這種輸出可以被傳回渲染流水線重新處理,當幾何著色器與數據流輸出結合使用時,GPU不僅可以處理新的圖形算法,還可以提高一般運算和物理運算的效率。GTX200的幀緩衝達到了G80的6倍之多,由此可以允許更多的數據往返於著色器之間,避免重複性的數據處理,提升執行效能。
● 紋理單元進一步增強,但所佔比率下降
G92核心總共擁有64個TA和64個TF(G80是32TA、64TF),而GTX200擁有80個TA和80個TF,數量上的增加只是表象,實際上最關鍵之處就是流處理器與紋理單元的比率:
G92與GTX200核心每個TPC擁有的紋理單元數目相同,但每個TPC所包括的流處理器數量增加了50%,如此一來流處理器與紋理單元的比率直接從2:1上升至3:1。這與ATI前兩年所鼓吹的「3:1架構」不謀而合,雖然兩家產品的架構相差十萬八千裡,但針對遊戲的渲染模式作出調整的方針是一致的。
雖然紋理單元比例下降了,但GTX200核心的每個紋理單元的效能卻增加了,通過優化指令執行的調度機制,在實際遊戲中打開高倍各向異性紋理過濾時,GTX200的效率要比G9X高22%左右。
● 光柵單元規模增大,高倍抗鋸齒成為可能
G8X/G9X的ROP單元可以說是革命性的,它首次對8xMSAA(多重採樣抗鋸齒)提供支持,當然還支持最高精度的SSAA(超級採樣抗鋸齒)和TSAA(透明抗鋸齒),此外NVIDIA獨創的CSAA(覆蓋採樣抗鋸齒)讓人眼前一亮,它能夠以接近4xMSAA效能實現8xCSAA甚至16xCSAA的精度,讓遊戲畫質得到了近乎免費的提升。
失落星球、衝突世界、英雄連等許多遊戲都直接支持高倍CSAA
近兩年時間過去了,現在我們可以發現絕大多數新出的遊戲(尤其是DX10遊戲)都內置了對CSAA技術的支持,玩家可以在普通MSAA的基礎上選擇性能損失很小、但精度提升很大的CSAA。相比之下對手ATI所倡導的CFAA(可編程過濾抗鋸齒)由於自身問題(邊緣模糊)幾乎被玩家所無視,也沒有任何遊戲對CFAA提供內置支持。
不過G8X/G9X存在的問題就是8xMSAA的效率不高,在8xMSAA基礎上衍生出來的兩種CSAA(8xQAA和16xQAA)效率自然更差,在很多複雜遊戲中幾乎沒有實用性。為此在GTX200這一代GPU中,NVIDIA將ROP規模從24個擴充至32個,單個ROP在執行8xMSAA Z軸取樣操作時的速度可達上代的兩倍,由此使得高倍AA的效能得到了明顯改善,加之顯存容量的帶寬增加不少,現在的旗艦顯卡可以在很多主流DX10遊戲中開啟8xMSAA(或8xQAA、16xQAA)流暢運行!
第二章/第八節 GTX200並行計算架構方面的改進
● 提高雙指令執行(Dual-Issue)效率
在每個SM(多核流處理器)內部,除了包括8個流處理器之外,還有包括1個SFU(Special Function Unit,特殊功能單元),這個處理單元可以用來輔助SP處理特殊的函數運算、插值屬性的頂點+像素著色、執行浮點乘法運算指令(MUL)。
GTX200核心的每個流處理器都能夠單獨的執行一條乘加指令(Multiplu-Add,也就是同時執行一條乘法和一條加法指令),與此同時SFU還能夠在相同的時鐘周期執行另外一條乘法指令,相當於每個流處理器都能同時執行3條指令!
如此一來,GTX200的浮點運算能力計算公式為:流處理器數×指令數×頻率=240×3×1296=933GFLOPS。我們知道,G80/G92剛發布時並不支持Dual-Issue,所以其浮點運算能力僅為128×2×1350=346GFLOPS,後來NVIDIA為其追加了Dual-Issue支持,理論浮點運算能力就達到了518GFLOPS。
不過Dual-Issue對於3D遊戲的貢獻非常微小,只是在特殊條件下比如通用計算時才會有顯著的改善。此次NVIDIA將GTX200核心設計成為圖形渲染架構和並行計算架構的統一體,對於Dual-Issue的效率進一步優化,達到了93%-94%之高,這樣的雙指令執行效率可以讓GTX200的實際性能無限接近於理論值!
● 支持雙精度64Bit浮點運算
IEEE754標準硬性要求支持單精度32Bit浮點,雙精度64Bit浮點也是標準之一但只是可選,但雙精度64Bit浮點運算正是高精度科學計算(如工程分析、財政計算、計算機模擬)夢寐以求的功能。GTX200提供了對雙精度的支持,顯然更有利於進軍通用計算領域,向傳統集群式CPU超級計算機發起挑戰!
GTX200核心的每一個SM都包括了一個雙精度64Bit浮點運算單元,這樣GTX200就相當於一個30核心的雙精度64Bit處理器,但GPU的頻率要比CPU低很多,因此GTX200的理論64Bit浮點運算能力大概與Intel頂級八核心至強處理器相當。
雙精度的運算量是單精度的八倍,因此理論浮點運算能力只有原來的1/8,GTX280的雙精度64Bit浮點運算能力大概在90GFLOPS左右。
第二章/第九節 GTX200核心支持業界最先進的功耗控制技術
N卡從不片面追求高頻率,即便工藝上較為落後,但功耗控制一直都做得不錯,比如7900GTX的功耗遠低於X1900XTX,8800GTX的功耗低於HD2900XT,8600GT稍低於HD2600XT/HD3650,8800GT和9600GT稍低於HD3870(以上均指滿負載功耗,即TDP)。
● AMD率先支持GPU晶片級節能技術:
HD3870的待機功耗比86GT/26XT還低!
不過,在最新的HD3000系列顯卡中,AMD首次將筆記本顯卡節能技術PowerPlay植入了臺式GPU中,使得A卡的在空閒、低負載模式下的功耗大幅降低。雖然PowerPlay技術對於3D滿負載模式下的功耗無能為力,但畢竟電腦並不總是處在遊戲狀態,節能技術對於絕大多數用戶來說都非常實用,而且也符合綠色環保的概念,因此A卡備受好評。
● NVIDIA另闢蹊徑,Hybrid Power將顯卡功耗降為零:
其實N卡也有自己的節能技術,那就是具有革命意義的Hybrid Power,通過使用nForce 780a/750a等晶片組內部的集成顯卡,Hybrid Power能夠在2D模式下徹底關閉獨立顯卡,將顯卡的功耗直接降為零!而在3D遊戲模式時,可以在短時間內恢復顯卡,不用重新啟動系統就能進入全速3D狀態。
9800GTX搭配780a SLI晶片組,開啟Hybrid Power後的功耗相當於沒插顯卡
雖然具有革命意義的Hybrid Power技術非常強大,但它的局限性也很明顯:僅支持9800GX2和9800GTX這兩款高端顯卡,僅支持NVIDIA的新一代AMD平臺晶片組,暫時無法使用在Intel平臺,這對於追求高性能的玩家來說,確實是個遺憾。
● GTX200加入晶片級節能技術,待機功耗僅25W!
新一代GTX200系列顯卡自然能夠支持Hybrid Power節能技術,除此之外,NVIDIA還在晶片設計之初就考慮到了節能的需要,加入了類似於PowerPlay的筆記本顯卡節能技術,大幅降低了顯卡在中低負載模式下的功耗。
不管CPU還是GPU,晶片級節能技術的原理其實都差不多,主要方式有:降低頻率、降低晶片電壓、動態關閉閒置的功能模塊、使部分電晶體處在深度休眠狀態等。
和AMD的PowerPlay技術相比,NVIDIA GTX200的節能技術更加智能,它並不存在固定的2D/3D頻率,而是由GPU根據3D負載自行判定,頻率可以在較大的範圍內無極變速,即便是在3D模式下也能關閉部分模塊,從而做到物盡其用,將浪費減至最低。
通過NVIDIA官方公布的數據來看,8800Ultra的待機功耗高達60W,而GTX280待機功耗只有25W,甚至比中端主流9600GT/8600GTS的待機功耗還要低!要知道GTX200是一顆擁有14億電晶體的怪獸核心,其功耗控制如此完美,令人嘆為觀止!
● GTX280顯卡在四種典型工作模式下的功耗:
當然,GTX280顯卡的TDP還是非常恐怖的,比225W的HD2900XT還要高,不過考慮到GTX280極其強悍的性能,為此付出236W的代價也是值得的。NVIDIA表示,雖然GTX280的設計功耗再創新高,但顯卡的每瓦性能也超過了所有前輩,達到了預期的效果。
第三章 CUDA:開創GPU明日帝國
經過多年成倍式增長,GPU的性能已經達到了可觀的高度,但是顯卡卻總在玩遊戲的時候才被大家想起,難道這麼強大的計算能力僅僅是為了滿足遊戲玩家?顯然,GPU已經不滿足應用領域的狹隘,利用自身強大的計算能力向傳統電腦的核心CPU提出了挑戰!
第三章/第一節 「並行計算」相對「串行計算」的優勢
這裡我們先要提提一些基本的計算機計算概念,比如說「串行計算」和「並行計算」。串行計算是指在單個中央處理器單元上對數據進行處理,並行計算是相對於串行計算來說的,其在時間和空間上都比串行計算效率更高,時間上的並行就是指流水線技術,而空間上的並行則是指用多個處理器並發的執行計算。
CPU就是串行計算的代表,當然我們也看到其向並行計算發展的趨勢,比如目前的雙核、四核CPU。但是如果我們把這個概念放到GPU身上,會有驚人的發現:「核」數已經不再停留在個位,中低端的8600GT已經具備32個流處理器,而高端的9800GTX擁有128個,最新的頂級旗艦GTX280則達到了恐怖的240個!
從規格上看GPU擁有比CPU更強的計算實力,雖然GPU不可能全面取代CPU的功能,但和早期的3D計算需要大量CPU輔助一樣,GPU可以在眾多的應用中發揮出遠非CPU所能及的性能。
2007年6月20日,NVIDIA發布了專為科學計算而生的Tesla,用GPU展現了個人超級計算的新紀元。應用於地球科學、分子生物學和醫學診斷領域的高性能計算為實現重大的發現提供了可能,這些發現可能會改變數十億人的生活。
第三章/第二節 CUDA:一個以GPU為中心的運算平臺
Tesla只是NVIDIA的觸角伸出傳統GPU應用領域的開始,NVIDIA的野心是要打造一個以GPU為中心的運算平臺——CUDA!這是Compute Unified Device Architecture的簡稱,也是NVIDIA樹立的一個新的行業標準和未來趨勢。
實際上,早在兩年前發布G80系列顯卡時,NVIDIA就已經預告了CUDA的到來。CUDA是世界上第一個針對GPU的C語言開發環境,可以充分應用GPU上眾多流處理單元強大的浮點運算能力,解決複雜的科學運算問題。該環境目前僅支持NVIDIA GeForce 8/9系列顯卡以及相應的Quadro專業顯卡。根據NVIDIA的測試,GeForce 8800顯卡在CUDA架構中的峰值運算能力可達520GFlops,因此如果構建SLI雙卡系統,可以達到1TFlops,即每秒運算1萬億次的強大運算能力。
CUDA要承擔的任務是讓顯卡可以用於圖像計算以外的目的,它是一個完整的GPGPU解決方案,採用C語言作為程式語言來使用GPU強大的硬體資源。C語言目前是大學的必修課程,已經國際上普及程度最高的計算機程式語言,所以CUDA大大降低了GPU應用的門檻,大家都可以用C語言寫出在顯示晶片上執行的程序,而不需要去學習特定的顯示晶片的指令或是特殊的結構。
使用GPU而不使用CPU從事科學計算的原因除了GPU在性能表現上更有優勢外,還不能忽略GPU相對CPU低廉的價格。和高端的CPU售價比起來,GPU簡直太便宜了,目前9600GT只要八百元,更高的8800GT也才一千元出頭,而一顆入門的四核CPU就要上千元。
目前GPU已經是足夠強大的可編程處理器,非常適合大運算量的科學應用,諸如地質勘探,生物學,流體力學,金融建模等等。通過CUDA技術,所有開發人員都能夠使用標準的C語言,挖掘NVIDIA GPU中多個處理單元強大的並行計算能力。
第三章/第三節 CUDA實際應用舉例
● 視頻編碼應用:比CPU快18倍
如今大家的手機普遍支持視頻播放,但是視頻卻需要從電腦上進行重新編碼以便讓視頻的解析度和碼率達到手機或則移動播放設備所支持的要求。高端用戶也面臨類似的問題,許多高清視頻也需要經過壓製成為DVDrip或則Rmvb以適合不同需要的人群。
傳統的視頻編碼軟體完全依賴CPU的計算能力,即便換上相當不錯的高端CPU,一部高清視頻重新編碼所需要的時間往往數倍與視頻本身的播放時間,這讓用戶苦不堪言。現在基於CUDA開發出的GPU視頻編碼工具卻能將「壓片」效率提升接近20倍!
使用主頻1.6GHz的雙核CPU配合集成顯卡壓制一部兩小時長的高清視頻需要10小時22分,如果換用主頻高達3GHz四核CPU可以將市價縮短到5小時33分。有了基於CUDA開發的GPU編碼程序,1.6GHz的雙核CPU配合9600GT顯卡只需要49分鐘即可完成編碼,搭配上旗艦顯卡GTX280則僅需要35分鐘。
● 期貨風險控制系統:性價比提升9倍
通過大型計算機系統控制期貨交易中的實時風險,有人工控制和事後控制所不具備的優勢。Hanweck聯手Volera對在實時應用中的整個美國期貨買賣風險進行評估,分別使用GPU和CPU搭建計算能力相同伺服器系統,最終GPU使用了12顆,而CPU使用了600顆。使用600顆CPU的伺服器佔用了使用12顆GPU伺服器的九倍空間!整套裝置花費成本達到了GPU伺服器的六倍!而維護和使用CPU伺服器一年的開銷高達同計算能力GPU伺服器的九倍!
● 醫療行業應用:CT立體化且提速20倍
CT是一種功能齊全的病情探測儀器,它根據人體不同組織對X線的吸收與透過率的不同,應用靈敏度極高的儀器對人體進行測量,然後將測量所獲取的數據輸入電子計算機,電子計算機對數據進行處理後,就可攝下人體被檢查部位的斷面或立體的圖像,發現體內任何部位的細小病變。
使用CUDA開發的軟體,讓GPU代替CPU去處理數據,可以得到和以往的2D成像不一樣體驗的3D圖片。GPU的超強計算能力使得處理器數量無需太多,可以讓計算機的體積大大減小,原先大量的CPU才能完成的計算量,四顆GPU就足矣,且速度還要快上20倍。
● 地理信息系統應用:速度提升可達50倍
地理信息系統(Geographic Information System,GIS)是在計算機硬、軟體系統支持下,對整個或部分空間中的有關地理分布數據進行採集、儲存、管理、運算、分析、顯示和描述的技術系統。
使用基於CUDA開發的軟體配合CPU使用效果遠勝傳統的CPU運算,速度可以提升10-50倍,科學家可以更為快捷及時的掌握環境數據,無論是資源管理還是災害預防都會更為快速有效。
● 生命科學研究:等待時間縮短12倍
美國國家癌症研究所的測試表明,使用CUDA編寫的程序配合GPU運算,使他們以前的等待計算機得出結果的時間由原來的2小時縮短熬了10分鐘,效率提升達12倍。科學家們表示,更快的計算速度有助於他們加快新藥物的開發,諸如治療癌症、阿爾茨海默氏症,愛滋病毒感染、瘧疾等。
● CAD設計:實時服裝物理效果
傳統的CAD設計雖然能畫出漂亮的時裝,但如果不生產出樣品通過真人試穿就無法了解到整體效果。這就需要繁瑣的工序,以及相應人力物力的投入。
現在可以通過CUDA編寫的CAD程序讓計算能力強大的GPU去模擬整個試衣過程,衣物的材質和光澤都可以完全擬真,並且實時演算出衣服在各種人體動作後的物理效果,包括光線變化、褶皺、形變等。這讓以往的設計軟體望塵莫及,使CAD設計者更有效率。當然,一切的關鍵還是靠CUDA開發出的軟體配合GPU。
● MATLAB仿真:加速17倍
在國內也被稱作《矩陣實驗室》的Matlab以其強大的矩陣計算以及仿真能力成為科研人員的必備工具。目前已經有CUDA開發出來的Matlab插件可以調動GPU對軟體進行加速。
在用其進行基於偽譜方法的均勻各向同性湍流直接數值模擬測試中,分別使用Core2 Duo 2.4GHz和8800GTX去進行數值分析,從同一時間成像截圖上可以明顯看出GPU的優勢,CPU成像速度比CPU快了17倍。
第三章/第四節 高性能計算GPU更具實力
談到GPU高性能計算,有兩個問題不得不談:GPU的先天優勢和後天的發展。
先天優勢上,GPU與CPU擁有不同的核心架構,CPU的架構是有利於X86指令集的串行架構,CPU從設計思路上適合儘可能快的完成一個任務;對於GPU來說,它的任務是在屏幕上合成顯示數百萬個像素的圖像——也就是同時擁有幾百萬個任務需要並行處理,因此GPU被設計成可並行處理很多任務,而不是像CPU那樣完成單任務。目前CPU市場已經推出了雙核、三核甚至四核的產品,但是CPU的多核心概念並沒有從架構上進行調整,也許可以說是同時處理兩件、三件也可能是四件事情,但不是並行處理成百上千的任務。而NVIDIA公司推出GTX280已經擁有了240個流處理器,相當於240核心,其峰值處理能力超過現在最昂貴的CPU十倍以上。
後天的發展上,之前的科學家也在積極地考慮發揮GPU的高度並行優勢,單之前的應用主要基於OpenGL的API上,對開發人員的門檻比較高,隨著NVIDIA公司發布了其CUDA(計算標準設備架構)後,GPU進行高性能科學計算的優勢顯露無疑。CUDA是採用基於C語言的方式,將CPU的串行計算與GPU的並行計算優勢相結合,程序開發人員在不需要調整工作習慣的前提下就可以切換到新的平臺上,大大提升工作效率。我們可以想見,在不久的將來,以CUDA為代表的異構計算必將成為大規模科學運算的主角。
「視覺就是計算機」,如同NVIDIA公司創始人兼執行長黃仁勳所言:「無論是對普通消費者,還是專業細分市場,GPU對於當前計算機體驗的核心作用正在日益顯現。當然,這只是下一個傳奇的開始。」
第四章 物理加速修成正果,真正走向成熟
從GeForce 7/X1000系列開始,GPU物理加速就成為了兩大晶片廠商的口頭禪,雙方隔三差五的通過小Demo或者小視頻來展示GPU處理物理運算能有多麼強大。但是直到今天,還沒有哪款遊戲大量使用GPU進行物理運算,只有一部分遊戲遊戲使用了CPU或者物理加速卡進行物理加速。
現在,NVIDIA收購了Ageia(物理加速卡生產廠商),而且有了強力的GPU編程平臺——CUDA,物理加速開始走向正軌!
第四章/第一節 半路殺出來個Intel,NV/ATI的物理加速之夢破滅
之前NVIDIA和ATI的GPU物理加速技術都是建立在一家名為Havol的物理引擎基礎之上。NVIDIA在06年提出的SLI PhysX物理加速方案就是基於Havok最新的4.0引擎,它能夠通過DirectX SDK調用GPU Shader模塊處理物理運算。
Havok和Ageia是一對老冤家了,雙方各提供了一套完整的3D圖形物理加速解決方案,其中Havok倡導「軟解」,就是充分利用多核心CPU的資源進行物理加速,由於軟體支持到位因此Havok引擎率先得到了很多遊戲及引擎的支持,大家應該可以在很多遊戲的啟動畫面中看到Havok的Logo:
NVIDIA曾宣布大力支持Havok物理引擎
Havok並沒有滿足於目前的成就,除了CPU物理加速引擎之外,Havok還在研製GPU物理加速,並且和NVIDIA和ATI雙方都保持的良好的合作關係。每當NVIDIA或ATI吹噓自家的GPU物理加速有多麼厲害的時候,我們總是可以發現那些演示Demo上都打著Havok的Logo,由此可見Havok在GPU物理加速這項技術中扮演的舉足輕重的作用!
ATI展示的GPU物理加速Demo,可以看到背景有Havok Logo
正當GPU物理加速前途一片光明之時,誰也沒有想到半路會殺出來一個程咬金——2007年9月Intel閃電收購Havok,使得GPU物理加速嘎然而止!正在大力推廣四核CPU的Intel顯然不會鼓吹GPU物理加速,即便Intel想要推廣GPU物理加速,也要等到2009年以後自家獨立顯卡發布之時才有可能。這就使得NVIDIA和ATI猶如啞巴吃黃連、有苦說不出來。
對於雄心勃勃想要進軍獨立顯卡市場的Intel來說,收購Havok可謂是一舉多得,既打擊了對手NVIDIA和ATI,還壯大了自身的實力。因為業界都對物理技術產生了高度重視,物理加速將會成為繼DX10之後的又一3D圖形制高點。
第四章/第二節 被逼無奈,NVIDIA重金收購Ageia
Havok被Intel吃了,但物理加速還得繼續研究,於是NVIDIA將目光投入另一家物理引擎公司AGEIA。2008年2月4日,NVIDIA不惜重金收購AGEIA。明爭暗鬥多年的兩家物理加速公司,在有了兩大巨頭撐腰之後,競爭將會愈演愈烈!
Ageia公司的成名絕技就是PhysX物理加速卡以及PhysX物理加速引擎,它能夠為3D畫面提供逼真而又複雜的物理效果,該引擎目前已被140多款遊戲所採用,由於PhysX已經拿下了知名度最高、且支持跨平臺的《虛幻3》引擎,因此前途一片光明。除了PC遊戲之外,PS3、XBOX360和Wii三大遊戲主機上都有採用相關技術的遊戲。目前,使用PhysX物理引擎SDK的開發者超過一萬人。
BFG和ASUS生產的Ageia PhysX物理加速卡
許多人都是從物理加速卡接觸Ageia這家公司的,其實硬體只不過是點綴,Ageia的物理引擎才是賴以生存的資本,採用PhysX引擎的遊戲,即便沒有物理加速卡的支持,也能夠依靠CPU模擬出生動、逼真的物理效果,只不過是速度慢一些而已。插入物理加速卡之後,遊戲物理效果的豐富程度以及流暢度都會大大改善。
在深入人心的CPU和GPU之間,Ageia要橫插一顆PPU進來,何其難也!
但是,對於物理加速卡這種新生事物,勢單力薄的Ageia憑一己之力很難影響整個產業,遊戲玩家的接受程度普遍不高,再加上物理加速卡定價偏高,導致硬體難以普及。而且三大巨頭Intel、AMD和NVIDIA都對Ageia的方案冷眼以對:Intel鐵了心要搞CPU軟體物理加速,不然誰買你的四核CPU?AMD/ATI和NVIDIA之前一直在和Ageia的死對頭Havok合作,秘密研製GPU物理加速方案,並且初見成效,業界對於Ageia的處境都不看好。
如此一來處境就很明朗了,孤掌難鳴的Ageia出路只有一條,那就是賣給實力更強的大公司。在Intel收購Havok之後,Ageia也在尋求強有力的靠山,最終Ageia加入了業績蒸蒸日上、實力日漸雄厚的NVIDIA公司,「PhysX Now Avaibale in Green」這條加入綠色軍團的標語也有著更深層次的含義……
由於CPU物理加速已經走向成熟、且多核CPU過剩的性能正好可以用來進行小規模物理加速;而GPU物理加速前景廣闊,新一代架構的GPU擁有遠超CPU和PPU的恐怖浮點運算能力,一旦軟體成熟必將成為主流;所以PPU物理加速只能說是生不逢時。但在技術和引擎方面,Ageia的實力是毋庸置疑的,NVIDIA正是看中了這一點,才不惜重金收購Ageia!
Ageia PhysX PPU
NVIDIA CEO黃仁勳如是說:「AGEIA團隊是世界級的,他們擁有和我們同樣的激情,創造最令人驚嘆和最有魅力的遊戲體驗。通過創造世界上最深入人心的GPU和物理引擎品牌的強強聯手,我們可以將GeForce加速的PhysX技術帶給全世界數以百萬計的遊戲玩家。」
AGEIA創始人之一,CEO Manju Hegde則說:「NVIDIA對於我們是完美的選擇,他們擁有世界上最好的並行計算技術,是GPU和遊戲業界的領袖,我們有同樣的創造激情,同樣的文化,可以進一步推動消費體驗。」
第四章/第三節 僅花一個月時間 NVIDIA使用CUDA完成PhysX移植工作
很顯然,NVIDIA收購Ageia並不是看中了它的硬體(PhysX物理加速卡),而是軟體(PhysX物理引擎)。這套引擎的初級開發套件是免費的,因此被很多遊戲開發者所使用,甚至國內就有一些遊戲公司在使用PhysX引擎(如QQ飛車等遊戲)。PhysX引擎龐大的用戶群以及廣泛的遊戲支持,對於NVIDIA來說是一個致命誘惑!
但PhysX引擎只支持CPU和PPU(即物理加速卡),GPU暫時還無法從中受益,也就是說GPU物理加速還只是個夢想而已,如何把它變成現實呢?
Ageia被NVIDIA收購後,相關技術人員就立馬開始投入到了新的研發項目中——重編譯PhysX引擎,讓它能夠支持GPU物理加速。據NVIDIA表示,由於GPU和PPU在並行架構方面有許多共性,再加上CUDA平臺的優勢,編譯工作相對來說要簡單很多,NVIDIA和AGEIA只花了一個月時間就讓PhysX引擎在GeForce顯卡上跑了起來!
而且,憑藉NVIDIA在業內的影響力,在第一個月內,GeForce PhysX物理加速就進入了實際應用階段,這是以前AGEIA做夢也難以想像的事情。可以想像,未來通過CUDA編寫GPU物理加速程序將會變得十分簡單,物理加速也將會得到大量採用。
據NVIDIA表示,在GTX280發布後的一個月內,將會提供支持GPU物理加速的驅動下載,屆時大部分採用PhysX引擎的遊戲將會從中受益,GPU將會代替物理加速卡進行物理運算。
現在,遊戲玩家不必單獨購買昂貴且功能單一的物理加速卡,就能通過NVIDIA顯卡來進行物理加速。當然也可以採用多塊顯卡並聯,既保證3D性能又獲得真實的物理效果。通過上表的對比可以看出,GPU的物理性能是Intel四核處理器的10倍以上,如果對物理加速感興趣的話,是購買中高端顯卡划算呢?還是購買昂貴的四核CPU划算呢?
第五章 GeForce GTX 280/260顯卡實物解析
之前介紹了那麼多有關GTX200核心架構和技術方面的東西,理論部分的內容確實比較抽象難懂,現在就從理論回歸實際,詳細解析基於GTX200核心的兩款旗艦級顯卡——GeForce GTX 280和GTX 260。
第五章/第一節 8800GTX真正的接班人:GTX280
● GTX280的外觀、散熱器酷似9800GTX
左:GTX280 右:9800GTX
第一眼看到GTX280顯卡正面,感覺造型方面與9800GTX非常相似:全覆式的散熱器外殼將顯卡裹得嚴嚴實實,風扇位略顯凹陷,這種設計的好處就是組建SLI或3路SLI時,即便兩塊顯卡緊緊埃在一塊,風扇也能吸入空氣進行良好的散熱。
● GTX280的背面酷似9800GX2
左:GTX280 右:9800GX2
顯卡背面也安裝了外殼,從這個角度看的話跟雙核心9800GX2的造型又有些相似,當然這只是表象而已,如果將散熱器和外殼拆掉的話,就可以發現GTX280顯卡實際上最像8800GTX/Ultra。
● GTX280的PCB最像8800GTX
左:GTX280 右:8800GTX
可以看到,GTX280的核心安裝了保護蓋,輸出部分被單獨設計了一顆晶片安裝在了接口附近,還有供電模快的設計,這些都與8800GTX/Ultra的PCB設計方案如出一轍!看來GTX280才是8800GTX的正統接班人!
第五章/第二節 65nm如何成就14億電晶體的怪獸核心
首先可以很清楚的看到,碩大的GTX280核心上被安裝了一個保護蓋,與G80採用了相同的設計,這就使得我們無法看清楚核心的矽片到底長什麼樣,不過輸出接口附近那顆晶片倒是似曾相識。
● 65nm製造14億電晶體又是一個奇蹟
GTX280核心代號為G200-300,擁有高達14億個電晶體,臺積電65nm工藝製造,目前已經是A2製程(當初8800GTX也是A2製程,8800Ultra升級到A3),不過我們拿到的這塊還是早期的工程樣品。
想當初就連ATI內部人員都對NVIDIA表示驚嘆:使用老舊的90nm製造出高達6.81億電晶體的G80核心簡直是奇蹟!而現在奇蹟再次上演,NVIDIA使用成熟的65nm工藝將電晶體數再次翻番,GTX200核心達到了恐怖的14億個,令人嘆為觀止!
NVIDIA在新工藝的使用方面一直都十分謹慎(尤其是架構發生重大改變的一代),當然也可以說是保守,總之一直落後於競爭對手。新工藝確實有助於減少晶片面積、降低功耗/發熱,但往往投產速度慢、產量有限。為了儘快給用戶帶來新產品,先發制人搶佔市場,NVIDIA往往會採用當前成熟的工藝,而不是去冒險嘗試新工藝。等到新工藝完全成熟之後,再推出改良版的核心,可以進一步提高頻率、降低功耗、發熱和成本。從G70到G71、G80到G92都是基於這種設計思路的產品,也就是本文前言中所提到的「架構年、工藝年」概念。
GTX280顯卡的默認核心頻率為602MHz,流處理器頻率僅1296MHz,甚至比當初8800GTX的流處理器頻率(1350MHz)還要低,這就直接導致GTX280的浮點運算能力(933GFLOPS)未能突破1000大關,假如GTX280的流處理器頻率為1400MHz的話,那麼浮點運算能力正好就是1008GFLOPS!
我們知道NVIDIA一直以來都在不斷的提高流處理器頻率(或者說是流處理器與核心頻率的比率),此次GTX280的流處理器頻率如此之低,筆者推測要麼是在頻率提升方面遇到了瓶頸,要麼就是為了控制功耗發熱的需要。
當初8800GTX的A2版本G80核心默認頻率為1350MHz,半年後8800Ultra的A3版本G80核心默認頻率為1500MHz。這也就意味著未來GTX200核心還有不小的潛力,以後若推出改進的A3版核心、或者是啟用55nm甚至更先進的工藝,那麼性能將會再創新高!
● NVIO二代輸出晶片:分久必合,合久必分
在8800GTX顯卡上,NVIDIA首次將2D引擎與3D引擎分開,把GPU設計成了兩顆晶片,其中一顆NVIO晶片就包含了RAMDAC和TMDS,專門負責圖形輸出。理論上來說,把輸出部分和高頻率的流處理器分開的話,有助於降低幹擾,提升輸出畫質。
8800GTX顯卡上的NVIO一代晶片
實際上,分離式設計也是受到了製造工藝的限制不得已而為之,我們知道G80的改進版——G92就沒有NVIO晶片,因為65nm允許GPU容納更多的電晶體,所以G92把NVIO整合在了晶片內部。顯然,兩顆晶片不但製造成本高,而且對顯卡PCB和後期加工提出了更高要求,單晶片才是最優解決方案。
GTX280顯卡上的NVIO二代晶片
「話說天下大勢,合久必分,分久必合。」在GTX200晶片上,NVIDIA又把輸出模塊分離了出來,這就是上圖中的NVIO二代晶片。二代相比一代作的改進主要有:
第五章/第三節 1GB 512Bit顯存徹底消除瓶頸
在本文第二章/第六節中介紹過,NVIDIA為了實現512Bit總線的確付出了不小的代價,GPU內部的顯存控制器就需要消耗不少電晶體,現在就來看看外部的顯存顆粒:
GTX280與HD2900XT的顯存分布大體相同
在顯卡PCB正反兩面的GPU周圍,均布著多達16顆顯存,這些顯存的分布位置與HD2900XT基本相同,兩款顯卡都是512Bit,雖然內部控制器架構不同,但外部物理顯存顆粒組成實際上是沒有區別的。
這次NVIDIA在旗艦顯卡上使用了現代顯存顆粒,編號為H5RS5223CFRN2C,是16M×32Bit 0.8ns規格,16顆正好組成1GB 512Bit的規格。
令人納悶的是,之前NVIDIA高端顯卡一直都採用三星顯存顆粒,8800Ultra和9800GTX使用的就是三星0.8ns GDDR3顯存,默認顯存頻率分別為2160MHz和2200MHz。三星顯存一直都以良好的穩定性和超頻能力而著稱,當然成本高於其他品牌。
而此次GTX280破天荒使用現代0.8ns顆粒,而且默認頻率達到了2214MHz,要知道顆粒越多就越難衝擊高頻率,看來現代最新出品的0.8ns GDDR3顯存實力不可小視,畢竟在這種旗艦顯卡上面是不會考慮成本因素的。
第五章/第四節 N卡史上最豪華的數字供電模塊
為了解決TDP高達236W的GTX280供電,NVIDIA不惜代價設計了非常複雜的供電模塊,無論用料還是規模都超過以上任何一款N卡:
上圖就是GTX280顯卡的供電模快,我們很容易數出來總共有9顆電感,也就是9相供電。在這9相供電中靠近供電接口部分的兩相使用普通三洋固體聚合物電容,這兩相專門給8Pin和6Pin外接電源的12V電流濾波,剩下的7相才是最關鍵的GPU/顯存供電。
GTX280採用了頂級電源晶片廠商VOLTERRA的數字供電解決方案,主控晶片為VT1165MF,它下轄5顆VT1165SF晶片為GTX200核心提供5相供電。
VT1165SF是內部整合了驅動晶片及傳統多顆MOS管的高度集成晶片,也常被稱為數字供電,這種整合晶片可以大大降低PCB面積佔用,而且晶片自身的損耗非常小,其開關頻率達到了1.5MHz,內部阻抗僅為1mΩ,所以整體轉換效率可高達89.3%。由於VT1165SF開關頻率超過了普通電解電容的忍耐,因此必須配套使用陶瓷電容。
VT1165SF單顆最大可提供30A電流,5路並聯就是150A。ATI在HD2900XT上使用的也是VOLTERRA VT1165MF主控晶片數字供電,並且搭配了PAULSE為數字供電定製的多胞胎並聯電感,這樣供電模快的集成度更高。由於GTX280分別使用了單獨的電感,因此布局顯得比較分散。
剩下的兩相供電就是顯存的,它並沒有電源主控晶片,因為這顆VT238AW的集成度更高,它將主控晶片、驅動IC電路和MOS管全部整合在了一起,因此看上去VT238AW比VT1165SF的晶片面積要更大一些。
這次GTX280擁有1GB容量的顯存,而且頻率創下了GDDR3的新高,因此NVIDIA使用了兩顆VT238AW晶片,分別為顯卡正反兩面共計16顆顯存供電。每顆VT238AWF可提供30A電流,共計60A,單顆顯存在超頻時所需電流可能達1.5-2.0A以上,因此兩相供電更加保險一些。
第五章/第五節 大家來找碴:GTX280和GTX260外觀上有何異同?
一顆核心不可能只有一款產品,對於全新的GT200核心來說,除了全規格的GeForce GTX 280之外,NVIDIA同期發布了規格稍加精簡的GeForce GTX 260。GTX280與GTX260的外觀設計極其相似,您能找出那些區別?
左:GTX280 右:GTX260
GTX260和GTX280的外觀幾乎完全相同,散熱器和PCB都是相同規格的,只是Logo的顏色有所不同,GTX280是灰色GTX260是銀白色。
左:GTX280 右:GTX260
GTX280和GTX260外觀上最大的區別就在供電方面,GTX280的TDP高達236W因此使用了8+6Pin供電接口,而GTX260的TDP為183W使用雙6Pin就夠了。另外,GTX280在輸出接口部分設計了一個LED小燈,如果玩家沒接8Pin供電就會亮紅燈,當然GTX260就無需這種設計了。
單純討論外觀其實沒有意義,接下來就將GTX260顯卡拆解,看看在PCB設計和做工方面與GTX280有何差別。
第五章/第六節 GeForce GTX 260精簡了2顆顯存和2相供電
● GTX260的核心架構屏蔽示意圖
GTX260是GTX280的簡化版,通過之前的規格介紹可以知道,GTX260的GPU內部被屏蔽了2組TPC(48個SP)和1組64Bit顯存控制器(綁定的相關ROP和L2也被屏蔽),這樣GTX260的規格就是192SP 896MB 448Bit:
GTX260核心架構屏蔽示意圖
對於GTX200這樣超級複雜的晶片來說,出現瑕疵是在所難免的,由於流處理器和顯存控制器所佔晶片面積最大,很多壞晶片的問題就出在這兩部分,只要屏蔽這些瑕疵模塊的話就能變廢為寶。這種屏蔽概念在CPU和GPU中屢見不鮮,實際上GTX280→GTX260的屏蔽方式與8800GTX→8800GTS的如出一轍,8800GTS也是被屏蔽掉了2組TPC外加1組64Bit顯存控制器。
拆開顯卡後就可以看到,GTX260的核心代號是G200-100(GTX280是G200-300),NVIO2代晶片與GTX280相同,顯存顆粒的規格也不變,同樣是現代0.8ns GDDR3,只不過數量少了:
● GTX260少了兩顆顯存、兩相供電
GTX260與GTX280的PCB設計完全相同,只是GTX260少了兩顆顯存,也就是128MB 64Bit的規格,這樣GTX260就是896MB 448Bit的規格。
由於核心頻率和規格的下降,GTX260的TDP從236降至183W,核心供電模塊的負擔減小不少,就沒必要使用原來那麼豪華的供電模塊了。通過上圖可以看到GTX260的GPU供電部分有兩相被空焊,而顯存供電和控制晶片的供電保持不變。這樣雖然核心供電僅剩3相,但數字供電還是能夠提供充足的電流。
第五章/第七節 七彩虹GTX280/260,大陸獨家供貨充足
七彩虹作為中國銷量最大的顯卡品牌,現已是NVIDIA最高級合作夥伴之一,此次七彩虹對新一代旗艦顯卡投入了高度重視,產品發布準備充分。七彩虹在中國大陸的確獨家貨源充足,為廣大發燒玩家提供第一時間嘗鮮的機會。
● 七彩虹iGame280 CH版1GB
GTX280隸屬於七彩虹定位高端的iGame系列,自然可以選擇參與「定製」顯卡,此次七彩虹聯合散熱器大廠為GTX280定製了專用的水冷散熱器,全覆式的水冷頭能夠輕鬆壓制14億電晶體的怪獸,更好的滿足發燒友超頻及靜音的需要。
顯卡附件也很有個性
● 七彩虹iGame260 CH版896MB
除了以官方指導價格4999元購買GTX280、3999元購買GTX260之外,七彩虹還給老玩家們提供了免費試用GTX280和7折購買GTX280的機會(各有5個名額)。
感興趣的朋友不妨看看「尊貴玩家體驗計劃:7折購買GTX280顯卡」一文。
第五章/第八節 索泰GTX280高頻版,浮點運算歷史性突破1TFLOPS
在前文中筆者介紹過,由於GTX280的默認頻率太低,直接導致浮點運算能力未能突破1TFLOPS大關,這對於NVIDIA來說確實是個重大遺憾。假如GTX280的流處理器頻率提高到1400MHz的話,那麼浮點運算能力正好就是240×1400×3=1008GFLOPS!
索泰的GTX280 AMP高頻版本正好滿足要求,它的默認核心頻率達700MHz、流處理器為1400MHz、顯存頻率2300MHz,比NVIDIA公版600/1300/2200MHz的頻率高不少,性能自然更上一層樓。
據了解,GTX200核心以及現代0.8ns顯存的超頻能力還是相當不錯的,索泰AMP版就是將體制更佳的產品官方超頻而來,非常適合追求極致性能的發燒玩家選購。
附件方面,由於GTX280必須要求電源支持8pin PCIE接口,為了增強兼容性,索泰隨卡附送了雙6Pin轉8Pin的電源線,可以讓較早的電源也能代得動新一代旗艦卡(前提是電源至少550W)。而且索泰還附送了HDMI轉接口以及SPDIF音頻線,想要HDMI輸出電視的朋友就方便多了!
第六章 GeForce GTX 280演示DEMO解析
無論ATI還是NVIDIA,每次有新顯卡發布都會同時公布一個或者多個用顯卡實時渲染而成的DEMO。這些美輪美奐DEMO的設計初衷就是通過完美的3D效果徵服每一位觀眾,讓大家對新顯卡的性能和技術充滿憧憬和期待。所以ATI和NVIDIA必定會使出渾身解數,在DEMO中大量採用顯卡最新、特有、特長技術。
第六章/第一節 GeForce 6/7/8三款經典DEMO回顧
首先我們有必要對NVIDIA以往的幾款經典演示DEMO做一個簡單的回顧,因為在最新DEMO的很多地方,都可以隱約看到歷代DEMO的影子,造型還是技術方面都得到了明顯加強。
● GeForce 6800Ultra:精心打造的美人魚Nalu
NVIDIA在GeForce FX系列的代言人蝴蝶仙子取得了用戶的普遍認可,於是在GeForce 6系列產品NV繼續推行虛擬形象代言人的做法,美人魚Nalu的出現可以說讓世人為之震驚!
首先我們不得不佩服NVIDIA的造型設計,完美而性感的身材、飄逸的長髮、魚尾與人身的完美結合、漂亮的魚鱗設計——這一切都展示出了NVIDIA強大的設計實力以及在Nalu身上投入的心血!
美人魚Nalu的頭髮帶給人震撼的視覺衝擊,它是由一種叫「深度陰影」的技術實時生成的。頭髮的上部由於光照而發亮,頭髮的下部則處於黑暗狀態;隨波蕩漾的飄逸長發就要給GPU很大的負擔!
除了令人驚嘆不已的頭髮之外,別忘了Nalu是處在深海之中,光照使用了鱗波蕩漾變幻莫測的動態HDR光源,Nalu的身體處在不斷遊動之中,此時長發和皮膚就會被柔和的陰影所包圍。NVIDIA使用了DirectX 9.0c SM3.0標準當中非常重要的「渲染至紋理」技術來達成這一看似不可能完成的渲染!
SM3.0、HDR、SoftShadow等等DX9C時代重要技術都在Nalu身上得到了完美體現,美人魚的形象也深深地刻在了每一位玩家的腦海,成為NVIDIA史上最成功的虛擬代言人!
● GeForce 7800GTX:黃皮膚美女Luna
蝴蝶仙子Dawn和美人魚Nalu都給NV帶來了很好的GeForce品牌宣傳效果,讓新一代產品的形象能夠迅速深入人心,於是在全新的GeForce 7系列產品中NV繼續貫徹虛擬美女戰術——Luna MM誕生!
GeForce 6系列形象代言人為美人魚Nula,而GeForce 7系列的MM取名為Luna,NV的取名真有意思,娜虂和露娜還真都挺順口!Luna是一個擁有華裔血統的黃皮膚MM,這可能與NV CEO是華人有關吧!不管怎麼說黃種美女更加符合中國人的審美習慣,雖然Luna的衣著並不如之前的Nalu和蝴蝶MM暴露,但惹火的身材和漂亮的面孔在用戶中的吸引力大增,尤其是在國內!
這個Luna Demo演示了一件很簡單的事情,小Luna一步步走向天梯,在盡頭等待她的卻是三位外星守護者,Luna被他們的守護神選中成為新的女祭司。經過簡單的儀式之後,原本純情可愛、冷豔的Luna變得更加成熟、妖豔,黑色的頭髮和白色的衣服變成了NV御用的綠色!
Luna沿用了Nalu當中的Demo設計理念,那就是大量使用光影效果、超級複雜的頭髮渲染和半透明效果。由於7800和6800都能夠支持最新的DirectX 9.0c和SM3.0技術,所以Demo當中並沒有讓人耳目一新的圖形技術出線。NV主要是通過異常複雜的Demo來展示7800強悍的處理能力!Luna的衣服和三位守護著的肉身都使用了半透明處理;Luna的頭髮進一步展示了NV Demo設計能力和GPU的強大處理能力;另外在變身過程中還使用了位移貼圖技術,使得碰撞過程立體感更加強烈!
● GeForce 8800Ultra:超逼真的人臉渲染Human Head
8800GTX發布時NVIDIA就公布了三款演示Demo,其中的Adrianne就是將一位美女模特從現實複製到了3D虛擬世界,作為虛擬形象代言人。而在8800Ultra發布後,NVIDIA又放出一款Human Head Demo,實際上Human Head的人物建模並不比Adrianne複雜,但其畫面效果卻遠遠超越了我們的想像!之所以能夠達到以假亂真的地步,最關鍵的一項技術就是多層皮膚貼圖。
在這個Demo中總共使用了多達17層紋理貼圖合成了細緻入微的頭部皮膚!每一層紋理貼圖的解析度都是4096×4096像素,這樣即便是以很近的視角觀察人物皮膚,也不會出現失真的情況。如此一來,DEMO的每一幀圖像都要對4000多萬個像素進行著色,每秒渲染12億個像素,而且使用了超長像素指令。
除此之外HDR效果也得到了完美展現。DEMO使用了兩個獨立的點光源投射在人頭上,這兩個光源可以通過滑鼠隨時改變方位及色彩,然後動態的反映在多層皮膚上,通過表面散射技術生成完美無暇的陰影。混合紋理以及動態光影對Shader性能和顯存帶寬都有苛刻的要求,G80核心在Shader以及紋理方面的性能都得到了大幅提升,而8800Ultra憑藉高頻率性能又提升了一個檔次,由此得以在高解析度和高畫質下流暢運行。
不過,Human Head整個Demo僅僅包括了一個人頭而已,一味的追求超逼真的皮膚貼圖,這個人頭甚至連頭髮、表情都沒有,只有技術展示價值而沒有任何實際意義。現在NVIDIA將這個超逼真Human Head Demo中採用的技術移植到了最新GTX200的動態演示Demo中——它就是Medusa(美杜沙)。
第六章/第二節 GTX200演示Demo Medusa總覽
Medusa(美杜莎),是希臘神話中的一個女妖,它的頭髮和身體都是蛇型,招牌殺人技能就是石化。
NVIDIA Demo是一小段劇情,描述了一位尋寶冒險者被美杜莎殺害的過程:這位冒險者來到神殿之後發現了很多無頭石像,但在美杜莎出現之後,他被美杜莎美麗的相貌所吸引,警惕心不復存在;美杜莎主動獻出寶物,冒險者不由自主地放下了手中的武器;此時,美杜莎偷偷的施展石化技能,自下而上冒險者的身體慢慢的變成了石塊,等他意識到了為時已晚;可憐的冒險者成為了神殿的又一尊石像,神殿寶物完璧歸趙,最後美杜莎終於露出了她那恐怖的真實面目,並用蛇尾將冒險者頭部擊碎……
第六章/第三節 Medusa的特色:集上代Demo特色與一身
看完整個Medusa Demo之後,我們就可以發現Demo中的人物有著似曾相識的感覺,和往屆Demo有很多相似之處,有些是延續了造型設計、有些是採用了類似的技術:
8800Ultra的Human Head
冒險者臉部皮膚渲染不亞於Human Head
7800GTX的Luna MM
美杜莎的臉型/表情設計是不是有些像Luna
6800Ultra Demo:美人魚Nalu
美杜莎的蛇形身材和美人魚非常相似
第六章/第四節 Medusa的特色:模擬未來遊戲場景
演示Demo的任務就是展示新技術、並模擬未來遊戲的渲染模式。此次GTX200的Demo與以往截然不同,我們可以看到它是按照標準3D遊戲的劇情設計的,而並非單純的技術展示,在保證人物完美細節的同時,也強化了周邊場景的複雜度。
以往的Demo是照片級別的「靜態逼真」,人物可以做到栩栩如生,但是場景、動畫卻相當簡陋,它只能按照程序設定好的幾種模式讓主角人物更接近於現實。而美杜莎Demo則是結合了實際遊戲的複雜場景以及CG動畫的完美畫質,展現給大家一段電影級的「動態逼真」畫面。
下面就看看NVIDIA在美杜莎Demo當中所採用的特色技術:
以往的Demo都不注重環境細節,而美杜莎除了主角之外,細節部分也堪稱完美
NVIDIA官方建議運行美杜莎的設置為:1680×1050 8xMSAA,在此解析度下GTX280可以運行在40FPS左右。經過我們實際測試來看,繼續提高解析度也未嘗不可,我們可以在1920×1200 4xMSAA模式下也能夠獲得40FPS左右的流暢速度,想要在2560×1600超高解析度下運行就不能開AA了,不過此時貼圖質量極高細節進一步增強,鋸齒並不明顯。
文章中的截圖都是1920×1200 4xMSAA模式下獲得的
通過這個複雜的Demo可以看出,GTX280在應付高負荷複雜遊戲時,也能夠滿足在高解析度下開啟高倍AA流暢運行的需要,這就可以讓遊戲的畫面品質得到進一步增強,在後文的遊戲評測中,我們將對所有主流DX10遊戲在高解析度AA模式下的性能進行測試,請大家留意。
第七章 性能測試
相比兩年前的8800GTX,GTX280幾乎是其規格全面翻倍版,但是在和9800GX2的規格對比中卻是各有優劣,畢竟後者擁有兩顆由G80核心改進而來的G92核心,不過在單一核心對應的顯存規格上9800GX2依然不如GTX280,再加上目前AMD方面的旗艦HD3870X2,巔峰之間的較量更加好看。
第七章/第一節 頂級測試平臺配置
PCPOP.COM評測室 | |
硬體系統配置 | |
處理器 | Intel QX9770 四核心, 3.2GHz, L2=12MB |
主 板 | ASUS X48 (測試單卡) ASUS 790i (測試SLI) |
顯 卡 | GTX280 1GB (600/1300/2200MHz) GTX260 896MB (575/1242/2000MHz) 9800GX2 1GB (600/1500/1800MHz) 9800GTX 512MB (675/1688/2200MHz) 8800Ultra 768MB (612/1500/2160MHz) 8800GTX 768MB (575/1350/1800MHz) HD3870X2 1GB (825/825/1800MHz) |
內 存 | CORSAIR Dominator TWIN2X2048-10000C5DF DDR2-800(4-4-4-12) |
硬 盤 | 西數 |
電 源 | 海盜船 1000W |
軟體系統配置 | |
作業系統 | Windows vista Unimate 32Bit SP1 |
DirectX | 10.1 |
顯示驅動 | NVIDIA Forceware 177.26 ATI Catalyst 8.6 |
● 頂級平臺——QX9770 CPU
Intel Core 2 Quad QX9770屬於Intel Core 2 Quad QX9650的升級產品,核心研發代號為Yorkfield,採用45nm製程工藝生產,C0步進,支持SSE4.1多媒體指令集,外頻400MHz,倍頻為8x,此外QX9770還擁有12M的二級緩存,這樣即便是雙高端顯卡系統也不會受制於處理器瓶頸。
● 頂級平臺——DELL3007 顯示器
既然是頂級卡,我們就要用最頂級玩家的使用環境來測試,我們選定解析度為1920×1200(24寸寬)和2560×1600(30寸寬),並開啟4AA16AF,以接近高端用戶的實際使用環境。
測試程序覆蓋了理論測試程序3DMark、DX9C遊戲和DX10遊戲,值得說明的一點是僅僅是測試demo而非可玩遊戲的程序我們並沒有選用,比如《魚雷騎士》和《狂野西部》。
第七章/第二節 DX9C理論性能測試:3DMark06
3DMark06作為DX9C權威的理論測試工具,包括了兩個SM2.0測試和兩個SM3.0測試場景,基本上達到了DX9C的畫面最高境界,其測試結果對於很多主流遊戲都有參考價值。但是如今3DMark06已經難不倒高端顯卡了,高端顯卡在3DMark06中難分高下,所以我們只能最大程度的提高它對系統的要求,比如說提高解析度開啟抗鋸齒等。所以我們選定了在1920×1200 4AA16AF下測試其總分和SM3.0成績。
3DMark06的SM3.0測試嚴重依賴於GPU Shader性能,GTX280和GTX260的Shader頻率是自G80問世以來最低的,GTX280的240個流處理器在擁有256個流處理器的9800GX2面前並沒有討到便宜,而以理論測試見長的HD3870X2依然保持著該項目的最高得分。
第七章/第三節 DX10理論性能測試:3DMark Vantage
3DMark Vantage已經在四月底正式發布,全新的引擎在DX10特效方面和《孤島危機》不相上下,但3DMark不是遊戲,它不用考慮場景運行流暢度的問題,因此Vantage在特效的使用方面比Crysis更加大膽,「濫用」各種消耗資源的特效導致Vantage對顯卡的要求空前高漲,號稱「顯卡危機」的Crysis也不得不甘拜下風。
3DMark Vantage中直接內置了四種模式,分別為Extreme(旗艦級)、High(高端級)、Performance(性能級)和Entry(入門級),只有在這四種模式下才能跑出總分,如果自定義模式就只能得到子項目分數了。我們為這次的頂級卡對決選擇了Extreme和High兩種模式。
GTX280成為3DMark Vantage測試中毫無疑問的王者,GTX260也不辱使命,追平了上一代的雙核旗艦9800GX2,雙雙大幅度領先AMD旗艦HD3870X2。至於9800GTX和8800Ultra等單核顯卡由於流處理器數偏少,本身顯存容量和位寬和其他幾塊旗艦比起來也有差距,只有敗北的份。
第七章/第四節 DX9C遊戲性能測試:《超級房車:起點》
它來自於2007年最受歡迎的賽車類遊戲DiRT的製作者。GRID是一款快節奏的,擁有眾多精美場景和廣闊視野的賽車類遊戲。強化的EGO遊戲引擎,讓遊戲中的碰撞、損壞等更加真實:物理模型將可以保證遊戲中車輛的碰撞、損壞和解體等將更加貼近於好萊塢大片中的效果。
畫面設置:先開啟Ultra畫面等級,使所有特效達到最高,再改變解析度,開啟4×AA。
測試方法:進入遊戲後測試第一段直道的平均速度,方向鍵鎖定前方,保證所過場景一致。
GTX280和GTX260的顯存規格優勢非常大,在高解析度抗鋸齒下輕鬆秒殺了單G92核心只有512MB/256bit的9800GX2。至於HD3870X2由於驅動的支持不好,在遊戲中卡得不行。
第七章/第五節 DX9C遊戲性能測試:《使命召喚4》
雖然使命召喚4的場景已不再是二戰,但它依然保持了和使命召喚2/3系列相近的畫面風格,相信老玩家在遊戲中一定會有親切感,戰鬥中的爆炸、煙霧效果更加逼真,物理效果也加強了遊戲的真實感。
畫面設置:使命召喚4引擎對顯卡的要求中等,中高端顯卡特效全開並且開AA都能有不低的FPS,因此我們只測打開AA時的性能。
測試方法:遊戲有一段固定的爆炸場景,FPS比較穩定,也符合遊戲實際運行時的情形,用Fraps統計這個過程的FPS,作為最終成績。
在最高解析度下GTX280、GTX260和9800GX2都能完全流暢,由於遊戲對顯存的需求並不太大,9800GX2也不會因為顯存出現瓶頸,相對稍有優勢。
第七章/第六節 DX9C遊戲性能測試:《帝國時代3:亞洲王朝》
其畫面風格一如既往的華麗無比,雖然遊戲引擎比較老,但通過精妙的色彩搭配和美術設計,《帝國3》比起DX10 RTS大作《英雄連》和《衝突世界》都是不落下風。
畫面設置:帝國3的最新資料片也使用了原來的遊戲引擎,畫面風格沒有任何變化,系統需求也是照舊,對於如今的顯卡來說特效全開並且打開抗鋸齒運行遊戲沒有任何難度。起「邊緣光滑」開啟至「高」就是4AA。
測試方法:及時戰略遊戲如果沒有專用測試程序,就很難在遊戲中公平的測試,所以我們選用了遊戲即時演算的主界面統計幀數,也能客觀的反映出各卡在該遊戲中的差距。
和《使命召喚4》的情況類似,單核的GTX280在顯存要求不高的DX9遊戲中很難超過9800GX2,更多的流處理器數和更高的Shader頻率直接決定了結果。
第七章/第七節 DX9C遊戲性能測試:《半條命2:第二章》
《半條命2:第二章》作為《半條命2:第一章》的續集,引擎在HDR和室外場景的渲染方面有所增強,樹葉渲染上將採用Alpha覆蓋技術,提供更好的樹葉細節和反鋸齒效果。此外還引入全新的粒子系統,將提供動態軟陰影效果。物理引擎也經過重新設計,提供大場景大範圍的物理效果。
畫面設置:《第二章》還是原來的Source引擎,雖然做了一些改進,但對顯卡的要求並沒有提高,所以我們測試時特效全開最高,並且打開遊戲自帶的AA和AF。
測試方法:遊戲支持命令錄製demo供測試,我們錄製的demo覆蓋了室內室外場景。
由於測試全程開啟了HDR+AA,因此比較依賴於顯存位寬,所以9800GX2的顯存劣勢表現了出來。大致的結果是GTX280稍強於9800GX2,9800GX2稍強於GTX260,GTX260稍強於HD3870X2,其他各卡性能和上述不在同一級別。
第七章/第八節 DX9C遊戲性能測試:《極品飛車11》
《極品飛車11:街道爭霸》是一款真正可以激發你腎上腺素的賽車遊戲,給玩家帶來令人難忘的高細節的照片品質的圖像,更有代入感,它將Autosculpt技術提升到了新的高度。
畫面設置:遊戲最高只支持到1920×1200,我們將所有效果開啟至最高並設置4AA16AF。
測試方法:和《超級房車》一樣取遊戲開始的一段直道作為測試場景。
賽車遊戲偏重於像素著色,GPU Shader負載很重。如果不算雙核的9800GX2,兩款G200顯卡的成績大幅度好於其它單核心顯卡,8800Ultra落後於9800GTX,說明NVIDIA在核心架構變化不大的情況下優化了新顯卡核心中流處理器的效率。
第七章/第九節 DX9C遊戲性能測試:《虛幻競技場3》
《虛幻3》它不僅僅是一款遊戲,個大平臺上採用虛幻3引擎的遊戲已經有近百款之多。在PC平臺,受到高度評價的《生化奇兵》就是基於虛幻3引擎開發,還有《彩虹六號:維加斯2》和《榮譽勳章:空降神兵》、《戰爭機器》等大手筆。
畫面設置:特效全開,遊戲本身不支持AA但是可以通過驅動強制開啟以取得抗鋸齒效果,所以我們強制了4×AA。
測試方法:使用了第三方開發的測試程序,演算固定的場景和畫面幀。
9800GX2本來在1920×1200 4AA下超過了GTX260,但是提高解析度至2560×1600後其性能被GTX260反超,強大的單核心配備接近1GB的顯存很有必要,此時的GTX280已經遙遙領先。
第七章/第十節 OpenGL遊戲性能測試:《雷神戰爭》
《敵佔區:雷神戰爭》作為QUAKE系列遊戲的最新作,由於引擎源自Doom 3,但比DOOM3在很多方面都有所加強,最引入注目的MegaTexture技術的首次使用。簡單而言,MegaTexture就是一張超大的貼圖。在《敵佔區:雷神戰爭》中每張MegaTexture容量達到了3GB(類似ClipTexture,並非全場景的動態貼圖),在得到更好效果的同時,對顯存容量的要求也更高。除此之外,引擎還引入了視差映射、凸凹紋理映射、法向映射和Specular Highlighting、軟粒子等目前流行的顯示技術。
畫面設置:畢竟是源於老邁的DOOM3架構,引擎無論如何改進,對配置的要求也不可能出現翻天覆地的變化,自然是特效全開,並開啟遊戲內置的4AA16AF。
測試方法:我們自行錄製了一段多人對戰Demo,調用遊戲內置的控制臺命令行播放錄像,然後就可以得到比較準確的全程FPS。第一次回放Demo時由於Loading的原因成績較低,所以取第二次的成績為最終結果。
基於DOOMIII引擎的雷神戰爭對顯卡的要求也不高,幾款顯卡在高解析度下開AA都有不錯的成績,GTX280力壓9800GX2。
第七章/第十一節 DX10遊戲性能測試:《孤島危機》
Crysis(孤島危機)無疑是現階段對電腦配置要求最高的PC遊戲大作。Crysis的遊戲畫面達到了當前PC系統所能承受的極限,超越了次世代平臺和之前所有的PC遊戲。
畫面設置:遊戲版本為V1.2,開啟最強DX10效果(Very High),即便是許多高端顯卡也只能在低解析度看幻燈片,所以我們選擇了1920×1200,分別開啟最強DX10效果(Very High)和最強DX9效果(High)。
測試方法:Crysis內置了CPU和GPU兩個測試程序,我們使用GPU測試程序,這個程序會自動切換地圖內的全島風景,得到穩定的平均FPS值。
雖然還是不敵9800GX2,但是單核下在1920×1200下DX10全特效能超過20幀已經非常不易,相當於兩塊8800Ultra SLI,它僅僅只有一個核心——G200。
第七章/第十二節 DX10遊戲性能測試:《失落星球》
《失落星球》無論DX10還是DX9版本,畫面都非常出色,但除了絢麗的畫面之外,遊戲本身也是可圈可點。
畫面設置:遊戲版本為V1.03,將所有特效全開最高,可以使畫面顏色達到64位。
測試方法:遊戲自帶測試程序,該程序會將遊戲任務第一關的所有場景快速跑一遍,然後得到Snow和Cave兩種模式下的平均FPS,測試結果取FPS較低的Snow成績。
一直到我們用最BT的2560×1600 4AA16AF,9800GX2才因為顯存不足失去領先地位,以往NVIDIA的單卡最高顯存規格是768MB/384bit,GTX280首次達到1GB/512bit,在苛刻的條件下優勢盡顯。這也為以後的頂級雙核卡提供了思路,每顆GPU需要對應1GB顯存,這樣才能徹底發揮出核心的潛力,畢竟兩年前的7950GX2每顆GPU都獨享了512MB。
第七章/第十三節 DX10遊戲性能測試:《英雄連:抵抗前線》
與原來的DX9版相比,《英雄連:抵抗前線》已經是DX10版本。Shader Quality在High基礎上新增DX10選項,Terrain Detail(地形細節)在High基礎上新增Ultra選項。DX9版抗鋸齒只有Enable和Disable兩項,DX10版能夠完全支持N卡的CSAA抗鋸齒技術,並且支持N卡和A卡的8xMSAA。
畫面設置:把所有的效果都調最高,能High的就High,能Ultra的就Ultra,抗鋸齒設定為None或者4x。
測試方法:遊戲自帶性能測試程序,它是把任務版第二關的兩個過場動畫拼接在了一起,測試完之後會給出平均FPS、最大FPS和最小FPS,我們只取平均FPS做對比。
兩次抗鋸齒的開啟都直擊9800GX2的名門,即便GTX260也能輕鬆將其超越。至於2560×1600 4AA下的HD3870X2則再次不幸的倒在了驅動上。
第七章/第十四節 DX10遊戲性能測試:《刺客信條》
老牌遊戲廠商育碧不失時機的將橫跨數個平臺的超級大作《刺客信條》搬上了PC平臺,這款結合了古代和現代場景的科幻動作遊戲早已在遊戲機平臺聚集了強大的人氣。育碧表示《刺客信條》的DX9畫面和DX10畫面沒有本質區別。育碧之所以為其選用DX10 API,僅是單純為了調用Shader Model 4.0技術,從而大幅提升遊戲渲染效率。
畫面設置:將所有特效全開最高,遊戲最多支持8×AA,但是當解析度達到1920×1200及以上就無法開啟抗鋸齒,所以我們選擇了1680×1050 8×AA,更高的解析度沒有AA的模式。
測試方法:遊戲通過訓練關後會進入一個城鎮,我們不對其進行任何操作,直接讀取屏幕上穩定的幀數。
在1920×1200下GTX280和9800GX2平分秋色,這個時候是核心性能和顯存瓶頸的一個平衡點,其他設置下9800GX2憑藉更多的流處理器數和更高的頻率還是稍站上風,不過看看其他顯卡,GTX280的結果已經讓人相當滿意。
第七章/第十五節 DX10遊戲性能測試:《衝突世界》
《衝突世界》採用了自行研發的MassTech引擎,支持多種當前的主流顯示特效,如容積雲,景深效果,軟陰影等,光照系統也表現出色,尤其是半透明的容積雲特效營造出了十分逼真的戶外場景,物理加速結合體積光照渲染出了最逼真的爆炸效果。
畫面設置:遊戲自帶的畫面設置多達44個選項,內置的Very High模式並不能把所有選項都調最高,需要手動將其設定為Very Long和1024。
測試方法:《衝突世界》和《英雄連》類似,也是選擇了一段非常華麗的過場動畫作為測試程序,最終得出最大、最小和平均FPS,測試結果非常精確。
該遊戲對顯存的要求幾乎到了變態的地步,這個時候綜合素質最高的G200核心脫穎而出,1920×12004 AA16AF下頂級卡比拼的是顯存,在2560×1600 4AA16AF下比拼的就是Shader的綜合性能。
第七章/第十六節 DX10遊戲性能測試:《生化奇兵》
早在遊戲Demo版發布之前,BIOSHOCK就已經聲名遠揚,著名遊戲雜誌Gameinformer在較早的時候對其進行了完整測試,並給出了驚人的滿分10分,將幾乎所有的溢美之詞都獻給了這款遊戲,稱之為難得一見的史詩性大作。
畫面設置:《生化奇兵》的畫面設置項目並不複雜,DX10特效只有一項,而且遊戲不支持抗鋸齒(雖然可以驅動強制開啟AA,但DX10和部分陰影會失效),所以我們的測試模式就是特效全開,但不開AA和AF。
測試方法:《生化奇兵》並不像其他幾款DX10遊戲那樣自帶測試程序,所以我們只能用Fraps來記錄遊戲運行的實時FPS,測試場景選取了第一關動態海面作為戶外模式獲得成績。
GTX260雖然頻率低,但是流處理器數目不少,成績壓倒了8800Ultra等,領先了HD3870X2差不多50%。
第七章/第十七節 DX10遊戲性能測試:《地獄門:倫敦》
《地獄門:倫敦》包含不少DX10特效:有物理性的容積煙霧,能夠跟周圍外力產生互動;GPU模擬的雨滴效果,每一個雨點將受到方向光源的打光;以及一種稱之為 fancy soft shadows的陰影技術,可以根據光源跟物體的距離調節所產生陰影的柔和程度。此外《地獄門:倫敦》還採用最新的Havok FX引擎 ,該引擎將利用GPU資源來進行物理模擬計算。
畫面設置:遊戲對N卡和A卡的支持程度並不相同,比如使用抗鋸齒後N卡和A卡能夠開啟的特效等級就不盡相同,我們只好取消抗鋸齒設置,以求統一畫面設置。
測試方法:以遊戲訓練關的初始場景讀取穩定幀數。
大量的特效自然對Shader提出了更高的要求,通過9800GX2的成績可以看出,9800GTX出現了不正常的性能下降,這是由於驅動的個別疏漏引起。
第七章/第十八節 性能對比:GTX280 VS GTX260
GTX280與GTX260的關係和當年8800GTX攜手8800GTS登場一樣,流處理器更多、頻率更高的GTX280針對頂級用戶,而GTX260相對而言會使款性價比更出色的產品,平均20%的性能差距並不算大。
第七章/第十九節 性能對比:GTX280 VS 9800GX2
按照NVIDIA的產品布局,9800GX2在G200系列登場後,定位在GTX280與GTX260之間。但是前面的評測很多成績都是9800GX2領先GTX280,讀者難免會認為9800GX2才是最強顯卡,不過經過我們對所有測試項目的統計,GTX280依然平均領先9800GX2接近10%,觀察數據就能看出9800GX2領先的項目幅度不大,但是落後的項目差距非常大,個別項目落後可達90%,主要還是9800GX2上每顆G92核心只有512MB/256bit顯存,遇到高分辨加抗鋸齒就很難匹敵擁有1GB/512bit的GTX280。
第七章/第二十節 性能對比:GTX280 VS 9800GTX
伴隨8800Ultra的停產,9800GTX是目前市場上NVIDIA的最高端單卡,顯存規格只有512MB/256bit,距離8800Ultra有不小的差距,這也是該卡的瓶頸所在。高端卡自然應該運行在高解析度下,GTX280除了頻率以外的所有規格都全面領先9800GTX,高解析度下平均領先接近80%。
第七章/第二十一節 性能對比:GTX280 VS 8800Ultra
8800Ultra代表著G80核心的最高性能,如今看來已經老邁,GTX280性能平均高出50%,新老旗艦徹底換代。
第七章/第二十二節 性能對比:GTX280 VS 8800GTX
8800GTX和8800Ultra只有頻率差別,GTX280領先其68.3%。9800GX2雖然性能不俗但只是雙核拼裝,單核性能邁進這一步,從2006年11月到2008年6月,NVIDIA用了19個月。
第七章/第二十三節 性能對比:GTX280 VS HD3870X2
AMD在旗艦性能上已經無法與NVIDIA抗衡,HD3870X2縱然是雙芯產物,無奈驅動嚴重拖其後腿,如果不去掉《超級房車》這種性能接近為零的項目,那GTX280的領先絕不止60%。
第七章/第二十四節 多卡系統:GTX280 SLI效率測試
NVIDIA大名鼎鼎的「The Way」計劃是顯卡遊戲性能的保障,在《失落星球》和《生化奇兵》中獲得了幾乎100%的提升,實現了1+1=2。在DX10理論測試3DMark Vantage中雙卡提升了近90%,而大部分遊戲中尚難達到,這還需要驅動去為每一個遊戲優化,當然這對NVIDIA並不是難事,畢竟他們的驅動團隊在業內實力首屈一指。目前雙卡SLI平均提升52.5%,對於一款旗艦產品來說已經足夠。
第七章/第二十五節 多卡系統:GTX280三路SLI效率測試
三塊頂級旗艦放在一起,目的就是為了攀登性能的巔峰。三卡的性能提升極度依賴驅動優化,協調3個GPU並不是一件容易的事情,遇到《雷神戰爭》這種被驅動團隊忽略掉的非主流遊戲,成績就出現了嚴重的反降。像《半條命2》這種單卡已經150幀的遊戲,瓶頸在CPU,且速度已經足夠流暢,再度提高也沒有意義。
對於要求較高的DX10遊戲,三路GTX280的效率還是令人滿意,許多遊戲的速度提升都達到了2倍,甚至2.5倍,這基本達到了三路SLI的性能上限。相對單卡平均提升80%,這只是首發驅動,如果NVIDIA願意繼續優化,這些成績的提高指日可待。
第七章/第二十六節 多卡系統:GTX200系列顯卡全平臺功耗測試
我們的功耗測試方法就是直接統計整套平臺的總功耗,既簡單、又直觀。測試儀器為Seasonic的Power Monitor,它通過實時監控輸入電源的電壓和電流計算出當前的功率,這樣得到的數值就是包括CPU、主板、內存、硬碟、顯卡、電源以及線路損耗在內的主機總功率(不包括顯示器)。
GTX280三路SLI的整套平臺功耗接近800W,當然這並難不倒發燒的骨灰級玩家。用三路SLI的總功耗減去GTX280的單卡功耗,我們就能得出GTX280的單卡滿載功率,大概是240W。和以往的NVIDIA顯卡待機功耗偏高有本質的改變,本次GTX280單卡待機時功耗能下降150W,已經足以叫板AMD方面引以為豪的PowerPlay,相當驚人。
GTX200系列顯卡待機時核心顯存頻率變化不大,NVIDIA採用的是降低電壓,並讓核心部分電晶體進入「睡眠」狀態,運行3D程序時再喚醒。不過從三路SLI的待機功耗來看,多出兩塊顯卡後只增加了100W,作為從卡的GTX280待機功耗已經跟中端顯卡看齊了。另外,如果配合NVIDIA的780a主板,支持「混合動力」的GTX200系列顯卡均可在待機狀態下關閉,使得顯卡功耗近似為零。
第七章/第二十七節 視頻解碼:高清CPU佔用率測試
GTX200核心包含了跟G92核心一樣的PureVideo硬解碼單元,其能完全硬解碼H.264編碼高清視頻,部分硬解碼VC-1編碼高清視頻。
雖然GTX200核心在無法完全硬解VC-1視頻,但是頂級旗艦顯卡一般都會搭配頂級的CPU使用,GTX280在解碼高清視頻時CPU佔用率控制在5%左右。畢竟音頻和硬碟讀取都會對CPU形成一定的負擔,所以在面對可完全硬解碼的H.264視頻時,CPU佔用率也不可能徹底零。
第七章/第二十七節 CUDA應用測試:BadaBOOM視頻編碼
NVIDIA聯合Elemetal製作了名為BadaBOOM Media Converter的視頻轉換工具,可以將眾多的視頻格式轉換成直接能在PSP、iphone等流行手持數碼設備上播放的視頻格式。軟體基於CUDA開發,最大限度的利用GPU加速。不過目前這款軟體尚處在測試階段,僅支持GTX280和GTX260,且驅動程序必須使用ForceWare 177.34。測試系統基於非常高端的QX9770處理器,這也方面比較頂級CPU和頂級GPU在編碼能力方面的差距。
BadaBOOM的界面簡單,選擇需要壓制的視頻和需要生成的格式即可。中間的滾動條可以設定轉換品質,我們使用最高畫質,輸出為iphone的480×320解析度,壓縮一段MPEG2編碼的動畫視頻。
這段視頻就是NV利用Autodesk MAYA軟體製作的首部動畫《The Plush Life》,這部720P的片源播放時間近12分鐘,GTX280的實時編碼速度達到了140.7幀,完成整個編碼過程僅用22秒。而換用傳統的iTunes利用CPU單獨編碼整個過程卻耗費了110秒。
點擊下載720P清晰版視頻
這段視頻就是在一臺電腦上同時啟用GPU壓片工具BadaBOOM和CPU壓片工具iTunes編碼《The Plush Life》,兩者的速度差距直觀的放在大家眼前。目前BadaBOOM只是測試版,相信正式版本可以支持更多的CPU,讓中低端顯卡用戶也能感受到CUDA帶來的喜悅。
第七章/第二十八節 CUDA應用測試:科學計算Folding@home
由史丹福大學發起,旨在通過分布式運算研究各種疾病蛋白質摺疊原理的Folding@home計劃,早在2006年就曾經推出過顯卡用客戶端,但僅限A卡。今年早些時候的第二代GPU通用計算客戶端仍然僅支持HD2000和3000系列,N卡一直無緣這項可以說是全球最普及的顯卡通用計算應用。
目前NVIDIA CUDA顯卡已經加入Folding@home計劃,資料表明GTX280顯卡可以在一天內模擬超過650納秒的蛋白質摺疊,而HD3870隻能達到大約170納秒,PS3僅僅100納秒,四核心處理器更是不過4納秒。這就是說,GTX280在這方面的性能是四核處理器的160多倍。
這個Folding@home需要登陸網際網路以便分配任務,使用相當簡單,用客戶端運算接受到的分段任務,再將結果回執伺服器。此時我們就已經為科學計算貢獻了自己的一份力量。
為了協助開發新的GPU客戶端,NVIDIA組建了一個名為「Whoopass」的小組。雖然他們只有四五臺機器,但憑藉GTX280的強大性能,很快就躋身於全球貢獻最大的5%行列之中。Folding@home小組領導、史丹福大學助理教授Vijay Pande稱,即使全球NVIDIA CUDA顯卡用戶中只有1%參與到這一項目中來,也能讓Folding@home迅速成為全球最強大的高性能計算系統,處理能力可達60-80PFLops。
第八章 全文總結與未來GPU/遊戲展望
第八章/第一節 飯田慶太:GTX 280帶給遊戲更多的機會
飯田慶太:NVIDIA亞太內容管理總監飯田慶太,負責NVIDIA與遊戲軟體廠商的合作,對於遊戲和顯卡的互動作用有著比較深入的見解。
新顯卡提供無與倫比的圖形質量
很顯然,GeForce GTX 280和260將提供無與倫比的圖形性能和質量。與此同時,這些新的圖形晶片將會首次支持動態實時渲染,從而將遊戲娛樂提升到新的高度。
柯南時代
對於目前市場上現有的遊戲,當你讓這些最新的遊戲以高解析度或者極高解析度(英文縮寫為XHD)運行,甚至把所有的特效都打開的時候,在GTX280和260中實現的第二代統一架構也可以讓你流暢地運行遊戲。許多遊戲將從GTX 200系列GPU(圖形處理器)超強的處理能力中受益,其中包括:Funcom開發的《柯南時代》、Capcom開發的《失落的星球:殖民地》和《鬼泣4》。
Far cry 2,遊戲對硬體的要求越來越高
但好處顯然不止於此。開發者還可以利用GTX 200 GPU(圖形處理器)中的能力來實現驚人的物理效果模擬。NVIDIA的PhysX物理引擎將很快支持GeForce加速——許多一流的開發商已經把GeForce PhysX應用到遊戲中,並且看到了極好的效果。一些支持GeForce PhysX,即將上市的一流遊戲包括:Ubisoft開發的《孤島驚魂2》(英文為Far cry 2)、Capcom開發的《生化尖兵》(英文為Bionic Commando)、Nurien開發的《Mstar》、 GSC Games開發的《S.T.A.L.K.E.R:Clear Sky》以及Natural Motion開發的《Backbreaker》。
說的稍微深入一點,但也同樣激動人心的是我們最近和NaturalMotion公司的合作,這個合作項目將把我們的PhysX物理編程接口與他們的Morpheme動畫引擎組合在一起。從Morpheme 2.0發布版開始,大家就可以看到合作的成果了。很快,在利用GeForce平臺上的PhysX和Morpheme開發的遊戲中,你將會看到驚人的動畫,包括模擬的動畫和動態的動畫。
Backbreaker,物理引擎會給遊戲帶來新變革嗎?
Backbreaker是一款美式足球遊戲,在裡面有前所未有的最真實的球員動畫。請注意看看!世界上最好的物理處理器(GeForce GTX280和260)已經整合了最先進的、被廣泛接受的物理引擎(PhysX),為我們帶來了前所未有的完美遊戲平臺。並且很快得,甚至動畫、動態或模擬的動畫都將在GPU(圖形處理器)上進行處理。我們把這些進步合稱為「動態現實」。
Console平臺的現狀給予顯卡更多機會
我們注意到,新一代家用電視遊戲機,現在任天堂Wii銷售優勢很大,但是Wii性能又比較弱,畫面來說和上代主流機PS2相比進步不大。如果Wii最終獲勝成為主流,PC遊戲在畫面上將會極大領先Console遊戲,這對於PC遊戲和顯卡都是一種機會。
Wii的遊戲畫面某種程度上確實會給PC遊戲更多機會
遊戲主機是一種很棒的娛樂設備,它們可以提供「即插即用」的遊戲體驗,同時,這種體驗是固定的。換句話來說,就圖像質量而言,使用遊戲主機的玩家——比如一個正在玩《俠盜獵車》的人,他的體驗和所有其他玩同款遊戲的人完全相同而對於使用電腦玩遊戲的玩家而言,他們所得到的體驗則依賴於多種因素,當然最大的影響是來自於GPU(圖形處理器)。
遊戲主機的規格在五到六年的時間內保持不變。因此,玩家不能夠期望遊戲主機上遊戲的圖形質量能夠與裝備最新GeForce GPU(圖形處理器)的電腦相媲美。
PS3的GPU RSX
在遊戲主機遊戲開發商的教育和支持方面:在某種程度上,我們做了一些工作。我們很高興回答他們的問題(特別是關於PS3的RSX處理器,因為我們熟悉這個)。但是,我們並不是Wii,PS3或Xbox 360這些平臺的所有者。一直以來,為開發商提供的支持是由平臺所有者,如任天堂、索尼和微軟來管理的。
OL遊戲也會獲得更多機會
在與許多最受歡迎的網路遊戲的合作方面,我們有很長的,同時令人驕傲的歷史。《魔獸世界》、《天堂2》、《Soul of the Ultimate NATIon(SUN)》、《柯南時代》和《最終幻想XI》,以及其他許多網路遊戲都參加了我們的「遊戲之道(「The Way It''s Meant To Be Played」)計劃。
OL遊戲也會因新顯卡有全新的體驗
Webzen開發的Huxley是一個廣受期待的多人在線的第一人稱射擊遊戲——在它的開發過程中,我們就已經與他們合作,這是從2004年開始的。Nurien(我想這就是你所指的韓國網路遊戲開發商)有可能開闢一個新的領域。它不僅獨特、新穎,而且不同於其他的網絡社區,它將提供極佳的視覺體驗。我們已經與他們合作很長時間了,特別是關於GeForce PhysX功能的實現方面。當天使跳舞的時候,她們裙子極其真實的運動的畫面是你絕對不能錯過的!
第八章/第二節 鄧培智:性能翻倍 DirectX 10.1非主流
鄧培智:NVIDIA中國區產品技術經理,專營顯卡多年,對於顯卡技術有著非常深刻的見解和研究。
產品性能:還是翻倍
GeForce GTX 200系列GPU在架構上和上一代統一架構GPU產品相比有了進一步改進。首先是增加了核心數量,由上一代的最多128核增加為240核。其次在架構內部針對圖形和計算兩方面的應用都作了進一步的優化,支持雙精度浮點計算。GeForce GTX 200系列GPU架構上的改進帶來的直接變化是無論在圖形和並行計算兩方面性能又有較大的提升;雙精度浮點數的支持擴展了GTX200系列GPU在科學計算中的應用範圍;而增加一倍的寄存器數量無論對複雜的shader程序還是並行計算程序都有更高的效率。另外,GTX 200系列GPU在顯存帶寬上與原有產品相比也有接近翻番的提升。
DirectX 10.1:不會是主流
唯一支持DirectX 10.1的遊戲最近取消了支持
到目前為止,DirectX 10.1尚未成為主流的3D API,目前幾乎所有的新遊戲均採用DirectX 10或者DirectX 9而非DirectX 10.1。 DirectX 10.1是一個DirectX 10較小的改進版本。
功耗:提升物有所值
滿負荷情況下GTX 280的功耗為236W左右,考慮到這個GPU的驚人性能,我認為這個功耗還是合理的。對於高端用戶來說,他們對絕對的功耗數字也許並不敏感,更高的性能才是他們追求的。實際上,單純談論功耗是沒有意義的,更有意義的是每瓦的功耗能夠提供多高的性能。在這個方面,NVIDIA一直是領先業界的。比如說我們目前正在銷售的Geforce 9600GT和9800 GTX這樣的產品,其峰值功耗都不很高,但是性能非常好。與目前最快的CPU相比,GeForce 9800 GTX在與之類似的功耗下可以提供至少5倍的浮點計算能力,這樣比較才是更合理的方式。
未來:保持技術和產品創新
繼續保持技術和產品創新,本著為用戶解決最複雜的視覺計算問題的目標,為用戶帶來更完美的視覺體驗。
第八章/第三節 全文總結
● 圖形性能測試總結:在GTX200系列顯卡強大的性能面前,給我們印象最深的非全特效流暢運行Crysis莫屬,雖然9800GX2也能達到同樣的效果,但是靠的卻是兩個核心。對於發燒友來說頂多使用兩塊9800GX2,但是GTX280就不同,支持三路SLI是其攀登性能巔峰的殺手鐧。
GTX280在3DMark Vantage中流暢的畫面與不錯的成績令人刮目相看,可以說在這方面GTX200核心是沒有對手的。3DMark Vantage測試項目加入了不少物理計算來考驗CPU性能,實際上將這部分運算交給GPU更加合適,GTX200核心具備了更強的物理加速技術,但這需要遊戲的支持。我們有理由相信將來會有不少PC遊戲涉及物理運算,並且讓GPU來處理,屆時GTX200系列的潛能就可以進一步發揮!
● 並行計算測試總結:
14億個電晶體是個什麼概念?可能很多人還不太理解,這裡舉個例子:Intel下一代六核心至強7400處理器(Dunnington核心)擁有19億電晶體,這顆處理器是由三顆雙核心處理器封裝而成,外加16M三級緩存,所有的這些累計起來也才19億,並使用45nm工藝製造而成。而GTX200核心是真正的原生單GPU,使用較早的65nm工藝製造而成,GTX200不僅是最複雜的GPU,而且是史上最複雜的半導體晶片,它的誕生具有劃時代意義!
在NVIDIA連續三年穩居3D圖形王座的格局下,GTX200的發布不僅僅是為了鞏固王位,其更高層次的目的就是,從3D圖形走向通用計算,從而向CPU發起挑戰。GTX200的核心架構是圖形架構和並行結算架構的統一體,NVIDIA在設計之初就考慮到了通用計算的需要,為此對核心諸多模塊進行了優化設計,硬體方面做好了充分準備;在軟體方面,基於C語言的CUDA平臺被越來越多的開發者所採用,簡單易上手的開發套件為GPU的通用計算掃清了障礙,現在GPGPU被大規模採用只是時間問題。
NVIDIA只花了一個月的時間,就完成了將PhysX物理引擎從PPU到GPU的移植,由此足以證明CUDA強大的功能及易用性。現在,很多基於GPU的非3D程序正在開發中(已經有Beta版本),比如本文中測試過的BadaBOOM視頻轉換軟體、Folding Home分布式科學計算、Adobe Reader PDF瀏覽加速、PhotoShop CS4硬體加速、圖片/地圖搜索加速……可以預見的是,未來必將會有更多的GPU非圖形應用走入千家萬戶!
● 迎接視覺計算時代來臨:
從GeForce(民用消費)、Quadro(專業設計)、Tesla(科學計算)再到針對移動手持設備的Tegra,黃仁勳(Jen-Hsun Huang)領軍的NVIDIA正一步步開創著屬於他的圖形帝國、引領視覺計算時代的來臨。相比CPU處理器多年面臨的需求不足,NVIDIA創造需求推陳出新的做法使其更受推崇。
然而橫擋在NVIDIA面前的仍然是座大山(Intel),儘管這座大山看上去那麼遙不可及。但在黃仁勳看來,3D圖形終將成為PC(個人電腦)產業中,最重要的應用之一。<