以性格而言,雖然都是大老爺們兒,但我們這群ZOL顯卡頻道的編輯確實有點像喵星人——全是好奇的動物。我們都希望自己「想知道更多」的欲望得到滿足,所以每當一款新的晶片級產品即將問世時,我們都喜歡用組合情報以及既有現象加以延伸的形式來進行關於新顯卡的猜測遊戲。這遊戲我們玩兒了很多次,我們很享受這些預測過程帶給我們的思考和衝擊。您呢?還想跟我們在玩兒上幾次麼?
遊戲的機會又來了——根據坊間日盛的傳聞,一塊新的NVIDIA顯卡將於2月份面市了。
先來清點一下之前預測遊戲的「戰績」吧,從GeForce GTX 660Ti開始一直到GeForce GTX 780,我們一共進行過四次新顯卡架構規格的預測遊戲。除了Radeon R9-290X以巨大的改進超出了我們的預期之外,GeForce GTX 660Ti、GeForce GTX 660以及GeForce GTX 780皆以我們所預測的架構形態登場。4次猜測命中3次,這樣的「勝率」應該能支撐我們繼續玩兒下去了吧。
maxwell要來了?
那麼即將在2月份到來的這款新顯卡,我們是否會再一次猜中它的架構和規格呢?這個估計要猜過之後才知道。至於怎麼猜,就要看到目前為止洩露出來的可用情報了。關於這款新顯卡,我們所知其實並不多,唯一能用得上的已知條件就是它的晶片代號。
這款新顯卡的晶片代號,是GM107。沒錯,maxwell。
》現在去顯卡道轉轉《 | 》看看今日最新文章《
》顯卡精彩美圖匯總《
● maxwell要幹什麼
既然預測的是GM107,那M所代表的maxwell架構也就成了我們無法迴避的話題。從2011年8月首次曝光開始,maxwell架構就一直處在猶抱琵琶半遮面的狀態之中。Kepler上預留的各種懸念,NVIDIA經常拿出來念叨的數倍於前代的性能功耗比提升,還有Project Denver,這些懸念一直都在增加maxwell架構的神秘感。
歸根結底,maxwell到底是什麼?
maxwell的起點:NVIDIA與史丹福大學聯合發布的Echelon架構論文
儘管NVIDIA並沒有直接公布,但透過對《Power and Programmability.The Challenges of ExaScale Computing》等論文以及情報的綜合解讀與適當的推測,我們還是能夠大致勾勒出maxwell架構的基本特徵的——maxwell架構的主要目的,在於改進整個GPU架構的任務管理層級和機制,達成的手段則是使用全新設計的LOC(Latency Processor)單元來取代傳統的GTE(Giga Thread Engine)。
具體來說,NVIDIA的核心目的在於同時提升產品的並行處理能力和性能功耗比,對於GPU邏輯結構的一切改進,都要為這一目的進行服務。在maxwell之前的各架構當中,NVIDIA分別完成了並行度的拓展方式以及ALU團簇結構的改進,截止到Kepler為止,NVIDIA已經在底層創造出了一個達成度相對較高的ALU團簇結構和宏觀並行結構,所以在maxwell當中,我們認為NVIDIA不會再進行過多的相關改動。換言之,maxwell將會在ALU團簇結構基本保持不變的前提下直接加入基於ARM架構的LOC,甚至有可能直接集成一枚或多枚denver處理器。
先期公布的Denver架構流片細節
還是包含192個ALU的SMX,還是差不多的GPC結構,也許最大的maxwell會有更多GPC/SMX,但不會有什麼觸及本質的細節調整,甚至ROP等後端也都不會有什麼數量之外的變化。maxwell的相當一部分結構將會沿用Kepler的設計,兩者最大的區別將來自從GTE到LOC的角色轉化。甚至不嚴謹的說,我們認為maxwell就是「大頭」+「大塊頭」版的Kepler。一切maxwell的核心改變,均來自「大頭」的LOC。
那麼,是什麼因素支撐了我們的猜測呢?
● 扁平化的未來
為了能夠比較通俗的進行解釋,我們決定用一個不那麼嚴謹的方式來舉一個不怎麼準確,但卻十分好理解的例子。
我們的一位同事前一陣跳槽了,他去了一家做手機的名字是某種糧食的公司高就。同事去了糧食公司之後對我們大發感慨——這間公司扁平化的好厲害,各級主管都是只管具體事兒的小頭目而已,定調的只有綽號「雷布斯」的公司老總一人。所有人,哪怕是最底層的實習生,只要一有想法,都可以去直接敲「雷布斯」的辦公室門然後進去PK,無論天文地理還是雞毛蒜皮,只要想法可行,「雷布斯」都會直接把想法變成項目交給對應的人員去推動,甚至可以繞開各個小頭目們。
扁平化企業結構的優勢(圖片源自互動百科)
雖然並不是所有項目都會以這種方式在公司內部產生、發酵然後成型,但糧食公司這種扁平化的組織架構確實給公司中許多項目的產生和推進創造了有利的條件,它可以讓信息更快速的在決策層和基層之間進行流動,減少傳統企業架構當中多層管理結構對於信息交換和決策所造成的遲滯,還可以帶來更高的項目執行效率,提升公司的執行能力和競爭力。糧食公司這兩年的蓬勃發展,與扁平化有著很深的聯繫。
當然,有優勢就會有考驗,扁平化不代表一盤散沙,扁平化公司內部的原始執行效率和單位執行效率必須要高,而且依舊需要針對性極強的模塊化分工和協作來達成任務的高效執行。在此基礎上,扁平化還需要頂層的決策者相當強勢並且十分全能。「雷布斯」不一定非要專精於某種領域,但他必須是,起碼要儘可能的是一名全才,能夠了解公司業務相關的一切或者是絕大多數相關領域,可以對信息和想法是否對公司有益以及如何發展進行判斷和決策,甚至還要明確將任務交給誰才幹的最快等等細節問題。
最理想的扁平化需要一個無比強大的領導,當然也可能累死他……
扁平化要求決策者無比強大,他的強大是信息快速交換、決策快速成型以及任務正確推進的一等要素。如果能夠達成扁平化對決策者的要求,同時公司內部能夠保有極好的執行效率和分工協作能力,扁平化的企業應該可以保持旺盛的活力和很好的競爭力。
當前的GPU,尤其是NVIDIA GPU所要面對並解決的,正是與扁平化公司相同的問題。
● 扁平化的maxwell
就像一般的健全發展企業一樣,GPU的發展也是一個循序漸進的過程。在GPU邏輯結構的初級階段,複雜細膩的多級任務管理機制有助於細化任務,提高任務的分派效率和準確率,進而提升單元復用率並提升架構的總效率。但是,隨著ALU規模的肥大化,分級任務管理機制的規模也會跟著膨脹,越來越多的ALU需要越來越多的分級管理機制進行有效的管理,這顯然會導致管理體系慢慢走向過於龐大的方向,消耗過多電晶體並佔據更多的晶片資源。
不僅如此,同樣跟每一個繁文冗節過多而且部門派系龐大並且相互制肘的企業一樣,過於龐大複雜的多級管理機制也會給任務發放和回收帶來明顯的遲滯問題,大量能源和延遲會被浪費在數據交換流通以及通訊而不是運算和操作上。多級管理機制的膨脹同時還會提升驅動及軟體對硬體的管理和使用成本,增加編程端的優化難度,面對日益龐大的硬體,程式設計師們在構築算法時需要更多的考慮通訊問題並非操作本身,他們的精力將可能會因此而被更多地引導到數據結構之類的層面,如何提升操作效率或者進行更有效的計算反倒成了退一步之後才會考慮的問題。這不僅無助於硬體實際性能的提升,降低架構的性能功耗比,同時還會制約軟體和算法的進步。
傳統NVIDIA GPU的多級任務管理機制
凡事總有過猶不及,複雜嚴謹的多級任務管理機制在GPU的初期階段是必要和必須的,但在GPU規模日益龐大的今天,它反倒成了進步的枷鎖和絆腳石。所以就像Cache肥大化之後Intel從xbar轉向ringbus一樣,GPU的肥大化必定催生任務管理機制從多級回歸到單級。
於是,逐步接替現有任務管理機制的LOC來了。
在我們所推測的maxwell架構當中,LOC單元就是整個GPU的「雷布斯」,它將會以比GTE更高的效率遂行整個邏輯結構的任務決策和管理工作,更多地介入但又不會完全接管原本由其他下級任務管理機制承擔的與執行單元的溝通活動。LOC會直接與底層執行單元進行通訊並傳遞任務,而底層單元執行完畢的部分任務結果也將能夠直接遞交給LOC進行回收,不再需要像過去那樣通過逐級回歸的方式來完成上繳。顯而易見的,LOC單元的引入不僅能增強GPU的最上級管理體系,改善整個GPU的任務密度和任務傳遞有效性,同時也可以降低整個GPU的通訊成本並提升底層單元的執行效率。
面向ALU團簇的二級任務管理機制(Fermi架構)
從多級任務管理機制回歸到扁平化甚至單級任務管理機制,需要單級任務管理機制本身具有強大的執行/決策能力和足夠高的靈活性,它(LOC或者其他一級任務管理單元)不僅要能夠迅速的對不同任務做出正確反應,還要能實時掌握原本拆分給多級並行管理機制來管理的龐大ALU團簇所處的狀態並直接對其進行有效統御。設計者需要為充當單級任務管理機制的邏輯結構與ALU團簇設計更為直接高效的通訊機制,驅動端也必須做出大量的對應優化工作,這些工作都是前所未有的。既然前所未見,試水就是一個必要的選擇了。
Echelon架構細節
伴隨著數代架構的演進和積累,NVIDIA目前所擁有的各個底層執行結構在現行環境下的綜合表現,尤其是性能功耗比表現已經相對成熟,我們認為NVIDIA以這些相對成熟的結構作為基礎和對象來完成試水是一個很合適的選擇。所以從謹慎的採用漸進式的方式逐步取代現行結構的角度出發,以一個成熟的,比較小但又不是小的離譜的現行結構作為切入點進行LOC的引入試水是合理的。
扁平化的需求和切入點的合理選擇,這就是我們對maxwell首秀形式做出前述預期的依據。如果GM107是第一個被推出的maxwell,NVIDIA在推出GM107之後才推出更大規模的maxwell,那也不是什麼奇怪的事情。
但是,GM107並不一定就會採用maxwell架構。
● 但是……
沒錯,雖然我們對maxwell進行了熱情滿滿的預期,同時也對GM107採用maxwell架構的合理性做出了分析,但GM107並不一定就會採用maxwell架構,因為maxwell面臨著兩個問題。
第一個問題,同時也是最致命的問題,就是Project Denver的進度。儘管NVIDIA已經在CES2014展會上公布了以Denver處理器為CPU的Tegra K1,目前的denver應該可以被認為處於架構凝固狀態,但除此之外,沒有任何其他證據能夠證明它已經最終定案,並且已經完成了與現有GPU邏輯結構的融合。LOC單元需要強大而且成熟的邏輯結構,選擇改進型的ARM處理器作為基礎也顯示了NVIDIA對它的重視,如果denver沒有完成,我們實在無法做出maxwell已經OK的定論。
唯一證明Denver存在的圖片源自NV的PPT高手……
第二個制約GM107當中部署maxwell架構的要素來自可製造性層面,那就是TSMC的16/20nm工藝進度。對於maxwell架構,尤其是第一代maxwell而言,最理想的選擇就是統一進入到20nm或者16nm FinFET工藝當中,這可以保證整個maxwell家族的EDA一致性,讓NVIDIA更好地解決整個maxwell家族晶片的可製造性問題。如果變更工藝,denver和整個GPU架構都將經受多重工藝帶來的布局和可製造性問題考驗。更何況TSMC的16/20nm工藝目前進展都很緩慢,20nm要在2014年一季度才會正式進行生產部署,而且工藝細節已經將其指向了SoC領域,至於16nm FinFET工藝,樂觀估計也要等到下半年才會露面。以目前的時間點來看,GM107採用28nm工藝的概率明顯更大。採用28nm去生產成型的maxwell結構,這是一個風險極大的選擇。
TSMC的20/16nm工藝遠水解不了近渴,而且還可能會「賣隊友」
所以,我們是很希望GM107能一口氣跑步進入maxwell時代,並且為後續架構充當開路先鋒的,但一廂情願的希望不一定甚至可以說不可能成真,儘管它叫G「M」107,但並不一定就會基於只能真正意義上的maxwell架構。所以我們依舊要面向實際,給出基於其它可能性的猜測。
● 基本遊戲規則
對於預測來說,「規則」的訂立是至關重要的。正確全面的考量可以幫我們逼近真實,同時也可以在預測過程中給我們帶來更多理性思考的享受。出於這種要求,同以往一樣,結合前面對maxwell架構以及現實狀態的分析,我們將對GM107以及GeForce GTX 750Ti的預測規則設定成了三個方面:性能互制,架構風險以及綜合市場布局。架構風險部分在前頁實際上已經完成了討論,所以接下來,我們將要看到的是限制GM107整體規模的制約條件,性能和市場。
以代號而言,GM「107」明確無疑的說明了它的定位,這是一款接替GK107的架構。其性能定位將會處在當前的中端~中低端產品之間,並應該更加接近前者。當前NVIDIA陣營當中處於中端性能的產品是GTX650Ti boost/GTX650Ti,而中低端則是GTX650,兩者分別基於2/3開放的GK106以及完整規格的GK107,因此GM107架構的性能無疑將處在三者之間。由於其性能具體會處在何種地位目前仍無人知曉,所以我們只能接著求助於市場要素了。
NVIDIA現部署於千元級市場的賺錢利器——GK106核心
從市場分級來說,當前的GK107架構產品主要集中在799~899的中低端區間,而GTX650Ti/GTX650Ti boost則分別位於千元級至1299這一當前出貨量及利潤均十分豐厚的區間上。所以如果GM107的目的是取代GK107,而性能又位於GK107和2/3開放的GK106之間,那麼在當前庫存產品的正常清貨節奏以及競爭對手沒有做出反應的前提下,GM107以千元級的首發定價及性能出現,是比較符合NVIDIA賺錢本意的可能情況。
換言之,按照過去兩年間AMD與NVIDIA的一貫表現,比較靠譜的GM107的產品將有可能以略高於GTX650Ti但處於GTX650Ti boost以下的性能,以999~1099的定價登陸市場,並視對手動作以及AIC清理上代產品庫存的情況在後續的市場運作中通過調整最終降至799元及以下區間。
有錢賺才是最重要的,這便是我們設定遊戲規則的最核心要務。
面向中低端的公版GTX650
我們暫時不去評判這種可能性所導致的溢價問題,自從HD7800首發開始,這種事情在AN之間已經循環上演了多次,而且畢竟這僅僅只是我們為了預測架構形態而設置的假想條件而已。所以如果NVIDIA真的如我們所預測的那樣給了這麼個過高的定價,首測中再對其進行譴責也不遲。
既然性能和價位與GTX650Ti相近並有可能同時取代它和GTX650,GM107應該還要具有其他吸引人的要素和條件才行。我們並不知道NVIDIA將會為GM系列架構附庸怎樣的新鮮功能,以目前的情況來看,除了可能引入LOC這個可能無法成真的預期之外,似乎也沒有什麼特別的功能會達到相當誘人的地步。因此我們決定為GM107再附上一個誘人的條件,那就是比2/3開放的GK106和GK107,也就是GTX650Ti/650更高的性能功耗比。
定價千元,性能和性能功耗比均比GTX650Ti有進步,遊戲規則已定,我們可以開猜了。
● 新瓶「陳釀」——GM107A
我們的第一種GM107猜測方案有些乏味,雖然可以算是一個全新的架構,但它依舊基於完全成熟的Kepler而非新一代maxwell。不過話說回來,這個被暫時命名為GM107A的架構擁有滿足我們預設遊戲規則的一切條件,對NVIDIA來說是一個相當優秀的選擇。
雖然叫「GM107」,但這貨明顯是基於Kepler的新架構
在我們的假設當中,GM107A擁有4組SMX單元,分別居於2個GPC中來組成並行結構,每組GPC分別對應一個雙通道64Bit顯存控制器和8個ROP單元,這與GK104/106的基本形態是類似的。雙GPC意味著該架構擁有兩組光柵化處理單元,其單周期的幾何輸出以及光柵化能力為同頻GK104架構的一半。
或者說直白點,它其實就是原生的「半顆」GK104晶片。
GM107A等於二分之一顆GK104
經過計算,我們認為採用這種結構的GM107A的晶片面積將會在150平方毫米左右(147.5,封裝後大於150),不僅成本佔優,同頻功耗也將會明顯低於規模相當但使用2/3規模GK106架構的GTX650Ti/GTX650Ti Boost。與此同時,更低的晶片面積和功耗賦予了GM107A更好的高頻運行能力,我們預計GM107A的默認運行頻率將會達到1050/6000MHz左右,更高的運行頻率將會讓GM107A輕鬆達到甚至超越GTX650Ti的性能。
GM107A雖然沒有採用maxwell,但它同時擁有低風險、成本更低、性能功耗比更高以及性能符合預期等多方面的優勢,相對而言確實是一個不錯的選擇。
● 新瓶「舊酒」——GM107B
接下來登場的GM107B同樣是新架構+老面孔,而且在我們所有的預測中,這一架構的成本和性能功耗比表現應該是最差的。但與之相對應的是,這款預測架構將會擁有最高的理論性能上限,同時功耗等各方面指標也並沒有因此而大幅攀升。
基於另一種Kepler(GK110 like)的GM107B
GM107B擁有6組SMX單元,分別居於2個GPC中來組成並行結構,每組GPC分別對應一個雙通道64Bit顯存控制器和8個ROP單元,這與GK110的基本形態類似,同時也是GM107B與GM107A最大的區別來源。在幾何處理能力方面,GM107B倒是與GM107A類似,均為同頻GK104架構的一半。但是由於更大數量的ALU以及材質單元總量,GM107B的圖形性能將會超過同頻的GM107A。
GM107B的結構參考——GK110
由於GPC結構調整成了GK110的形式並因此而擁有了更多運算和圖形結構,GM107B的晶片面積較之GM107A有了相當程度的增長。根據我們的計算,GM107B的晶片面積將不會小於180平方毫米(176.4,封裝後將可能大於180),更大的面積會讓它在成本及功耗控制層面上的表現遜於GM107A。另外,為了「控制」性能同時進一步控制成本,我們預計如果最終登場的GM107是形態B的話,NVIDIA將很有可能會關閉一至兩組SMX單元。
更大的晶片面積和更複雜的性能控制方式影響了我們對GM107B的好感度,但這些特性也賦予了GM107B更多的可能性。如果操作得當,GM107B很有可能會變出大量衍生品並覆蓋相當寬泛的市場區間。
● 新人新氣象——GM107C
接下來登場的GM107C是我們最希望但卻又最不可能見到的GM107形態,它將會基於maxwell架構,同時依舊遵循我們所制定的預測規則細節。
真正意義上的GM107,不過可能性嘛……
GM107C同樣擁有4組SMX單元,分別居於2個GPC中來組成並行結構,每組GPC分別對應一個雙通道64Bit顯存控制器和8個ROP單元,也就是說它的基本結構規模與GM107A一致,所以兩者的各項參數和理論性能也趨於相同。
GM107C的最大不同點在於以一枚改進自Denver處理器的LOC單元來取代傳統Kepler架構當中的GTE(也就是我們在架構圖中一致使用的),同時可能會進一步改進整個晶片內部的互聯機構,GM107C當中的NoC將會上升到前所未有的比例,以便能夠配合LOC對任務及底層單元的管理,並改善晶片內部的通訊環境,誠如我們前面所分析的那樣,GM107C將會因此而擁有三種預測架構中最高的執行效率。
雖然晶片面積會比GK107更大,但GM107C的效率是很值得期待的
我們目前還沒有掌握LOC單元的具體尺寸以及它對於面積增長的貢獻情況,也無法確定GM107內部的互聯是否會激增並導致面積急劇膨脹,所以僅對其進行保守的猜測,認為兩者並未給面積帶來過大的變化。基於maxwell結構的GM107C的晶片面積將會在155平方毫米左右,封裝後將會進一步增大。
不過說實話,28nm的maxwell,嗯……就當它是個可能變成驚喜的美夢吧。
● 值得期待麼?
我們今天關於maxwell以及三款GM107可能形態的分析到這裡就算是結束了,根據坊間的各種傳聞,GM107架構已經凝固,現在應該正躺在AIC的生產線上待產。用戶們只需靜靜等待,就能在近期與它見面了。
所以接下來的問題就很直接了——GM107以及maxwell架構,究竟值不值得期待。
階段性的G80~GF100架構發展過程(圖片引自後藤弘茂先生博客)
我們曾經多次提到過,NVIDIA的GPU發展演進過程是一個擁有既定目標的漫長演化過程,這個過程的最終目的在於推出一款能夠很好地處理並行線程和指令吞吐,擁有良好雙精度運算能力,單元復用率足夠高同時每瓦特性能出色的GPGPU構架。從G80開始的每一代NVIDIA架構都有自己的任務和定位,它們各自任務的完成將NVIDIA的整體架構演進推到了今天的高度。同樣的,maxwell這條道路上也有自己的任務和所要扮演的角色。
LOC的引入不僅會改變傳統GPU結構當中的任務管理模式,提升GPU的執行效率和性能功耗比,改善編程人員的工作環境,同時還將為現階段的GPU打開一扇嶄新的大門。LOC的豐富可編程性將會給GPU效率提升以及運算應用前景帶來更多可能性,其自身所保有的運算能力將會在GPU並行計算當中發揮重要的作用。NVIDIA的GPU架構以及融合計算架構,將從maxwell開始進入全新的階段。
GM107究竟是Kepler還是maxwell呢?
與maxwell架構相比,GM107的意義就要更加直白一些了。如果它採用了maxwell架構,那麼它將會充當整個maxwell家族的開路先鋒和「試錯員」,為NVIDIA積累大量必要的經驗,同時向用戶們提前揭曉一部分maxwell架構的優秀特性。如果它依舊基於Kepler架構,那麼用戶仍將會有很大概率收穫一款絕對性能及性能功耗比相當優秀且表現成熟的中低端顯卡產品。無論哪種結果成真,對於大多數用戶來說都應該是個好消息。
既然是好消息的話,等等看又有何妨呢?
作為ZOL顯卡頻道的資深編輯——顧老溼,其在GPU技術、架構等方面有著很豐富的知識,在每代新品發布前他都會猜想一下這款產品的架構。這不,隨著GM107的即將到來,他又開始了架構猜想。讓我們一起看看,他是否還會繼續保持全中記錄。