RTX2080與RTX2080Ti最新架構Turing(圖靈)詳細介紹
掐指一算,距離NVIDIA發表GeForce GTX 1080已有2年以上的時間,Pascal架構同時具備高效能與能源效率,繼任者有何表現相當令人期待。Turing架構不僅包含傳統光柵化運算特化的硬體單元,更有加速光追蹤技法的RT單元,以及機器學習Tensor單元。此次NVIDIA宣布利用Turing架構推出GeForce RTX 2070、GeForce RTX 2080、GeForce RTX 2080 Ti共3款顯示卡,首先由GeForce RTX 2080作為先鋒,於9月20日上市,GeForce RTX 2080 Ti則延遲至9月27號,GeForce RTX 2070將於10月發售。
Turing設計不僅包含更新過的SM核心設計,另外針對市場應用趨勢,加入特化的硬體加速單元,Tensor核心用以執行與機器學習高度相關的矩陣運算,RT核心則負責光追蹤運算當中,佔有重要地位的BVH和光線與物件三角形互動。作者手中也拿到GeForce RTX 2080、GeForce RTX 2080 Ti兩款產品,就讓我們抽絲剝繭,從設計到硬體,從硬體到效能一層層揭開面紗。
相對比帕斯卡構架Turing最大的改變就是SM核心的設計改變,Turing架構之中,每個TPC內部包含2個SM,並根據顯示卡等級不同調整數量,譬如Quadro RTX 6000為TU102最完整的36個TPC、GeForce RTX 2080 Ti則削減為34個TPC、GeForce RTX 2080的TU104再減為23個TPC。Turing構架每個TPC內部共有2個SM,並改善SM內部架構組成,官方表示相對於Pascal架構版本,單一CUDA核心的運算效能提升50%(Pascal單一TPC僅包含1個SM)。
其中有2個主要的進步,第一是為新增獨立的整數資料路徑,讓整數指令可以隨著浮點資料路徑一同處理;過去的架構則存在整數與浮點數互斥的狀況,當執行整數指令時,指令配發器並沒有辦法浮點運算工作給後端的運算單元。第二為SM記憶體架構更新,變更為共享式記憶體架構,Pascal為L1 24KB和96KB共享記憶體,Turing SM將2者結合成單一區域,並依據實際運算所需,分成64KB+32KB或是32KB+64KB,存取L1頻寬同時上升至2倍,L1的容量最高也多出1.7倍。
Turing SM相較Pascal SM改良L1架構,變更為共享式記憶體,能夠分配成64KB+32KB或是32KB+64KB,並提升L1存取頻寬至2倍,L2同時加大1倍容量至6MB。每個SM包含64個FP32核心、64個INT32核心、8個Tensor核心、1個RT核心(Pascal缺少後3者,單一SM包含128個FP32核心);以目前遊戲運算平均值,大約每100個浮點運算指令,就有36個整數運算指令,整數運算多為記憶體定址和擷取資料工作,浮點運算則為比較、最大值、最小值等數學運算。整數與浮點運算能夠同步作業,相對而言浮點數效能提升36%。
Tensor機器學習,NVIDIA在Volta架構首次導入用於機器學習的專用處理單元Tensor,這次也放入Turing架構當中,並隨著Microsoft發表DirectML,未來Tensor能夠以硬體加速完成相關作業。對於遊戲來說,也可以期待與電腦AI對戰時,遇到更為千變萬化的戰略。Tensor除了可以支援FP16浮點數運算,Turing更加入INT8和INT4的支援能力,讓可以容忍較低精度的應用提升處理速度。Tensor針對機器學習經常使用的矩陣運算最佳化,單一SM內部包含8個Tensor核心,每個時脈周期可以完成512個FP16乘法與積運算,或是總額1024個浮點運算,將精度調低至INT8則能夠完成2048個運算。
Tensor以硬體加速方式完成NVIDIA自己的NGX,包含近期轟炸各位腦袋的深度學習超取樣反鋸齒,原本利用著色器運算效能進行的反鋸齒技術,將部份工作轉移至Tensor核心進行。透過機器學習訓練,DLSS可以提供比TAA更高的畫面品質,或是在減少輸入樣本的情形之下,提供與TAA相同的4K畫面品質,卻只要TAA一半的運算資源。但缺點是,DLSS需要經過機器學習訓練這一道關卡,因此並非所有遊戲均支持。
圖片來源於網絡,如有侵權,聯繫作者刪除。