5nm+CUDA數量翻倍!NVIDIA新一代GPU太兇猛

2021-01-18 騰訊網

距NVIDIA發布基於Ampere架構的RTX 30系列顯卡已經過去數月,目前已經推出RTX 3060Ti、RTX 3070、RTX 3080和RTX 3090四款產品,之後還會有更多產品加入陣容,不過比起新的RTX30系列成員,玩家們目前最關心的顯然問題還是何時可以買到這些產品。

而在玩家們連Ampere架構顯卡都還未能買到的同時,NVIDIA下一代RTX 40顯卡所採用的Ada Lovelace架構的相關信息已經陸續流出。

下一代架構的命名方式保持了NVIDIA之前一直沿用的科學家姓名,Ada Lovelace中文譯名為阿達·洛芙萊斯,是英國著名詩人拜倫Lord Byron)的唯一合法女兒,她是第一位主張計算機不只可以用來算數的人,也發表了第一段分析機用的算法,她也被公認為史上第一位認識電腦完全潛能的人,也是史上最早的程式設計師之一。

目前曝光的信息主要是基於Ada Lovelace架構的AD102核心,根據以往的命名規則(GA102使用中RTX 3080和RTX 3090上),這個核心應該還會使用在未來RTX40系列顯卡的旗艦級產品上,也代表著該架構在消費者市場的潛在最高性能表現。

新架構全系產品都會將製程工藝升級為5nm,將配備比前兩代更大的緩存空間,AD102晶片將配備12個圖像處理器模塊(12*6架構)、擁有72組紋理處理單元、144組流處理器單元、高達18432個 FP32單元(CUDA核心)和高達66 TFlops的運算性能。

而作為顯卡運算性能的核心參數,AD102提供的CUDA核心是目前RTX 3080所採用的的8704個CUDA的兩倍以上,也接近目前性能最強大的RTX 3090所配備10496個CUDA核心的兩倍,但從這個參數來看,Ada Lovelace架構的理論性能會比Ampere強大概71%。

而在RTX系列顯卡主打的光線追蹤性能表現上,作為核心指標的RT核心數量目前還沒有流出太多有效信息,不過就目前來看升級幅度肯定也不會太弱。

如果NVIDIA能保持這個性能提升幅度,下一代的消費級市場顯卡之爭依然會是老黃繼續保持優勢,而對於廣大普通玩家來說,什麼時候能買到RTX 30系列才是關鍵,畢竟從目前的發售信息來看,Ada Lovelace架構的發布時間應該要等到兩年後的2022了。

相關焦點

  • 基於RTX2060構建TensorFlow-gpu(keras)學習平臺
    建立虛擬環境:conda create --name tf36gpu python=3.6 anaconda2. 激活虛擬環境:activate tf36gpu3.如果機器上有gpu,則安裝gpu版本,沒有GPU就安裝cpu版。版本問題,現在TensorFlow到了最新的2.0.0版本,但是很多函數不兼容1.**版本。因此利用1.14版本,最新是1.15後面幾沒有版本了。2. 安裝tensorflow:pip install tensorflow-gpu==1.143.
  • Win10+GeForce 940MX+Cuda9.2環境安裝PyTorch
    02Visual Studio安裝地址https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/03Cuda9.2安裝地址https://developer.nvidia.com
  • NVIDIA Volta架構GPU或2017面世 12nm工藝
    Volta架構GPU將會由臺積電代工,基於改良過的12nm FinFET工藝。  之前我們也提過今年NVIDIA會推出Volta架構的新GPU,但會被用在NVIDIA與IBM聯合打造的超級計算機算上,基於Volta架構的GeForce遊戲顯卡的具體上市時間仍未公布,但看到Pascal架構今年非常強勢而且暫時未有競品能動搖到其高端產品的地位,NVIDIA極有可能在2017年的新一代顯卡繼續沿用
  • 超算安裝GPU-based軟體 (以pytorch為例)
    這裡就會出問題了,安裝軟體的時候我是在登陸節點訪問存儲節點,一般來說登陸節點無需強算力沒有GPU,但是軟體在安裝過程中會通過獲取當前設備的硬體信息來來決定安裝版本,比如PyTorch,在運行conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch官方安裝命令的時候,如果本機沒有英偉達
  • TensorFlow 攜手 NVIDIA,使用 TensorRT 優化 TensorFlow Serving...
    在這裡,我們運行 GPU Docker 圖像(點擊查看相關說明),從而藉助 GPU 創建並測試此模型:$ docker pull tensorflow/serving:latest-gpu$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \
  • NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
    在Ampere安培架構上,NVIDIA終於升級工藝了,只不過這次有兩個意外——首先沒有選擇臺積電,其次沒有上7nm,而是三星定製的8nm工藝,雖然跟7nm看起來只差了1nm,但實際上是兩代工藝。考慮到NVIDIA之前對工藝的表態,沒用7nm工藝而是三星8nm工藝又在意料之中,最關鍵的問題在於NVIDIA能夠做到多好。
  • NVIDIA下一代GPU架構浮出水面,具有64TFLOPS運算與18,432 CUDA
    當然 NVIDIA 日前聲稱 Ampere 架構、具 10,752 個 CUDA Core 的 GA102 已經最大化三星 8nm 工藝的極限,故要塞入高出近一倍 CUDA Core 勢必將採用用用更先進的工藝,最有可能的就是採用用用 5nm 工藝進行,不過考慮到 NVIDIA 產品周期是兩年之後,若維持由三星代工,亦有可能會採用用用 5nm 改良工藝(例如當前三星 8nm 工藝本質上是
  • PyTorch中使用DistributedDataParallel進行多GPU分布式模型訓練
    使用數據並行模型,情況就更加複雜了:現在訓練腳本的同步副本與訓練集群中的gpu數量一樣多,每個gpu運行在不同的進程中。WORLD_SIZE = torch.cuda.device_count()if __name__=="__main__": mp.spawn( train, args=(NUM_EPOCHS, WORLD_SIZE), nprocs=WORLD_SIZE, join=True )在MPI的世界中,WORLDSIZE是編排的進程數量,(全局)rank
  • NVIDIA或推Volta架構GPU 但GTX 2080仍是Pascal架構
    Volta架構GPU將會由臺積電代工,基於改良過的12nm FinFET工藝。  之前我們也提過今年NVIDIA會推出Volta架構的新GPU,但會被用在NVIDIA與IBM聯合打造的超級計算機算上,基於Volta架構的GeForce遊戲顯卡的具體上市時間仍未公布,但看到Pascal架構今年非常強勢而且暫時未有競品能動搖到其高端產品的地位,NVIDIA極有可能在2017年的新一代顯卡繼續沿用
  • AMD 7nm Navi顯卡架構變了:GCN重組 後端性能翻倍
    Navi顯卡預計還是基於AMD的GCN架構,但在7nm工藝加持下,Navi從架構到規格,從性能到能效都會有明顯的變化,此前爆料稱Navi顯卡會擁有40組CU單元,2560個流處理器單元,頻率可以達到2GHz,綜合性能提升30%,能效進步相當於NVIDIA從Kepler到Maxwell那一代。從Kepler到Maxwell的能效提升意味著什麼?
  • 高通發布新一代旗艦處理器驍龍888:三星5nm工藝 小米11將首發
    騰訊科技訊 北京時間12月1日晚,在一年一度的驍龍技術峰會上,高通正式發布了新一代移動旗艦平臺,和之前傳聞的驍龍875不同的是,高通此次將2021年的旗艦晶片定名驍龍888。首發Cortex-X1架構超級大核心驍龍888依然繼續交由三星製造,採用了三星最新的5nm EUV製程工藝。
  • cuda入門:如何進行矩陣乘法優化
    );        cudaFree(ac);        cudaFree(bc);        cudaFree(cc);        end = clock();        return end