NVIDIA下一代GPU架構浮出水面,具有64TFLOPS運算與18,432 CUDA

2021-01-18 深夜書評

碼字不易，您的支持，是「新千萬個為什麼」↑↑請關注持續更新的最大動力！

NVIDIA下一代GPU架構浮出水面，具有64TFLOPS運算與 18,432 CUDA Core

雖然目前 NVIDIA Ampere 架構才推出出出不久且產品線還未全面推出出出，但 Twitter 上已有爆料者指出 NVIDIA 下一世代的 GPU 架構代號與基本規格，且由於爆料者先前 @kopite7kimi 準確的爆出 Ampere 的掛，故可信度似乎不低；@kopite7kimi 指出， NVIDIA 下一代的 GPU 代號將以 18 世紀女性數學家，也是公認最早的程序設計師 ADA LOVELACE 作為代號，具備高達 18,432 個 CUDA Core 與 64TFLOPS 的性能。

▲當前 NVIDIA 在加速器與顯示卡/繪圖卡分別由臺積電與三星代工

爆料指出，原本在 NVIDIA 規劃當中還有採用用用獨特的 MCM （多 GPU 封裝）架構的 Hopper ，但由於架構複雜度較高，取而代之的就是先實作 ADA LOVELACE 架構；根據 3DCenter.org 推出出估，採用用用 ADA LOVELACE 架構的 AD102 將持續採用用用大量核心設計，具備高達 144 個 SM 與 18,432 個 CUDA Core 。

當然 NVIDIA 日前聲稱 Ampere 架構、具 10,752 個 CUDA Core 的 GA102 已經最大化三星 8nm 工藝的極限，故要塞入高出近一倍 CUDA Core 勢必將採用用用更先進的工藝，最有可能的就是採用用用 5nm 工藝進行，不過考慮到 NVIDIA 產品周期是兩年之後，若維持由三星代工，亦有可能會採用用用 5nm 改良工藝（例如當前三星 8nm 工藝本質上是 10nm 工藝改良版）。

NVIDIA 歷代 GPU 皆是以歷史上知名科學家作為代號， 2017 年 GTC 大會推出出出一款以當時已經採用用用的科學家代號地紀念 T-Shirt ，而在 2018 年 GTC 大會所販售地紀念 T-Shirt 的其中一款即封面的圖案設計，當中所列舉的科學家也被視為未來產品代號，不過考慮到 ADA LOVELACE 名稱較長，據稱正式推出出出有可能僅採用用用 ADA 作為架構代稱。

另外，韓國報導日前也指出 NVIDIA 已經與三星籤署 6nm 工藝（ 7nm 工藝改良版），但多項傳聞指稱 ADA LOVELACE 明確會使用 5nm 或 5nm 改良工藝，亦可推出出測 NVIDIA 在 ADA LOVELACE 推出出出前可能會通過 6nm 改良工藝生產基於 Ampere 架構的升級版產品，或用於特殊領域（如加速運算）產品

承蒙關照！

↓↓請點讚↓↓↓↓↓↓推薦↓↓↓↓↓↓讚賞↓↓

相關焦點

基於RTX2060構建TensorFlow-gpu(keras)學習平臺

建立虛擬環境：conda create --name tf36gpu python=3.6 anaconda2. 激活虛擬環境：activate tf36gpu3.如果機器上有gpu，則安裝gpu版本，沒有GPU就安裝cpu版。版本問題，現在TensorFlow到了最新的2.0.0版本，但是很多函數不兼容1.**版本。因此利用1.14版本，最新是1.15後面幾沒有版本了。2. 安裝tensorflow：pip install tensorflow-gpu==1.143.
5nm+CUDA數量翻倍!NVIDIA新一代GPU太兇猛

而在玩家們連Ampere架構顯卡都還未能買到的同時，NVIDIA下一代RTX 40顯卡所採用的Ada Lovelace架構的相關信息已經陸續流出。下一代架構的命名方式保持了NVIDIA之前一直沿用的科學家姓名，Ada Lovelace中文譯名為阿達·洛芙萊斯，是英國著名詩人拜倫Lord Byron）的唯一合法女兒，她是第一位主張計算機不只可以用來算數的人
Win10+GeForce 940MX+Cuda9.2環境安裝PyTorch

02Visual Studio安裝地址https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/03Cuda9.2安裝地址https://developer.nvidia.com
TensorFlow 攜手 NVIDIA,使用 TensorRT 優化 TensorFlow Serving...

在這裡，我們運行 GPU Docker 圖像（點擊查看相關說明），從而藉助 GPU 創建並測試此模型：$ docker pull tensorflow/serving:latest-gpu$ docker run --rm --runtime=nvidia -p 8501:8501 --name tfserving_resnet \
NVIDIA下一代RTX 40情報曝光

新架構全系產品都會將製程工藝升級為5nm，將配備比前兩代更大的緩存空間，AD102晶片將配備12個圖像處理器模塊（12*6架構）、擁有72組紋理處理單元、144組流處理器單元、高達18432個 FP32單元（CUDA核心）和高達66 TFlops的運算性能。
超算安裝GPU-based軟體 (以pytorch為例)

這裡就會出問題了，安裝軟體的時候我是在登陸節點訪問存儲節點，一般來說登陸節點無需強算力沒有GPU，但是軟體在安裝過程中會通過獲取當前設備的硬體信息來來決定安裝版本，比如PyTorch，在運行conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch官方安裝命令的時候，如果本機沒有英偉達
NVIDIA或推Volta架構GPU 但GTX 2080仍是Pascal架構

有外媒透露NVIDIA計劃在今年發布其新世代基於12nm工藝的Volta架構GPU，但Fox Bussiness說NVIDIA的下一代顯卡（GTX20系列）依然會使用Pascal架構，以及通用計算超算、機械學習、人工智慧等方面。
NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

在之前的GA100大核心中，每組SM是64個INT32單元、64個FP32單元及32個FP64單元組成的，但在GA102核心中，FP64單元大幅減少，增加了RT Core，Tensor Core也略微減少。
四大深度學習框架+四類GPU+七種神經網絡:交叉性能評測

正如我們在上圖看到的，當使用 VGG 網絡時，GTX 1080 需要 420.28 毫秒為一個 64 樣本的 minibatch 運行正反向通過；相同的配置訓練 128 個樣本需要 899.86 毫秒，是前者的兩倍還要再多出 60 毫秒。
cuda入門:如何進行矩陣乘法優化

計算結果的誤差偏高的原因是，在 CPU 上進行計算時，我們使用 double(即 64 bits 浮點數)來累進計算過程，而在 GPU 上則只能用 float(32 bits 浮點數)。在累加大量數字的時候，由於累加結果很快會變大，因此後面的數字很容易被捨去過多的位數。
NVIDIA革命性新GPU架構「帕斯卡」:兩個新技術絕了!-NVIDIA,Pascal...

GeForce GTX Titan Z是克卜勒架構的登峰造極之作，麥克斯韋架構即將進入Tegra移動產品線，NVIDIA的下一代GPU架構也已經呼之欲出了，這就是劃時代的「Pascal」(帕斯卡)。根據路線圖，它將在2016年推出，仍然是兩年一代的節奏。
NVIDIA Volta架構GPU或2017面世 12nm工藝

【PConline 資訊】有外媒透露NVIDIA計劃在今年發布其新世代基於12nm工藝的Volta架構GPU，但Fox Bussiness說NVIDIA的下一代顯卡（GTX20系列）依然會使用Pascal架構，以及通用計算超算、機械學習、人工智慧等方面。
從GPU誕生說起:AMD統一渲染架構回顧及展望-AMD,ATI,統一渲染,顯卡...

從GPU誕生說起：AMD統一渲染架構回顧及展望出處：快科技 2011-06-28 17:40:18 作者：朝暉編輯：朝暉[爆料]通過對GPU圖形流水線的分析，工程師們發現與傳統的硬體T&L相比，另一種方案具有更高的效率和靈活性，這就是Shader（渲染器/著色器）的出現。2001年微軟發布的DirectX 8帶出了Shader Model（渲染單元模式），Shader也由此誕生。
來自540億電晶體的力量,全新NVIDIA安培架構和A100 GPU深入解讀

我們看到的第一個更偏向於計算的GPU產品架構是伏打架構，其典型產品為Tesla V100、TITAN V等，在民用圖形卡方面幾乎沒有太多建樹。同代（或者稍晚一些）推出的更偏向於圖形的產品是圖靈架構，衍生出了多款民用GPU圖形卡，並且帶來了RTX品牌和全新的光線追蹤技術。
NVIDIA:圖靈是架構變化最大的GPU之一,性能提升兩倍

在8月20日的科隆遊戲展上，NVIDIA推出了Turing圖靈架構，並首發了三款顯卡——GeForce RTX 2080 Ti/2080/2070，本月17日才會正式解禁。在這次會議上，兩人回答了許多與NVIDIA新一代顯卡有關的消息，不少分析師也非常關注圖靈架構的新一代顯卡性能表現如何，能帶來什麼變化，特別是與現在的GTX 1070、GTX 1080顯卡相比。Colette Kress對這個問題的回答就是在現有遊戲方面，我們可能看到2倍性能提升，即使是在沒有處理光線追蹤渲染的情況下。
12倍於上代的DP性能 NVIDIA Volta架構解析

如果不出意外，NVIDIA未來還會推出基於GV100核心的Quadro顯卡，到時候不知道在外觀上是否會採用QuadroGP100的渦輪式散熱器，當然據吉吉我推測，可能性是很大的。規格：電晶體數量史上之最Volta架構的首款產品TeslaV100採用12nmFFN工藝，核心代號GV100，核心面積為驚人的815平方毫米，共包含211億個電晶體。

NVIDIA下一代GPU架構浮出水面,具有64TFLOPS運算與18,432 CUDA

相關焦點

基於RTX2060構建TensorFlow-gpu(keras)學習平臺

5nm+CUDA數量翻倍!NVIDIA新一代GPU太兇猛

Win10+GeForce 940MX+Cuda9.2環境安裝PyTorch

TensorFlow 攜手 NVIDIA,使用 TensorRT 優化 TensorFlow Serving...

NVIDIA下一代RTX 40情報曝光

超算安裝GPU-based軟體 (以pytorch為例)

NVIDIA或推Volta架構GPU 但GTX 2080仍是Pascal架構

NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

四大深度學習框架+四類GPU+七種神經網絡:交叉性能評測

cuda入門:如何進行矩陣乘法優化

NVIDIA革命性新GPU架構「帕斯卡」:兩個新技術絕了!-NVIDIA,Pascal...

NVIDIA Volta架構GPU或2017面世 12nm工藝

從GPU誕生說起:AMD統一渲染架構回顧及展望-AMD,ATI,統一渲染,顯卡...

來自540億電晶體的力量,全新NVIDIA安培架構和A100 GPU深入解讀

NVIDIA:圖靈是架構變化最大的GPU之一,性能提升兩倍

12倍於上代的DP性能 NVIDIA Volta架構解析