GTC 2020 | NVIDIA全新Ampere數據中心GPU全面投產

2021-02-14 NVIDIA英偉達企業解決方案

全新NVIDIA A100 GPU將AI訓練和推理性能提高20倍;

NVIDIA首個彈性、多實例GPU,集數據分析、訓練和推理於一身;

被全球頂級雲供應商和伺服器製造商所採用

NVIDIA於今日宣布首款基於NVIDIA® Ampere架構的GPU —— NVIDIA A100已全面投產並已向全球客戶交付。

A100採用了NVIDIA Ampere架構的突破性設計,該設計為NVIDIA第八代GPU提供了迄今為止最大的性能飛躍,集AI訓練和推理於一身,並且其性能相比於前代產品提升了高達20倍。作為一款通用型工作負載加速器,A100還被設計用於數據分析、科學計算和雲圖形。

NVIDIA創始人兼執行長黃仁勳表示:「雲計算和AI的強大趨勢正在推動數據中心設計的結構性轉變,過去的純CPU伺服器正在被高效的加速計算基礎架構所取代。NVIDIA A100 GPU作為一個端到端的機器學習加速器,其實現了從數據分析到訓練再到推理20倍的AI性能飛躍。這是有史以來首次,可以在一個平臺上實現對橫向擴展以及縱向擴展的負載的加速。NVIDIA A100將在提高吞吐量的同時,降低數據中心的成本。」

A100所採用的全新彈性計算技術能夠為每項工作分配適量的計算能力。多實例GPU技術可將每個A100 GPU分割為多達七個獨立實例來執行推理任務,而第三代NVIDIA NVLink®互聯技術能夠將多個A100 GPU合併成一個巨大的GPU來執行更大規模的訓練任務。

眾多全球領先的雲服務供應商和系統構建商計劃將A100 GPU集成到其產品中,其中包括:阿里雲、AWS、Atos、百度智能雲、思科、Dell Technologies、富士通、技嘉科技、Google Cloud、新華三、HPE、浪潮、聯想、Microsoft Azure、甲骨文、Quanta/QCT、Supermicro和騰訊雲。

Microsoft是首批採用NVIDIA A100 GPU的用戶之一,計劃充分利用其性能和可擴展性。

Microsoft公司副總裁Mikhail Parakhin表示:「Microsoft大規模應用前代NVIDIA GPU訓練了全球最大的語言模型——Turing Natural Language Generation。Azure將使用NVIDIA 新一代A100 GPU訓練更大型的AI模型,以推動語言、語音、視覺和多模態技術領域的最新發展。」

DoorDash是一個按需提供的食品平臺,在大流行期間作為餐館的生命線,它指出了擁有靈活的人工智慧基礎設施的重要性。

DoorDash的機器學習工程師Gary Ren表示:「現代複雜AI訓練和推理工作負載需要處理大量的數據,像NVIDIA A100 GPU這樣最先進的技術,可以幫助縮短模型訓練時間,加快機器學習開發進程。此外,採用基於雲的GPU集群還能夠為我們提供更高的靈活性,可以根據需要擴容或縮容,將有助於提高效率、簡化操作並節約成本。」

其他早期採用者還包括多所國家實驗室以及一些全球頂尖高等教育和研究機構,它們都在使用A100支持其新一代超級計算機。以下是部分早期採用者:

印第安納大學(Indiana University),在美國,其Big Red 200超級計算機基於HPE的Cray Shasta系統。該超級計算機將支持科學研究和醫學研究以及AI、機器學習和數據分析領域的前沿研究。

利希超算中心(Jülich Supercomputing Centre),在德國,其JUWELS增速系統由Atos建造,專為極端計算能力和AI任務而設計。

卡爾斯魯厄理工學院(Karlsruhe Institute of Technology),在德國,正在與聯想一起建造其HoreKa超級計算機。該超級計算機將能夠在材料科學、地球系統科學、能源和動力工程研究以及粒子和天體物理學領域開展更大規模的多尺度模擬。

馬克斯普朗克計算和數據中心(Max Planck Computing and Data Facility),在德國,其藉助於聯想為其建造的新一代超級計算機Raven,為馬克斯普朗克研究所(Max Planck Institutes)的高性能計算應用的開發、優化、分析和可視化提供了先進的支持。

美國能源部國家能源研究科學計算中心(U.S. Department of Energy’s National Energy Research Scientific Computing Center),位於美國勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory),其正在基於HPE的Cray Shasta系統建造新一代超級計算機Perlmutter。該超級計算機將被用於支持超大規模科學研究、開發新能源、提高能效以及探索新材料。

NVIDIA A100 GPU的突破性技術設計來源於五大關鍵性創新:

NVIDIA Ampere架構 - A100的核心是NVIDIA Ampere GPU架構,該架構包含超過540億個電晶體,這使其成為全球最大的7納米處理器。

具有TF32的第三代Tensor Core核心 - NVIDIA廣泛採用的Tensor Core核心現在已變得更加靈活、快速且易於使用。其功能經過擴展後加入了專為AI開發的全新TF32,它能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達20倍。此外,Tensor Core核心現在支持FP64精度,相比於前代,其為HPC應用所提供的計算力比之前提高了多達2.5倍。

多實例GPU  -  MIG,一種全新技術功能,可將單個A100 GPU分割為多達七個獨立的GPU,為不同規模的工作提供不同的計算力,以此實現最佳利用率和投資回報率的最大化。

第三代NVIDIA NVLink  - 使GPU之間的高速聯接增加至原來的兩倍,實現伺服器的高效性能擴展。

結構化稀疏 - 這種全新效率技術利用AI數學固有的稀疏性,使性能提升了一倍。

憑藉這些新功能,NVIDIA A100成為了AI訓練和推理以及科學模擬、對話式AI、推薦系統、基因組學、高性能數據分析、地震建模和金融預測等各種高要求工作負載的理想選擇。

新系統已搭載NVIDIA A100,很快將登陸雲端

於今日同時發布的還有NVIDIA DGX™ A100 系統,其內置8個由NVIDIA NVLink互聯的NVIDIA A100 GPU。NVIDIA和官方合作夥伴現已開始供應該系統。

阿里雲、AWS、百度智能雲、Google Cloud、Microsoft Azure 、甲骨文和騰訊雲正在計劃提供基於A100的服務。

此外,眾多全球領先的系統製造商也將提供各種基於A100的伺服器,包括Atos、思科、Dell Technologies、富士通、技嘉科技、新華三、HPE、浪潮、聯想、Quanta/QCT和Supermicro。

為幫助合作夥伴加快伺服器的開發,NVIDIA開發了HGX A100伺服器構建模塊,該模塊採用了多GPU配置的集成基板形式。

HGX A100 4-GPU通過NVLink實現GPU之間的完整互聯, 8-GPU配置的HGX A100通過NVIDIA NVSwitch™實現GPU之間的全帶寬通信。採用全新MIG 技術的HGX A100能夠被分割為56個小型GPU,每個GPU的速度都比NVIDIA T4更快;或者也可以將其用作一臺擁有10petaflops AI性能的巨型8-GPU伺服器。

NVIDIA還發布了多個軟體堆棧更新,使應用程式開發者能夠充分發揮A100 GPU創新技術的性能。這些更新包括了50多個新版本CUDA-X™ 庫,可用於加速圖形、模擬和AI;CUDA 11;多模態對話式AI服務框架NVIDIA Jarvis;深度推薦應用框架 NVIDIA Merlin;以及NVIDIA HPC SDK,其中包括能夠幫助HPC開發者調試和優化A100代碼的編譯器、庫和工具。

了解有關NVIDIA A100 Tensor Core GPU的更多詳細信息,請點擊文中底部「閱讀原文」

相關焦點

  • NVIDIA為《我的世界》RTX版發布5個全新地圖
    這是NVIDIA發布的第二波《我的世界》(Minecraft )體驗地圖,即日起可在《我的世界》(Minecraft )市場下載這5個全新作品。 《我的世界》(Minecraft )全新作品包括:《我的世界》RTX版(Minecraft with RTX)支持一種稱為路徑追蹤的先進的光線追蹤、全新基於物理的材質和NVIDIADLSS 2.0。這些技術共同為《我的世界》(Minecraft)這款全球最暢銷的電子遊戲帶來令人驚嘆的圖形質量。
  • 如何監控NVIDIA GPU 的運行狀態和使用情況
    設備跟蹤和管理正成為機器學習工程的中心焦點。這個任務的核心是在模型訓練過程中跟蹤和報告gpu的使用效率。有效的GPU監控可以幫助我們配置一些非常重要的超參數,例如批大小,還可以有效的識別訓練中的瓶頸,比如CPU活動(通常是預處理圖像)佔用的時間很長,導致GPU需要等待下一批數據的交付,從而處於空閒狀態。什麼是利用率?
  • NVIDIA GTC CHINA 2020大會資料分享
    加速數據科學來源:https://www.gtcevent.cn/session-catalog/(裡面還可以看視頻回放)擴展閱讀:《企業存儲技術》文章分類索引(微信公眾號專輯)》
  • GTC 2020 | NVIDIA提供全球最先進AI系統NVIDIA DGX A100幫助對抗COVID-19
    ,具有高達5Petaflops 的AI性能,並且首次將整個數據中心的性能和功能集成到一個靈活的平臺中。NVIDIA DGX是首個為端到端機器學習工作流——從數據分析到訓練再到推理構建的AI系統。藉助於全新DGX的巨大性能飛躍,面對呈指數級速度增長的AI模型和數據,機器學習工程師們能夠保持領先。」
  • 深度學習訓練時GPU溫度過高?幾個命令,為你的GPU迅速降溫
    https://zhuanlan.zhihu.com/p/27682206這篇文章寫的是在ubuntu X server環境下,通過修改nvidia-settings來修改GPU風扇速度,因為默認的nvidia-settings設置是,即使GPU在計算的時候溫度已經達到85度,風扇速度最高不會超過70%,這樣就無法很好地為GPU進行散熱,因此需要手動修改GPU風扇速度。
  • TensorFlow_GPU On OpenShift部署實踐
    # yum -y install xorg-x11-drv-nvidia xorg-x11-drv-nvidia-devel nvidia-driver-NVML vidia-modprobe cuda-drivers刪除nouveau內核模塊,否則將無法加載nvidia內核模塊。
  • nvidia-smi常用命令使用指南
    什麼是nvidia-sminvidia-smi是nvidia 的系統管理界面
  • 一文多圖帶你深入了解NVIDIA GTC 2020發布的新一代GPU「核彈」(GPU篇)
    在經過黃教主從客廳壁爐裡拿出HGX-2 A100 Baseboard的預熱之後,萬眾矚目的NVIDIA GTC 2020
  • 基於VMware Bitfusion的GPU共享技術使用場景討論
    當然,這個性能數據和直接使用本地的GPU還是有一些差距,主要原因是本次測試,由於條件的限制,並沒有做優化。>>> print(tf.test.gpu_device_name())...
  • GPU 顯存不足怎麼辦?
    監控 GPU監控GPU最常用的當然是 nvidia-smi ,但有一個工具能夠更好的展示信息:gpustat 。nvidia-smiwatch --color -n1 gpustat -cpu # 動態事實監控GPU推薦在配置文件中配置別名,反正我每次 gpu 一下,信息就全出來了,很方便。
  • 一文多圖帶你深入了解NVIDIA GTC 2020發布的新一代GPU「核彈」(系統篇)
    中,我們詳細了解了黃教主在GTC 2020 Keynote上發布的新一代「核彈級」A100 GPU的硬體特性,以及A100 GPU對AI訓練領域將會帶來的巨大性能提升。由DGX A100系統構建的數據中心 當然,不論是DGX A100 SuperPOD,還是對應的Cluster,構建這樣的數據中心都將會是極其昂貴的,只有少數超大規模數據中心或政府組織才有構建這樣系統的實力
  • 【經驗分享】GPU 顯存不足怎麼辦?
    監控 GPU監控GPU最常用的當然是 nvidia-smi ,但有一個工具能夠更好的展示信息:gpustat 。nvidia-smiwatch --color -n1 gpustat -cpu # 動態事實監控GPU推薦在配置文件中配置別名,反正我每次 gpu 一下,信息就全出來了,很方便。
  • NVIDIA GTC大會概覽
    同樣的性能,以往需要300臺伺服器、15個數據中心機架空間,如今體積縮小60倍、能效提升18倍! (據說已經有礦老闆們在籌資買來挖礦了……)  ▌AI平臺改進 如同往屆,老黃對AI做了介紹,公布了一系列重要進展,其中包含Tesla V100 32GB GPU的2倍顯存、革命性NVSwitch結構、全面的軟體堆棧推動性能提升、深度學習核能站DGX-2、發布深度學習引擎
  • NVIDIA、AMD相繼發布驅動更新
    NVIDIA 441.66 WHQL驅動發布:優化《機甲戰士5: 僱傭兵》近日NVIDIA發布了全新的GeForce Graphics
  • 在 Ubuntu 16.04 中安裝支持 CPU 和 GPU 的 Google TensorFlow 神經網絡軟體
    如果你使用的是 Python 2.7,運行下面的命令:pip install TensorFlow-gpu如果安裝了 Python 3.x,使用下面的命令:pip3 install TensorFlow-gpu安裝完後,你會看到一條 「successfully installed」 的消息。
  • NVIDIA在GTC 2021上官宣進入CPU領域
    考慮到NVIDIA在2020年9月就已經宣布了對ARM公司的收購邀約,Grace ARM CPU的推出也在情理之中。          雖然NVIDIA在GTC 2021大會上公布了Grace ARM CPU平臺,但真正的產品要到2023年才會推向市場。按照NVIDIA的計劃,GPU、CPU和DPU未來都將使用統一的晶片架構,從而保證數據在不同晶片之間無阻塞地傳輸。
  • 在NVIDIA Jetson TX2上安裝TensorFlow
    可能在你修改的時候,你會發現有所不同,文件tensorflow/stream_executor/cuda/cuda_gpu_executor.cc中的TryToReadNumaNode()函數源碼中已經添加了對aarch64架構的識別和處理,1static int TryToReadNumaNode(const string &pci_bus_id, int device_ordinal
  • 最新發布 | 特斯拉推出搭載NVIDIA A100 GPU頂尖自動駕駛汽車訓練超級計算機
    NVIDIA A100 GPU為全球最強的數據中心提供各種尺度的加速。A100 GPU基於NVIDIA Ampere架構打造,其性能比上一代產品高出20倍,並且可以劃分成7個GPU實例,動態地適配不同的需求。使用100多萬輛在路上行駛的Tesla汽車(的數據)來持續優化和迭代新功能,是Tesla自動駕駛的垂直整合之道,而GPU集群在其中扮演了重要角色。