NVIDIA新一代A100 GPU解析:AI訓練速度提升20倍的秘密是什麼?

2021-01-06 ITheat熱點科技

在前段時間的GPU技術大會(GTC 2020)上,NVIDIA正式發布了基於Ampere架構的新一代GPU——NVIDIA A100。這款產品作為通用型工作負載加速器,瞄準了如今最為熱門的AI領域。根據NVIDIA給出的數據,其性能相比於前代產品提升了高達20倍,可用於AI訓練和推理以及科學模擬、對話式AI、推薦系統、基因組學、高性能數據分析、地震建模和金融預測等場景。

技術創新,NVIDIA A100 GPU性能突破的關鍵

NVIDIA A100擁有如此大幅度的提升,離不開Ampere架構的加持,該GPU基於7nm製造工藝,包含了超過540億個電晶體,擁有6912個CUDA核心,成為了目前全球最大的7納米處理器。不止如此,新品還搭載了40GB HBM2內存,具備1.6TB/s的內存帶寬,FP32性能達到19.5萬億次/秒,並引入了具有TF32的第三代Tensor Core核心、結構化稀疏 、多實例GPU( MIG)、第三代NVIDIA NVLink等眾多特性。

NVIDIA在此前的Volta架構中首次引入了Tensor Core(張量單元)這一計算單元,使得當時V100 GPU的浮點運算性能得到了大幅提升,能夠更好地用於AI及深度學習應用。在最新的Ampere架構中,NVIDIA對Tensor Core進行了再次升級,使其變得更加靈活、快速且易於使用,甚至稱得上是性能上的一次飛躍。

新架構引入了為AI開發的TF32,這是一種用於處理矩陣數學的新數值格式,而矩陣數學也被稱為張量運算,是AI和部分HPC應用主要使用的運算。簡單來說,TF32能加速AI訓練計算,結合結構稀疏性,就能使FP32精度下的AI性能顯著提高,可達到上代Volta架構的20倍左右。NVIDIA表示,甚至無需修改現有程序的代碼就能獲得性能提升。此外,目前的Tensor Core核心同時支持了FP64精度的浮點運算能力,相比於前代產品,可為HPC( 高性能計算)應用提供更多的算力,相比之前提高了多達2.5倍。

至於上文提到的結構化稀疏,其實也是這次新架構的亮點所在,目前A100中的Tensor Core可為稀疏模型應用提供高達2倍的性能提升。該功能的加入讓GPU能夠更加高效地處理高維數據,相當於提高了AI學習性能。結構化稀疏是一種高維數據的有效分析方法,具備特徵簡約、可解釋性強、計算方便等優勢,獲得了很多研發人員的關注,並在多個實際場景中得到了應用。

Ampere架構除了細節和算力方面的改進,新品還充分考慮到了應用場景,提供了多實例GPU(MIG) ,通俗來講每個A100可以劃分成七個獨立的GPU,擁有了更高的靈活性。眾所周知,在數據中心等領域,CPU虛擬化是非常多見的技術,可將內核同時分配給不同用戶獨立使用,而MIG也有異曲同工之妙,如此一來不僅為不同規模的工作提供不同的計算力,以此實現最佳利用率和投資回報率的最大化,而且能在硬體級別上實現隔離,實現更高的安全性。

至於Ampere架構的第三代NVIDIA NVLink,可使GPU之間的連接速率增加至原來的兩倍,雙向帶寬提升至50GB/s,傳輸速率達到了600GB/s,是PCIe 4.0帶寬的10倍,並且每顆GPU可以實現對外12路連接。

A100助力,NVIDIA打造新一代AI系統

目前,基於Ampere GPU的NVIDIA DGX A100系統已經發布,它是全球首款算力達到5 petaFLOPS AI系統,內置8個由NVIDIA NVLink互聯的A100 GPU、兩塊64核AMD CPU和1TB系統內存,六個第二代NVSWITCH則提供了高達 4.8 TB/s雙向帶寬。網絡方面,系統內置Mellanox ConnectX-6 VPI HDR InfiniBand和乙太網適配器,其雙向帶寬峰值為 450Gb/s。

利用Mellanox HDR 200Gbps InfiniBand互連技術,NVIDIA將140臺DGX A100系統結合在一起,成功構建了DGX SuperPOD AI超級計算機, AI計算能力高達700 Petaflops,用於公司內部對話式AI、基因組學和自動駕駛等領域的研究。值得一提的是,不只是AI、科研領域的用途,如今DGX A100組成的超級計算機還被用來對抗COVID-19,對抗疫做出了貢獻。

不光是大規模的AI計算系統,NVIDIA甚至將Ampere架構帶到了如今熱點之一的邊緣計算,NVIDIA EGX A100 AI 處理引擎搭載全新GPU的同時,集成有Mellanox ConnectX-6 Dx SmartNIC,不僅帶來優秀的拓展性,而且更有出色的安全性。Mellanox SmartNIC具有安全分流功能,能以高達 200 Gb/s 的線速進行解密,配合GPUDirect技術可將視頻幀直接傳輸到GPU顯存以進行AI處理。

相輔相成,大量軟體為A100 GPU優化

當然,除了硬體層面的優勢,實際應用時也離不開軟體的支持。目前,NVIDIA對GPU加速應用領域的軟體開發平臺CUDA進行了更新,推出了CUDA 11,為Ampere架構進行了優化,並更新了包括了50多個新版本CUDA-X庫。新版本可以完整支持基於Ampere架構的GPU硬體以及第三代Tensor Core的眾多特性,並加入了多實例GPU虛擬化和GPU分區等功能。

與此同時,NVIDIA還發布了HPC SDK、多模態對話式AI服務框架NVIDIA Jarvis、深度推薦應用框架 NVIDIA Merlin等軟體。其中,HPC SDK包含編譯器和庫的全套綜合套件,是目前唯一可用於編程加速計算系統的全套集成SDK,開發者可通過它來編程整個HPC平臺,從GPU基礎到CPU以及整體互聯,同樣該套件也對Ampere架構進行了相應優化。

寫在最後:正如NVIDIA所說的那樣,如今由於雲計算、AI等技術的出現,正在推動數據中心設計的結構性轉變,純CPU伺服器被搭載GPU加速計算的平臺所取代,未來隨著這些新技術的不斷普及,越來越多的行業、企業將會產生類似需求。NVIDIA早在3年之前就已經意識到了這一趨勢,推出了Volta架構,並將專為深度學習的Tensor Core帶入到了GPU之中,大幅提升了AI訓練和推理性能,而到了目前Ampere架構的第三代Tensor Core,更是帶來了巨大的性能飛躍,可將AI訓練時間從數周縮短到幾小時,顯著加快了推理速度,無疑助力推動了整個AI行業的發展。

另一方面,此次推出的Ampere架構、A100 GPU不只是提供了大幅度的性能增長,而且NVIDIA更是考慮到了各個方面,甚至兼顧了數據中心的成本問題。根據NVIDIA給出的數據,一個由5臺DGX A100系統組成的機架,可代替一個包括了AI訓練和推理基礎設施的數據中心,而且功耗僅是1/20,所佔用的空間是1/25,成本只有1/10。因此,我們完全有理由相信,未來NVIDIA GPU以及AI技術一定會進入到各行各業,滲透到大家日常生活的方方面面。

相關焦點

  • NVIDIA A100 GPU中的TF32將AI訓練與HPC速度提升20倍
    NVIDIA A100 GPU中的TF32將AI訓練與HPC速度提升20倍 2020年08月19日 14:32作者:網絡編輯:宏偉   NVIDIA
  • 性能提升20倍 NVIDIA發布全新7nm安倍架構A100 GPU
    性能提升20倍的安培GPU2017年,NVIDIA發布了基於伏特架構Tesla V100晶片,號稱「地表最強」,而在之後的三年間,競爭對手們不斷放出狠話、發布新品,要超越V100,但我們還是看到V100出現在各種AI晶片發布會上成為標杆,而積攢了三年之後,NVIDIA帶來了更恐怖的產品。
  • NVIDIA TF32將AI訓練與HPC速度提升20倍
    NVIDIA Ampere架構內置TF32,能夠加快單精度作業速度,保持精度且無需使用任何新代碼。與Volta GPU上的單精度浮點數值(FP32)相比,在A100 GPU Tensor核心上運行的TF32可提供高達10倍的加速。將TF32與A100上的結構稀疏性相結合後,相比於Volta可達到20倍性能提升。認識新的數值現在讓我們先來了解TF32的工作原理和它的「用武之地」。數值格式就像標尺。
  • 谷歌訓練BERT僅23秒,英偉達A100破八項AI性能紀錄,最新MLPerf榜單
    英偉達 GPU 性能的提升不僅來自硬體。測試結果顯示,相較於首輪 MLPerf 訓練測試中使用的基於 V100 GPU 的系統,如今的 DGX A100 系統能夠以相同的吞吐率,實現高達 4 倍的性能提升。同時,得益於最新的軟體優化,基於 NVIDIA V100 的 DGX-1 系統亦可實現高達 2 倍的性能提升。
  • 谷歌訓練BERT只用23秒,英偉達A100打破八項AI性能紀錄,最新MLPerf...
    英偉達 GPU 性能的提升不僅來自硬體。測試結果顯示,相較於首輪 MLPerf 訓練測試中使用的基於 V100 GPU 的系統,如今的 DGX A100 系統能夠以相同的吞吐率,實現高達 4 倍的性能提升。同時,得益於最新的軟體優化,基於 NVIDIA V100 的 DGX-1 系統亦可實現高達 2 倍的性能提升。
  • 深度學習訓練時GPU溫度過高?幾個命令,為你的GPU迅速降溫
    https://zhuanlan.zhihu.com/p/27682206這篇文章寫的是在ubuntu X server環境下,通過修改nvidia-settings來修改GPU風扇速度,因為默認的nvidia-settings設置是,即使GPU在計算的時候溫度已經達到85度,風扇速度最高不會超過70%,這樣就無法很好地為GPU進行散熱,因此需要手動修改GPU風扇速度。
  • 用NVIDIA DALI 加速PyTorch:訓練速度提升 4 倍
    用特斯拉 V100 加速器顯示 PyTorch+DALI 可以達到接近 4000 個圖像/秒的處理速度,比原生 PyTorch 快了大約 4 倍。              簡介              過去幾年見證了深度學習硬體的長足進步。
  • RTX 3090 AI性能實測:FP32訓練速度提升50%
    RTX 3090在深度學習訓練任務中,性能表現究竟如何,它能否取代Titan RTX成為最強消費級AI訓練卡?現在已經有了答案。國外兩位AI從業者在拿到這款顯卡後,第一時間測試了其在TensorFlow上的AI訓練性能。由於RTX 3090現階段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上進行測試。
  • RTX 3090 AI性能實測:FP32訓練速度提升50%
    ,性能表現究竟如何,它能否取代Titan RTX成為最強消費級AI訓練卡?在FP32任務上,RTX 3090每秒可處理561張圖片,Titan RTX每秒可處理373張圖片,性能提升50.4%!可以看出,使用FP32進行的所有模型訓練,RTX 3090都能實現40%~60%的訓練提升。
  • 深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫
    具體地址:http://t.cn/RK9wyBK這篇文章寫的是在ubuntu X server環境下,通過修改nvidia-settings來修改GPU風扇速度,因為默認的nvidia-settings設置是,即使GPU在計算的時候溫度已經達到85度,風扇速度最高不會超過70%,這樣就無法很好地為GPU進行散熱,因此需要手動修改GPU風扇速度。
  • SC20 | NVIDIA發布A100 80GB GPU
    該GPU內存比上一代提升一倍,能夠為研究人員和工程師們提供空前的速度和性能,助力實現新一輪AI和科學技術突破。全新A100採用HBM2e技術,可將A100 40GB GPU的高帶寬內存增加一倍至80GB,提供每秒超過2TB的內存帶寬。這使得數據可以快速傳輸到全球最快的數據中心GPU A100上,使研究人員能夠更快地加速其應用,處理最大規模的模型和數據集。
  • 性能提升20倍:英偉達GPU旗艦A100登場,全新7nm架構安培出爐
    機器之心報導參與:李澤南時隔三年,英偉達最強晶片 Tesla V100 有了繼任者,20 倍的性能提升著實讓人有些招架不住。這塊 GPU 上搭載了容量 40G 的三星 HBM2 顯存(比 DDR5 速度還快得多,就是很貴),第三代 Tensor Core。同時它的並聯效率也有了巨大提升,其採用帶寬 600GB/s 的新版 NVLink,幾乎達到了 10 倍 PCIE 互聯速度。
  • NVIDIA TensorRT 讓您的人工智慧更快!
    在對所有主要框架進行培訓的模型的推理過程中,基於TensorRT的gpu應用程式的執行速度比CPU快100倍。TensorRT提供INT8和FP16的優化,用於深度學習推理應用程式的生產部署,如視頻流、語音識別、推送和自然語言處理。減少推斷精度可以大大降低了應用程式的延遲,這是許多實時服務以及自動和嵌入式應用程式的需求。
  • ...GPU等CPU,谷歌提出「數據回波」榨乾GPU空閒時間,訓練速度提升3...
    但是,用了更快的GPU和TPU就一定能加速訓練嗎?訓練流水線的所有操作並不都是在加速器上運行。上遊數據處理(如磁碟I/O和數據預處理)就不能在加速器上運行。隨著GPU等加速器越來越快,超過了CPU、磁碟處理數據的速度,上遊就逐漸成了訓練瓶頸。
  • 為啥在Matlab上用NVIDIA Titan V訓練的速度沒有GTX1080快?
    在Matlab官方論壇上看到這個帖子,希望給大家帶來參考有一天,有人在Matlab的論壇上發出了求救帖:樓主說:我想要加快我的神經網絡訓練,所以把GTX1080升級到Titan V,期望在性能上有很大的提高,畢竟架構和內存速度等都有所改進。
  • NVIDIA發布A100 80GB GPU,為AI超級計算帶來全球最強GPU
    該GPU內存比上一代提升一倍,能夠為研究人員和工程師們提供空前的速度和性能,助力實現新一輪AI和科學技術突破。全新A100採用HBM2e技術,可將A100 40GB GPU的高帶寬內存增加一倍至80GB,提供每秒超過2TB的內存帶寬。這使得數據可以快速傳輸到全球最快的數據中心GPU A100上,使研究人員能夠更快地加速其應用,處理最大規模的模型和數據集。
  • RTX 30系列GPU支持直連SSD,它會是AI煉丹「大殺器」嗎?
    更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。 因為AI的訓練和推理一般都是在GPU上進行的,傳統的數據讀取方式已經制約了「煉丹」的速度。 對於訓練大型數據模型,通常將數據加載和卸載到顯存上是AI工作負載的最大瓶頸。從CPU切換到GPU計算時,加載訓練數據通常是pipeline中最慢的部分。
  • RTX 30系列GPU支持直連SSD,它會是AI「大殺器」嗎
    更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。100倍。因為AI的訓練和推理一般都是在GPU上進行的,傳統的數據讀取方式已經制約了「煉丹」的速度。,但是向GPU加載和卸載數據比CPU慢得多,導致CPU訓練速度反而更快的現象。
  • RTX30系列GPU支持直連SSD,它會是AI煉丹「大殺器」嗎?
    更多的CUDA核心、張量核心將浮點算力提升2倍,GPU的AI性能得以大幅提升。但發布會上另一項功能引起了機器學習社區的注意,那就是RTX IO,有了它以後你「煉丹」的速度可能更快了。什麼是RTX IO?RTX IO技術允許GPU在不使用CPU的情況下,將遊戲素材數據直接從SSD加載到GPU的顯存中。