英偉達扔出20枚「AI核彈」!540億個電晶體的GPU,一個機櫃秒數據中心

2020-12-23 智東西

智東西5月14日報導,剛剛,NVIDIA(英偉達)年度黑科技秀GTC 2020大會通過在線視頻的方式舉辦,被粉絲們親切稱呼為老黃的NVIDIA創始人兼CEO黃仁勳發表主題演講。

只不過這回演講的背景不再是科技感十足的大屏幕,而是變成了頗有親切感的廚房。

此次老黃密集拋出20項重磅新消息,從一個全新GPU架構開始,到全新GPU、全新AI系統、全新AI集群、全新邊緣AI產品……每個新品的性能都非常兇殘,每秒千萬億次浮點運算(PFLOPS)單位被反覆提及!

上一次NVIDIA發布「地表最強AI晶片」Tesla V100還是在2017年,儘管過去三年不斷有對手放話稱性能超越V100,迄今V100仍是最頻繁出現在各家雲端AI晶片PPT上的公認性能標杆。

而今天推出的一系列AI產品,是NVIDIA憋了三年的超級核彈!千呼萬喚始出來的安培架構、最大7nm晶片、最先進的Mellanox網絡技術、進化的特定軟體平臺……NVIDIA狂出一套組合拳,秀出NVIDIA迄今為止最大的性能飛躍。

遺憾的是,由於疫情的原因,這次GTC大會「老黃」得不到現場觀眾熱情的歡呼捧場了。

接下來閒話不多說,讓我們來看看老黃釋放了哪些重磅乾貨:

1、發布第8代GPU架構——安培GPU架構。

2、發布首款基於安培架構的7nm GPU——NVIDIA A100 GPU,包含超過540億個電晶體,AI訓練峰值算力312TFLOPS,AI推理峰值算力1248TOPS,均較上一代Volta架構GPU提升20倍。

3、發布全球最強AI和HPC伺服器平臺HGX A100最大可組成AI算力達10PFLOPS的超大型8-GPU伺服器。

4、發布全球最先進的AI系統——NVIDIA DGX A100系統,單節點AI算力達到創紀錄的5 PFLOPS,5個DGX A100系統組成的一個機架,算力可媲美一個AI數據中心。

5、發布由140個DGX A100系統組成的DGX SuperPOD集群,AI算力最高可達700 PFLOPS。

6、發布新DGX SuperPOD參考架構,幫助客戶自身建立基於A100的數據中心。

7、宣布業界首個為25G優化的安全智能網卡(SmartNIC)。

8、發布首款基於NVIDIA安培架構的邊緣AI產品——大型商用現貨伺服器EGX A100。

9、發布世界上最小的用於微型邊緣伺服器和邊緣AIoT盒的最強AI超級計算機——EGX Jetson Xavier NX。

10、發布Jetson Xavier NX開發者工具包,包含雲原生支持,該支持可擴展到整個Jetson自主機器的邊緣計算產品線。

11、與開源社區合作加速數據分析平臺Apache Spark 3.0,可將訓練性能提高7倍

12、NVIDIA Jarvis提供多模態會話AI服務,簡化了定製版會話AI服務的構建。

13、發布用於深度推薦系統的應用框架NVIDIA Merlin。

14、展示NVIDIA Clara醫療平臺的突破性成就和生態擴展,幫醫療研究人員更快應對疫情。

15、開放式協作設計平臺NVIDIA Omniverse現已可供AEC市場的早期體驗客戶使用。

16、聯手寶馬,基於NVIDIA Isaac機器人平臺打造提高汽車工廠物流效率的物流機器人。

17、小鵬汽車新款P7智能電動汽車及下一代生產車型中擬使用NVIDIA DRIVE AGX平臺。

18、小馬智行將在其自動駕駛Robotaxi車隊中使用NVIDIA DRIVE AGX Pegasus平臺。

19、Canoo選擇在下一代電動汽車中部署NVIDIA DRIVE AGX Xavier平臺。

20、法拉第未來將在其旗艦超豪華FF 91電動車上部署NVIDIA DRIVE AGX Xavier平臺。

下面來看這20處新訊具體有哪些亮點。

▲NVIDIA計算卡進化歷程

一、安培新卡:一統訓練、推理和數據分析!

NVIDIA基於安培(Ampere)架構的新一代數據中心GPU——NVIDIA A100 GPU是一個通用的工作負載加速器,也為數據分析、科學計算和雲圖形而設計,正在全面投產並向全球客戶發貨。

A100利用了英偉達安培架構的設計突破——成為首個內置彈性計算技術的多實例GPU,提供了NVIDIA迄今為止最大的性能飛躍——統一了數據分析、訓練和推理,將AI訓練和推理性能提高到上一代的20倍,將HPC性能提升到上一代的2.5倍。

▲NVIDIA A100 GPU

黃仁勳介紹說,這是第一次能在一個平臺上實現加速工作負載的橫向擴展(scale out)和縱向擴展(scale up)。「NVIDIA A100將同時提高吞吐量和降低數據中心的成本。」

1、A100的五大技術突破

(1)安培架構:A100的核心是英偉達安培GPU架構,面積為826mm,包含540億個電晶體,是世界上最大的7nm處理器。

▲NVIDIA A100的訓練、推理和數據分析性能比較

(2)第三代張量核心與TF32:NVIDIA第三代張量核心(Tensor Core)更加靈活、更快、更容易使用。其擴展功能包括面向AI的新數學格式TF32,無任何代碼更改,可將單精度浮點計算峰值提升至上一代的20倍。此外,張量核現已支持FP64,為HPC應用提供了比上一代多2.5倍的算力。

▲TF32擁有與FP32相同的8個指數位(範圍)、與FP16相同的10個尾數位(精度)

(3)多實例GPU(MIG):可以將一個A100 GPU分割成多達7個獨立的GPU實例,從而為不同大小的任務提供不同程度的計算,提高利用率和投資回報。

(4)第三代NVIDIA NVLink互聯技術:使GPU之間的高速連接加倍,可將多個A100 GPU連成一個巨型GPU來運行,從而在伺服器上提供高效的性能擴展。GPU到GPU的帶寬為600GB/s。

(5)結構稀疏性:這種新的效率技術利用了AI數學固有的稀疏性, 對稀疏AI張量Ops進行優化,將性能提高了一倍,支持TF32、FP16、BFLOAT16、INT8和INT4。

這些新特性一組合,NVIDIA A100就化身多面手,無論是會話AI、推薦系統等AI訓練與推理,還是地震建模、科學模擬等數據分析,A100都將是高要求工作負載的理想選擇。

例如在運行谷歌自然語言處理模型BERT時,A100將訓練性能提升至上一代V100的6倍,推理性能提升至V100的7倍。

2、軟體堆棧更新,落地正進行時

硬體升級,軟體堆棧也隨之更新。

NVIDIA宣布的軟體更新內容包括:50多個用於加速圖形、模擬和人工智慧的CUDA-X庫的新版本,CUDA 11,多模態會話AI服務框架Jarvis,深度推薦應用框架Merlin,還有能幫助HPC開發人員調試和優化A100代碼的NVIDIA HPC SDK。

A100正被多家世界領先的廠商整合到產品或服務中。其中既包括亞馬遜AWS、微軟Azure、阿里雲、百度雲、谷歌雲、甲骨文等雲服務提供商,也包括Atos、思科、戴爾、富士通、技嘉科技、H3C、惠普、浪潮、聯想、微軟Azure、廣達/QCT、超微等全球領先的系統製造商。

美國印第安納大學、德國卡爾斯魯厄理工學院、德國馬克斯·普朗克計算和數據中心等高校和研究機構也是A100的早期採用者。

3、HGX A100伺服器構建塊:加速伺服器開發

為了幫助加速來自合作夥伴的伺服器開發,NVIDIA打造了超大型數據中心加速器HGX A100——一個以多GPU配置的集成底板形式出現的伺服器構建塊。

▲NVIDIA HGX A100

4-GPU HGX A100提供了GPU與NVLink之間的完全互聯,而8-GPU配置通過NVSwitch提供了GPU到GPU的全帶寬。

HGX A100採用了新的多實例GPU架構,可配置為56個小型GPU,每個GPU都比NVIDIA T4快,最大可組成一個擁有AI算力達10 PFLOPS的巨型8-GPU伺服器。

二、全球最先進AI系統:一個機架比肩整個AI數據中心

老黃亮出的第二個大招,是全球最先進的AI系統——NVIDIA第三代AI系統DGX A100系統,它被稱之為「推進AI的終極工具」。

▲NVIDIA DGX A100系統

1、單節點AI算力達5PFLOPS

NVIDIA DGX A100系統將訓練、推理、數據分析統一於一個平臺,這是世界上第一臺單節點AI算力達到5 PFLOPS的伺服器,首次在一個單一、靈活的平臺上提供整個數據中心的功率和性能。

每個DGX A100系統內部集成了8個NVIDIA A100 GPU和320GB內存。藉助A100多實例GPU特性,每個系統可配置1到56個獨立的GPU實例,從而交付靈活的、軟體定義的數據中心基礎設施。

現場老黃算了一筆帳,一個典型的AI數據中心有50個DGX-1系統用於AI訓練,600個CPU系統用於AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元。

而完成同樣的工作,一個由5個DGX A100系統組成的機架,達到相同的性能要求,只用1個機架,消耗28kW功率,花費約100萬美元。

這樣一算,正應了老黃那句名言「買的越多,省的越多」,DGX A100系統用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI數據中心。

▲NVIDIA DGX A100系統與AI數據中心參數比較

DGX A100系統由NVIDIA DGX軟體棧提供支持,其中包括針對AI和數據科學工作負載的優化軟體,支持加速Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch等,使企業在AI基礎設施上的投資獲得更快的回報。

結合這些功能,企業可以在一個完全集成的、軟體定義的平臺上優化算力和按需資源,以加速數據分析、訓練和推理等不同工作負載。

2、首批系統已交付,用於抗擊新冠肺炎

DGX A100系統起價19.9萬美元,已經開始在全球範圍內交付,現可從NVIDIA及其已認證的合作夥伴處獲取。

第一批DGX A100系統於本月早些時候交付給美國阿貢國家實驗室(Argonne National Laboratory),用於加速COVID-19研究。

▲安裝在阿貢國家實驗室的NVIDIA DGX A100系統

「新型DGX A100系統的計算能力,將幫助研究人員探索治療方法和疫苗,並研究病毒的傳播,使科學家能夠在數月或數天內完成此前需要花費多年的AI加速工作。」阿貢計算機、環境和生命科學實驗室副主任Rick Stevens說。

此外,多家全球大公司、服務提供商和政府機構已為DGX A100下了初始訂單。

例如存儲技術供應商DDN存儲、戴爾、IBM、NetApp、Pure Storage和Vast均計劃將DGX A100集成到他們的產品中,包括基於NVIDIA DGX POD和DGX SuperPOD參考架構的產品。

3、最快AI超算登場!AI算力達700PFLOPS

老黃還發布了新一代DGX SuperPOD集群,它由140個DGX A100系統與NVIDIA Mellanox 200Gbps InfiniBand互連技術提供動力,AI算力達700 PFLOPS,實現了以前需要數千臺伺服器才能達到的性能水平,相當於世界上最快的20臺AI超級計算機之一。

▲NVIDIA DGX SuperPOD

DGX A100的企業就緒型架構和性能,使得NVIDIA只用一個月就可以構建系統,而不是像以前那樣需要數月或數年的時間來計劃和採購專門的組件以交付這些超級計算能力。

NVIDIA也在擴展自己的超算SATURNV。此前SATURNV包含1800個DGX系統,算力最高為1.8 ExaFLOPS。如今NVIDIA在SATURNV新增4個DGX SuperPOD,SATURNV的總算力峰值增至4.6 ExaFLOPS。

為了幫助客戶自身建立基於A100的數據中心,NVIDIA發布了一個新的DGX SuperPOD參考架構。它為客戶提供了一份藍圖,該藍圖遵循英偉達用於構建基於DGX A100的AI超級計算集群的設計原則和最佳實踐。

4、服務到家!專家指導,軟體就緒

NVIDIA還推出了NVIDIA DGXpert計劃,將DGX客戶與公司的AI專家聚集在一起。

DGXpert是精通AI的專家,可以幫助指導客戶進行從計劃到實現再到持續優化的AI部署,可幫助DGX A100客戶建立和維護最先進的AI基礎設施。

NVIDIA DGX-ready軟體程序幫助DGX客戶快速識別並利用NVIDIA測試的第三方MLOps軟體,幫助他們提高數據科學生產力,加速AI工作流程,並改善可訪問性和AI基礎設施的利用性。

NVIDIA認證的第一個項目合作夥伴是Allegro AI、cnvrg.io、Core Scientific、Domino Data Lab、Iguazio和Paperspace。

三、業界首個為25Gb/s優化的安全智能網卡

NVIDIA還發布了一款安全高效的乙太網智能網卡Mellanox ConnectX-6 Lx SmartNIC,它是業界首個為25Gb/s優化的安全智能網卡,用於加速雲計算和企業工作負載。

ConnectX-6 Lx是ConnectX家族的第11代產品,目前正在進行採樣,預計將在2020年第三季度實現全面可用。

▲NVIDIA Mellanox ConnectX 6 Lx智能網卡

新SmartNIC通過利用軟體定義、硬體加速的引擎來擴展加速計算,從CPU上卸載更多的安全和網絡處理。

25Gb/s的連接正在成為處理企業應用程式、AI和實時分析等高要求工作流的標準。此次發布的Mellanox ConnectX-6 Lx智能網卡可提供兩個25Gb/s埠或一個50Gb/s埠,其乙太網與PCIe Gen 3.0/4.0 x8主機連接。

ConnectX-6具備IPsec內置加密加速、信任硬體根等加速安全特性,以及10倍的連接跟蹤性能改進,使整個數據中心實現零信任安全。

該智能網卡還支持GPUDirect RDMA加速跨網絡傳輸NVMe(NVMe-of)存儲,進而橫向擴展加速計算和高速視頻傳輸應用;並具備Zero Touch RoCE(ZTR)技術,無需配置開關即可獲得一流的RoCE,進而實現可擴展、易於部署的網絡特性。

除了上述功能外,ConnectX-6也通過內置虛擬化和容器化的SR-IOV和VirtIO硬體卸載,提供加速交換和包處理(ASAP2),用於加速下一代防火牆服務的軟體定義網絡和連接跟蹤。

與ConnectX家族的所有產品相同,Mellanox ConnectX-6 Lx與Mellanox SmartNIC軟體兼容。與Mellanox Spectrum開關和LinkX系列電纜和收發器一起,ConnectX SmartNIC為高性能網絡提供了最全面的端到端解決方案。

四、 EGX邊緣AI平臺:將實時AI帶入傳統行業

老黃還宣布兩款強大的EGX Edge AI平臺產品——大型商用現貨伺服器EGX A100和微型邊緣伺服器EGX Jetson Xavier NX,將強大的實時雲計算能力帶到邊緣。

黃仁勳認為,物聯網(IoT)和AI的融合開啟了「智能一切」革命,NVIDIA EGX邊緣AI平臺將標準伺服器轉變為一個小型雲原生的、安全的AI數據中心,基於其AI應用框架,公司可以構建從智能零售、機器人工廠到自動化呼叫中心的智能服務。

▲NVIDIA EGX邊緣AI平臺

NVIDIA EGX A100是首款基於NVIDIA安培架構的邊緣AI產品,安培架構GPU為其提供了第三代張量核心和新的安全特性,該產品將在今年年底上市。

通過搭載NVIDIA Mellanox ConnectX-6 Dx SmartNIC技術,EGX A100可以接收高達200Gbps的數據,並將其直接發送到GPU內存進行AI或5G信號處理,兼顧安全性和閃電般快速的網絡功能。

作為一個雲原生的、軟體定義的加速器,EGX A100可以處理5G中對延遲最敏感的用例。這為製造、零售、電信、醫療等行業做出智能實時決策提供了高效的AI和5G平臺。

▲NVIDIA EGX A100

EGX Jetson Xavier NX是世界上最小、最強大的用於微伺服器和邊緣AIoT盒子的AI超級計算機。

EGX Jetson Xavier NX將NVIDIA Xavier SoC晶片的強大功能集成到一個信用卡大小的模塊中,該模塊具有伺服器級的性能,15W功耗限制下最多可提供21TOPS的算力,10W功耗限制下最多可提供14TOPS的算力。

通過運行EGX雲原生軟體棧,EGX Jetson Xavier NX可快速處理來自多個高解析度傳感器的流數據。

這為受到尺寸、重量、功率預算或成本限制的嵌入式邊緣計算設備打開了大門,目前已提供給希望創建大容量生產邊緣系統的公司,有來自生態系統合作夥伴的20多個解決方案。

▲EGX Jetson Xavier NX微邊緣伺服器

兩款產品為滿足不同的大小、成本和性能需求而創建的。比如,EGX A100可管理機場的數百臺攝像頭,而EGX Jetson Xavier NX的設計目標是管理便利店的少數攝像頭。

Jetson Xavier NX開發工具包和Jetson Xavier NX模塊現可通過英偉達的分銷渠道購買,售價399美元。

在麻省理工學院(MIT)航空航天副教授Sertac Karaman看來,擁有雲原生支持的Jetson平臺是一項重要的新開發,有助於構建和部署未來幾代自主機器。

EGX邊緣AI平臺的雲原生架構允許其運行集裝化軟體,確保整個EGX系列可以使用相同的優化AI軟體,以輕鬆構建和部署AI應用程式。

NVIDIA的應用框架包括用於醫療的Clara、用於電信5G的Aerial、用於會話AI的Jarvis、用於機器人技術的Isaac,以及用於智能城市、零售、交通等的Metropolis。這些平臺可以一起使用,也可以單獨使用,為各種邊緣用例開闢了新的可能性。

基於雲原生支持,智能機器製造商和AI應用程式開發人員可以在針對機器人、智能城市、醫療保健、工業物聯網等領域的嵌入式和邊緣設備上,構建和部署高質量、軟體定義的功能。

現有使用NVIDIA EGX軟體的邊緣伺服器,可從Atos、戴爾、富士通、千兆、惠普、技嘉、IBM、浪潮、聯想、廣達/QCT和超微等全球企業計算供應商處獲得,也可從Advantech和ADLINK等主流伺服器和物聯網系統製造商處獲得。

五、當今世界上最重要的應用,四類軟體更新擴展

根據老黃的演講,NVIDIA GPU將為主要軟體應用提供支持,重點加速四大關鍵應用:管理大數據、創建推薦系統、構建會話AI、進化AI醫療算法。

1、加速數據分析平臺Apache Spark 3.0

為了幫更多機構趕上機器學習的浪潮,NVIDIA正與開源社區合作,將端到端的GPU加速引入有50多萬數據科學家在使用的數據分析平臺Apache Spark 3.0。 老黃將該平臺描述為「當今世界上最重要的應用之一」。

基於RAPIDS,Spark 3.0突破了提取、轉換和加載數據的性能基準,支持跨整個數據科學管道的高性能數據分析,加速了從數據湖到模型訓練的數萬兆字節的數據,而無需更改運行在本地及雲端Spark 應用的現有代碼。

▲NVIDIA Spark 3.0

這將是首次把GPU加速應用於使用SQL資料庫操作廣泛執行的ETL數據處理工作負載,也是AI模型訓練第一次能在同一個Spark集群上加速數據準備和模型訓練,而不是將工作負載作為單獨的進程在單獨的基礎設施上運行。

Spark 3.0的性能提升,使得每天處理TB級的新數據成為可能,使科學家能用更大的數據集訓練模型,並更頻繁地重新訓練模型,從而提高了模型的準確性,並節約大量成本。

Adobe是首批在Databricks上運行Spark 3.0預覽版的公司之一。在最初的測試中,它的訓練性能提高了7倍,節省了90%的成本。

此外,老黃還宣布,亞馬遜SageMaker、Azure機器學習、Databricks、谷歌雲AI和谷歌雲Dataproc等關鍵的雲分析平臺都將由NVIDIA提供加速。

Spark 3.0預覽版現可從Apache Software Foundation獲得,預計在未來幾個月發布。

2、發布構建推薦系統的端到端框架Merlin

NVIDIA Merlin是一個用於構建下一代推薦系統的端到端框架,它正迅速成為更加個性化的網際網路的引擎。

老黃說,Merlin將從100tb數據集創建推薦系統所需的時間從4天縮短到了20分鐘。

基於深度學習的推薦系統正在推動阿里巴巴、亞馬遜、百度等網際網路巨頭的增長。但要打造持續優化的推薦系統,需要更多查詢、更快的速度、在基礎設施上投入更多的資金,以跟上不斷膨脹的數據量。

而在NVIDIA Merlin推薦應用框架發布後,推薦系統不再是科技巨頭的專利,其他人同樣能便捷地採集數據、訓練和部署GPU加速的推薦系統。

這些系統將可利用最新NVIDIA A100 GPU,比以往更快更經濟地構建推薦系統。

3、簡化最先進的會話AI構建

NVIDIA Jarvis是一個用於創建實時、多模態會話AI的端到端平臺,包含NVIDIA最大的自然語言理解模型Megatron BERT等先進深度學習模型,其應用框架簡化了最先進會話AI服務的構建。

在演講期間,老黃演示了他與一個友好的AI系統Misty的互動,Misty能實時理解並回答一系列複雜的天氣問題。

虛擬助手和聊天機器人的發展正推動會話AI市場的快速增長。IDC預計,到2023年,自動客戶服務代理和數字助理等AI會話用例的全球支出將從2019年的58億美元增長到138億美元,複合年增長率為24%。

Jarvis提供了一個完整的GPU加速的軟體堆棧和工具,使開發人員可以輕鬆地創建、部署和運行端到端實時的定製版會話AI應用。這些應用可以理解每個公司及其客戶的獨特術語。

▲NVIDIA Jarvis

使用Jarvis構建的應用程式可以利用新NVIDIA A100 Tensor Core GPU在AI計算方面的創新和NVIDIA TensorRT中用於推理的最新優化。

據悉,這是第一次可以使用最強大的視覺和語音模型來運行整個多模態應用程式,比實時交互所需的300毫秒閾值還要快。

第一批使用基於Jarvis的會話AI產品和服務為客戶提供服務的公司包括提供呼叫服務AI虛擬代理的Voca、面向金融和商業的自動語音轉錄的Kensho,以及用於預約安排的AI虛擬助手Square。

4、NVIDIA Clara醫療平臺擴展生態合作夥伴

面向醫療領域,老黃公布NVIDIA Clara醫療平臺的最新突破性成就,並宣布擴展其全球醫療合作夥伴,以幫助醫學界更好地跟蹤、測試和治療COVID-19。

(1)打破記錄的基因組測序速度:NVIDIA Clara Parabricks計算基因組軟體,實現了一項新的速度記錄,在20分鐘內分析整個人類基因組DNA序列,使得研究人員對病人對疾病的易感性、疾病的進展和對治療的反應有了更深入的了解。

(2)疾病檢測AI模型:這是與美國國立衛生研究院(National Institutes of Health)聯合開發了一款AI模型,能幫助研究人員通過胸部CT掃描檢測和研究COVID-19感染的嚴重程度,並開發新的工具來更好地理解、測量和檢測感染。這些模型可即刻在最新發布的Clara成像技術中獲得。

▲基於NVIDIA Clara COVID-19 AI分類模型的肺部影像

(3)醫院智能化:NVIDIA Clara Guardian智能醫院推出了NVIDIA Clara Guardian智能視頻分析和自動語音識別技術,通過將日常傳感器轉換為智能傳感器,提供自動體溫檢測、面罩檢測、安全社交隔離和遠程患者監測等關鍵用例,新一代的智能醫院可以執行生命體徵監測,同時限制工作人員接觸。

整個生態系統的合作夥伴正在使用預訓練的模型和遷移學習,來開發和部署融合視覺、語音和自然語言處理的AI應用程式。使用NVIDIA EGX AI Edge平臺進行部署,使解決方案供應商能夠在整個醫院環境中安全地部署和管理大量設備。

該生態系統有數十個解決方案合作夥伴,已在全球超過50家醫院和10000間病房部署基於NVIDIA Clara Guardian的解決方案。

5、支持遠程設計協作的Omniverse

在今天的主題演講中,老黃宣布計算機圖形和仿真平臺NVIDIA Omniverse現已可供AEC市場的早期訪問(early access)客戶使用。

它是一個開放式設計協作平臺,允許不同設計師用不同工具在不同的地方,無縫協作完成同一設計項目的不同部分。

老黃還在演示了Omniverse高光仿真和實時GPU渲染的更新,以及來自不同行業的客戶如何使用Omniverse的早期測試版本。

現在購買AEC的RTX伺服器配置的客戶可以使用Omniverse early access程序,有能力成為Omniverse AEC體驗項目的一部分。

六、聯手寶馬!重新定義工廠物流

NVIDIA也在繼續推進其NVIDIA Isaac軟體定義的機器人平臺,宣布寶馬集團已選擇NVIDIA Isaac,通過打造基於先進AI計算和可視化技術的物流機器人,提高其汽車工廠物流效率,以更快更有效地生產定製配置的汽車。

一旦開發完成,該系統將部署到寶馬集團的全球工廠。

▲基於NVIDIA EGX的Issac機器人工廠和Aerial軟體開發工具包

寶馬集團在全球的工廠每56秒生產一輛新車,有40種不同的車型,寶馬集團的供應鏈由來自世界各地數千家供應商的數百萬個零部件生產而成,涉及23萬個零件號,且99%的客戶訂單彼此之間具有獨特的區別。這些給工廠物流帶來了巨大的挑戰。

為了優化物流,自動AI驅動的物流機器人現在協助當前的生產流程,以便在同一條生產線上組裝高度定製的車輛。

NVIDIA Isaac機器人平臺包括Isaac SDK、Isaac Sim、AGX和DGX,各組件一起協作來設計、開發、測試、計劃和部署寶馬製造工廠的物流機器人。

寶馬集團藉助NVIDIA Isaac機器人平臺開發出5個支持AI的機器人,以改進其物流工作流程,其中包括自動運輸材料的導航機器人、選擇和組織零件的操作機器人。

這些機器人經由真實和合成數據進行訓練,使用NVIDIA GPU在各種光線和遮擋條件下渲染光線追蹤機器部件,以增強真實數據。然後用真實和合成的數據在NVIDIA DGX系統上訓練深度神經網絡。

整個過程由高性能NVIDIA Jetson AGX Xavier和EGX邊緣計算機提供動力。

在NVIDIA Omniverse平臺上,這些機器人將在NVIDIA Isaac模擬器上連續進行導航和操作測試,來自不同地理位置的多名寶馬團隊人員都可以在一個模擬環境中工作。

▲NVIDIA Isaac平臺在寶馬工廠同步工作

寶馬加入了龐大的NVIDIA機器人全球生態系統,涵蓋送貨服務、零售、自主移動機器人、農業、服務、物流、製造和醫療。

老黃相信,未來工廠將變成巨大的機器人,每個批量生產的產品都將是定製的。

七、NVIDIA的五個自動駕駛新夥伴

老黃說,自動駕駛汽車是我們這個時代面臨的最大的計算挑戰之一,對此NVIDIA正著力推進NVIDIA DRIVE平臺。

NVIDIA DRIVE將使用新的Orin SoC和嵌入式NVIDIA安培GPU,以實現能源效率和性能,為前擋風玻璃提供5瓦的ADAS系統,並將規模擴大到2000TOPS、L5級Robotaxi系統。

根據今天新公布內容,中國電動汽車製造商小鵬汽車新推出的P7智能電動車及下一代生產車型、美國電動汽車新創企業Canoo的下一代電動汽車、法拉利未來的旗艦超豪華FF 91電動車,都計劃採用NVIDIA DRIVE AGX Xavier平臺。

NVIDIA Xavier是世界上第一個為自動駕駛設計的處理器,可提供30TOPS算力,同時只消耗30W的功率,且滿足當今嚴格的安全標準和監管要求。自動分級的Xavier SoC現已投入生產,基於安全架構,集成了六種不同類型的處理器,用於運行AI、傳感器處理、地圖繪製和駕駛的不同算法。

由於小鵬汽車與Xavier平臺具有很強的架構兼容性,小鵬汽車也在積極探索將NVIDIA Orin平臺應用於未來一代智能電動汽車的潛在機會。

NVIDIA Orin是世界上性能最高、最先進的自動車輛和機器人SoC,算力可達200TOPS,同時也能夠縮小到入門級ADAS/Level 2用例,功耗低至5W。

▲NVIDIA Orin SoC

此外,中國自動駕駛技術公司小馬智行(Pony.AI)也將在其自動駕駛移動出行Robotaxi車隊中部署NVIDIA DRIVE AGX Pegasus自動駕駛平臺。

DRIVE AGX Pegasus採用安全的架構,算力達320TOPS,集成了2個NVIDIA Xavier SoC和2個NVIDIA圖靈張量核心GPU。

下一代NVIDIA Drive Robotaxi解決方案擬集成2個Orin SoC、2個安培GPU,算力提升6倍至2000TOPS,能效提升4倍。

老黃說:「現在汽車製造商可以利用整個車隊的軟體開發,用一種架構開發整個車隊。」

NVIDIA DRIVE生態系統現在包括汽車、卡車、L1級汽車供應商、下一代移動服務商、初創公司、地圖服務商等。

此外,老黃還宣布英偉達將把NVIDIA DRIVE RC添加到其驅動技術套件中,用於管理整個車隊的自動駕駛車輛。

結語:誠意滿載,獻禮AI

自AI第三次浪潮爆發以來,NVIDIA始終是其中最為耀眼而又無可替代的明星企業之一。如今的GTC大會,不僅是NVIDIA先進產品和服務的集中秀場,亦是全球AI和深度學習領域舉足輕重的一大技術盛事。

儘管疫情所礙,GTC 2020比原計劃的3月來的稍晚些,但從今日NVIDIA發布的內容來看,這場圍繞AI算力的饕餮盛宴仍令人感到驚喜。時隔三年,NVIDIA不僅帶來了新一代安培架構,還一併秀出包括GPU晶片、AI系統、伺服器構建塊、AI超級計算機、邊緣伺服器產品、嵌入式AI產品等全套AI計算大禮包,自動駕駛生態也在穩定地持續擴張。

我們可以看到,經過經年累月的積累和打磨,NVIDIA在技術、產品、生態鏈、供應鏈等方面的優勢都已是難以逾越的高山。

如今AI晶片市場日漸呈現百家爭鳴之態勢,創新架構風起雲湧,雲邊端都陸續出現新的挑戰者。因GPU加速和AI崛起而聲名赫赫的NVIDIA,依然在AI賽道上全速向前奔跑,如果不出意外,我們大概很快會在新一輪AI晶片的發布潮中,看見基於安培架構的NVIDIA A100 GPU成為新的性能衡量標杆。

而成為新性能標杆的A100又將給AI和數據科學領域帶來怎樣的變局?這又將是一個新的令人期待的故事。

相關焦點

  • 用「AI核彈」飽和攻擊的英偉達,如何贏下AI計算新賽場?
    (NVIDIA A100 GPU)英偉達首次推出第8代安培GPU架構,以及首款基於安培架構的NVIDIA A100 GPU,採用7nm工藝,在和上一代Volta架構V100 GPU幾乎相同面積的晶圓上放置了超過540億個電晶體,電晶體數量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓練和推理算力上,均較上一代Volta
  • GPU大廠英偉達的AI造夢空間
    「英偉達來雲棲大會了,下午還有開箱預熱!」 英偉達是誰?它是遊戲宅們口中的錢包「收割機」,也是AlphaGo背後的「硬實力」。1993年英偉達成立,瞄準遊戲晶片市場,以GPU為鉚點,不斷發展圖形渲染能力,並在之後的幾年,成長為遊戲顯卡界的巨擎。 與此同時,GPU的出現為AI計算帶來了新的動力。英偉達通過一系列手段支持AI技術發展,打造性能、構架更高效的GPU,即「通用AI處理器」。近十年來,GPU長足發展,其在深度學習領域擁有的數據處理能力,極大拓展了AI的應用場景。 AI江湖,硝煙四起。
  • 英偉達推出RTX 30系列顯卡,性能翻倍,價格亮了
    Geforce RTX 30 系列顯卡,採用三星8nm製程工藝,集成280億個電晶體
  • 收購邁絡思之後,英偉達已經成為一家數據中心公司
    英偉達宣布將斥資69億美元收購數據中心網絡公司邁絡思(Mellanox),令包括長期關注英偉達的人士在內的許多人感到意外。這是迄今為止英偉達最大的一筆收購。它之前收購的公司規模要小得多,而且常常以低價收購。相對而言,2001年收購競爭對手3dfx是最貼切的類比,正如筆者所說的那樣,當時英偉達的規模要小得多。
  • GPU促使人工智慧大發展 英偉達股票年內翻番
    上遊方面,包括英偉達在內的處理器設計公司在股票市場上水漲船高,多隻股票價格翻倍,英偉達也因此獲得行業併購機遇。9月中以來,英偉達正與投資公司軟銀磋商對英國晶片IP商Arm的收購,涉及股票加現金代價合計約400億美元。
  • 發布全球最大 GPU,核彈廠英偉達為何要重新定義「虛擬世界」?
    十年的 GTC 歷史,再到最近每年的 CES 主題演講,黃教主幾乎每半年就會拿出自己的「新核彈」,按照往常,每說到這句話時,黃教主應該從口袋掏出兩款晶片,同時拿在手裡做比較,而這一次確是一個意外,他拿不起來,因為他帶來的是一款「全球最大的 GPU」。
  • Arm在數據中心的價值:黃氏定律背後,英偉達打的什麼算盤?
    其中特別提到英偉達的DPU,這種類型的硬體,幾乎可以代表數據中心的某一個發展方向。這個議題甚至恰好能夠解答,英偉達為何要收購Arm,以及AMD為何要收購賽靈思。在近期英偉達GTC China首日主題演講之後的圓桌論壇上,英偉達全球業務運營執行副總裁Jay Puri談到了有關英偉達收購Arm的問題。
  • AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍
    1965年,時任仙童半導體公司工程師,也是後來英特爾的創始人之一的戈登·摩爾(Gordon Moore)提出了摩爾定律(Moore's law),預測集成電路上可以容納的電晶體數目大約每經過24個月便會增加一倍。後來廣為人知的每18個月晶片性能將提高一倍的說法是由英特爾CEO大衛·豪斯(David House)提出。
  • 超越英偉達的,不會是另一款GPU——鯤雲數據流架構AI晶片利用率...
    第三方測試數據顯示僅用1/3的峰值算力,CAISA晶片可以實現英偉達T4最高3.91倍的實測性能。鯤雲科技的定製數據流技術不依靠更大的晶片面積和製程工藝,通過數據流動控制計算順序來提升實測性能,為用戶提供了更高的算力性價比。
  • 晶片股利好在線,AMD和英偉達能否繼續攀升?
    增長故事 英偉達和AMD在2020年實現了健康增長,因為它們在為科技行業提供創新晶片方面發揮了關鍵作用,以滿足前所未有的需求。 英偉達的股價走高是由多種因素推動的。隨著如此多的企業客戶建立數據中心來存儲他們收集到的所有信息,英偉達的A100圖形處理器(gpu)幫助該公司的數據中心部門實現了爆炸性增長。此外,由於許多人在COVID-19大流行期間被困在家裡,人們對電子遊戲的興趣大增。這反過來又增加了對頂級英偉達遊戲產品的需求,比如它的RTX顯卡系列。
  • 英偉達Ampere GA102 GPU核心透視圖曝光 RTX 3090/3080長這樣
    英偉達在 RTX 3090 / 3080 旗艦顯卡上使用了 Ampere GA102 GPU 核心,預計未來幾月還會在其它 SKU 中見到它的身影,包括 GeForce / Quadro 產品線。需要指出的是,完整的 GA102 Ampere GPU 規格尚未被英偉達正式啟用。其中包括了 7 組圖形處理集群,每組 * 12 個 SM 單元。
  • 直擊現場丨三個月股票暴跌40%,英偉達CEO黃仁勳在蘇州是這樣回應的......
    GTC CHINA 2018舉行三天,共辦70餘場專業的技術講座,與會人數預計將超過8000人,主要圍繞深度學習與 AI 框架與研究、開發工具、加速數據科學、數據中心和雲計算基礎架構、HPC 和超算、智能機器與物聯網和機器人、自動駕駛、專業圖形應用、工業製造與建築工程等領域的最新研究成果和創新發現,以及電信、醫療、金融等戰略產業中的最新實踐經驗和解決方案。
  • 新春GPU超值福袋!RTX3090包周/月特權0元搶!
    2020年,我們有幸見證了,新卡皇RTX3090的制霸,其優越的性能,簡直秀煉丹師們一臉,甚至讓人想大聲喊出,英偉達
  • 現場 | 近距離接觸英偉達專業級顯卡 Quadro 系列,都能幹點啥?
    4 月線上開課,www.mooc.ai 現已開放預約。雷鋒網按:4 月 12 日,雷鋒網受邀參加了英偉達在北京國家會議中心舉行媒體發布會。會上英偉達展示了其發布不久的基於 Pascal 架構的 Quadro 系列顯卡,包括:GP100、P2000、P4000、P5000、P6000 等。
  • 英偉達發布新一代旗艦顯卡Titan V:Volta架構,售價3000美元
    在今天 NIPS 2017 大會的活動中,英偉達 CEO 黃仁勳發布了最新一代 Titan 顯卡 Titan V,售價 3000 美元。NVIDIA Titan V 集成了英偉達最新一代 GPU 技術,採用 Volta GPU 架構 GV100,製程進入 12nm,同時擁有 12 GB 的 HBM2 顯存。
  • 英偉達開大會,每秒下載 1.4 萬部小電影的 GPU 來啦
    沒錯,DGX-2 就是黃教主口中搭載了「全球最大 GPU 」的超級電腦,能實現每秒 2 億千萬次浮點運算,功耗 10 千瓦,比英偉達去年發布的 DGX-1 性能高出 10 倍。如果你不是內行肯定也不知道這啥意思,但舉個例子你就懂了。用這超級電腦,每秒下載 14000 部電影,怎樣,牛不牛?
  • 百枚核彈部署在美國?前蘇聯數百枚核彈丟失,一枚等於1000噸TNT
    其中有一種戰術核裝置被稱作「核背包」或者是「核手提箱」,這個外觀看似是一個背包的東西,其實本質上是一種非常小的核裝置,能夠用背包或者行李箱來運輸。美國和前蘇聯在冷戰初期,都意識到可能有限使用核武的戰爭。
  • 中國究竟有多少核彈?數量遠超350枚!美智庫發布最新版報告
    近日,美智庫公布了《2020年度核武器報告書》,書中講到中國大陸擁有核彈數量達到350枚,遠遠超過美國五角大樓預估的200枚,而且這些核彈,完全具備擊打航母的能力,這也進一步證實,美國國防部已嚴重低估了中國的軍事實力。該報告中顯示,在這350枚核彈中,204枚為核彈彈頭,48枚為潛射彈頭,20枚為空投式核彈,其中一共有272枚隨時可以在戰場上使用。
  • 電機控制IC企業受投資重視;英偉達發布RTX 30系列GPU;存儲晶片價格...
    數據顯示,今年1—8月,我國集成電路累計進口1.5萬億元人民幣,同比增長15.3%,高於我國外貿進口17.6個百分點。Kitty點評:首先中國是全球半導體場增長的主要動力,這個已成為行業事實。就在前不久,魏少軍教授的一組數據也充分說明了這一結論。根據SIA最新發布的數據顯示,全球半導體上半年的增長達到4.5%,銷售額達到2085億美元。
  • 幹掉英偉達?晶片企業永遠不可能睡上安穩覺
    下一個十年的支撐點2020年2月,美國財經網站用「華爾街為之震驚」,來形容英偉達2020財年Q4財報上數據中心板塊的強勢表現——英偉達的晶片銷售額達到創紀錄的9.68億美元。這的確是一個令人瞠目結舌的數字。