英偉達DPU計算吞吐量三年將跨越近1000倍!Jetson AI機器人價格低至...

2020-12-25 手機鳳凰網

雷鋒網消息，10月5日，英偉達召開一年一度的2020 GTC（GPU技術大會）。黃仁勳再次在自家廚房發表了開幕演講，這次演講主要分為4個部分：數據中心、邊緣人工智慧、協作工具和醫療保健。

核心亮點包括：

數據中心：推出英偉達Blue Field-2 DPU和英偉達Blue Field-2X DPU，具有英偉達Mellanox的所有功能；推出DOCA SDK。

邊緣人工智慧：宣布推出英偉達EGX AI平臺，使各種規模的組織能夠快速有效地大規模部署人工智慧；推出Jetson Nano 2GB開發套件，範圍包括從入門級AI設備到高級平臺。

協作工具：支持百萬設計師實時合作的開源測試版本Omniverse平臺，流媒體視頻AI平臺英偉達Maxine。

醫療保健：同全球醫療公司GSK及其AI集團合作，正建造供英國醫療人研究人員使用的超級計算機。

新一代DPU加速數據中心

黃仁勳說，當下的數據中心是由軟體定義的，這使得數據中心更加靈活的同時也產生了巨大的負擔，數據中心基礎架構的運行能夠消耗20%-30%的CPU核心，因此需要一種新的處理器，即DPU（Data Processing Unit）。

DPU究竟有什麼作用？根據英偉達官方的解釋，DPU是一種SOC，集三個關鍵要素於一身：

行業標準的、最高性能及軟體可編程的多核CPU，通常基於廣泛的Arm架構，與其SOC組件密切配合；

高性能網絡接口，能以線速或網絡中的可用速度解析、處理數據，並高效地將數據傳輸到GPU和CPU。

各種靈活和可編程的加速引擎，可以卸載AI、機器學習、安全、電信和存儲等應用，並提升性能。

DPU的這些功能對於實現安全的下一代雲上大規模計算至關重要。

基於英偉達今年四月收購的Mellanox的最新研究成果，英偉達推出了兩款DPU產品，英偉達BlueField-2 DPU與BlueField-2X DPU。

據英偉達介紹，BlueField-2 DPU具有英偉達Mellanox Connext-6 SmartNIC的所有特點，並與強大的Arm內核連接在一起，且是可完全編程的，能夠提供每秒200千兆比特的數據傳輸速率，加速關鍵數據中心的安全、網絡和存儲任務。

BlueField-2X DPU則擁有包括BlueField-2 DPU的所有關鍵特性，其特性能夠通過英偉達安培GPU的AI功能得以增強。

為了能夠讓開發人員在DPU加速的數據中心基礎設施服務上構建應用程式，英偉達還推出類似於英偉達CUDA編程模型幫助開發人員構建GPU加速的應用程式——DOCA軟體開發工具包。

值得一提的是，DOCA為開發人員提供了一個全面、開放的平臺，完全集成在一個軟體目錄中，能夠為第三方應用程式提供商提供一個方便的軟體環境，利用DPU加速數據中心，並開發、認證和分發應用程式給客戶。

黃仁勳宣布，將在英偉達下一代安培GPU添加新的BlueField-2，用於英偉達AI計算。

此外，黃仁勳還公布了英偉達DPU的發展路線圖，預計在2023年推出400 TOPS、400Gbps的BlueField-4，這意味著在短短幾年內，英偉達DPU的計算吞吐量將跨越近1000倍。

EGX AI平臺部署人工智慧，民主化的Jetson AI機器人

黃仁勳認為，總有一天數以萬計的人工智慧設備和機器人將遍布家庭、辦公樓、商店等場所，充斥整個地球，「為了支持這一大規模的轉變，英偉達創建了一個加速計算平臺，幫助公司實現數據中心的現代化，並在任何地方部署人工智慧。」

這裡所說的加速計算平臺即英偉達EGX人工智慧平臺，該平臺的系統能夠通過戴爾、聯想、浪潮、超微等領先的伺服器製造商獲得。

英偉達還宣布，EGX平臺正在擴大合併英偉達安培GPU和BlueField-2 DPU在單個PCIe卡上的功能，為企業提供了一個共同的平臺來構建安全、加速的數據中心。

為了部署和管理EGX伺服器，英偉達推出一項名為英偉達艦隊司令部的新服務，將邊緣計算的安全和實時處理能力與遠程管理和軟體服務的易用性結合起來，能夠通過統一的控制平面，集中管理遍布廣大地區的伺服器，包括工廠、醫院、零售店甚至城市街道。據悉，全球供應鏈解決方案的領導者KION集團正在使用英偉達EGX AI平臺為其智能倉庫系統開發AI應用程式，提高零售配送中心的吞吐量和效率。

去年，英偉達推出了售價為99美元的Jetson AI計算機，今年擴大Jetson AI在邊緣平臺上的入門級開發套件，售價僅為59美元。

據悉，作為Jetson系列的新成員，Jetson Nano 2GB開發人員套件是為教學和學習人工智慧的人群而設計的，其範圍從入門級AI設備到高級平臺，用黃仁勳的話講，Jetson AI機器人是民主化的機器人。為了支持人工智慧教學，英偉達還宣布了Jetson免費在線的可用性，補充了許多開源項目，數千名開發人員都活躍在Jetson社區，培訓和獲得人工智慧認證。

Booz Allen Hamilton分析和人工智慧研究主任Drew Farris說：「在Booz Allen，我們尋求增強人們改變世界的能力。我們正在使用英偉達 Jetson來培訓新的技術資源，因為人工智慧對於企業和人員來說至關重要，利用人工智慧來解決最困難的全球問題挑戰。」

安培架構拓展至專業視覺產品線，Omniverse構建元宇宙

除了在數據中心和邊緣人工智慧方面取得的進展，英偉達還宣布推出協作工具Omniverse平臺的開放測試版本和AI數據流平臺Maxine，構建致力於AI醫療研究的超級計算機「劍橋1」。此外，英偉代還在GCT fall上宣布延展至專業視覺產品線的安培架構。

Omniverse是世界上第一個基於英偉達RTX的三維仿真和協作平臺，它融合了物理和虛擬世界，實時模擬現實，並具有真實感的細節。「Omniverse允許設計師、藝術家、創作者甚至人工智慧在不同的世界中使用不同的工具，在一個共同的世界中連接合作，共同創造一個世界。」黃仁勳說。

使用Maxine，開發人員可以減少視頻帶寬消耗，降低供應商成本名為終端用戶提供能流暢的視頻會議體驗，改善視頻會議的經驗。

除了提高普通流媒體的用戶體驗，英偉達在GCT Fall上宣布，正在與AWS展開合作，發布英偉達CloudXR，並在Amazon EC2 P3和G4上可用。據悉，英偉達CloudXR平臺包括 CloudXR軟體開發工具包、Quadro虛擬工作站軟體和AI SDK。藉助雲流式的體驗，專業人員可以輕鬆設置、擴展和訪問來自任何地方身臨其境的體驗，不再受到VR環境的限制。

在GCT Fall上，英偉達還宣布推出面向專業設計師的Quadro RTX A6000和英偉達A40 GPU，與上一代產品相比，新一代GPU具有新的RT核心、Tensor核心和CUDA核心，加快了圖形渲染和AI的速度。

最後，值得注意的是，在此次演講中，黃仁勳也提到了英偉達與Arm的關係，宣布了推進Arm平臺重大舉措：

首先，英偉達將用GPU、網絡、存儲和安全技術補充Arm的業務，創建完整的加速平臺。

第二，英偉達正在與Arm合作夥伴合作，為HPC、雲、邊緣和PC創建平臺，這需要晶片、系統和系統軟體。

第三，英偉達正在將AI和RTX引擎移植到Arm。

「今天，這些功能只能在x86上使用，有了這一舉措，Arm平臺也將在加速和AI計算方面的領先地位。」黃仁勳說。

相關焦點

打破16項AI性能記錄!英偉達A100 GPU要無人能敵?

HDR InfiniBand可實現極低的延遲和高數據吞吐量，同時通過可擴展分層聚合和縮減協議（SHARP）技術，提供智能深度學習計算加速引擎。英偉達A100能否無人能敵？英偉達A100發布之後，就有業內人士表示GPU的性能又上了一個臺階，AI晶片初創公司想要超越英偉達的難度有增加了。
英偉達發布史上最強計算平臺,黃教主:自動駕駛不再擔心算力問題

有業界觀點認為，實現 L2 自動駕駛需要的計算力小於 10 TOPS，L3 需要的計算力為 30 - 60 TOPS，L4 需要的計算力大於 100 TOPS，L5 需要的計算力至少為 1000 TOPS。
定位「算力加速」的英偉達,AI算力版圖正越來越大

科技公司正不斷運用AI算法與新商業模式，推動AI能力滲透個人消費市場，底層代表則是算力服務者英偉達。在2020 GTC中國上，英偉達展示了阿里巴巴淘寶在使用NVIDIA GPU計算平臺下為直播和AI推薦提供加速服務；快手也利用GPU超解析度處理技術，將視頻解析度提升至720p或1080p；英偉達與京東物流基於Jetson平臺打造的智能機器。
AI從業必看!英偉達GTC China大會最新乾貨 - 智東西

過去八年，NVIDIA將單晶片推理性能提高了317倍。電信號因自身限制，傳播距離只有1/3米，而光信號的傳播距離有20-100米，只需一個單條NVLink便可連接至更大規模的系統。這種名為「密集波分復用」的光學技術, 有望在僅1毫米大小的晶片上實現Tb/s級數據的傳輸，是如今互連密度的10倍以上。除了更大的吞吐量，光鏈路也有助於打造更為密集型的系統。
英偉達收購Arm 軟銀套現離場物聯網夢醒

英偉達與軟銀集團達成了一筆價值400億美元的交易。這項交易不僅將使得英偉達立即增加其非通用會計準則下的毛利率和每股收益，還將擁有半導體晶片上遊智慧財產權提供商Arm。這一價格也刷新了半導體行業收購的最大金額記錄。
機器人買空PS5和RTX3080?索尼英偉達道歉,實際價格已翻倍

最近剛剛發布的PS5和RTX3080目前來講是全球玩家們認為比較搶手的貨，但是兩家都在供貨鏈上出現了嚴重問題，黃牛們每到這時候就玩陰招，用機器人來搶PS5和RTX3080，直接導致官方貨源稀缺。普通玩家目前根本不可能用原價買得到，只能買到被黃牛當成年度理財產品的高價貨。
英偉達發布RTX 30系顯卡,性能超2080Ti,價格3899元起

簡單的說，大家津津樂道的「光追」技術，對每一個像素的計算量要遠遠大於以前的光柵化手段，但這也帶來了能耗變大，速度變慢的負面效果。DLSS的目的就是儘量減少當前需要處理的像素數量。英偉達用兩年時間在16K視頻上進行訓練DLSS 2.0，幫助生成高解析度的當前幀。
機器人遞接物品反應慢?英偉達開發 AI 模型:數據集圖像總量逾 15...

因此，英偉達（Nvidia）研究人員設計了一種人類-機器人遞接物品的新方式，當機器人面對人類時，對其持握動作進行判斷、分類，進而設計出遞接物品的方式。這一方式比基線更流暢，可為協作機器人的設計提供新思路，從而提高倉庫工人的生產力。
小米亮相英偉達GTC 2020,揭秘小米語音背後的硬核技術

在語音識別業務batch推理優化方面，小米的在線語音識別業務通過深度優化Kaldi中模型推理模式，將原來的單序列模式改為batch模式，幫助業務的吞吐量提升3倍。batch-am技術的原理相對簡單，就是打包多條語音同時送入GPU進行計算，其難點在於能夠自動定位神經網絡中context的位置並進行管理，且需要兼容Kaldi中各種各樣的神經網絡。最終，batch-am推理確實能夠有效提升服務的吞吐量，以P4伺服器為例，加入batch-am推理幫助單臺伺服器的吞吐量提升3倍。
系統功耗吊打英偉達T4!賽靈思發布U30加速器卡,主打視頻直播

此外，U30支持低時延和超低時延的轉碼解碼，能夠在保證視頻質量的情況下，將時延降低到100ms。在功耗方面，U30提供低於40w的低功耗設計方案，最高功耗限制為75w。32 個英偉達 T4 加速器的HPE ProLiant DL380 伺服器，且前者的每卡吞吐量有4倍優勢，硬體成本降低6倍，功耗成本降低5倍。
性能翻倍,英偉達最強消費級顯卡出爐-虎嗅網

這些公版GPU的國行價格也第一時間出現在了英偉達中國官網上：除了製程提高，安培架構還有一些針對 AI 計算特有的機制，其中的三代 Tensor Core 會對稀疏張量運算進行特別加速：執行速度提高一倍，也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統會自動將數據轉為 TF32 格式加速運算，現在你無需修改任何代碼量化了，直接自動訓練即可。
英偉達首席科學家解讀「黃氏定律」:替代摩爾定律,定義AI時代?

【新智元導讀】英偉達將於12月15日-19日召開GTC中國線上大會，今日的主題演講由英偉達首席科學家BillDally分享關於AI、計算機圖形學、高性能計算、醫療、邊緣計算、機器人等領域最前沿的創新以及AI推理、GPU集群加速等最新的研究成果。沒錯，英偉達GTC大會又來了，不過這次沒有老黃，背景也不是他家的廚房。
英偉達將打造世界上最快的AI超級計算機基於Atos構建

【CNMO新聞】據外媒TECHPOWERUP消息，英偉達今天宣布，義大利集團CINECA（世界上最重要的超級計算中心之一）將使用該公司的加速計算平臺來構建世界上最快的AI超級計算機。
AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍

搭載160多個GPU的NVIDIA DGX系統模型Dally在演講中舉例展示了一個未來將搭載160多個GPU的NVIDIA DGX系統模型。這意味著，利用「密集波分復用」技術，不僅可以實現更大的吞吐量，光鏈路也有助於打造更為密集的系統。
黃仁勳北京激情演講2小時:搞定國內10大科技巨頭發布最強AI引擎...

名為「i am ai」的開場視頻以「我是科學家」、「我是治癒者(healer)」、「我是保護者」、「我是老師」等第一人稱作為旁白，介紹了以英偉達GPU驅動的人工智慧如何在數據、醫療健康、翻譯、機器人、自動駕駛、教學等等領域進行應用。　　這個開場視頻復用了與5月GTC的開場視頻架構，但是加入了本土化的科大訊飛(002230,股吧)、圖森駕駛等鏡頭。
貴港碼頭年吞吐量首次突破1000萬噸

廣西新聞網通訊員張學攝廣西新聞網貴港12月17日訊（記者覃錚通訊員黃慧萍）12月17日上午，北部灣國際港務集團貴港碼頭年吞吐量首次突破1000萬噸慶祝儀式在貴港碼頭羅泊灣作業區舉行。貴港市副市長黃星榮、自治區港航發展中心副主任劉秉濤等領導嘉賓出席慶祝儀式。
英偉達八代GPU史上的超級大飛躍較前一代圖靈架構性能提升20倍

近日，英偉達 CEO 黃仁勳正式發布了新一代 GPU 架構 Ampere 安培，這是英偉達推出的第八代 GPU 架構，較前一代 2018 年發布的圖靈架構性能提升高達 20 倍。據悉，英偉達每代顯卡架構均以頂級科學家命名，這一次以法國物理學家安培命名。
英偉達最強消費級顯卡RTX 3090出爐:半價買泰坦

這些公版GPU的國行價格也第一時間出現在了英偉達中國官網上：當今最強 GPU在深度學習、光線追蹤的一系列熱場後，黃仁勳突然從放置抹刀的瓶子後，拿出了了一塊 RTX 3080，開始正式介紹 RTX30 系列。
Intel:首款神經擬態研究晶片功耗可比CPU低1000多倍

「大腦仍然是最無敵的計算設備，即便傳統計算架構在過去 70 年取得了巨大進步。與訓練人工智慧系統的通用計算晶片相比，Loihi 晶片的能效提升了 1000 倍。」和大腦一樣，所有計算都在晶片上進行，通過二進位脈衝信息和低精度信號，內存來源於晶片神經元之間的連接。Loihi 採用同質架構，將許多小神經擬態核實例化，每個核的大小只有針頭的一部分。
谷歌用AI設計AI晶片,不到24小時設計出Tensor處理單元

雷鋒網按：晶片按月甚至年計算的設計周期與AI算法按周甚至按天迭代的周期之前的矛盾越來越明顯，為了能夠保證設計出的晶片能夠更好地滿足快速迭代的算法，Gooogle團隊將AI強化學習方法應用於晶片設計中複雜的「布局」工作當中，獲得了顯著的效果提升。而兩大EDA巨頭Synopsys和Cadence也推出了具有AI功能的工具。看來，AI應用於AI晶片的趨勢已經顯現。

英偉達DPU計算吞吐量三年將跨越近1000倍!Jetson AI機器人價格低至...

相關焦點

打破16項AI性能記錄!英偉達A100 GPU要無人能敵?

英偉達發布史上最強計算平臺,黃教主:自動駕駛不再擔心算力問題

定位「算力加速」的英偉達,AI算力版圖正越來越大

AI從業必看!英偉達GTC China大會最新乾貨 - 智東西

英偉達收購Arm 軟銀套現離場物聯網夢醒

機器人買空PS5和RTX3080?索尼英偉達道歉,實際價格已翻倍

英偉達發布RTX 30系顯卡,性能超2080Ti,價格3899元起

機器人遞接物品反應慢?英偉達開發 AI 模型:數據集圖像總量逾 15...

小米亮相英偉達GTC 2020,揭秘小米語音背後的硬核技術

系統功耗吊打英偉達T4!賽靈思發布U30加速器卡,主打視頻直播

性能翻倍,英偉達最強消費級顯卡出爐-虎嗅網

英偉達首席科學家解讀「黃氏定律」:替代摩爾定律,定義AI時代?

英偉達將打造世界上最快的AI超級計算機 基於Atos構建

AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍

黃仁勳北京激情演講2小時:搞定國內10大科技巨頭 發布最強AI引擎...

貴港碼頭年吞吐量首次突破1000萬噸

英偉達八代GPU史上的超級大飛躍 較前一代圖靈架構性能提升20倍

英偉達最強消費級顯卡RTX 3090出爐:半價買泰坦

Intel:首款神經擬態研究晶片功耗可比CPU低1000多倍

谷歌用AI設計AI晶片,不到24小時設計出Tensor處理單元

英偉達將打造世界上最快的AI超級計算機基於Atos構建

黃仁勳北京激情演講2小時:搞定國內10大科技巨頭發布最強AI引擎...

英偉達八代GPU史上的超級大飛躍較前一代圖靈架構性能提升20倍