芯東西(公眾號:aichip001)
作者 | 心緣
編輯 | 漠影
芯東西12月15日報導,距離2020年末還有兩周,今天,NVIDIA 2020年全球GPU技術峰會的最後一站——GTC China大會如約而至,又到了NVIDIA年終曬中國朋友圈的時候了。
受疫情影響,數萬名與會者在線上參與此次技術盛會。與以往不同的是,整場活動更加強調技術研究和落地進展,並沒有釋放出新的產品。
這次打頭陣的,不再是今年前幾場GTC大會中在廚房砧板前發表演講的NVIDIA執行長黃仁勳,而換成了NVIDIA首席科學家Bill Dally。
▲NVIDIA首席科學家Bill Dally
這位著名的計算機科學家在1小時的主題演講中,介紹了NVIDIA各類AI研究的最新進展,並分享了其研究實驗室正在進行的關於AI推理、矽光子學及GPU集群加速的三項最新研究。他相信,不僅圖形的未來是AI,幾乎所有東西的未來都是AI。
在Bill Dally主題演講後,來自NVIDIA的5位資深專家分別介紹了在AI、數據科學和醫療健康領域的多項突破性技術如何在中國的具體應用。
對於頗受關注的NVIDIA收購Arm一事,NVIDIA全球業務運營執行副總裁Jay Puri回應道,Arm是一家了不起的公司,CPU每年銷量約220億個、開創了IP許可模式、產品性能非常高,其成功集中在移動端和嵌入式領域,但想要涉足雲數據中心和PC領域還很棘手,x86佔據完全的主導地位。
而NVIDIA在數據科學和人工智慧領域有強大的生態,一旦Arm成為NVIDIA的一部分,NVIDIA將著重促進Arm在數據中心、PC和雲計算領域取得成功。
針對一些公司擔心Arm授權被限制的問題,Jay Puri說,人們對出口管制法的運作方式存在些許誤解,無論Arm是歸屬軟銀還是NVIDIA,所有關鍵技術都在技術誕生地英國劍橋研發,NVIDIA已承諾收購完成後,英國劍橋還將是未來Arm技術的研發中心。
此外,面向AI和數據科學領域創企的孵化項目NVIDIA初創加速計劃(NVIDIA Inception)邀請了12家中國創企出席此次大會,展示他們如何基於NVIDIA技術實現不同領域的創新。
在系統介紹NVIDIA的軟硬體布局及先進技術後,NVIDIA首席科學家Bill Dally以三個項目為例講述了自己帶領的200人研究團隊如何成功實現「黃氏定律(Huang’s Law)」。這則以黃仁勳名字命名的定律,預測GPU將推動AI性能逐年翻倍。
過去八年,NVIDIA將單晶片推理性能提高了317倍。「如果我們真想提高計算機性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。」Dally說道。
Dally曾負責NVIDIA在AI、光線追蹤和高速互連領域的相關研究。他著重分享了三項新的研究方向。
1、超高能效加速器MAGNet
推理是一個複雜的問題,不止涉及計算。NVIDIA MAGNet工具生成的AI推理加速器在模擬測試中,推理能力可達每瓦100 teraops,比目前的商用晶片高出一個數量級。
該工具採用了一系列新技術來協調並控制通過設備的信息流,最大限度地減少數據傳輸,從而節約能耗。這一研究原型以模組化實現,因此能夠靈活擴展。
2、比電氣鏈路更快速的光鏈路
NVIDIA研究團隊也在研究用更快速的光鏈路取代現有系統內的電氣鏈路。該團隊正與哥倫比亞大學的研究人員密切合作,探討如何利用電信供應商在其核心網絡中所採用的技術,通過一條光纖來傳輸數十路信號。
電信號因自身限制,傳播距離只有1/3米,而光信號的傳播距離有20-100米,只需一個單條NVLink便可連接至更大規模的系統。
這種名為「密集波分復用」的光學技術, 有望在僅1毫米大小的晶片上實現Tb/s級數據的傳輸,是如今互連密度的10倍以上。
除了更大的吞吐量,光鏈路也有助於打造更為密集型的系統。Dally舉例展示了一個未來藉助光鏈路傳輸、可搭載160多個GPU的NVIDIA DGX系統模型。
3、全新編程系統原型Legate
軟體方面,為了簡化編程步驟,NVIDIA研究人員開發了全新編程系統原型Legate。開發者藉助Legate,即可在任何規模的系統上,運行針對單一GPU編寫的程序,既適用於Jetson Nano、單卡A100,也適用於搭載數千個GPU的巨型超算。
Legate將一種新的編程速記融入了加速軟體庫和高級運行時環境Legion,目前它正在美國國家實驗室接受測試。
Dally也提到,Legate無法針對大量GPU進行理想的並行處理,這也是他們要努力解決的問題。
除了上述三項研究外,Dally還在演講中談到NVIDIA針對醫療健康、實時光線追蹤、無人駕駛汽車、機器人等眾多行業打造的平臺,並首次公開展示了NVIDIA對話式AI框架Jarvis與GauGAN的組合。
GauGAN利用生成式對抗網絡,只需簡略構圖,就能自動填充畫面細節,創建漂亮的風景圖。在演示中,用戶可通過語音指令,即時生成像照片一樣逼真的畫作。
此外,Dally還牽頭開展了一項合作,構建了NVLink和NVSwitch最初的原型。NVLink和 NVSwitch如今用於全球最大型的超級計算機中,實現了其內部GPU的互連。
最後,Dally總結道,NVIDIA正做著許多激動人心的事,相信未來將其中一些構思變為現實時,一定會振奮人心,屆時,NVIDIA將構建更強大的計算設備,將其運用到一系列更廣泛的問題上,從而改善人們的生活。
在隨後的高峰論壇上,NVIDIA 亞太區戰略運營與合作夥伴副總裁 Ashok Pandey宣布,多家中國頂級雲服務提供商及系統製造商已採用NVIDIA A100 Tensor Core GPU和NVIDIA技術,用於提速各類AI應用。
迄今為止,阿里雲、百度智能雲、滴滴雲、騰訊雲等中國雲服務提供商均推出或即將推出搭載了NVIDIA A100的多款雲服務及GPU實例。
在中國,阿里巴巴已部署EFLOPS,目前NVIDIA正與阿里合作將EFLOPS升級至A100。在線性推理方面,NVIDIA GPU已經逐漸進入CSP客戶的核心業務,如推薦、廣告、搜索、直播、視頻等等。
此外,最新發布的NVIDIA A100 PCIe版本以及NVIDIA A100 80GB GPU已被新華三、浪潮、聯想、寧暢等中國領先系統製造商採用。
NVIDIA A100 GPU配備了具有更高精度的第三代Tensor Core核心,性能較上一代產品有顯著提升,可提供600GB/每秒GPU間連接傳輸速率的第三代NVIDIA VLink、NVIDIA NVSwitch、PCIe Gen4與NVIDIA Magnum IO軟體SDK的組合,實現成千上萬個GPU集群的高效擴展。
這些技術得到了來自於NGC容器註冊中NVIDIA市場領先生態系統的支持。
今年國內「雙十一」的線上直播打破銷售記錄,而在「直播+」大趨勢下的領軍企業們已採用NVIDIA技術來為其業務提供動力。
比如,阿里巴巴旗下淘寶使用NVIDIA GPU計算平臺,為直播和基於AI的推薦系統提供加速;快手針對低解析度短視頻,利用GPU做超解析度處理,提高視頻解析度到720p或1080p。
再比如,Bigo Live使用GPU提升視頻內容創作和內容理解能力;虎牙通過開發AI數字人業務,為內容創建者創造獨特的用戶體驗,其中GPU在AI和渲染技術方面發揮了關鍵作用。
NVIDIA的GPU平臺可加速和增強直播所需的視頻、圖形和AI,憑藉全新NVIDIA Ampere架構、完善的視頻編解碼器、RT Core核心、Tensor Core核心、統一的CUDA架構以及大量SDK和軟體工具,為直播各環節提供全面支持。NVIDIA SDK還可以加速視頻分析、圖像處理、語音處理和其他服務等工作負載的處理。
面向深度學習,NVIDIA TensorRT提供了一個推理編譯器,可最大限度地減少延遲並提升吞吐量,由此為百萬用戶實時提供AI特效。NVIDIA Triton推理伺服器可幫助客戶在雲端、本地數據中心或邊緣部署由AI驅動的高性能應用程式,簡化推理部署過程。
▲NVIDIA Triton推理伺服器
此外,NVIDIA針對各種內容創作、質量提升和新興AI用例提供了大量工具。比如適用於推薦系統的NVIDIA Merlin框架支持GPU加速的ETL (提取、轉換、加載)、訓練和推理,可幫助各公司大規模構建更快的推薦系統。
面向虛擬實境(VR)/增強現實(AR),基於NVIDIA RTX構建的NVIDIA CloudXR可通過5G和Wi-Fi網絡,增強VR/AR體驗。
2017年,JDL京東物流就與NVIDIA進行合作,利用基於NVIDIA Jetson平臺驅動的智能機器將AI引入物流與配送領域。
如今JDL京東物流和NVIDIA將共同致力於把江蘇常熟打造成全球首座「智能配送城」,以解放快遞員雙手、緩解快遞員短缺的情況,並有助於降低人力成本。
同時,為了進一步減輕快遞員的勞動強度,JDL京東物流還推出了「智能快遞車領養計劃」,即在智能配送城所在區域裡,京東快遞員通過申請可「領養」一定數量的智能快遞車配合自己的工作,這有效提升了快遞員的工作效率。
通過搭載NVIDIA Jetson AGX Xavier,並配備高解析度攝像頭以及雷射雷達,JDL京東物流智能快遞車可實時識別行人、車輛和交通信號燈等物體,並根據所處環境規劃駕駛路線,確保交通安全。
NVIDIA Jetson AGX Xavier可提供32TOPS的AI性能,該模塊尺寸為100x87mm,僅為大型工作站的十分之一,卻提供了與大型工作站相當的優越性能。因尺寸小巧,該模塊十分適合搭載於配送和物流機器人、工廠系統和大型工業UAV等自主機器。
▲NVIDIA Jetson AGX Xavier
隨後,NVIDIA 企業市場兼開發者計劃全球副總裁 Greg Estes談及如何幫助初創公司。
英偉達初創企業展示由英偉達初創加速計劃(NVIDIA INCEPTION PROGRAM)主導舉辦,旨在通過AI和數據科學的發展培養顛覆行業格局的優秀AI初創公司。
英偉達初創加速計劃為這些初創企業提供了上市支持、專業知識、技術資源、營銷資源和通過NVIDIA深度學習學院參加培訓的機會,以及從NVIDIA全球分銷商網絡獲得硬體的優惠價格。
今年有12家初創企業從報名英偉達初創企業展示的100餘家企業中脫穎而出。
在會話AI領域,深思維藉助NVIDIA Jetson環境下的CUDA能力,佔用極少空間實現智能交互,且語音合成和語音識別仍能保證毫秒級響應;深聲科技基於NVIDIA TensorRT平臺和NVIDIA V100 Tensor Core GPU等產品,自主研發行業領先的高質量中英文語音合成、聲音定製、聲音克隆等語音AI技術。
在智慧醫療領域,慧維智能使用NVIDIA V100 Tensor Core GPU和TITAN RTX作為訓練環境,並藉助配置NVIDIA Jetson Xavier的邊緣計算平臺進行推理交付,加速其在內窺鏡AI和眼科AI等方向的落地。
在智慧零售領域,雲拿科技藉助NVIDIA高性能GPU以及TensorRT技術,為便利店企業級客戶提供領先的數位化和智能化一站式技術解決方案。
在消費者網際網路/行業應用領域,大地量子藉助NVIDIA CUDA平臺,實現地物識別AI算法的訓練及生產平臺,並在其自主創新的通用分類框架冰果汁Ice-juice中應用NVIDIA RTX 5000 + cuDNN加速庫,大幅提升數據處理效率;粒界科技將NVIDIA RTX技術用於直接的光陰影、環境光遮擋、全局照明、反射與折射等,在相同渲染時間內保證數據量,同時提高渲染效率,為內容創作者提供更加便捷的特效製作方式。
在深度學習應用/加速數據科學領域,星雲Clustar藉助NVIDIA V100 Tensor Core GPU和DGX工作站,大幅提升模型預測精確度以及解決方案處理性能,賦能傳統行業AI戰略升級,實現低成本、高效率的業務場景轉型;閃馬智能將NVIDIA T4、P4 Tensor Core GPU伺服器用於分布式訓練、產品開發、現場測試以及項目交付,極大提高機動車違法識別準確率,實現1天內全市極速部署,無需花費數月改造前端設備。
在自主機器/IOT/工業製造領域,復亞智能藉助NVIDIA RTX 、Jetson TX2、DeepStream等,加快其在交通巡邏和電網巡檢兩個領域中針對無人機產品的AI圖像處理速度,且提升了分析效率;圖為科技基於 NVIDIA Jetson (邊緣計算)整套解決方案研發智能小車、圖為智盒、機器人方案等一系列產品,致力於通過AI賦能商業和個人。
在自動駕駛汽車領域,踏歌智行藉助NVIDIA Jetson TX2i及NVIDIA Jetson AGX Xavier計算平臺,妥善解決礦區工作中由高粉塵、道路邊界模糊等工況環境導致的感知痛點問題;宏景智駕在其L3+高級別自動化輔助駕駛系統中採用NVIDIA Xavier GPU,加速了探索智能駕駛的新路徑。
在GTC China大會期間,NVIDIA宣布,騰訊雲展示了CloudXR以串流方式傳輸一個高層辦公大樓的沉浸體驗。
NVIDIA CloudXR平臺藉助騰訊雲穩定、高效的雲GPU計算能力,將任意終端設備(包括頭戴顯示器HMD和連接Windows和安卓設備)轉變為可顯示專業級質量圖像的高清XR顯示器。
CloudXR平臺包括NVIDIA CloudXR軟體開發套件NVIDIA Quadro虛擬工作站軟體和NVIDIA AI SDK,可提供照片級逼真的圖像並具有多功能XR耳機的移動便捷性。
來自製造、建築、媒體娛樂和醫療等行業的獨立軟體供應商正在使用CloudXR平臺,並通過越來越多的主流邊緣和雲服務供應商訪問該平臺。
用戶無需部署工作站或外置VR追蹤系統,即可在雲端獲得高清串流體驗。專業人員藉助CloudXR可在任意地點輕鬆設置、擴展和訪問沉浸式體驗。
此外,CloudXR的核心功能就是管理感知延遲,為提供超低延遲的XR體驗,騰訊雲正在向用戶開放他們的區域數據中心。
NVIDIA搶先體驗合作夥伴光輝城市已在騰訊雲GPU雲計算實例上部署了CloudXR,向全國各地的XR用戶提供高質量的VR和AR體驗。
光輝城市旗下的Mars智能視覺設計平臺軟體為1000多家知名設計機構和200所建築景觀大學提供軟體雲服務。
據悉,騰訊Tencent Marketplace上全面提供CloudXR,同時用戶可通過私測版程序獲取騰訊上的CloudXR。
此前在今年全球數字超算大會(SC20大會)上,NVIDIA推出NVIDIA Mellanox 400G InfiniBand產品,這是業界第一款400Gb/s網速的端到端網絡解決方案,將計算、可編程性和軟體定義三種技術融於一體,能為AI、存儲、高性能計算及其他對網絡要求苛刻的應用的性能提升提供基礎。
NVIDIA Mellanox InfiniBand NDR產品是第7代InfiniBand產品,利用100Gb/s的PAM4 Serdes技術, 實現了400Gb/s的單埠傳輸帶寬, 是上一代產品的兩倍, 同時通過添加更多、更強大的加速引擎,實現了更強大的計算和通信能力。
▲NVIDIA Mellanox NDR 400G InfiniBand產品系列
NDR InfiniBand技術的第一個特徵是「Speed Of Light」,通過加倍帶寬、更快包處理能力,進一步提升基於RDMA、GPU Direct RDMA和GPU Direct Storage等先進通信技術的應用性能。
InfiniBand網絡具有硬體加速、軟體可編程等特徵,不僅有助於優化通信性能和效率,還允許用戶自定義規則對於數據路徑進行操作,或是對於數據直接在網絡中進行預處理而無需送到CPU做預處理。
用戶還可以對於數據的通信特徵進行提取、然後利用AI技術對其進行訓練,得到不同應用數據的通用通信特徵,如果發現有異常通信信息,可以向管理員主動發出預警。
▲NVIDIA Mellanox NDR 400G InfiniBand亮點
Atos、戴爾科技、富士通、浪潮、聯想和SuperMicro等伺服器廠商,以及DDN、IBM Storage等存儲廠商等,均已開始研發其新一代產品,實現對於NDR InfiniBand的支持。微軟Azure公有雲、美國Los Alamos國家實驗室、歐洲Jülich超算中心等已表示期待儘快將NDR InfiniBand應用到他們的業務中去。
中國公有雲服務商UCloud最大的挑戰來自於如何為大量租戶提供高吞吐、低延遲的物理網絡和虛擬化網絡。
以前基於網關的裸金屬物理雲解決方案存在過於昂貴,部署不夠靈活,不支持計算、存儲分離等限制。從2018年起,UCloud開始探索基於NVIDIA BlueField DPU的高性能的裸金屬物理雲方案,並在今年成功上線裸金屬物理雲1.0,增加了雲存儲功能的裸金屬物理雲2.0產品也已近期上線,相對於以前基於網關的裸金屬物理雲解決方案降低了34.4%的成本。
▲NVIDIA BlueField DPU
今年上半年,UCloud基於NVIDIA BlueField DPU研發推出的裸金屬物理雲1.0產品,通過DPU集成的多核Arm CPU快速將物理雲基礎架構軟體從x86遷移到DPU中,滿足了物理雲客戶高帶寬、低延時的網絡需求,並使用NVIDIA ASAP技術,將OpenvSwitch Kernel硬體卸載到DPU,實現了物理雲客戶無縫接入NVGRE Overlay虛擬網絡,UCloud 也成為首家應用此技術的公有雲廠商。
UCloud進一步於下半年研發並推出了裸金屬物理雲2.0產品,使用NVIDIA BlueField DPU提供的NVMe SNAP功能,將UCloud的雲存儲產品RSSD呈現為本地的NVMe系統盤和數據盤,為物理雲客戶提供了更靈活易用的雲盤存儲服務,並且,UCloud的RSSD雲盤使用BlueField DPU成熟的RDMA能力,性能也達到了非常高的水平,真正實現了靈活性與性能的兼顧。
每場GTC大會上,來自NVIDIA的各業務負責人及技術專家會帶來乾貨滿滿的演講和互動,分享關于于AI、深度學習、數據科學、圖形、邊緣計算、醫療、自動駕駛、自主機器等眾多主題的最新見解,幫助開發者利用GPU計算解決重要挑戰、加速行業創新。
在今年5月釋放基於全新NVIDIA Ampere架構的一系列加速計算硬體產品大招後,本場GTC中國站更多聚焦於如何通過NVIDIA技術推動中國產業創新。今天是GTC China 2020開幕的第一天,在接下來的五天內,GTC China還將帶來200多場來自不同市場領域的演講,涉及更多技術解讀和行業應用的乾貨分享。