疫情阻止了全球範圍內線下舉辦GTC,但不意味著技術的進步會停止。就在今天,NVIDIA GTC 2020中國線上大會正式拉開序幕,NVIDIA首席科學家Bill Dally親自上陣發表主題演講。從NVIDIA如何打造最強GPU,加速AI性能,說到正在逐步取代摩爾定律的黃氏定律。在短短一年內,GPU AI性能成倍提升,NVIDIA究竟是如何做到的?
NVIDIA首席科學家Bill Dally
打造最強GPU
一切的基礎都是硬體。在安培Ampere GPU架構推出之後,NVIDIA在短短的一年內其運用到了你所能了解的產品中。從具備處理海量計算性能處理難題的Ampere A100 SXM,到小到可以放進玩具的嵌入系統Jetson,安培架構已經無處不在。
以DGX為例,在一個DGX機箱中可以放進8個Ampere GPU,多個DGX機箱可以塞進一個機架中,並與Mellanox交換機一起,組合成那些世界上性能最強大的計算機集群。
但是硬體本身不能解決世界上的難題,它還需要藉助軟體來應付計算中遇到的嚴苛問題。事實上,將軟體和硬體結合已經成為NVIDIA推進技術前進的主題,即便GPU性能過分強大,NVIDIA也不再以單純的硬體公司自居。
解決計算問題本身則需要圍繞CUDA核心展開,NVIDIA開發了一系列軟體幫助研發人員挖掘CUDA性能。例如在面對深度學習的時候,NVIDIA提供了cuDNN、Tensor RT幫助簡化深度學習實現的過程。而面對諸如醫療、生產、汽車,NVIDIA都提供了相對應的軟體和硬體給予不同的解決方案。
NVIDIA Ampere A100不僅是世界上最大的7nm晶片,具備540億個電晶體,同時還集成了第三代Tensor Core用於深度學習加速。如果你曾經感受過GeForce RTX 30系列遊戲顯卡DLSS帶來的流暢遊戲體驗,那么正是GPU中的第三代Tensor Core幫助GPU完成了遊戲幀率的加速運算。而諸如DLSS技術的預算也僅僅是Tensor Core運用的冰山一角。
NVIDIA Ampere A100通過對新數據類型支持,從獲得而比上一代提升20倍的性能提升,並在原有推理性能增益基礎上,通過結構化稀疏支持獲2倍的的效率提升,最終使得A100在諸如BERT對話式AI模型中推理吞吐量達到CPU的249倍。
更重要的是A100的執行效能非常高,在全球超算Green 500節能排名中NVIDIA最新的DGX SuperPOD位居榜首,而全球TOP 500超算排名第五的Selene同樣來自NVIDIA DGX A100 SuperPOD,足以見得效能彪悍。
加速AI
為了實現AI加速需求,NVIDIA通過每年提升一倍以上的性能來滿足推動神經網絡的發展,黃氏定律也維持誕生。
不要以為AI加速離我們生活遙不可及,它可能已經在我們生活中無處不在。以NVIDIA Maxine為例,它能夠在極為有限的帶寬下實現高質量的視頻傳輸,開發者甚至可以將視頻帶寬消耗減少到H.264標準的十分之一。並且幫助疫情期間的視頻會議面談實現更高清的對話效果。
NVIDIA Maxine利用了一個十分討巧的方式,以下圖為例,它只發送了一個關鍵的圖像幀,而視頻的每一幀只提取關鍵點,並將其發送到接收端,這是一個非常低的帶寬流,但通過神經網絡計算讓原本關鍵幀的靜態圖片動起來,以此實現低帶寬高畫質的效果。
但這項技術厲害地方在於,你不需要具備特殊傳感器的攝像頭,通過捕捉每一幀的關鍵點,GPU實際上就能夠知道你做了什麼表情,變身二次元輕而易舉。
筆者朋友當了一把NV模特,哈哈
在視頻會議中,AI還可以充當會議記錄員,將每一個同事說話區分、翻譯,同時AI也能夠充當會議成員的角色,用自然語言進行交互。NVIDIA給這套技術起了一個源自於鋼鐵俠人工智慧管家的名字,Jarvis。
在實際使用中,AI早已能將完全模擬出以假亂真的個體,下圖的人像、油畫、風景照其實都不存在於現實中,都是通過AI合成的。而NVIDIA的願景是構建一個完全由AI打造,分不出虛擬和現實的世界,以現在的AI發展速度,似乎已經離我們不遠了。
黃氏定律真香
AI推理性能每年提升一倍以上並非僅僅依靠簡單的工藝製程提升,NVIDIA首席科學家Bill Dally帶領了200人團隊就是將各種理論在實驗室中付諸實踐,將黃仁勳的黃氏定律變成現實。
在演講中,Bill Dally自豪的表示,如果真想提高計算機性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。
為了實現效能突破,NVIDIA團隊開發名為MAGNet工具,通過新技術協調並控制通過設備的信息流,最大限度地減少數據傳輸,讓晶片60%的能耗花費在計算而不是數據傳輸上。
與此同時,在超級計算機集群已經名聲大噪的NVLink在實驗室中仍然有更好的提升空間,Bill Dally帶領的團隊嘗試用光路替代傳統的電子信號,利用不同顏色的波段不同實現在一根光纖傳輸中完成800Gbps速率,並利用密集波分復用技術在1平方毫米大小的晶片上實現Tbps級別的數據傳,互聯密度是現階段的十倍以上。
更大的傳輸速率和更遠的傳輸距離意味著NVIDIA可以打造更大且更密集的光鏈路系統,例如在單一系統中實現160個以上的GPU在NVIDIA DGX系統中協同工作。
在軟體層面,NVIDIA還發明了全新編程系統原型Legate。開發者藉助Legate,即可在任何規模的系統上,運行針對單一GPU編寫的程序,甚至適用於諸如Selene等搭載數千個GPU的巨型超級計算機。
而今黃氏定律讓性能不斷翻倍的AI推理腦功能運用到了健康醫療、無人駕駛、機器人、數據科學、圖形處理等諸多領域。藉助GPU,NVIDIA版圖也已經延伸到了生產、娛樂、通訊等方方面面,替代摩爾定律,黃氏定律也正在利用不斷翻倍提升的AI推理性能改變著我們所認識的世界。