1965 年,時任仙童半導體公司工程師,也是後來英特爾的創始人之一的戈登 · 摩爾(Gordon Moore)提出了摩爾定律(Moore's law),預測集成電路上可以容納的電晶體數目大約每經過 24 個月便會增加一倍。
後來廣為人知的每 18 個月晶片性能將提高一倍的說法是由英特爾 CEO 大衛 · 豪斯(David House)提出。過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。
有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司英偉達(NVIDIA)創始黃仁勳(Jensen Huang)名字命名的定律 「黃氏定律 (Huang’s Law)」對 AI 性能的提升作出預測,預測 GPU 將推動 AI 性能實現逐年翻倍。
英偉達 GPU 助推 AI 推理性能每年提升一倍以上
英特爾提出了摩爾定律,也是過去幾十年最成功的晶片公司之一。英偉達作為當下最炙手可熱的 AI 晶片公司之一,提出黃氏定律是否也意味著其將引領未來幾十年晶片行業的發展?
受疫情影響,一年一度展示英偉達最新技術、產品和中國合作夥伴成果的 GTC China 改為線上舉行,黃仁勳缺席今年的主題演講,由英偉達首席科學家兼研究院副總裁 Bill Dally 進行分享。Bill Dally 是全球著名的計算機科學家,擁有 120 多項專利,在 2009 年加入英偉達之前,曾任史丹福大學計算機科學系主任。加入英偉達之後,Dally 曾負責英偉達在 AI、光線追蹤和高速互連領域的相關研究。
英偉達首席科學家兼研究院副總裁 Bill Dally
在今天 GTC China 2020 演講中,Dally 稱:「如果我們真想提高計算機性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。」
Dally 用三個項目說明黃氏定律將如何得以實現。首先是為了實現超高能效加速器的 MAGNet 工具。英偉達稱,MAGNet 生成的 AI 推理加速器在模擬測試中,能夠達到每瓦 100 tera ops 的推理能力,比目前的商用晶片高出一個數量級。
之所以能夠實現數量級的性能提升,主要是因為 MAGNet 採用了一系列新技術來協調並控制通過設備的信息流,最大限度地減少數據傳輸。數據搬運是 AI 晶片最耗能的環節已經是當今業界的共識,這一研究模型以模組化實現能夠實現靈活擴展。
Dally 帶領的 200 人的研究團隊的另一個研究項目目標是以更快速的光鏈路取代現有系統內的電氣鏈路。Dally 說:「我們可以將連接 GPU 的 NVLink 速度提高一倍,也許還會再翻番,但電信號最終會消耗殆盡。」
這個項目是英偉達與哥倫比亞大學的研究團隊合作,探討如何利用電信供應商在其核心網絡中所採用的技術,通過一條光纖來傳輸數十路信號。據悉,這種名為 「密集波分復用」的技術 , 有望在僅一毫米大小的晶片上實現 Tb/s 級數據的傳輸,是如今互連密度的十倍以上。
搭載 160 多個 GPU 的 NVIDIA DGX 系統模型
Dally 在演講中舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。這意味著,利用 「密集波分復用」技術,不僅可以實現更大的吞吐量,光鏈路也有助於打造更為密集的系統。
想要發揮光鏈路的全部潛能,還需要相應的軟體,這也是 Dally 分享的第三個項目——全新編程系統原型 Legate。Legate 將一種新的編程速記融入了加速軟體庫和高級運行時環境 Legion,藉助 Legate,開發者可在任何規模的系統上運行針對單一 GPU 編寫的程序——甚至適用於諸如 Selene 等搭載數千個 GPU 的巨型超級計算機。
Dally 稱 Legate 正在美國國家實驗室接受測試。
MAGNet、以光鏈路取代現有系統內的電氣鏈路以及 Legate 是成功實現黃氏定律的關鍵,但 GPU 的成功才是基礎。因此,GPU 當下的成功以及未來的演進都尤其重要。
今年 5 月,英偉達發布了面積高達 826 平方毫米,集成了 540 億個電晶體的 7nm 全新安培(Ampere)架構 GPU A100。相比 Volta 架構的 GPU 能夠實現 20 倍的性能提升,並可以同時滿足 AI 訓練和推理的需求。
憑藉更高精度的第三代 Tensor Core 核心,A100 GPU AI 性能相比上一代有明顯提升,我們此前報導,在 7 月的第三個版本 MLPerf Training v0.7 基準測試(Benchmark)結果中,英偉達的 DGX SuperPOD 系統在性能上開創了八個全新裡程碑,共打破 16 項紀錄。
另外,在 10 月出爐的 MLPerf Inference v0.7 結果中,A100 Tensor Core GPU 在雲端推理的基準測試性能是最先進英特爾 CPU 的 237 倍。
更強大的 A100 GPU 迅速被多個大客戶採用,迄今為止,阿里雲、百度智能雲、滴滴雲、騰訊雲等眾多中國雲服務提供商推出搭載了英偉達 A100 的多款雲服務及 GPU 實例,包括圖像識別、語音識別,以及計算流體動力學、計算金融學、分子動力學等快速增長的高性能計算場景。
另外,新華三、浪潮、聯想、寧暢等系統製造商等也選擇了最新發布的 A100 PCIe 版本以及英偉達 A100 80GB GPU,為超大數據中心提供兼具超強性能與靈活的 AI 加速系統。
Dally 在演講中提到:「經過幾代人的努力,NVIDIA 的產品將通過基於物理渲染的路徑追蹤技術,實時生成令人驚豔的圖像,並能夠藉助 AI 構建整個場景。」
與光鏈路取代現有系統內的電氣鏈路需要軟硬體的匹配一樣,英偉達 GPU 軟硬體的結合才能應對更多 AI 應用場景苛刻的挑戰。
Dally 在此次的 GTC China 上首次公開展示了英偉達對話式 AI 框架 Jarvis 與 GauGAN 的組合。GauGAN 利用生成式對抗網絡,只需簡略構圖,就能創建美麗的風景圖。演示中,用戶可通過語音指令,即時生成像照片一樣栩栩如生的畫作。
GPU 是黃氏定律的基礎,而能否實現並延續黃氏定律,僅靠少數的大公司顯然不夠,還需要眾多的合作夥伴激發對 AI 算力的需求和更多創新。
英偉達已經在構建 AI 生態,並在 GTC China 上展示了英偉達初創加速計劃從 100 多家 AI 初創公司中脫穎而出的 12 家公司,這些公司涵蓋會話人工智慧、智慧醫療 / 零售、消費者網際網路 / 行業應用、深度學習應用 / 加速數據科學、自主機器 / IOT / 工業製造、自動駕駛汽車。
智能語音正在改變我們的生活。會話人工智慧的深思維提供的是離線智能語音解決方案,在佔有很少空間的前提下實現智能交互,語音合成和語音識別保證毫秒級響應。深聲科技基於英偉達的產品研發高質量中英文語音合成、聲音定製、聲音克隆等語音 AI 技術。
對於行業應用而言,星雲 Clustar 利用英偉達 GPU 和 DGX 工作站,能夠大幅提升模型預測精確度以及解決方案處理性能,讓傳統行業的 AI 升級成本更低、效率更高。
摩爾定律的成功帶來了新的時代,黃氏定律能否成功仍需時間給我們答案。但這一定律的提出對 AI 性能的提升給出了明確的預測,並且英偉達正在通過硬體、軟體的提升和創新,努力實現黃氏定律,同時借生態的打造想要更深遠的影響 AI 發展。
黃氏定律值得我們期待。