Bill Dally:NVIDIA助力 AI推理性能每年提升一倍以上

2020-12-25 通信世界網

通信世界網消息(CWW)今天,NVIDIA首席科學家Bill Dally在GTC中國線上大會主題演講中說道,NVIDIA的研究人員致力於打造速度更快的AI晶片,並將其用於具有更高帶寬的系統,從而簡化編程。

他以三個項目為例,講述了自己帶領的200人的研究團隊如何成功實現「黃氏定律 (Huang’s Law)」。這則以NVIDIA執行長黃仁勳(Jensen Huang)名字命名的定律,預測GPU將推動AI性能實現逐年翻倍。

Dally 講述「如果我們真想提高計算機性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。此前,Dally曾負責NVIDIA在AI、光線追蹤和高速互連領域的相關研究。」


NVIDIA
助力 AI推理性能每年提升一倍以上

超高能效加速器

為實現這一突破,NVIDIA研究人員專門開發了一種名為MAGNet的工具,其生成的AI推理加速器在模擬測試中,能夠達到每瓦 100 tera ops 的推理能力,比目前的商用晶片高出一個數量級。

MAGNet採用了一系列新技術來協調並控制通過設備的信息流,最大限度地減少數據傳輸,而數據傳輸正是當今晶片中最耗能的環節。這一研究原型以模組化實現,因此能夠靈活擴展。

另外,研究團隊還開展了一項研究,旨在以更快速的光鏈路取代現有系統內的電氣鏈路。

發揮所有光子的潛能

Bill Dally 擁有120多項專利,在2009年加入NVIDIA之前,曾任史丹福大學計算機科學系主任。Dally表示:「我們可以將連接GPU的NVLink速度提高一倍,也許還會再翻番,但電子信號最終會消耗殆盡。」

該團隊正在與哥倫比亞大學的研究人員密切合作,探討如何利用電信供應商在其核心網絡中所採用的技術,通過一條光纖來傳輸數十路信號。

這種名為「密集波分復用」的技術, 有望在僅一毫米大小的晶片上實現Tb/s級數據的傳輸,是如今互連密度的十倍以上。

除了更大的吞吐量,光鏈路也有助於打造更為密集型的系統。Dally舉例展示了一個未來將搭載160多個GPU的NVIDIA DGX系統模型。

工程師藉助光鏈路,在單一系統中可搭載160多個GPU

軟體方面,NVIDIA的研究人員開發了全新編程系統原型Legate。開發者藉助Legate,即可在任何規模的系統上,運行針對單一GPU編寫的程序——甚至適用於諸如Selene等搭載數千個GPU的巨型超級計算機。

Legate將一種新的編程速記融入了加速軟體庫和高級運行時環境Legion,目前它正在美國國家實驗室接受測試。

描繪美好未來

除上述三項研究,Dally還在主題演講中談到了NVIDIA特別針對醫療健康、無人駕駛汽車和機器人等眾多行業打造的平臺。同時,他還致力於鑽研數據科學、AI和圖形處理。

Dally表示:「經過幾代人的努力,NVIDIA的產品將通過基於物理渲染的路徑追蹤技術,實時生成令人驚豔的圖像,並能夠藉助AI構建整個場景。」

此外,他還首次公開展示了NVIDIA的對話式AI框架Jarvis與GauGAN的完美組合。GauGAN利用生成式對抗網絡,只需簡略構圖,就能創建美麗的風景圖。在演示中,用戶可通過語音指令,即時生成像照片一樣栩栩如生的畫作。

在主題演講視頻錄製的間隙,Dally接受了採訪,表示對研究團隊在多個領域取得的開創性進展深感自豪。

他說:「當前,NVIDIA在光線追蹤領域所取得進展,都始於NVIDIA 研究院打造的原型,我們的產品團隊都很興奮。2011年,我委派NVIDIA研究員Bryan Catanzaro與史丹福大學教授Andrew Ng共同合作一個項目,後來打造出CuDNN軟體,讓深度學習領域大量的研究工作成為可能。」

立足網絡領域

此外,Dally還牽頭開展了一項合作,構建了 NVLink和 NVSwitch最初的原型。NVLink和 NVSwitch如今用於全球最大型的超級計算機中,實現了其內部GPU的互連。

他說:「產品團隊總能迅速將研究工作轉化為實際成果,這也是NVIDIA如今能夠成為全球公認最領先的網絡公司之一的原因。」

談及對科技的熱情,Dally說自己就像個沉浸在糖果故事裡的孩子。也許某一天,原本還在幫助一組團隊研究AI加速器的他,就會突然轉而幫助另一團隊解決機器人領域的複雜問題。

他說:「我現在所做的,是一份全世界,或者起碼是全公司裡最有趣的工作,讓我有機會能夠助力塑造未來。」

除大會主題演講外,GTC中國線上大會還將提供220多場主題演講和分論壇,均可免費參加,且絕大多數將使用中文。

GTC中國線上大會高峰論壇及初創企業展示

主題演講之後,NVIDIA的資深專家將齊聚高峰論壇,介紹公司在AI、數據科學和醫療健康領域的多項突破性技術在中國的落地應用。

此外,面向AI和數據科學領域初創企業的孵化項目NVIDIA初創加速計劃(NVIDIA Inception)將邀請12家領軍中國初創企業出席此次大會。

大會吸引了眾多行業領軍企業與機構參與其中,包括阿里巴巴、AWS、百度、字節跳動、中國電信、戴爾科技、滴滴、新華三、浪潮、快手、聯想、微軟、平安、騰訊、清華大學和小米。

相關焦點

  • 直擊NVIDIA GTC20:AI性能翻倍 黃氏定律真香
    NVIDIA Ampere A100通過對新數據類型支持,從獲得而比上一代提升20倍的性能提升,並在原有推理性能增益基礎上,通過結構化稀疏支持獲2倍的的效率提升,最終使得A100在諸如BERT對話式AI模型中推理吞吐量達到CPU的249倍。
  • NVIDIA首席科學家Bill Dally將於GTC 中國線上大會首日發表主題演講
    屆時預計將有數萬名與會者參與此次盛會,聆聽Bill Dally關於AI、計算機圖形學、高性能計算、醫療、邊緣計算、自主機器等領域最前沿創新的分享以及AI推理、矽光子學和GPU集群加速等領域最新的研究成果。
  • GTC大會飛槳專家演講內容實錄:飛槳推理引擎性能優化
    有著「年度 AI 風向標」之稱GTC 大會是英偉達每年最重要的發布平臺之一,廣納當今計算領域最熱門話題的相關培訓和見解,並為廣大開發者創造與頂級專家交流的機會。百度飛槳也貢獻了四個主題演講,現在為您帶來飛槳推理引擎性能優化的演講實錄。課程連結:https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20191AI Studio連結:https://aistudio.baidu.com/aistudio/education/group/info/2099
  • AI時代的摩爾定律?黃氏定律預測AI性能將逐年翻倍
    1965年,時任仙童半導體公司工程師,也是後來英特爾的創始人之一的戈登·摩爾(Gordon Moore)提出了摩爾定律(Moore's law),預測集成電路上可以容納的電晶體數目大約每經過24個月便會增加一倍。後來廣為人知的每18個月晶片性能將提高一倍的說法是由英特爾CEO大衛·豪斯(David House)提出。
  • 強核問世:NVIDIA發布A100 80GB GPU,為AI超級計算帶來全球最強GPU
    該GPU內存比上一代提升一倍,能夠為研究人員和工程師們提供空前的速度和性能,助力實現新一輪AI和科學技術突破。全新A100採用HBM2e技術,可將A100 40GB GPU的高帶寬內存增加一倍至80GB,提供每秒超過2TB的內存帶寬。這使得數據可以快速傳輸到全球最快的數據中心GPU A100上,使研究人員能夠更快地加速其應用,處理最大規模的模型和數據集。
  • 浪潮AI伺服器NF5488A5的實測數據分享,單機最大推理路數提升88%
    NF5488A5曾屢次打破全球權威AI測試榜單MLPerf的記錄,基於ImageNet的ResNet50基準測試顯示,NF5488A5完成訓練僅需33.37分鐘,單機性能高居第一;推理性能達到每秒54.9萬張圖片,3倍於去年推理榜單的伺服器最好性能。
  • 超越空間直擊NVIDIA GTC 中國線上大會,助力點亮AI
    超越空間直擊NVIDIA GTC 中國線上大會,助力點亮AI 來源:財訊網 • 2020-12-21 17:29:08
  • Imagination性能高達600TOPS的終極AI加速器:會給NVIDIA帶來多少...
    4NX系列的單核性能進一步提升,每個單核能以不到1瓦的功耗提供12.5TOPS的性能。相比前兩代NNA,新一代產品強調的是全新多核架構,這個新的多核架構支持在多個內核之間對工作負載進行靈活的分配和同步,從而實現更高性能。
  • NVIDIA在最新MLPerf基準測試中打破16項AI性能紀錄
    其中有些正在賦能新一代的推薦系統或對話式AI應用,或進一步探索COVID-19的治療方法,這些都在受益第八代NVIDIA GPU所帶來的迄今為止幅度最大的性能提升。  圖註:NVIDIA Ampere架構在市售商用加速器的全部八項測試中名列前茅。
  • 業界 英偉達正式發布GeForce GTX 1080Ti:性能提升35%
    英偉達宣稱 GTX 1080 Ti 的性能相對普通 GTX 1080 的提升為 35%,這使得它成為了史上性能提升最大的「Ti 標誌」顯卡。參考資料:http://venturebeat.com/2017/02/28/nvidia-unveils-new-geforce-gtx-1080-ti-graphics-chip/http://www.techradar.com/news/the-nvidia-gtx-1080-ti-turns-the-dial-to
  • NVIDIA首席科學家Bill Dally將在GTC中國線上大會發表主題演講
    屆時預計將有數萬名與會者參與此次盛會,聆聽BillDally關於AI、計算機圖形學、高性能計算、醫療、邊緣計算、自主機器等領域最前沿創新的分享以及AI推理、矽光子學和GPU集群加速等領域最新的研究成果。點擊此處觀看BillDally演講預告:點此在BillDally近四十年的職業生涯中,他開創了支持當今超級計算機和網絡架構的許多基礎技術。
  • 英特爾推第11代移動PC處理器,AI性能提升5倍,官宣新品牌Logo
    據介紹,Tiger Lake的CPU性能提升逾20%,顯卡性能提升高達2倍,在GPU上使用新DP4a指令集使得AI性能提升5倍。 一、Tiger Lke:增強版10nm工藝,AI性能提升5倍 第11代智能英特爾酷睿處理器Tiger Lake採用重新定義10nm的全新SuperFin製程技術,據稱可帶來與全節點轉換媲美的性能提升。
  • 英國計劃開放兩個「超級實驗室」 病毒檢測能力將提升一倍以上
    英國計劃開放兩個「超級實驗室」 病毒檢測能力將提升一倍以上 2020-11-18
  • 《堡壘之夜》加入性能模式 讓集顯筆記本幀數翻一倍
    《堡壘之夜》官方發布公告,在12月15日為遊戲加入性能模式,該模式會進一步提升遊戲在PC平臺的幀數表現。在《堡壘之夜》官方公布的測試中,相同配置的PC可以在開啟性能模式後得到大幅的性能提升。
  • 肇觀電子刷新端側AI晶片性能記錄並發布「5分鐘部署」AI開發平臺
    基於多年研發的CVKit™ NN IP的N1系列SoC晶片刷新了端側AI晶片性能記錄。領先的每TOPs處理幀數,實時數據流處理能力,支持高精度FP16神經網絡模型直接無損部署,高性能的INT8網絡支持能力,多級精細功耗控制,將端側AI晶片的能力提升到了一個新的高度。
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    營業執照識別模型升級優化模型,提升關鍵欄位識別準確率,『地址』、『社會信用代碼』、『公司類型』欄位準確率提升至95%以上。優化模型效果,關鍵欄位識別準確率提升至98%+,其中『發票代碼、校驗碼』的準確率高達99.9%以上。 計程車票識別模型升級優化模型效果,『乘車日期、上下車時間、總金額、發票代碼』等關鍵欄位的準確率提升至95%+,整圖識別準確率提升至90%。
  • 風雲四號總師:風雲四號B星部分性能指標比A星提高一倍。
    風雲四號總師:風雲四號B星部分性能指標比A星提高一倍。風雲四號B星將在短時天氣預報方面發揮重要作用,部分性能指標較風雲四號A星提高了一倍。風雲四號B星是風雲四號靜止氣象衛星系列的第二顆衛星,是現在在軌運行的風雲四號A星的姊妹星。風雲四號A星是我國首顆第二代靜止氣象衛星,屬於科學試驗型衛星,在風雲四號A星的基礎上,風雲四號B星進行了系統升級優化,各方面技術更為成熟,將成為中國首顆第二代靜止氣象衛星中的業務星。
  • NVIDIA TITAN V遊戲性能首曝 比1080Ti提升27%
    根據測試結果,儘管TITAN V並不適合用來玩遊戲,但它的遊戲性能還是比GTX1080Ti有了很多提升。  測試採用了《古墓麗影:崛起》、《灰燼》、《戰爭機器4》和Unigine的GPU基準測試工具這四款軟體,默認畫面設置全高,其餘硬體配置相同。
  • 蘋果A13比A11性能強多少?跑分強了一倍不止,連畫面質量都有區別
    蘋果A13比A11性能強多少?跑分強了一倍不止,連畫面質量都有區別蘋果的處理器設計工藝在全世界都算得上是頂尖,每一款最新的晶片的性能基本上都是碾壓競爭者的。我們選擇的是A11和A13這兩款跨代的晶片,他們兩個的性能差距真的很大嗎?需要說明的是:A11晶片所配適的機型是IphoneX系列和Iphone8系列;而A13仿生晶片所配適的機型是:Iphone11全系列。
  • 性能大幅提升,火狐 Firefox 84 瀏覽器原生支持蘋果 M1 Mac
    IT之家12月16日消息 外媒 MacRumors 報導,Mozilla 今天發布了原生支持蘋果 Silicon Macs 與 M1 晶片的火狐 Firefox 84 瀏覽器版本,宣稱比之前未經優化的網頁瀏覽器版本 「性能大幅提升」。