2020年10月,英偉達A100 在MLPerf基準測試中創下最新記錄,目前已經可以在亞馬遜雲端進行訪問。
亞馬遜網絡服務(AWS)在10年前的NVIDIA M2050中首次啟動了GPU實例。十年過去了,英偉達現在正在為AWS提供硬體,為下一代開創性的創新提供動力,這是相當有歷史意義的。
在今年的MLPerf中,A100在數據中心推斷方面的表現超過cpu達237x。單個NVIDIA DGX A100系統(帶有8個A100 gpu)在某些AI應用上可以提供與近1000臺雙插槽CPU伺服器相同的性能。
英偉達負責加速計算的副總裁伊恩 巴克(Ian Buck)在公布基準業績後表示:「每個行業都在尋求更好的方式,應用人工智慧來提供新的服務,並擴大業務,我們正處於一個歷史的轉折點。」
企業可以在AWS的P4d實例中訪問A100。英偉達聲稱,與默認的FP32精度相比,使用該實例訓練機器學習模型的時間減少了3倍,使用TF32則減少了6倍。
每個P4d實例具有8個NVIDIA A100 gpu。如果需要更高的性能,客戶可以使用AWS的EFA一次訪問超過4,000個gpu。
AWS的EC2副總裁Dave Brown表示,
「我們的客戶使用AWS服務構建、培訓和部署機器學習應用程式的速度非常快。與此同時,我們從那些客戶那裡得知,他們想要一種更低成本的方式來訓練他們的大規模機器學習模型。
現在,隨著EC2 UltraClusters P4d實例由NVIDIA的最新A100 gpu和petabit-scale網絡,我們supercomputing-class性能幾乎人人皆可,同時減少的時間訓練機器學習模型3 x,和降低訓練成本60%相比上一代的實例。」
P4d支持400Gbps網絡,利用NVIDIA的NVLink、NVSwitch、NCCL和GPUDirect RDMA等技術,進一步加速深度學習訓練工作負載。
一些來自不同行業的AWS客戶已經開始探索P4d實例如何幫助他們的業務。
GE醫療集團人工智慧部門副總裁兼總經理Karley Yoder評論道:
「我們的醫療成像設備會產生大量數據,這些數據需要我們的數據科學家進行處理。在以前的GPU集群中,訓練複雜的AI模型(如漸進的GANs)進行模擬和查看結果需要花費數天的時間。
使用新的P4d實例將處理時間從幾天減少到幾個小時。我們看到在不同圖像尺寸的訓練模型上有兩到三倍的速度,同時通過增加批量大小實現更好的性能,通過更快的模型開發周期實現更高的生產率。」
舉一個不同行業的例子,豐田的研究部門正在探索P4d如何改進他們在開發自動駕駛汽車和突破性的新機器人方面的現有工作。
豐田研究院(Toyota Research Institute)基礎設施工程技術主管邁克 加裡森(Mike Garrison)解釋說:「上一代P3實例幫助我們把訓練機器學習模型的時間從幾天縮短到了幾個小時。」
「我們期待利用P4d實例,因為額外的GPU內存和更有效的浮動格式將允許我們的機器學習團隊以更快的速度訓練更複雜的模型。」
P4d實例目前在美國東部(北維吉尼亞)和美國西部(俄勒岡)地區可用。AWS表示,計劃很快推出進一步的服務。