近日,人工智慧行業權威「跑分」榜單MLPerf訓練榜出爐,各大AI晶片製造廠商和雲廠商都在榜單中競相角逐。MLPerf是目前國際上在人工智慧領域最有影響力的行業基準測試組織之一,由圖靈獎得主David Patterson聯合谷歌和幾所著名高校於2018年發起。
英偉達剛剛發布的A100 GPU和谷歌最新的TPUv4都在榜單中發布了詳盡的性能數據,值得關注的是,本次訓練榜單中首次出現了中國AI晶片和雲平臺的身影。中科院深圳先進技術研究所(簡稱「SIAT」)提供了華為雲EI昇騰集群服務的測試成績,實測成績顯示華為雲EI昇騰集群服務性能超越了英偉達同類產品。
ResNet神經網絡結構在2015年被提出,在ImageNet比賽classification任務上獲得第一名,因為它「簡單與實用」並存,其後很多方法都是在ResNet50或者ResNet101的基礎上完成的,在AI檢測、分割、識別等領域裡得到廣泛的應用。MLPerf 榜單的一個重要賽道就是基於ResNet50的機器學習任務,任務的訓練速度越快則性能越強。
MLPerf ResNet50賽道有兩個榜單:close和open,就是兩種比拼方式。在close比拼方式下面,各大廠家基於同樣的訓練優化器和同樣的神經網絡結構,基於開源可用的深度學習框架來做訓練比拼。
從測試數據看華為雲EI昇騰集群服務既支持運行自研的MindSpore框架也支持運行開源的TensorFlow框架,並且在兩種框架下均有優異的性能表現。從榜單中的成績可以看出華為雲EI昇騰集群服務的性能相比於英偉達和谷歌的絲毫不落下風,在同等規模的集群性能對比時,華為雲EI昇騰集群服務的成績要優於英偉達和谷歌。
在512晶片的集群規模下,華為雲EI昇騰集群服務成績為93.6秒,優於NVIDIA V100的120秒。據了解,這主要得益於華為雲EI昇騰集群服務及華為雲ModelArts一站式AI開發管理平臺在大規模分布式訓練加速比上的優勢,其在512和1024晶片下可達到80%以上的加速比,分布式加速比遠超英偉達和谷歌,英偉達在768個A100的加速比為60%,1840個A100為46.5%左右,谷歌在4096(8192 core)個TPUv3下為48.8%,256個TPUv4(512 core)下為61%,華為雲EI昇騰集群服務的加速比達到了英偉達和谷歌的1.3~1.7倍。
優秀的分布式加速比是大規模集群分布式訓練的關鍵能力,也是促使用戶選擇使用大規模集群來加速AI業務的關鍵因素,華為雲EI昇騰集群服務領先的分布式加速比能力將大幅降低用戶的訓練成本並加速其AI業務的開發效率。
而open榜單,更考驗AI廠家的軟硬體整體能力,因為open榜單沒有軟硬體的限制,只給任務,根據任務結果看性能。把兩個榜單成績放在一起看,華為雲EI昇騰集群服務的軟硬體結合的優化能力更加凸顯,僅用1024晶片即跑出了32.4秒的成績,超過英偉達1840個A100 GPU的45.6秒,堪與谷歌4096個TPUv3的28.2秒成績相媲美。在另兩組測試結果中ModelArts使用512晶片跑出46.8秒的成績,超過英偉達1536個A100 GPU的成績,ModelArts使用256晶片跑出83.4秒的成績,超過谷歌256個TPUv4的109.2秒。
據了解,華為雲ModelArts一站式AI開發管理平臺在分布式加速比優化、大規模異構資源調度、高性能訓練優化器、超參數自動優化以及神經網絡模型優化等方面有較多的研究成果,而這些技術上的能力累積,也很好地體現在了本次的榜單成績當中。