512塊AI晶片,華為雲跑出了46.8s的ResNet50訓練最優成績!

2021-01-07 科技樹兒

近日,人工智慧行業權威「跑分」榜單MLPerf訓練榜出爐,各大AI晶片製造廠商和雲廠商都在榜單中競相角逐。MLPerf是目前國際上在人工智慧領域最有影響力的行業基準測試組織之一,由圖靈獎得主David Patterson聯合谷歌和幾所著名高校於2018年發起。

英偉達剛剛發布的A100 GPU和谷歌最新的TPUv4都在榜單中發布了詳盡的性能數據,值得關注的是,本次訓練榜單中首次出現了中國AI晶片和雲平臺的身影。中科院深圳先進技術研究所(簡稱「SIAT」)提供了華為雲EI昇騰集群服務的測試成績,實測成績顯示華為雲EI昇騰集群服務性能超越了英偉達同類產品。

ResNet神經網絡結構在2015年被提出,在ImageNet比賽classification任務上獲得第一名,因為它「簡單與實用」並存,其後很多方法都是在ResNet50或者ResNet101的基礎上完成的,在AI檢測、分割、識別等領域裡得到廣泛的應用。MLPerf 榜單的一個重要賽道就是基於ResNet50的機器學習任務,任務的訓練速度越快則性能越強。

MLPerf ResNet50賽道有兩個榜單:close和open,就是兩種比拼方式。在close比拼方式下面,各大廠家基於同樣的訓練優化器和同樣的神經網絡結構,基於開源可用的深度學習框架來做訓練比拼。

從測試數據看華為雲EI昇騰集群服務既支持運行自研的MindSpore框架也支持運行開源的TensorFlow框架,並且在兩種框架下均有優異的性能表現。從榜單中的成績可以看出華為雲EI昇騰集群服務的性能相比於英偉達和谷歌的絲毫不落下風,在同等規模的集群性能對比時,華為雲EI昇騰集群服務的成績要優於英偉達和谷歌。

在512晶片的集群規模下,華為雲EI昇騰集群服務成績為93.6秒,優於NVIDIA V100的120秒。據了解,這主要得益於華為雲EI昇騰集群服務及華為雲ModelArts一站式AI開發管理平臺在大規模分布式訓練加速比上的優勢,其在512和1024晶片下可達到80%以上的加速比,分布式加速比遠超英偉達和谷歌,英偉達在768個A100的加速比為60%,1840個A100為46.5%左右,谷歌在4096(8192 core)個TPUv3下為48.8%,256個TPUv4(512 core)下為61%,華為雲EI昇騰集群服務的加速比達到了英偉達和谷歌的1.3~1.7倍。

優秀的分布式加速比是大規模集群分布式訓練的關鍵能力,也是促使用戶選擇使用大規模集群來加速AI業務的關鍵因素,華為雲EI昇騰集群服務領先的分布式加速比能力將大幅降低用戶的訓練成本並加速其AI業務的開發效率。

而open榜單,更考驗AI廠家的軟硬體整體能力,因為open榜單沒有軟硬體的限制,只給任務,根據任務結果看性能。把兩個榜單成績放在一起看,華為雲EI昇騰集群服務的軟硬體結合的優化能力更加凸顯,僅用1024晶片即跑出了32.4秒的成績,超過英偉達1840個A100 GPU的45.6秒,堪與谷歌4096個TPUv3的28.2秒成績相媲美。在另兩組測試結果中ModelArts使用512晶片跑出46.8秒的成績,超過英偉達1536個A100 GPU的成績,ModelArts使用256晶片跑出83.4秒的成績,超過谷歌256個TPUv4的109.2秒。

據了解,華為雲ModelArts一站式AI開發管理平臺在分布式加速比優化、大規模異構資源調度、高性能訓練優化器、超參數自動優化以及神經網絡模型優化等方面有較多的研究成果,而這些技術上的能力累積,也很好地體現在了本次的榜單成績當中。

相關焦點

  • 華為發布全球最快AI訓練集群,訓練ResNet50僅59.8秒昇騰910加持
    機器之心報導作者:李澤南、戴一鳴在 8 月華為最強 AI 晶片昇騰 910 正式發布之後,今天,華為在全聯接大會上發布了全新的整體計算戰略,並正式推出了基於最新 AI 晶片的伺服器 Atlas 900。華為總裁任正非在最近接受採訪時曾表示,華為即將發布全世界最快的人工智慧平臺。
  • 華為全球最快AI產品發布,ResNet-50訓練59.8秒,集成1024顆晶片
    華為給出數據——訓練ResNet-50隻需59.8秒。在同等精度上,比排名第二的選手快15%。華為副董事長胡厚崑說,如此算力還可以廣泛應用到科學研究與商業創新中,比如天文探索、氣象預測、自動駕駛、石油勘探等領域。與此同時,華為方面也宣布:Atlas900的相關集群服務,也會以極優惠的價格向全球科研機構和大學開放。
  • 華為昇騰 910 AI 晶片正式商用,全場景 AI 框架 Mind...
    結果顯示,在算力方面,昇騰 910 完全達到了設計規格,也就是:半精度 (FP16) 算力達到256 Tera-FLOPS,整數精度 (INT8) 算力達到 512 Tera-OPS。更重要的是,昇騰 910 達到規格算力所需的功耗僅為 310W,明顯低於設計規格的 350W。
  • 華為首次發布計算產業戰略 Atlas 900 59.8秒完成ResNet-50訓練
    封面新聞記者 王婷9月18日,在第四屆華為全聯接大會上,華為首次發布計算戰略,基於架構創新、投資全場景處理器族、有所為有所不為的商業策略、構建開放生態進行布局。同時,華為發布了號稱全球最快AI訓練集群Atlas 900,加速科學研究與商業創新的智能化進程。
  • 深度學習第19講:CNN經典論文研讀之殘差網絡ResNet及其keras實現
    這退化問題不解決,咱們的深度學習就無法 go deeper. 於是何凱明等一幹大佬就發明了今天我們要研讀的論文主題——殘差網絡 ResNet.殘差塊與殘差網絡      要理解殘差網絡,就必須理解殘差塊(residual block)這個結構,因為殘差塊是殘差網絡的基本組成部分。
  • 斯坦福DAWNBench放新榜:華為雲ModelArts訓練推理雙第一,模型訓練...
    3月20日,史丹福大學發布最新的DAWNBench榜單,華為雲ModelArts一站式AI開發平臺,獲得圖像識別總訓練時間及推理性能榜單雙料冠軍。測試結果顯示,在訓練性能方面,ResNet50_on_ImageNet上的測試結果中,當採用128塊V100時,華為雲ModelArts上模型訓練時間僅需4分08秒,較其2018年12月創下的9分22秒紀錄快了一倍,比此前fast.ai在AWS平臺上的訓練速度快4倍;在推理性能方面,華為雲ModelArts識別圖片的速度是第二名的1.72倍,亞馬遜的4倍,谷歌的9.1倍。
  • 斯坦福深度學習訓練及推理榜單:華為雲拿下雙料冠軍
    首頁 > 傳媒 > 關鍵詞 > 華為雲最新資訊 > 正文 斯坦福深度學習訓練及推理榜單:華為雲拿下雙料冠軍
  • 獨家 | kaggle季軍新手筆記:利用fast.ai對油棕人工林圖像進行快速分類(附代碼)
    這個權重從一個已經訓練好的圖像分類的resnet模型中直接獲得,無須擔心這種方法的細節。訓練模型的輸出;訓練和驗證損失的過程fast.ai在運行訓練和驗證數據集時,內部自動選取和保存最優的那個模型。 learn.save('resnet50-stg2')probs,val_labels = learn.get_preds(ds_type=DatasetType.Valid) print('Accuracy',accuracy(probs,val_labels))
  • 華為公布五大AI戰略,推最強7nm昇騰AI晶片!提出十大變革
    這是華為目前為止最高規格的人工智慧重大戰略發布,它不僅包括此前盛傳的AI晶片,還包括了從系統到軟體、從框架到算子的全棧式AI解決方案,並涉及人才、生態、研究等諸多方面。可以說,從這一場發布會之後,華為開啟了一場從晶片到框架、從雲到端的全面正向對標國際AI巨頭(谷歌、英偉達、英特爾、亞馬遜等)的新徵程。
  • 華為開源自研AI框架MindSpore!一次訓練,可多場景部署
    MindSpore是一款支持端邊雲全場景的深度學習訓練推理框架,主要應用於計算機視覺、自然語言處理等AI領域,面向數據科學家、算法工程師等人群,提供設計友好、運行高效的開發體驗。作為華為整體AI解決方案的一部分,MindSpore在提供昇騰AI處理器原生支持及軟硬體協同優化,也支持通用CPU和GPU。
  • 華為雲存儲All-Flash戰略:成就不凡的微秒時代
    為此,華為雲打造出全新一代智能數據底座來實現All-Flash戰略,滿足各類新興應用對數據實時性的訴求,引領雲上存儲從毫秒走向微秒時代。兩個創新+三個加持華為雲的智能數據底座包括引擎、架構、晶片、算法和AI五個部分,概括起來即為「兩個創新+三個加持」。
  • 華為雲CTO張宇昕首次解密:從毫秒進入微秒時代的華為雲存儲為何越...
    今天華為正在為人類進入智能時代,構築一個全新的雲基石。當大家都在提智能的時候,華為雲想到的卻是當前數據架構是否能支撐起萬物互聯的智能世界?比如支撐整個數據流動的底座,雲計算是否需要進化?比如今天的雲存儲是否能夠滿足智能時代海量數據的交互?華為雲給出的答案是:制約雲計算為智能時代更好地服務的瓶頸就在「最後一公裡」。
  • DL經典論文系列(二) AlexNet、VGG、GoogLeNet/Inception、ResNet
    5、conv3三次[3,3]卷積網絡,輸出的特徵層為256,輸出net為(28,28,512),再2X2最大池化,輸出net為(14,14,512)。6、conv3三次[3,3]卷積網絡,輸出的特徵層為256,輸出net為(14,14,512),再2X2最大池化,輸出net為(7,7,512)。7、利用卷積的方式模擬全連接層,效果等同,輸出net為(1,1,4096)。共進行兩次。
  • 企業上雲的極速存儲挑戰,華為雲全新極速IO雲硬碟性能評測
    藉助華為雲全新一代極速IO雲硬碟開啟邀測的時機,至頂網評測實驗室展開了一次華為雲極速IO雲硬碟與超高IO雲硬碟的性能對比測試活動,並且嘗試通過相關測試成績,對雲硬碟的應用能力進行分析。因此,雲服務必須提供更低時延、更大帶寬的數據基礎存取能力,並以智能化的方式去幫助用戶挖掘數據價值。藉助華為雲全新一代極速IO雲硬碟開啟邀測的時機,至頂網評測實驗室展開了一次華為雲極速IO雲硬碟與超高IO雲硬碟的性能對比測試活動,並且嘗試通過相關測試成績,對雲硬碟的應用能力進行分析。
  • 理解並實現 ResNet(Keras)
    AlexNet,2012年ImageNet的獲勝者,這個模型就明顯開始關註解決僅有8個卷積層的深度學習,VGG網絡有19層,Inception或者GoogleNet有22層,ResNet 152有152層。在這篇文章中,我們會編寫一個ResNet-50的網絡,ResNet 152的小型版本,經常在開始的時候用在遷移學習上。
  • 深度解讀達文西架構:華為AI晶片的「秘密武器」
    2019年6月,華為發布全新8系列手機SoC晶片麒麟810,首次採用華為自研達文西架構NPU,實現業界領先端側AI算力,在業界公認的蘇黎世聯邦理工學院推出的AI Benchmark榜單中,搭載麒麟810的手機霸榜TOP3,堪稱華為AI晶片的「秘密武器」,這其中華為自研的達文西架構舉足輕重。
  • 華為雲AI助天津消防戰士刷新救援時間
    在最短的時間裡給出了最好的方案火情就是命令,時間就是生命。在科技騰飛的今天,有沒有一種技術手段來提高救人的效率?答案是肯定的。5月8日,天津生態城消防中隊進行了一次特別的演練:上午8點50分,天津濱海新區鯤玉園小區住戶發生火災險情。連接華為HiLink的煙霧傳感器自動報警,業主手機收到通知。
  • AI晶片的門檻有多低?
    人工智慧分訓練和推理兩大領域,推理領域對模型的精度要求越來越低,主流的是整數8位精度。算力理論值取決於運算精度、MAC的數量和運行頻率。大概可以簡化為這樣子,INT8精度下的MAC數量在FP16精度下等於減少了一半。FP32再減少一半,依次類推。
  • 飛槳框架高層API,一起輕鬆玩轉AI
    目前,飛槳框架內置的模型都是 CV 領域領域的模型,都在 paddle.vision.models 目錄下,包含了常見的 vgg 系列、resnet 系列等模型。__init__()self.backbone = resnet18(pretrained)self.outLayer1 = paddle.nn.Linear(1000, 512)self.outLayer2 = paddle.nn.Linear(512, num_keypoints*2)