Graphcore IPU-M2000在首個benchmark測試中顯著優於GPU

2020-12-23 TechWeb

【TechWeb】12月10日消息,Graphcore為其最新的AI計算系統——IPU-M2000和縱向擴展的IPU-POD64發布了第一套性能benchmark。以下為具體內容。

在各種流行的模型中,Graphcore技術在訓練和推理方面均顯著優於NVIDIA的A100(基於DGX)。

亮點包括:

訓練

EfficientNet-B4:吞吐量高18倍

ResNeXt-101:吞吐量高3.7倍

BERT-Large:與DGX A100相比,在IPU-POD64上的訓練時間快5.3倍(比雙DGX系統縮短2.6倍)

推理

LSTM:以更低時延實現吞吐量提升超過600倍

EfficientNet-B0:吞吐量提升60倍/時延縮短超過16倍

ResNeXt-101:吞吐量提升40倍/時延縮短10倍

BERT-Large:以更低的時延實現吞吐量提升3.4倍

Benchmark中包括了BERT-Large(基於Transformer的自然語言處理模型)在IPU-POD64的全部64個處理器上運行的結果。

BERT-Large的訓練時間比最新的NVIDIA DGX-A100快5.3倍(比雙DGX設置快2.6倍以上),這一結果彰顯了Graphcore的IPU-POD橫向擴展解決方案在數據中心的優勢,以及Poplar軟體棧管理複雜工作負載的能力,這些工作負載能夠利用多個處理器並行工作。

Graphcore軟體高級副總裁Matt Fyles在對測試結果發表評論時說:「這一整套全面的benchmark表明Graphcore的IPU-M2000和IPU-POD64在許多流行模型上的性能均優於GPU。」

「諸如EfficientNet之類的新型模型的benchmark特別具有啟發性,因為它們證明了AI的發展方向越來越傾向於IPU的專業架構,而非圖形處理器的傳統設計。」

「客戶需要能夠處理稀疏性以高效運行大規模模型的計算系統,而這正是Graphcore IPU所擅長的。在這種客戶需求的趨勢下,差距只會不斷擴大。」

Graphcore為阿里雲HALO定製代碼正式在GitHub開源

Graphcore是阿里雲HALO的合作夥伴之一,為阿里雲HALO定製開發的代碼odla_PopArt已經在HALO的GitHub上開源,具體請見https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization

MLCommons

除了發布其AI計算系統的全面benchmark外,Graphcore還宣布,其已經加入新成立的MLPerf下屬機構MLCommons,成為MLCommons的會員。

Graphcore將從2021年開始參加MLCommons的比較benchmark測試。更多信息,請參閱MLCommons的成立公告。

現已出貨

Graphcore最新benchmark的發布與IPU-M2000和IPU-POD64系統向全球客戶的推出時間剛好一致。一些早期發貨的產品已經在數據中心安裝並運行。

銷售工作得到了Graphcore全球合作夥伴網絡以及公司在歐洲、亞洲和美洲的銷售人員和現場工程團隊的支持。

PyTorch和Poplar 1.4

Graphcore用戶現在可以利用Poplar SDK 1.4,包括全面的PyTorch支持。PyTorch已成為從事尖端AI研究的開發人員的首選框架,在更廣泛的AI社區中也收穫了大批的追隨者,並且追隨者的數量還在快速增長。

PapersWithCode的最新數據顯示,在具有關聯代碼的已發表論文中,47%的論文使用了PyTorch框架(2020年9月)。

額外補充的PyTorch支持,再加上Poplar對TensorFlow的現有支持,這意味著絕大多數AI應用程式現在都可以輕鬆部署在Graphcore系統上。

與Poplar軟體棧的其他元素一樣,Graphcore正在將其用於IPU接口庫的PyTorch開源,從而使社區能夠對PyTorch的開發做出貢獻,並且加速PyTorch的開發。

關於IPU-M2000和IPU-POD

IPU-Machine:M2000(IPU-M2000)是一臺即插即用的機器智能計算刀片,旨在輕鬆部署並為可大規模擴展的系統提供支持。

纖巧的1U刀片可提供1 PetaFlop的機器智能計算能力,並在機箱內部納入針對AI橫向擴展進行了優化的集成網絡技術。

每個IPU-Machine:M2000(IPU-M2000)均由Graphcore的4個新型7納米ColossusMK2 GC200 IPU處理器提供動力,並得到Poplar軟體棧的完全支持。

IPU-POD64是Graphcore的橫向擴展解決方案,包括16臺IPU-M2000,這些機器使用Graphcore的超高帶寬IPU-Fabric技術進行了預先配置和連接。

IPU-POD64專為需要大規模AI計算功能的客戶而設計,既可以跨多個IPU運行單個工作負載以進行並行計算,也可以通過Graphcore的Virtual-IPU軟體供多個用戶共享使用。

附Graphcore MK2 Benchmarks具體表現:

相關焦點

  • Graphcore IPU-M2000在基準測試中性能卓越
    在各種流行的模型中,Graphcore技術在訓練和推理方面均顯著優於NVIDIA的A100(基於DGX)。Graphcore軟體高級副總裁Matt Fyles在對測試結果發表評論時說:「這一整套全面的benchmark表明Graphcore的IPU-M2000和IPU-POD64在許多流行模型上的性能均優於GPU。」
  • Graphcore第二代IPU-M2000性能測試出爐,相比A100多個指標提升數倍
    7月,Graphcore在布裡斯託和北京同步推出了兩款硬體產品:第二代IPU晶片Colossus MK2 GC200 IPU(簡稱MK2 IPU),以及包含四顆MK2 IPU,可用於大規模集群系統的IPU-Machine:M2000 (IPU-M2000)。最近,Graphcore公開了IPU-M2000的應用性能測試。
  • 對話Graphcore中國高管:新IPU性能超NV A100,中短期衝市場第二
    一、IPU-POD64已全球發貨,可橫向及縱向擴展今年12月,Graphcore發布了面向IPU的PyTorch產品及版本和Poplar SDK 1.4。同時,還公布了IPU-M2000應用測試性能及源碼開放。
  • 對話Graphcore中國高管:中短期內衝市場第二
    一、IPU-POD64已全球發貨,可橫向及縱向擴展 今年12月,Graphcore發布了面向IPU的PyTorch產品及版本和Poplar SDK 1.4。同時,還公布了IPU-M2000應用測試性能及源碼開放。
  • Graphcore第二代IPU電晶體數量高達594億個
    雷鋒網消息,總部位於英國的AI晶片公司Graphcore今天發布了第二代IPU GC200,採用臺積電7nm工藝,電晶體數量高達594億個,裸片面積達到823平方毫米。Graphcore聯合創始人兼CEO Nigel Toon表示,GC200是目前世界上最複雜的處理器,可使創新者實現AI的革命性突破。Mk1 IPU產品與Mk2 IPU產品性能對比據悉,GC2000晶片內部有1,472個獨立的處理器內核,能夠執行8,832個獨立的並行線程,所有這些均由900MB的RAM支持。
  • 英特爾新旗艦i9-11900K在benchmark測試中超過Ryzen9 5950X
    原標題:英特爾新旗艦i9-11900K在benchmark測試中超過Ryzen9 5950X   英特爾
  • 一文了解阿里一站式圖計算平臺GraphScope
    阿里巴巴擁有全球超大的商品知識圖譜,在豐富的圖場景和真實應用的驅動下,阿里巴巴達摩院智能計算實驗室研發並開源了全球首個一站式超大規模分布式圖計算平臺GraphScope,併入選中國科學技術協會「科創中國」平臺。本文詳解圖計算的原理和應用及GraphScope的架構設計。
  • 評測| 雲CPU上的TensorFlow基準測試:優於雲GPU的深度學習
    幾個月前,谷歌宣布其基於IntelSkylake CPU架構的CPU實例可以配置多達64個虛擬CPU,更重要的是,它們也可以用在可搶佔的CPU實例中,它們在GCE上最多可以存活24小時,隨時可能會掛掉(不過很少見),但是它的價格卻是標準實例的20%。
  • 英特爾、清微智能、億智電子、Graphcore、Semtech獲2020 AI+晶片...
    雷鋒網在CCF-GAIR 2020開幕之前啟動了『2020 AI 最佳成長榜』,經過近兩個月的報名、提名,一個月的專家集中評審,最終在452家被提名和申請榜單的AI創業公司中,就當下最受關注的12個AI+領域分別評選出最佳產品成長獎
  • asp.net core 使用 TestServer 來做集成測試
    asp.net core 使用 TestServer 來做集成測試Intro之前我的項目裡的集成測試是隨機一個埠,每次都真實的啟動一個 WebServer,之前也有看到過微軟文檔上 TestServer 的介紹,當時沒仔細看過以為差不多就沒用,一直是啟動了一個真正的
  • ...Pro 2488H V6智能伺服器 打破SAP® BWH Benchmark測試紀錄
    通信世界網消息(CWW)近日,華為最新基於第三代英特爾®至強®可擴展處理器的FusionServer Pro 2488H V6智能伺服器在SAP®BWH Benchmark基準版本3階段2 (每小時查詢執行次數)中,以52億條數據量的初始記錄取得了每小時
  • 如何為TensorFlow和PyTorch自動選擇空閒GPU,解決搶卡爭端
    keras.layers LSTM gm=GPUManager()with gm.auto_choice():        x=tf.placeholder(tf.float32,shape=(None,20,64))        y=LSTM(32)(x)背景隨著深度學習技術快速的發展,深度學習任務的數據和計算規模也越來越大,想要做出個像樣的
  • 什麼是IPU?為什麼說它會超越CPU和GPU,成為AI的專用處理器?
    GraphcoreGraphcore是英國人工智慧晶片硬體設計初創公司,現在IPU扛把子企業。而這家公司研發的智能晶片應用範圍十分廣泛,包括無人駕駛卡車、雲計算、處理機器學習技術,等等。事實上,有了高性能晶片的支持,就能利用海量數據來訓練人工智慧系統。
  • 【阿星的學習筆記(1)】如何在windows安裝Theano +Keras +Tensorflow並使用GPU加速訓練神經網路
    接下來我們可以跑一些sample code來實際測試效能。Theano實際測試:首先我們在Theano的官網上可以發現有兩個測試GPU的sample code:http://deeplearning.net/software/theano/tutorial/using_gpu.html我們就來實際跑看看使用CPU及GPU的差別。
  • 基於RTX2060構建TensorFlow-gpu(keras)學習平臺
    建立虛擬環境:conda create --name tf36gpu python=3.6 anaconda2. 激活虛擬環境:activate tf36gpu3. 開始菜單運行anaconda navigator檢查是否安裝了notebook(默認有安裝)三、安裝tensorflow/keras在激活的環境中安裝:1.
  • 小叮噹機器學習:Python3.6配置TensorFlow的GPU版詳細安裝教程
    值得注意:此時下載速度極慢,只有83KB/s,於是我們使用命令:pip install tensorflow-gpu -i https://pypi.doubanio.com/simple/ 從豆瓣鏡像中下載,發現速度為11.9MB/s。不一會兒,TensorFlow的gpu最新版本1.8.0便可成功安裝。
  • Sort Benchmark是跑分測試?騰訊雲奪冠配置是否有實際應用?
    與SPEC有所不同,Sort Benchmark(http://sort benchmark.org/ )在國內並不為大多數人所熟知,Sort Benchmark不是有了雲計算才有的賽事。以上三種六項測試中,騰訊雲的是Graysort和Minutesort,南京大學、阿里雲、Databricks組成的參賽團隊獲得的是Cloudsort,因為騰訊雲、阿里雲的參與遂引發關注。 Graysort,Minutesort和Cloudsort分別指的是什麼呢?Graysort測的是排序大量數據(目前最小為100TB)時花費的時間,時間越短效率越高。
  • WWDC20 CoreImage 專題
    控制CI_PRINT_TREECI_PRINT_TREE主要接收三個參數:graph type,output type以及optionsgraph type表示了Core Image渲染過程的三個階段:1表示初始化階段,這個階段對於了解本次渲染使用了什麼顏色空間是很有幫助的
  • 英偉達官方解讀:Volta Tensor Core GPU實現AI性能新裡程碑
    圖 2:Volta Tensor Core 矩陣乘法和累加使用最近的軟體改進,ResNet-50 訓練現在可以在獨立測試(standalone testing)中在單個 V100 上達到 1360 張圖像/秒的驚人速度。我們現在正在努力將這個訓練軟體整合進流行的框架中,如下所述。