對話Graphcore中國高管:新IPU性能超NV A100,中短期衝市場第二

2020-12-22 芯東西

芯東西（公眾號：aichip001）作者 | 韋世瑋編輯 | Panken

芯東西12月18日消息，昨天，芯東西等少數媒體與英國AI晶片獨角獸Graphcore高級副總裁、中國區總經理盧濤，Graphcore中國工程總負責人、算法科學家金琛，進行了一場深入交流。

這場交流圍繞的主角正是Graphcore在今年7月發布的專為AI任務設計的第二代IPU，以及用於大規模系統級產品IPU-Machine: M2000（IPU-M2000）。

據了解，IPU-M2000是一款即插即用的機器智能刀片式計算單元，搭載第二代Colossus IPU處理器GC200，採用7nm製程工藝，由Poplar軟體棧提供支持，易於部署。

同時，Graphcore還基於16臺IPU-M2000構建了模塊化機架規模解決方案——IPU-POD64，主要用於極大型機器智能橫向擴展，具有靈活性和易於部署的特性。

此外，兩位高管在分享Graphcore在今年12月最新動態的同時，還公布了第二代IPU的Benchmark，並分享Graphcore在中國以及全球的業務和業務落地情況、合作夥伴生態建設等信息。

一、IPU-POD64已全球發貨，可橫向及縱向擴展

今年12月，Graphcore發布了面向IPU的PyTorch產品及版本和Poplar SDK 1.4。同時，還公布了IPU-M2000應用測試性能及源碼開放。

盧濤談到，IPU-M2000是目前世界上繼英偉達GPU、谷歌TPU後，第三個公開發布的能夠訓練BERT-Large模型的AI處理器，並已在Benchmark Blog、Benchmark charts、Performance results table等官網發布上線。

此外，IPU-M2000將在2021年上半年正式參與MLPerf性能測試，Graphcore也已加入MLPerf管理機構MLCommons。

盧濤重點談到了IPU-POD64，該方案實現了X86和IPU智能計算的解藕，目前該產品已在全球範圍內發貨。

他認為，IPU-POD64是目前市面上唯一可縱向擴展和橫向擴展的AI計算系統產品。

簡單來說，在縱向擴展上，IPU-POD64可以實現從一臺M2000到IPU-POD16（4臺M2000），再到IPU-POD64（16臺M2000）的軟體透明擴展，且無需任何軟體修改，單機即可進行集群規模的運算。

從橫向擴展角度看，IPU-POD64還可實現多臺IPU-POD64的橫向擴展，最大可支持6.4萬個IPU組成的AI計算集群。

目前，IPU-POD64目前已在全球範圍內發貨。盧濤提到，明年Graphcore在中國發展的兩大重點，一是落地、二是生態建設。

二、在BERT-Large訓練時長比A100縮短5.3倍

金琛主要向大家詳細介紹IPU-M2000在各模型上的訓練和推理等相關數據，既包括CNN模型EfficientNet，還包括語音模型Deep Voice、傳統機器學習模型MCMC等。

例如，集成了16臺M2000的IPU-POD64在BERT-Large上的訓練時間，比一個英偉達DGX A100縮短了5.3倍，比三個DGX A100縮短了1.8倍，總體擁有成本的優勢接近2倍。

在EfficientNet-B4上，IPU-M2000的推理吞吐量比目前市面上最新GPU提升超過60倍，時延縮短超過16倍。

同時，IPU-M2000在面向NLP、語音和金融等不同領域模型訓練和推理的性能結果也表現不錯。

那麼，IPU-M2000具體是如何支持PyTorch？

金琛談到，在PyTorch代碼裡，他們引入了一個叫PopTorch的輕量級接口，通過這個接口，用戶可基於當前的PyTorch模型做一個非常輕量級的封裝，通過這個封裝即可無縫地在IPU和CPU上運行模型。

當前的POPLAR SDK 1.4版本可同時支持模型並行和數據並行，但如果用戶想做跨機櫃的模型並行和數據並行，則需要等到下一版的SDK。

三、盧濤：英偉達是唯一挑戰，中短期內要做到市場第二

金琛提到，從IPU-M2000在多個大型複雜模型中的測試結果顯示，其性能表現均優於市面上主流的GPU處理器。

但實際上，當下模型算法演進的速度遠快於晶片性能的提升，這些主流模型測試的結果對現實落地應用的指導性意義又有多大？

盧濤認為，AI性能基準測試的結果對現實落地的指導意義還是很大的。

假設，現在要在網際網路場景落地或部署NLP等相關技術，BERT-Large就是一個很大的模型，比企業自己採用的模型還要大。

另一方面，不管未來AI處理器或CPU能否滿足超大規模模型或多模態模型的增長，至少目前BERT-Large是一個對工業界和研究界有價值的基準。最實際的意義是，如果一家企業的晶片通過了BERT-Large測試，那麼也相當於具備了在市場落地的入場券。

不過，即便IPU-M2000性能超越了英偉達的A100及相關，但英特爾去年收購的Habana也被行業看好，尤其是Habana如果和英特爾的AI軟體棧組合起來，對許多初創公司來說也是一個較大的挑戰。

巨頭橫亙在前，Graphcore如何看待這些巨頭帶來的挑戰？尤其當客戶涉及到軟硬體的遷移成本等方面，Graphcore又有多少信心在未來可以搶奪未來的市場？

盧濤首先從兩個維度探討了英特爾在AI晶片的競爭。一是從英特爾收購的歷史來看，「晶片工業界和一些投資界都開玩笑說，英特爾是一個收購黑洞。」盧濤說。

在他看來，英特爾每收購一家公司，其內部整合併不像大家想像的那麼好，不管是軟體的進展還是未來的目標，都是在往後滑動的。「基於我個人的判斷，Habana的昨天就是它發展的明天。」他說。

二是從現實情況上看，盧濤說自己並不擔心英特爾的「組合拳」。他認為，英特爾的AI晶片發展到今天，並沒有一個明確的發展策略，從CPU到FPGA再到顯卡等產品上，英特爾一直缺乏核心抓手，而且目前在工業場景中，英特爾的軟體棧還未真正地大規模應用。

因此在盧濤看來，當下Graphcore面臨唯一的巨頭挑戰還是英偉達。不管是英偉達的GPU或CUDA，還是其多年和開發者、社區共同建立起來的統一AI加速計算生態，都更具挑戰性，也是Graphcore更加關注的。

「但Graphcore對未來很有信心。」盧濤提到，一是其處理器在不同的應用領域都體現了真正的價值，並且在主流Benchmark中也證明了自身產品的收益；二是其不少合作夥伴在GPU上難以解決的任務，反而在IPU上可以實現。

「只要我們的IPU有價值點和價值定位，始終會有客戶願意買單。」他說，尤其隨著Graphcore和合作夥伴對SDK的不斷打磨，從GPU遷移到IPU的難度將會比大家想像的低得多。

未來，Graphcore在中國市場的策略是要將網際網路+雲計算作為自身的第一大落地場景，到2021年，要在中國的雲計算和網際網路市場外再突破一到兩個主流行業，例如金融、汽車、智慧醫療、智慧教育等。

與此同時，盧濤也談到，Graphcore的中短期目標是希望在未來幾年內，在數據中心AI訓練和推理上的晶片發貨、批量部署等方面，做到市場第二名的地位，僅次於英偉達。

結語：AI晶片市場新老玩家混戰加劇

作為「闖入」中國AI晶片市場的少數國外獨角獸之一，僅成立四年的Graphcore可謂是成長迅速，不僅相繼推出自研IPU加速在數據中心AI訓練和推理領域的競爭，還與阿里巴巴、微軟等企業合作，逐步構建起面向開發者的軟體和開源生態。

但也正如盧濤所說，在當下的人工智慧領域，以GPU席捲市場的英偉達仍是一個重要的挑戰。要想早日「超車」英偉達，Graphcore需要做的不僅僅是在晶片領域不斷精進和創新，實現落地應用的降本增效，如何更好地瞄準市場，從小的著力點逐步加速超越，也是這個年輕的挑戰者需要持續思考的問題。

相關焦點

對話Graphcore中國高管:中短期內衝市場第二

此外，兩位高管在分享Graphcore在今年12月最新動態的同時，還公布了第二代IPU的Benchmark，並分享Graphcore在中國以及全球的業務和業務落地情況、合作夥伴生態建設等信息。
Graphcore IPU-M2000在基準測試中性能卓越

在各種流行的模型中,Graphcore技術在訓練和推理方面均顯著優於NVIDIA的A100(基於DGX)。MLCommons除了發布其AI計算系統的全面benchmark外,Graphcore還宣布,其已經加入新成立的MLPerf下屬機構MLCommons,成為MLCommons的會員。
Graphcore第二代IPU-M2000性能測試出爐,相比A100多個指標提升數倍

7月，Graphcore在布裡斯託和北京同步推出了兩款硬體產品：第二代IPU晶片Colossus MK2 GC200 IPU（簡稱MK2 IPU），以及包含四顆MK2 IPU，可用於大規模集群系統的IPU-Machine：M2000 （IPU-M2000）。最近，Graphcore公開了IPU-M2000的應用性能測試。
Graphcore IPU-M2000在首個benchmark測試中顯著優於GPU

【TechWeb】12月10日消息，Graphcore為其最新的AI計算系統——IPU-M2000和縱向擴展的IPU-POD64發布了第一套性能benchmark。以下為具體內容。在各種流行的模型中，Graphcore技術在訓練和推理方面均顯著優於NVIDIA的A100（基於DGX）。
Graphcore第二代IPU電晶體數量高達594億個

雷鋒網消息，總部位於英國的AI晶片公司Graphcore今天發布了第二代IPU GC200，採用臺積電7nm工藝，電晶體數量高達594億個，裸片面積達到823平方毫米。這比兩個月前英偉達最新發布的安培架構GPU A100的540億個電晶體增加了10%，黃仁勳當時說A100是全球最大的7nm晶片，裸片面積為826平方毫米。
英特爾、清微智能、億智電子、Graphcore、Semtech獲2020 AI+晶片...

最佳新基建成長獎的評審維度包括契合新基建7大行業領域、符合國家最新戰略、掌握核心關鍵技術、具備實際交付能力和一定產業鏈號召力等。清微智能、億智電子、Graphcore、Semtech、英特爾從眾多半導體公司中脫穎而出，分別獲得『AI+晶片』的5個獎項。
一文了解阿里一站式圖計算平臺GraphScope

阿里巴巴擁有全球超大的商品知識圖譜，在豐富的圖場景和真實應用的驅動下，阿里巴巴達摩院智能計算實驗室研發並開源了全球首個一站式超大規模分布式圖計算平臺GraphScope，併入選中國科學技術協會「科創中國」平臺。本文詳解圖計算的原理和應用及GraphScope的架構設計。
特變電工股份有限公司2020年度第二期超短期融資券募集說明書(終稿)

2020年度第二期超短期融資券」超短期融資券指具有法人資格的非金融企業在銀行間債券市場發行的，約定在一定期限還本付息的債務融資工具非金融企業債務融資工具指具有法人資格的非金融企業在全國銀行間債券市場發行的，約定在一定期限內還本付息的債務融資工具本次發行指本期超短期融資券的發行行為本募集說明書指本公司為本期超短期融資券的發行而根據有關法律法規製作的
首屆中國圖計算榜單「China Graph100」發布

」以23755.7 GTEPS（TEPS即每秒遍歷的邊數目，G代表109次）的遍歷性能排名第一；部署在國家超級計算廣州中心的「天河二號」以2061.48 GTEPS的遍歷性能排名第二；位列榜單第三位的是由中科院計算所和中科睿芯聯合研製的「金剛」高通量集群，與榜上同等性能的結果相比，高通量集群伺服器數量減少了99%以上，展現了優越的高通量計算能力和超高的節點效率。
國電南瑞:2020年度第二期超短期融資券兌付完成

國電南瑞:2020年度第二期超短期融資券兌付完成時間：2020年12月15日 15:55:51&nbsp中財網原標題:國電南瑞:關於2020年度第二期超短期融資券兌付完成的公告證券代碼：600406 證券簡稱：國電南瑞公告編號：臨2020-051債券代碼：163577 債券簡稱：20南瑞01 國電南瑞科技股份有限公司關於2020年度第二期超短期融資券兌付完成的公告
超400家優秀公司高管、頂級學者齊聚深圳把脈中國經濟高質量發展...

未來三十年，作為中國最優秀的企業家，需要講好三個新故事。」——這是中國國際經濟交流中心首席研究員、原國家發改委學術委秘書長張燕生，11月27日在深圳參加由每日經濟新聞主辦的2020第九屆中國上市公司高峰論壇時所分享的觀點。在本屆高峰論壇上，超400家優秀上市公司、高成長公司、證券基金機構高管以及多位國內外頂尖經濟學者、投資領域大咖深圳聚首。
中甲衝超組六支球隊，誰最想衝超？誰最不想衝超？

中甲衝超組六強已經全部產生。誰能獲得那1.5個衝超名額成為聯賽最大的懸念。考慮到附加賽面對的中超對手實力並不差，實質穩定的衝超名額只有1個。而縱觀中甲歷史，衝超往往取決於球隊背後投資者的意願。這六強的衝超意願如何呢？長春亞泰在球員身價中排名六隊榜首，更擁有中甲第一本土球星譚龍。雖然在第一階段也有過被崑山FC擊敗的波折，但在換帥後，球隊展示了昔日中超球隊的底蘊，4比0南通支雲一役極大鼓舞了球隊士氣。
WWDC20 CoreImage 專題

可以看到，由於 CoreImage 和 Metal 的工作都在不同隊列中進行，在不同的工作切換時，應用必須發出等待的指令來保證接收到正確的結果，這造成了不必要的性能和時間損耗：蘋果文檔中關於其他 Core Image 性能相關的最佳實踐請參考 Getting the Best Performance[5]儘量使用內置的 CIFilter
第二代AMD EPYC處理器為資料庫、商用HPC和超融合工作帶來新性能

AMD EPYC 7Fx2處理器為企業級市場的核心工作負載帶來了全新的性能和能力，包括資料庫SQL Server 性能提升，超融合基礎架構VMmark3.1得分開創了新的世界紀錄，以及商用HPC每核計算流體力學單個應用程式性能的大幅度提升。
原創最終幻想勇氣啟示錄nv覺醒作用分析

>最終幻想勇氣啟示錄nv覺醒是什麼？ffbe日服目前推出了nv覺醒兵員，nv覺醒後能夠學習到新的技能還有新的機制，本篇文章為您進一步說明。最終幻想勇氣啟示錄nv覺醒機制說明nv覺醒方法：ネオビジョン（新幻象）是4.5周年新上線的新稀有卡池。召喚能夠出現新登場水晶，從而獲得nv角色。
極速駕臨 Core i5-2500K小超性能曝光

Intel將於下月發布新一代的Sandy Bridge處理器，在首發陣營裡，包含定位高端市場的Core i7與定位中端市場的Core i5兩大系列。　　當處理器同時具備高效能、可超性強兩大因素的時候，它就擁有成為明星級產品的潛質，從現有資料來看，首發陣營了，只有兩款Sandy Bridge K型號產品，它們分別是Core i5-2500K和Core i7-2600K，其中定位主流市場的Core i5-2500K備受關注，特別是玩家們多麼渴望這款產品能滿足他們對處理器性能的需要。
年營收超8億,每年推薦1.5萬中高管、6萬人次靈活用工成功入職,他...

年營收超8億，每年推薦1.5萬中高管、6萬人次靈活用工成功入職，他如何掘金萬億人力資源市場？科銳從1997年開始「觸網」，做了科銳人才網——智聯招聘後第二家招聘網站。這是一次勇敢但失敗的嘗試。當時，網站的概念還很新，高勇覺得「好玩、年輕」，在公司只有70個人的情況下，投入30個人做了網站。但到了2000年，公司即已面臨發展困境，活下來要緊，只好斷臂求生。
衝超焦點戰準時打響，論各支球隊衝超可能性以及衝超欲望

2020年中甲聯賽將於8日迎來收官焦點戰，長春亞泰將與成都興城直接對決，而另一場強強對話是泰州遠大VS浙江綠城，往年衝超大戰都是戲劇性頻出，不知道今年會有什麼么蛾子整出，先來看一下積分榜後防線亞泰絲毫不弱，有石笑天、張瑀、饒偉輝等中超老將坐陣，值得一提的是亞泰這個陣容在衝超組還沒有丟過球，這個就真的太可怕了。
什麼是IPU?為什麼說它會超越CPU和GPU,成為AI的專用處理器?

人工智慧近些年的大火，直接促進了CPU和GPU的發展，而NVIDIA的GPU真正借著這股「東風」迅速成為AI市場的主流產品之一，其勢頭甚至蓋過了CPU。當時今天我們要說的有後起之勢的AI專用晶片IPU（智能處理器）。
摩根大通中國又見外資背景新高管加盟,或分管投行,9名高管陣容華麗

財聯社（深圳，記者覃澤俊）訊，繼8名高管現身後，摩根大通證券（中國）再入一位新高管。3月6日，上海證監局公布了杜朋的證券公司高管任職資格。有業內人士猜測，杜朋或將出任公司副總裁一職，並分管公司投行業務。根據此前公開信息，摩根大通證券（中國）的高管團隊基本到齊。

對話Graphcore中國高管:新IPU性能超NV A100,中短期衝市場第二

相關焦點

對話Graphcore中國高管:中短期內衝市場第二

Graphcore IPU-M2000在基準測試中性能卓越

Graphcore第二代IPU-M2000性能測試出爐,相比A100多個指標提升數倍

Graphcore IPU-M2000在首個benchmark測試中顯著優於GPU

Graphcore第二代IPU電晶體數量高達594億個

英特爾、清微智能、億智電子、Graphcore、Semtech獲2020 AI+晶片...

一文了解阿里一站式圖計算平臺GraphScope

特變電工股份有限公司2020年度第二期超短期融資券募集說明書(終稿)

首屆中國圖計算榜單「China Graph100」發布

國電南瑞:2020年度第二期超短期融資券兌付完成

超400家優秀公司高管、頂級學者齊聚深圳 把脈中國經濟高質量發展...

中甲衝超組六支球隊，誰最想衝超？誰最不想衝超？

WWDC20 CoreImage 專題

第二代AMD EPYC處理器為資料庫、商用HPC和超融合工作帶來新性能

原創 最終幻想勇氣啟示錄nv覺醒作用分析

極速駕臨 Core i5-2500K小超性能曝光

年營收超8億,每年推薦1.5萬中高管、6萬人次靈活用工成功入職,他...

衝超焦點戰準時打響，論各支球隊衝超可能性以及衝超欲望

什麼是IPU?為什麼說它會超越CPU和GPU,成為AI的專用處理器?

摩根大通中國又見外資背景新高管加盟,或分管投行,9名高管陣容華麗

超400家優秀公司高管、頂級學者齊聚深圳把脈中國經濟高質量發展...

原創最終幻想勇氣啟示錄nv覺醒作用分析