芯東西(公眾號:aichip001)作者 | 韋世瑋編輯 | Panken
芯東西12月18日消息,昨天,芯東西等少數媒體與英國AI晶片獨角獸Graphcore高級副總裁、中國區總經理盧濤,Graphcore中國工程總負責人、算法科學家金琛,進行了一場深入交流。
這場交流圍繞的主角正是Graphcore在今年7月發布的專為AI任務設計的第二代IPU,以及用於大規模系統級產品IPU-Machine: M2000(IPU-M2000)。
據了解,IPU-M2000是一款即插即用的機器智能刀片式計算單元,搭載第二代Colossus IPU處理器GC200,採用7nm製程工藝,由Poplar軟體棧提供支持,易於部署。
同時,Graphcore還基於16臺IPU-M2000構建了模塊化機架規模解決方案——IPU-POD64,主要用於極大型機器智能橫向擴展,具有靈活性和易於部署的特性。
此外,兩位高管在分享Graphcore在今年12月最新動態的同時,還公布了第二代IPU的Benchmark,並分享Graphcore在中國以及全球的業務和業務落地情況、合作夥伴生態建設等信息。
一、IPU-POD64已全球發貨,可橫向及縱向擴展
今年12月,Graphcore發布了面向IPU的PyTorch產品及版本和Poplar SDK 1.4。同時,還公布了IPU-M2000應用測試性能及源碼開放。
盧濤談到,IPU-M2000是目前世界上繼英偉達GPU、谷歌TPU後,第三個公開發布的能夠訓練BERT-Large模型的AI處理器,並已在Benchmark Blog、Benchmark charts、Performance results table等官網發布上線。
此外,IPU-M2000將在2021年上半年正式參與MLPerf性能測試,Graphcore也已加入MLPerf管理機構MLCommons。
盧濤重點談到了IPU-POD64,該方案實現了X86和IPU智能計算的解藕,目前該產品已在全球範圍內發貨。
他認為,IPU-POD64是目前市面上唯一可縱向擴展和橫向擴展的AI計算系統產品。
簡單來說,在縱向擴展上,IPU-POD64可以實現從一臺M2000到IPU-POD16(4臺M2000),再到IPU-POD64(16臺M2000)的軟體透明擴展,且無需任何軟體修改,單機即可進行集群規模的運算。
從橫向擴展角度看,IPU-POD64還可實現多臺IPU-POD64的橫向擴展,最大可支持6.4萬個IPU組成的AI計算集群。
目前,IPU-POD64目前已在全球範圍內發貨。盧濤提到,明年Graphcore在中國發展的兩大重點,一是落地、二是生態建設。
二、在BERT-Large訓練時長比A100縮短5.3倍
金琛主要向大家詳細介紹IPU-M2000在各模型上的訓練和推理等相關數據,既包括CNN模型EfficientNet,還包括語音模型Deep Voice、傳統機器學習模型MCMC等。
例如,集成了16臺M2000的IPU-POD64在BERT-Large上的訓練時間,比一個英偉達DGX A100縮短了5.3倍,比三個DGX A100縮短了1.8倍,總體擁有成本的優勢接近2倍。
在EfficientNet-B4上,IPU-M2000的推理吞吐量比目前市面上最新GPU提升超過60倍,時延縮短超過16倍。
同時,IPU-M2000在面向NLP、語音和金融等不同領域模型訓練和推理的性能結果也表現不錯。
那麼,IPU-M2000具體是如何支持PyTorch?
金琛談到,在PyTorch代碼裡,他們引入了一個叫PopTorch的輕量級接口,通過這個接口,用戶可基於當前的PyTorch模型做一個非常輕量級的封裝,通過這個封裝即可無縫地在IPU和CPU上運行模型。
當前的POPLAR SDK 1.4版本可同時支持模型並行和數據並行,但如果用戶想做跨機櫃的模型並行和數據並行,則需要等到下一版的SDK。
三、盧濤:英偉達是唯一挑戰,中短期內要做到市場第二
金琛提到,從IPU-M2000在多個大型複雜模型中的測試結果顯示,其性能表現均優於市面上主流的GPU處理器。
但實際上,當下模型算法演進的速度遠快於晶片性能的提升,這些主流模型測試的結果對現實落地應用的指導性意義又有多大?
盧濤認為,AI性能基準測試的結果對現實落地的指導意義還是很大的。
假設,現在要在網際網路場景落地或部署NLP等相關技術,BERT-Large就是一個很大的模型,比企業自己採用的模型還要大。
另一方面,不管未來AI處理器或CPU能否滿足超大規模模型或多模態模型的增長,至少目前BERT-Large是一個對工業界和研究界有價值的基準。最實際的意義是,如果一家企業的晶片通過了BERT-Large測試,那麼也相當於具備了在市場落地的入場券。
不過,即便IPU-M2000性能超越了英偉達的A100及相關,但英特爾去年收購的Habana也被行業看好,尤其是Habana如果和英特爾的AI軟體棧組合起來,對許多初創公司來說也是一個較大的挑戰。
巨頭橫亙在前,Graphcore如何看待這些巨頭帶來的挑戰?尤其當客戶涉及到軟硬體的遷移成本等方面,Graphcore又有多少信心在未來可以搶奪未來的市場?
盧濤首先從兩個維度探討了英特爾在AI晶片的競爭。一是從英特爾收購的歷史來看,「晶片工業界和一些投資界都開玩笑說,英特爾是一個收購黑洞。」盧濤說。
在他看來,英特爾每收購一家公司,其內部整合併不像大家想像的那麼好,不管是軟體的進展還是未來的目標,都是在往後滑動的。「基於我個人的判斷,Habana的昨天就是它發展的明天。」他說。
二是從現實情況上看,盧濤說自己並不擔心英特爾的「組合拳」。他認為,英特爾的AI晶片發展到今天,並沒有一個明確的發展策略,從CPU到FPGA再到顯卡等產品上,英特爾一直缺乏核心抓手,而且目前在工業場景中,英特爾的軟體棧還未真正地大規模應用。
因此在盧濤看來,當下Graphcore面臨唯一的巨頭挑戰還是英偉達。不管是英偉達的GPU或CUDA,還是其多年和開發者、社區共同建立起來的統一AI加速計算生態,都更具挑戰性,也是Graphcore更加關注的。
「但Graphcore對未來很有信心。」盧濤提到,一是其處理器在不同的應用領域都體現了真正的價值,並且在主流Benchmark中也證明了自身產品的收益;二是其不少合作夥伴在GPU上難以解決的任務,反而在IPU上可以實現。
「只要我們的IPU有價值點和價值定位,始終會有客戶願意買單。」他說,尤其隨著Graphcore和合作夥伴對SDK的不斷打磨,從GPU遷移到IPU的難度將會比大家想像的低得多。
未來,Graphcore在中國市場的策略是要將網際網路+雲計算作為自身的第一大落地場景,到2021年,要在中國的雲計算和網際網路市場外再突破一到兩個主流行業,例如金融、汽車、智慧醫療、智慧教育等。
與此同時,盧濤也談到,Graphcore的中短期目標是希望在未來幾年內,在數據中心AI訓練和推理上的晶片發貨、批量部署等方面,做到市場第二名的地位,僅次於英偉達。
結語:AI晶片市場新老玩家混戰加劇
作為「闖入」中國AI晶片市場的少數國外獨角獸之一,僅成立四年的Graphcore可謂是成長迅速,不僅相繼推出自研IPU加速在數據中心AI訓練和推理領域的競爭,還與阿里巴巴、微軟等企業合作,逐步構建起面向開發者的軟體和開源生態。
但也正如盧濤所說,在當下的人工智慧領域,以GPU席捲市場的英偉達仍是一個重要的挑戰。要想早日「超車」英偉達,Graphcore需要做的不僅僅是在晶片領域不斷精進和創新,實現落地應用的降本增效,如何更好地瞄準市場,從小的著力點逐步加速超越,也是這個年輕的挑戰者需要持續思考的問題。