燧原科技張亞林:解構數據中心AI系統「全壘打」和「全維度」|GTIC...

2020-12-22 智東西

芯東西(ID:aichip001)編輯 | 信儀

GTIC 2020全球AI晶片創新峰會剛剛在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI晶片產業峰會上,19位產學界重磅嘉賓從不同維度分享了對中國AI晶片自主創新和應用落地的觀察與預判。

在峰會上午場,燧原科技創始人兼COO張亞林通過視頻的方式,發表了題為《軟硬系統協同——雲端AI晶片產品化關鍵》的主題演講。

▲燧原科技創始人兼COO張亞林通過視頻的方式發表演講

目前,燧原科技的雲端AI晶片生態已經覆蓋「邃思」通用人工智慧訓練晶片、「雲燧T10」人工智慧加速卡、GCU-LARE智能互聯技術以及「馭算」計算及編程平臺。

在GTIC AI晶片創新峰會上,張亞林與我們分享了燧原科技對雲端AI晶片產品化的看法,在他看來,AI系統要落地數據中心必須具備四個要素,分別為系統集群、板卡、高性能高算力的晶片,以及全棧的軟體。而衡量一個數據中心的AI系統需要從完備性、生產率、成本、功耗和性能五個維度來考量。

以下為張亞林演講實錄整理:

一、數據中心趨於整合,計算和圖形加速架構分離

首先,張亞林通過案例和數據向觀眾解讀了一個問題:2020年數據中心到底發生了什麼?

在2019年,中國的數據中心行業規模已經佔到全世界的30%,2019~2021年全球雲計算市場規模一直在爬升,到2021年將達到2890億美金的市場規模。

NVIDIA在第二季度公布的財報表明,這是有史以來第一次NVIDIA的數據中心業務超過了顯卡業務,共達到17.5億美金的營收,與去年同期相比增長了167%。

張亞林說,數據中心正在朝著整合的方向走,世界上的三大巨頭:Intel、NVIDIA、AMD都在通過併購加強自身在數據中心的布局。

▲Intel、NVIDIA、AMD通過併購加強數據中心布局

Intel基於自己的CPU、數據和互聯的業務收購了Altera後,在去年又收購了Habana來做Intel自身的加速卡業務。

NVIDIA的加速卡計算業務很強,去年收購了Mellanox以豐富其數據卡和互聯的業務,目前NVIDIA還正在積極布局收購Arm以增強NVIDIA自身的CPU業務。

AMD本身具有CPU和加速卡業務,目前也開始收購賽靈思,以布局數據和互聯方面的業務。

張亞林講到,如果所有的收購完成,今年在數據中心方面就會出現Intel、NVIDIA、AMD三強爭霸的局面,由此看來,計算範式正在朝著數據中心系統化、整合化的方向進行變革。

張亞林接著分析了數據中心產品正在發生的變化

先從NVIDIA講起,NVIDIA推出了整個系統化的集群——SuperPOD,SuperPOD的整個元素是由DGX系統構成的,而在DGX中裝入的是NVIDIA A100的板卡和晶片,完全遵循了自頂向下的設計原則,並以Turnkey(一站式方案)的方式進行SuperPod整個系統的推廣。

再來看AMD,AMD正在加速計算和圖形結構的分離。從AMD發布MI100時的一張示意圖來看,下圖中灰色的部分表示其傳統的GPU結構正在被拋棄,取而代之的是基於計算加速和優化的產品線和基於遊戲加速和優化的產品線,在AMD的產品線中,它們分別被命名為RDNA GAMING-OPTIMIZED和CDNA COMPUTE-OPTIMIZED。

▲AMD發布MI100時的示意圖

同時,計算和圖形的加速分離也導致了NVIDIA和AMD在兩條線上進行布局。

在計算卡部分,NVIDIA Tesla系列一直是NVIDIA計算卡的主打,其中包括了有名的Tesla V100、A100和Tesla T4。同時AMD積極布局其Instinct MI系列,並在不久前推出了MI100。計算卡的部分衍生出來就是數據中心的業務。

在圖形卡部分,NVIDIA有其NVIDIA RTX系列,AMD擁有其AMD RX系列,這些部分衍生出來就是遊戲業務。

因此NVIDIA和AMD兩大巨頭通過對計算卡和圖形卡的分離,已經形成了完全不同的產品線和架構。

二、數據中心AI系統「全壘打」和「全維度」

數據中心AI系統「全壘打」是什麼樣的?

張亞林說,AI大系統要落地數據中心,必須具備四個要素,分別為系統、板卡、高性能高算力的晶片,以及全棧的軟體系統。這四大要素構成了整個AI系統的「全壘打」。

而對于衡量一個數據中心AI系統真正能被市場化、產業化、規模化的標準,張亞林分了五個維度來解讀,這五個維度分別為AI系統的完備性、生產率、成本、功耗和性能。

▲數據中心AI系統的「全維度」

從完備性角度來講,廠商必須具備很好的軟體框架覆蓋率、模型的覆蓋率,還能滿足用戶的可定製化要求。

在生產率角度,廠商必須能從用戶的角度出發,適應用戶的開發效率、易用性、靈活性、可編程性和可遷移性。

在成本方面,有整個晶片的成本、板卡的成本、伺服器的成本,還有遷移成本。

在功耗方面,整個晶片架構、存儲類型、通信方式、軟體實現以及利用率還有工藝都左右了功耗大小,也直接影響了後續的運維成本。

在性能方面,算力、延遲、精度、訓練時間、推理時間、線性度(多卡)都對性能維度有影響。

因此,通常一個AI系統的「全維度」設計必須在五個維度之間平衡,再去迭代,保證能夠找到這五個緯度在用戶側最好的差異化以及最優解,才能讓整個產品更有亮點。

接著,張亞林特別就數據中心AI軟體棧的「全維度」做了解構,他說,一個合格的、能商業化的、能讓用戶開發,且具有很強遷移度的軟體棧,應該在應用層、框架層、SDK層和驅動層這四個層面進行布局。

▲數據中心AI軟體棧的「全維度」

自頂向下來看,從應用層的角度來講,它必須具備很強的模型庫,在模型庫的豐富程度方面,燧原科技已經擁有了100多個模型。此外,在Benchmark方面必須有很強的基準測試能力,提供很強的基準測試標準,才能讓用戶在基準模式上的適用度更強。

接下來是框架層,目前業內通用的是TensorFlow、PyTorch兩個主流框架,以及通過ONNX往下接入的部分,還有在非框架部分的推斷引擎、推理引擎都是非常重要的框架性元素。

在框架層之下是整個全棧的SDK,也就是用戶開發包,包括整個圖形分解的引擎、圖優化的引擎以及整個算子庫,還有能使整個算子開發的編程模型和工具鏈。

在SDK下面是驅動層,驅動層和整個硬體下的AI晶片進行銜接。

而要想合理設計一個數據中心的AI晶片,必須從計算、數據、存儲、互聯四個角度看問題。

從晶片計算的本身出發,算力大小及有效算力是燧原科技一直在追尋的終極目標。如何通過數據的傳輸、存儲和吞吐量,為計算引擎合理地輸入和輸出,保證它的有效算力,也是燧原科技考慮的因素。

在存儲方面,分布式的存儲大小在平衡片內存儲、片外存儲,以及實現存儲的高效移動都是非常重要的命題。

在互聯方面,整個數據中心朝著集群化、系統化的方向發展,整個軟體棧也在朝著分布式的方向發展,如何提升互聯的效率、線性度和速度,以使整個大系統、大集群像一個虛擬化的計算池一樣執行,也是一個很重要的命題。

除此之外,要達到晶片性價比和能效比的「最優點」,還需要具備四個「P」,分別為:完全可編程(Full Programmability)、全模式計算(All Pattern)、全精度計算(Entire Precision)、高並行度(High Parallelism)。

張亞林說,在計算、數據、存儲、互聯四個維度以及四個「P」兩方面都做好平衡,才能滿足晶片的高性價比和能效比。

▲數據中心AI晶片的「全維度」

三、雲端AI晶片的產品化挑戰

張亞林說,整個AI大晶片大系統的產品化涉及到系統化、工程化、產品化、生態化四個方面。

首先,在系統化上,如何合理設計系統架構,能讓AI大系統具備用戶的普適度、具備各種模型和應用模式,能給用戶帶來更好的性價比、能效比效果,這是一個非常重要的課題。

同時,軟硬體的聯合設計使整個有效算力能被完全發揮出來,使底層的硬體能力能被充分釋放,這是系統化另外的一個關鍵部分。

工程化往往是被忽略的,張亞林介紹說,AI晶片在流片回來後走完了晶片工程化的30%,另外70%的路要靠AI晶片的工程化、量產化,推動其朝著創新落地和定義交付兩個方向走。

很多AI晶片用了很多的創新架構,而這些架構能不能真正實現客戶價值,能不能進行商業化的落地,能不能減低客戶的遷移成本,以及交付過程中對於客戶的承諾、交互日期,自身的執行力,自身定義能夠交付的標準和時間節點目標等,都是廠商需要去思考的問題。

在產品化方面,用戶真正期待的是真正普惠易用的方式。所謂「普惠」就是整個AI算力的泛化,會帶來AI算力的性價比。「易用」針對的就是客戶的遷移成本以及使用的生產效率。

同時,AI系統必須為後期的運維做考慮,也就是說必須是穩定可靠的,這種穩定可靠在數據中心裡要保持五年甚至更長時間,使得數據中心能夠一直在穩定可靠的方式下進行運營。

最後,在生態化方面,好的生態必須要具備能讓用戶輕鬆開發的能力,需要把AI系統變成開發的利器。同時,它又能使用戶真正預言未來的AI算法,能夠不斷精進和提高AI算法的性能和適用度,為世界帶來更好的AI創新點。

因此,基於AI晶片產品化挑戰,系統化、工程化、產品化、生態化四個方面構成了整個雲端AI晶片產品化的難點和亮點。

張亞林說,一個公司要能夠實現這樣的系統化、工程化、產品化、生態化的能力,它就必須具備這四個方面設計的意識和團隊,燧原科技通常把這四個方面稱為雲端AI軟硬體系統協同最大的挑戰和亮點,也是未來人工智慧在雲端晶片和系統發展中的必經之路。

張亞林在最後總結時表示,燧原科技一直秉承著「做大晶片,拼硬科技」的宗旨。燧原科技做雲端的AI大晶片和複雜系統,是因為它難而不是因為它簡單。只有難,才能為國家創造更好的價值,為AI帶來更好的明天。

以上是張亞林演講內容的完整整理。除張亞林外,在本屆GTIC 2020 AI晶片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、黑芝麻智能、壁仞科技、光子算數、知存科技、億智電子、豪微科技等晶片企業,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI晶片產業的觀察與思考。如感興趣更多嘉賓演講的核心乾貨,歡迎關注芯東西後續推送內容。

相關焦點

  • 挺進雲端AI訓練&推理雙賽道,獨家對話燧原科技COO張亞林:揭秘超高...
    ▲智東西總編張國仁(左)與燧原科技COO張亞林(右)01.頂著讓板卡實現30天全負荷工作不死機、不過熱的巨大壓力,從10月開始,量產團隊在燧原實驗室中連續一個月全負荷緊急攻關調試,每個人都背負著巨大的責任感,將工作任務嚴格控制到每一天,1個月後板卡順利通過抗壓測試。除了系統量產團隊外,在產品研發方面,燧原還有其他三個主要團隊,分別是晶片團隊、軟體團隊以及客戶解決方案團隊。
  • 挺進雲端AI訓練&推理雙賽道!獨家對話燧原科技COO張亞林:揭秘超高...
    通過與燧原科技創始人兼COO張亞林深入交流,我們試圖還原這家AI晶片創企超高效率背後的「內功」。由此,燧原打造出訓練推理的整體解決方案。雲燧i10與雲燧T10以及「馭算TopsRider」軟體平臺搭配,可實現算法模型在數據中心訓推一體化的快速生產部署。
  • 面向雲端數據中心 燧原科技發布首款人工智慧推理產品
    人工智慧早已影響了人們工作生活的各個方面,人工智慧需要數據的支持,而大數據處理早已進入需要雲端支持的時代。因此面向雲端數據中心的人工智慧加速卡為數據處理提供了強大的算力。燧原科技創始人兼CEO趙立東繼去年12月發布了首款面向數據中心的人工智慧訓練加速卡「雲燧T10」後,今天燧原科技發布首款人工智慧推理產品「雲燧i10」,這正是一款面向雲端數據中心的高性能推理卡,用以滿足由於AI應用和落地場景迅速擴大,市場和客戶對更高性價比以及國產化和差異化雲端推理產品的需求。
  • 燧原科技發布首款人工智慧推理產品「雲燧(R)i10」
    燧原科技今日發布首款人工智慧推理產品 「雲燧i10」。這是一款面向雲端數據中心的高性能推理卡。雲燧i10是單槽位標準卡,支持PCIe 4.0,FP32算力達到17.6TFLOPS,BF16/FP16算力70.4TFLOPS。
  • 燧原科技發布首款人工智慧推理產品——「雲燧(R)i10」
    同時,燧原科技發布了推理引擎「鑑算TopsInference」,可以為深度學習應用提供低延遲、高吞吐率的推理性能,並降低數據中心的部署成本。雲燧i10將於明年第一季度上市。燧原科技創始人兼CEO趙立東表示燧原科技要堅持雙輪驅動,爭做行業領導者「繼去年12月發布了首款面向數據中心的人工智慧訓練加速卡「雲燧T10」,今天我們又推出針對雲端推理市場的第一款人工智慧推理加速卡「雲燧i10」,以滿足由於AI應用和落地場景迅速擴大,市場和客戶對更高性價比以及國產化和差異化雲端推理產品的需求
  • 上海交通大學-燧原科技 雲端AI加速系統聯合研發中心揭牌儀式舉辦
    2020年12月10日下午,上海交通大學和燧原科技聯合創辦的「雲端AI加速系統聯合研發中心」在上海交通大學閔行校區舉辦揭牌儀式。  上海交通大學關新平院長首先代表交通大學祝賀「雲端AI加速系統聯合研發中心」成立,他表示:「電院作為萬人大院非常高興能和燧原科技合作,軟硬體協同設計是未來系統設計的主要思路。提供國產AI訓練與推理晶片以及相應硬體系統的燧原科技,和具備晶片設計、研發與系統集成優勢的電院軟體學院合作,正好實現了軟體+硬體的優勢互補,從而打造出服務基於國產加速器晶片的軟體生態,支持新業態領域智能應用。」
  • AI晶片「點燃」北京!GTIC 2020 AI晶片創新峰會大咖演講全乾貨
    ▲智一科技聯合創始人/CEO龔倫常智一科技自2016年起就一直關注的人工智慧、AI晶片等新技術,以及新能源汽車、數據中心等新興產業,剛好與今年國家十四五規劃的核心內容不謀而合。圍繞這些方向和領域,如今智一科技已構建了產業媒體和產業服務兩大業務體系。
  • 燧原科技進軍AI邊緣領域,攜手浪潮推出邊緣AI推理伺服器
    2020年12月23日,中國上海——燧原科技繼前日發布首款人工智慧推理產品 「雲燧i10」,又宣布攜手浪潮,共同推出基於雲燧i10的浪潮邊緣計算伺服器「NE5260M5」。標誌燧原科技業務向AI邊緣推理的拓展。該伺服器可根據客戶需求支持2-4張雲燧i10,為邊緣AI推理應用如自動駕駛、智慧交通、ETC識別、精密儀器預測性維護、AI工業質檢等場景提供強大算力支持。
  • 聚焦「芯」動能:燧原科技以「新」點亮IC China 2020
    通過主題演講、展區展示和技術發布多種方式,全方位展示了已經正式在網際網路數據中心成功商用的雲燧T10的伺服器集群(基於開創性2D-Torus拓撲結構),板卡,晶片和分布式軟體全棧,得到了包括上海市委、電子司和工信部賽迪研究院領導的一致首肯。
  • 雲端AI推理市場將迎來爆發,燧原科技發布首款推理產品
    繼去年底發布首款面向數據中心的AI訓練晶片「邃思」及加速卡「雲燧T10」後,燧原科技又發布了首款面向雲端的高性能推理卡。疫情加快了數據中心建設步伐和AI應用的速度。「傳統數據中心和AI沒有直接關係,就是X86+GPU加一堆存儲和數據搬運,但現在數據中心越來越多引入AI加速平臺。AI的滲透率會越來越高,我們預計滲透率會從5%到25%-30%,市場非常龐大。」
  • 看懂未來十年AI晶片趨勢!GTIC 2020 AI晶片創新峰會成功舉行
    ,燧原科技、地平線、安謀中國作為各細分賽道代表玩家,他們又有著哪些不同的創新思考?▲燧原科技創始人&COO張亞林成立於2018年的燧原科技也是中國新崛起的AI晶片明星企業,今年5燧原科技創始人&COO張亞林提到,目前數據中心正在朝著整合的路線發展,英特爾、英偉達和AMD三家公司都在通過併購方式來加強數據中心的布局。「未來或將出現這三巨頭並列發展的局面。」張亞林說。
  • 融資動態 | 作業幫、燧原科技、維昇藥業、創勝集團、科越醫藥、煥...
    (美通社,2021年1月6日北京)消息來源:作業幫科技燧原科技完成18億C輪融資燧原科技宣布完成C輪融資18億元人民幣,由中信產業基金、中金資本旗下基金、春華資本領投,騰訊、武嶽峰資本、紅點創投中國基金等多家新老股東跟投。
  • 燧原科技攜雲燧T11人工智慧訓練加速模組亮相OCP China Day
    燧原科技攜雲燧T11人工智慧訓練加速模組亮相大會,與微軟、浪潮、Facebook、騰訊、百度、阿里等OCP社區領袖企業和數百位參會嘉賓一道,共同探討開放計算在人工智慧、邊緣計算等新興技術領域及未來數據中心基礎設施層面的發展與應用。
  • 「全壘打」之後:平安好醫生更堅定地跑壘
    於是,就有很多企業管理者,將業務模式的巨大創新、推出革命性的產品、規模龐大的收購兼併等行為,比作了「打出本壘打」。平安是一個「全壘打」的好手,平安好醫生則是其所打出的諸多「全壘打」中的一個。理由是,「『平安好醫生』是平安保險旗下的醫療諮詢和轉診應用程式。即便在疫情封鎖期間,數百萬中國消費者也可以通過『平安好醫生』迅速獲得醫療建議。數據顯示,在今年冬天的兩個星期裡,這個應用程式訪問人次達到了11.1億。儘管與新冠病毒相關的諮詢全免費,但2020年上半年月付費用戶增長了32%。」如果稍許將這張榜單進行向上拖拉,不難發現,微軟就在不遠處,位列第16。
  • 「同心力 雲逐夢」閩臺棒球線上全壘打大賽福州舉行
    11日,「同心力 雲逐夢」2020閩臺棒球交流線上活動於福州市海峽奧林匹克體育中心和嘉義市稻江科技暨管理學院棒球場舉辦。 李南軒 攝本次活動在疫情導致互訪困難的情況下,延續了閩臺棒球交流的傳統,踏出了年度閩臺體育交流第一步。
  • 「全壘打」之後的平安好醫生該如何成就不一樣的網際網路醫療
    於是,就有很多企業管理者,將業務模式的巨大創新、推出革命性的產品、規模龐大的收購兼併等行為,比作了「打出本壘打」。 平安是一個「全壘打」的好手,平安好醫生則是其所打出的諸多「全壘打」中的一個。
  • AI晶片熱潮再起,算力、帶寬、能耗、基礎設施等問題亟需解決
    壁仞科技聯合創始人、總裁徐凌傑表示,行業的根本矛盾在於日益增長的算力需求和基礎設施的不協調,同時數據中心正經歷著大型化、解耦化、智能化的發展,「去CPU中心化」的數據中心將是未來可預見的發展趨勢之一。Cadence公司驗證事業部產品工程總監孫曉陽談到,在數據爆炸的時代,越來越高的需求算力給AI晶片行業帶來了諸多挑戰。
  • 第二屆「夢想全壘打」閩臺青年棒球邀請賽開賽
    第二屆「夢想全壘打」閩臺青年棒球邀請賽28日在福州海峽奧林匹克體育中心開幕。 陳屹 攝中新網福州11月28日電 (閆旭 陳屹)第二屆「夢想全壘打」閩臺青年棒球邀請賽28日在福州海峽奧林匹克體育中心開幕。