本文盤點2017年國內外人工智慧晶片的發展情況,全文分為三部分:
1、大公司的產品布局;
2、2017年中國創業公司的融資及產品進展;
3、全球範圍內的AI晶片初創公司概述。
文中遺漏或錯誤之處歡迎指正;歡迎關注AI領域的投資人及行業專家學習交流!
Part One:大公司的布局
&英偉達NVIDIA
NVIDIA在2017年發布了新一代處理器架構Volta,以及基於Volta架構的Tesla V100等一系列新品,同時推出了開源Xavier DLA 、GPU Cloud,進一步鞏固其在GPU、雲端計算中心和自動駕駛等領域的優勢。
1) 新一代處理器架構 Volta
與上一代Pascal架構相比,Volta架構重點重新設計了GPU的核心單元,採用流式多處理器(Streaming Multi-Processor),是NVIDIA當前功能最強大的GPU架構。相比Pascal, Volta有全新的張量運算指令Tensor Core。它既是指令也是數據格式,是4*4的矩陣處理陣列。Volta配備了640個Tensor Core,可提供每秒超過100萬億次 (TFLOPS) 的深度學習性能,是上一代Pascal架構的5倍以上。
此外,Volta採用了新一代NVIDIA NVLink高速互聯技術。與上一代NVLink相比,它的吞吐量提升了2倍。這有助於開發出更先進的建模和數據並行方法,以增強可擴展性,從而實現超快的應用程式性能。
2) 數據中心:TeslaV100 GPU加速器; DGX-1V深度學習計算機; GPU雲平臺
Tesla V100是NVIDIA使用Volta架構的第一款設備,適用於深度學習任務。它的核心GV100 GPU包含211億個電晶體,而晶片面積為815平方毫米,採用了臺積電的12nm FFN專屬工藝。
一個完整的GV100 GPU由6個GPC、84個Volta SM、42個TPC(每個TPC包含了2個 SM)和8個512位的內存控制器(共4096位)。每個SM有64個FP32核、64個INT32核、32個FP64核與8個全新的Tensor Core。同時,每個SM也包含了4個紋理處理單元。其峰值計算速度為:①雙精度浮點(FP64)運算性能:7.5 TFLOP/s;②單精度(FP32)運算性能:15 TFLOP/s;③混合精度矩陣乘法和累加:120 TensorTFLOP/s。
NVIDIA GPU Cloud(NGC) 是一個GPU加速的雲平臺,可為開發人員提供全面的AI開發軟體套件。NGC支持全部深度學習開發框架,開發者只需要打包下載一整套英偉達優化、整合好的深度學習軟體包,在幾分鐘內即可設置好本地開發環境。
3) 自動駕駛:開源Xavier DLA;Drive PXPegasus;開發者套件Drive IX SDK
5月的美國GTC大會上,英偉達宣布Xavier DLA面向所有開發者開源。
Xavier是英偉達在2016年歐洲GTC大會上推出的最新自動駕駛SoC,結構上主要是由一組八核ARMv8處理器加上512個最新一代的Volta Cudacore組成,性能方面達到20 TOPS (基於8比特整數運算),同時只有20 w的能耗。它的創新之處在於,整合了CPU、GPU以及DLA三大處理器的優點。Xavier同時具備CPU的單線程性能,CUDA的並行加速能力,以及DLA的計算機視覺特殊功能。最新發布的Xavier集成了新的Volta GPU架構DLA是裡面的inference加速器。
10月的德國GTC大會上,英偉達推出了兩款產品:a) 世界上首個針對無人駕駛計程車打造的車載計算機Drive PX Pegasus;b) 自動駕駛汽車可以感知內外部的軟體開發者套件Drive IX SDK。
DrivePX Pegasus搭載了兩款Xavier系統級晶片。SoC上集成的CPU也從8核變成了16核,同時增加了2塊獨立GPU。計算速度達到320TOPS,相當於2017年1月推出的PX Xavier的10倍,算力能夠支持完全自動駕駛系統(L5)。
4) 邊緣計算:Isaac機器人模擬器
Isaac機器人模擬器搭建在增強版的Epic GamesUnreal Engine 4上,採用了模擬、渲染和深度學習技術,可為機器人提供一個虛擬環境進行AI訓練和測試。在其構建的虛擬環境中,開發人員可通過深度學習訓練來搭建各類測試場景,然後在幾分鐘內對其進行模擬,並在模擬訓練結束之後將獲得的知識再應用於真實機組上。
&英特爾Intel
英特爾在2017人工智慧大會上提出了「人工智慧全棧解決方案」;過去兩年Intel先後收購了深度學習企業NervanaSystems、視覺處理晶片廠商 Movidius、FPGA廠商Altera、ADAS公司Mobileye等,通過研發+收購的戰略,打造了集「硬體+算法庫+框架+平臺+應用」於一體的全棧解決方案。
領先而完整的硬體平臺,涵蓋至強處理器、至強融核處理器、Nervana神經網絡處理器和FPGA、網絡以及存儲技術等;
針對深度學習/機器學習而優化的基於英特爾架構的數學函數庫(Intel® MKL以及數據分析加速庫(Intel® DAAL)等;
支持和優化開源深度學習框架如Spark、Caffe、Theano以及Neon等;
構建以Movidius和Saffron為代表的平臺以推動前後端協同人工智慧發展。
1) 數據中心:至強可擴展處理器Purley;Xeon + FPGA(雲端/設備端低功耗性能計算);Xeon Phi + Nervana(雲端高性能計算)
英特爾在7月發布了至強可擴展處理器平臺Purley,該處理器採用全新的內核微架構、核內互聯和內存控制器,擁有多達28顆內核,並針對數據中心和通信網絡中各種性能需求進行優化。相比上一代產品,英特爾® 至強®可擴展處理器的整體性能提升達1.65倍,OLTP倉庫負載比當前系統提高達5倍,針對深度學習訓練和推理可提供高達2.2倍的性能。結合可加快交付人工智慧服務的軟體優化,相比3年前未經優化的伺服器系統,全新的處理器可實現113倍深度學習性能的提升。
在 FPGA 方面,Intel收購Altera以後推出了基於FPGA的專用深度學習加速卡,提供Xeon + FPGA的解決方案,用於雲端中間層/前端設備的低功耗性能計算,今年8月,微軟也宣布了全線Project Brainwave項目使用了英特爾Stratix 10 FPGA人工智慧的平臺。
2) 無人駕駛:EyeQ 4 / EyeQ5 SoC
EyeQ4是Mobileye在2015年發布一款汽車ADAS晶片,能夠為Level 3級別的自動駕駛提供足夠算力。近期,Intel宣布明年推出EyeQ4無人駕駛晶片作業系統,採用28nm工藝。第五代系統晶片EyeQ5也將於2018年出工程樣品,並在2020年實現量產,採用7nm工藝。EyeQ5的目標是支持L4/5級別的全自動駕駛。據介紹,EyeQ5將提供每瓦特2.4 DL TOPS(萬億次/每秒)的效能——這一數字比NVIDIA公開宣稱的Xavier效能要高2.4倍。
3) 邊緣計算:Myriad X VPU
英特爾在8月推出了新的 MovidiusMyriad X 視覺處理單元(VPU)。根據官方介紹, MyriadX 是全球第一個配備專用神經網絡計算引擎的SoC,用於加速設備端的深度學習推理。該神經網絡計算引擎是晶片上集成的硬體模塊,專為高速、低功耗且不犧牲精確度地運行基於深度學習的神經網絡而設計,讓設備能夠實時地看到、理解和響應周圍環境。引入該神經計算引擎之後,Myriad X 架構能夠為基於深度學習的神經網絡推理提供 1 TOPS 的計算性能。
4) 自學習神經元晶片:Loihi
Loihi是英特爾實驗室研發的一款自學習神經元晶片,今年9月對外公布,其參數如下。
全異步神經形態多核心網絡,支持多種稀疏、分層和循環神經網絡拓撲結構。每個神經元可以與成千上萬個其他神經元通信。
每個神經形態核心都包含一個學習引擎,在操作中可以通過編程去適配網絡參數,支持監督學習、無監督學習、強化學習和其他學習範式。
晶片的製造採用了英特爾14納米工藝。
由128個計算核心組成,每個核心有1024個「神經元」,總計超過13萬個神經元和1.3億個突觸連結。對於多種算法的開發和測試,實現了極高的算法效率。這些算法包括路徑規劃、約束滿足、稀疏編碼、字典學習,以及動態模式學習和適配。
2018年上半年,英特爾將與部分大學和研究機構分享Loihi測試晶片。
&谷歌Google
1) 數據中心:TPU2.0;Cloud TPU;TensorFlowResearch Cloud
Google在2017年度Google I/O大會發布了第2代TPU(TPU2.0)以及Tensor Flow Research Cloud (TFRC)。
TPU是Google研發的一款針對深度學習加速的ASIC晶片,第一代TPU僅能用於推理,TPU 2.0既可以用於訓練神經網絡,又可以用於推理。第二代TPU晶片可為機器學習提供每秒45萬億次浮點運算(約相當於16位TFLOPS);Cloud TPU 封裝在一個4晶片的模塊上,每秒可處理180萬億次浮點運算。Google還使用新的計算機網絡將64個TPU組合到一起,升級為所謂的TPU Pods,可提供大約11500萬億次浮點運算能力。
TFRC是一個包含 1000 TPU (4000 Cloud TPU晶片)的超級計算機,提供180 PetaFlops(約16位FLOP)的計算能力,將免費提供給合格的研究團隊。雖然這與英偉達的 Saturn V 超級計算機的概念相似,但規模更大。此外,谷歌的超級計算機的設計僅支持谷歌自己的開源 TensorFlow 機器學習框架和生態系統,而 Saturn V 可適用於所有類型的軟體。
2) 移動端:Pixel VisualCore
今年10月Google在其官方博客上公開了Pixel2中使用的一顆專用圖像處理協處理器——Pixel VisualCore。這是Google在用於伺服器的TPU之後推出的第二顆晶片,這次針對的是移動端。Pixel VisualCore由Google與Intel合作設計開發,主要用於圖像處理和機器學習,這塊晶片由8個IPU(每個包含512個ALU)+1個Cortex-A53核心組成,最大可提供3TFLOPS浮點運算能力,相比華為麒麟970上寒武紀(1.9TFLOPS),還有蘋果新iPhone上ISP(0.6TFLOPS)處理能力都要更強。
&賽靈思Xilinx
1) 設備端:reVISION加速堆棧
Xilinx作為世界最大的FPGA製造廠商,2016年底推出支持設備端深度學習的reVISION堆棧;今年3月,Xilinx在全球同步推出Xilinx reVISION堆棧。據介紹,reVISION支持以最快速度打造響應最快的視覺系統,相比最具競爭力的計算嵌入式GPU和典型SoC,將機器學習推斷的單位功耗圖像捕獲速度提升了6倍,將計算機視覺處理的單位功耗幀速度提升了42倍,時延降低為1/5,從而幫助開發者更快速地開發視覺導向的智能系統。
2) 數據中心:可重配置加速堆棧(FPGA-Accelerator Stack)
Xilinx可重配置加速堆棧是針對雲端數據中心應用的深度學習加速堆棧,旨在幫助雲端服務供應商們快速開發和部署加速平臺。該方案包括庫、框架集成、開發板並支持OpenStack,其計算效率比x86伺服器CPU高出40倍,比其他FPGA方案高出6倍。
此外,Xilinx還投資了深鑑科技等AI晶片初創公司,進一步打造FPGA生態。
&AMD
1) 數據中心:EYPC(霄龍)處理器;Project 47伺服器
AMD在6月正式推出全線的超智能伺服器處理器產品——EPYC(霄龍),同時與百度宣布雙方合作,評估、優化AMD新型處理器技術在百度AI技術領域的應用。AMD還聯合全球最大伺服器製造商Inventec英業達公司開發了Project 47伺服器,該伺服器使用了20顆EPYC 7601處理器,80張Vega架構RadeonINSTINCT MI25計算卡(單套伺服器最多可整合47顆EPYC處理器和188塊計算卡),單精度浮點性能超過1PFlops。
另外,AMD還發布了新版開放計算平臺ROCm 1.7,支持Vega多卡並行,支持TensorFlow、Caffe機器學習框架,並有更多數學庫和軟體開發支持。
&蘋果
1) 移動端:A11 Bionic晶片
蘋果在今年發布的iPhone X中首次使用了A11 Bionic晶片。
A11Bionic是一個六核處理器,有兩個性能核心,四個能效核心;工藝方面,A11採用了臺積電10nm FinFET工藝,集成了43億個電晶體。根據蘋果給出的數據,A11比上一代快25%,能效提升了70%。
AI方面,A11 Bionic晶片上搭載了一個專用於機器學習的硬體——神經網絡引擎(neural engine)。A11的神經網絡引擎採用雙核設計,每秒運算次數最高可達6000億次,相當於0.6TFlops(寒武紀NPU則是1.92TFlops,每秒可以進行19200次浮點運算),以幫助加速人工智慧任務,即專門針對Face ID,Animoji和AR應用程式。
A11同時支持Core ML,這是蘋果在今年WWDC開發者大會上推出的一款新型機器學習框架。Core ML支持所有主要的神經網絡,如DNN、RNN、CNN等,開發者可以把訓練完成的機器學習模型封裝進App之中。
&高通
1) 移動端:驍龍845處理器;神經處理引擎(NPE)軟體開發工具包
QualcommSnapdragon神經處理引擎(NPE)軟體開發工具包(SDK)由高通旗下子公司QualcommTechnologies推出。NPE是第一款專為Snapdragon移動平臺設計的深度學習軟體開發框架,提供開發者能夠在Snapdragon移動平臺上,執行一個或多個神經網絡模型,以加速深度神經網絡在移動裝置和其他搭載Snapdragon處理器的邊緣裝置(Edge Device)的工作效能。NPE也與Snapdragon 600和800系列處理器兼容,並支持通用深度學習開發框架,例如,Caffe、Caffe2、Tensorflow等,且NPE開發工具包包含了Runtime軟體、函式庫、API、脫機模式轉換工具、模板程序代碼、文件、除錯及標竿測試工具等。
高通在12月初正式發布了驍龍845移動平臺。
驍龍845處理器採用10納米LPP製程工藝,其中GPU採用Adreno 630,X20 LTE數據機、WiFi、影像方面使用Spectra 280ISP,以及Hexagon 685DSP協處理器、音質方面使用高通Aqstic Audio、CPU採用四個2.8GHz大核+四個1.8GHz小核+2MB緩存的Kryo 385 CPU、移動安全晶片,另在845中新增了一塊獨立內存。
AI方面,驍龍845主要通過Kryo 385定製架構、Adreno 630、Hexagon 685在終端異步運算數據。相比835,驍龍845在AI上的計算能力是835的三倍,目前已經可以支持S845GoogleTensorFlow、Facebook Caffe以及Open NeuralNetwork Exchange在內的多款主流深度學習框架。
2) 智能駕駛:C-V2X晶片組
高通在9月初推出了新的C-V2X晶片組及參考設計,幫助汽車通過移動通信網絡與其他設備通信,這一晶片組的技術基於電信行業的3GPP規範,預計將於2018年下半年提供商用樣片。
C-V2X技術包含兩種數據傳輸模塊,即直接通信和基於網絡的通信。對於車載安全功能和自動駕駛功能的配置來說,這都是關鍵。與此同時,C-V2X參考設計集成了9150 C-V2X晶片組、運行智能交通系統(ITS)V2X堆棧的應用處理器,以及硬體安全模塊(HSM)。
&ARM
1) 新技術: DynamIQ架構;Cortex-A75/Cortex-A55處理器
DynamIQ是ARM今年推出的全新技術架構,首次允許一個處理器晶片集成8個內核,而且可以是異構內核,使得處理器供應商可以採用更高效、更靈活的多核配置,代表了多核處理設計行業的轉折點,。
5月底,ARM推出了首款基於ARM DynamIQ技術的全新處理器,包括ARM Cortex-A75處理器、ARM Cortex-A55處理器和ARM Mali-G72 圖形處理器。
Cortex-A75處理器是 ARM 最新發布的高性能CPU,同時也是基於全新 DynamIQ 技術的首款高性能 CPU,其單線程的處理效能比前一代核心大幅提升50%,還搭載更好的多核處理功能。
Cortex-A55採用最新的 ARMv8.2 架構,並在其前代產品的基礎上打造而成。它在性能方面突破了極限,同時依舊保持了與 Cortex-A53 相同的功耗水平。
Mali-G72實現了25%的功耗效率提升和20%的性能密度提升,並針對機器學習進行了優化,從而使得ARM能夠在整個SoC上更高效地現實分布式智能。
2) ARM計算庫
ARM於3月底也發表了全新的ARM ComputeLibrary。這款免費開源的計算庫匯集了一系列針對ARM Cortex-ANEON和Mali GPU IP而優化的入門級軟體函數庫,不管是現有或即將推出的ARM SoC,都可以從這個函式庫獲得明顯的人工智慧算法效能提升。採用這個函式庫,機器學習與人工智慧算法的效能將可提升10~15倍之多。在7月初,ARM計算庫第二個公開版本也正式發布,它增加了許多新功能,以加速基於ARM Cortex-ACPU和ARM Mali GPU的計算機視覺和機器學習,推動人工智慧技術的發展。
3) ARM人工智慧生態聯盟
6月下旬,ARM與多家生態系統合作夥伴發起ARM人工智慧生態聯盟(ARM AIEcosystem Consortium,簡稱AIEC),旨在聯合產業鏈上下遊合作夥伴,圍繞以具體應用場景部署為目標,建立以數據、算法、晶片為支撐的互動創新生態體系,拉通雲端和終端,加速人工智慧產業化。
&百度
1) XPU
百度2017年8月Hot Chips大會上發布了XPU,這是一款256核、基於FPGA的雲計算加速晶片。合作夥伴是賽思靈(Xilinx)。XPU採用新一代 AI 處理架構,擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學習平臺PaddlePaddle做了高度的優化和加速。據介紹,XPU關注計算密集型、基於規則的多樣化計算任務,希望提高效率和性能,並帶來類似CPU的靈活性。但目前XPU有所欠缺的仍是可編程能力,而這也是涉及FPGA時普遍存在的問題。到目前為止,XPU尚未提供編譯器。
&華為
1) 麒麟970(Kirin 970)
華為在9月的德國柏林國際電子消費品展覽會(IFA)上正式推出其最新 AI 晶片「麒麟970」(Kirin 970)。
採用了行業高標準的TSMC 10nm工藝,集成了55億個電晶體,功耗降低了20%,並實現了1.2Gbps峰值下載速率。
創新性集成NPU專用硬體處理單元,創新設計了HiAI移動計算架構,其AI性能密度大幅優於CPU和GPU。相較於四個Cortex-A73核心,處理相同AI任務,新的異構計算架構擁有約 50 倍能效和 25 倍性能優勢,圖像識別速度可達到約2000張/分鐘。
高性能8核CPU,對比上一代能效提高20%。率先商用 Mali G7212-Core GPU,與上一代相比,圖形處理性能提升20%,能效提升50%,可以更長時間支持3D大型遊戲的流暢運行。
Part Tow:中國的創業公司
&寒武紀
1) 融資進度
寒武紀在今年8月中旬對外公布完成一億美元A輪融資,由聯想創投、阿里巴巴創投、國投創業,國科投資、中科圖靈、元禾原點、湧鏵投資聯合投資。公司投後估值達到10億美元,成為國內AI晶片領域首家獨角獸公司。
2) 產品進展
& 9月發布的華為Kirin970手機晶片和mate10手機中首次搭載了NPU專用硬體處理單元,AI運算能力相比四個Cortex-A73核心有大約25倍性能和50倍能效的優勢;該NPU即採用了寒武紀的核心IP。
& 10月底,中科曙光發布了首款搭載寒武紀AI晶片的人工智慧伺服器,命名為「Phaneron」。Phaneron主要面向深度學習的在線推理業務環境。在線推理業務不同於離線訓練,推理不需要密集的計算能力,而是需要及時響應。因此,完成推理服務,需要大量的部署前端加速晶片,以實時響應訪問請求,對數據迅速作出判斷。據介紹,Phaneron可以在4U空間中部署20個人工智慧前端推理模塊,能夠為推理提供強大的計算支持。
& 11月6日,寒武紀科技在北京舉辦了成立以來的首場發布會「智能時代的引領者」,發布旗下新一代智能處理器 IP 產品,並闡述公司未來晶片產品研發路線圖。
與上一代寒武紀1A處理器相比,它具備更高性能、更低能耗,也提供了更加完備的深度學習功能支持。上市時間為2017年第一季度,主攻視覺,語音,自然語言處理領域,可應用於手機,安防攝像頭,音箱,機器人,無人機等設備。
1H8處理器主要面向視覺領域(如拍照輔助、圖片處理、安防監控等),能效比達到了1A的2.3倍,對比1H16也具備更低的功耗和成本。這款產品於2017年第三季度上市,提供1T/2T/4T/8T@1GHz的四種不同配置。
1M處理器面向智能駕駛領域,性能可達上一代1A處理器的10倍以上,具備更高的集成度。
基於TSMC 16nm工藝打造,以PCIE板卡形式呈現。這兩顆晶片都同時支持推理和訓練,其中MLU100偏重推理,將面向數據中心和中小型伺服器;MLU200偏重訓練,將面向企業級人工智慧研發中心。
這一平臺基於寒武紀自主智慧財產權的全球首個人工智慧指令集,包括高性能庫、編譯/彙編器,Runtime,作業系統和驅動支持,並對TensorFlow/Caffe/MXnet/AndroidNN這批主流開發框架提供優異的兼容性。這一軟體平臺包含了軟體開發、功能調試、性能調優的全棧工具包,支持單步調試,數據dump,CPU/AI加速器結果對比,性能預估與優化建議,並有易用的全圖形界面支撐。
&地平線機器人
1) 融資進度
今年10月完成近億美元的A+輪融資,由英特爾投資領投,嘉實投資聯合投資,其他參投方包括現任股東晨興資本、高瓴資本、雙湖投資和線性資本。
2) 產品進展
地平線在12月20日舉行了新產品發布會,發布了徵程(Journey)和旭日(Sunrise)兩款嵌入式人工智慧視覺晶片,分別面向智能駕駛和智能攝像頭。
徵程(Journey)處理器面向智能駕駛,能夠同時對行人、機動車、非機動車、車道線、交通標誌牌、紅綠燈等多類目標進行精準的實時監測與識別,同時滿足車載嚴苛的環境要求以及不同環境下的視覺感知需求。
旭日(Sunrise)處理器面向智能攝像頭,能夠在本地進行大規模人臉抓拍與識別、視頻結構化處理等,可廣泛用於商業、安防等多個實際應用場景。
徵程(Journey)和旭日(Sunrise)晶片均基於地平線第一代BPU架構——高斯架構,採用40nm工藝,其計算能力為1Tops,支持一路1080P@30fps的視頻輸入,每幀可同時對200個目標進行檢測、跟蹤、識別,典型功耗做到了1.5w,延遲低至30毫秒。
這兩款晶片還從彈性張量計算核、內存模塊,認知模塊,關注引擎、邊緣學習等五個方面,最大程度上剔除冗餘,將晶片乘法器利用率從50%提高到了96%—100%,錯誤率降低50%以上,並開放通用工具鏈,與應用實現強耦合。
此外,據官方介紹,2018CES上,地平線和英特爾還將發布基於伯努利架構的新一代徵程(Journey)處理器。地平線也給出了徵程(Journey)處理器的研發路徑圖:2018年,感知;2019年,建模;2020年,決策。
&深鑑科技
1) 融資進度
深鑑科技在今年5月宣布完成A輪千萬美元融資,投資方包括賽靈思、聯發科、清華控股、方和資本,原有投資方金沙江創投、高榕資本跟投。
10月,深鑑宣布完成了約4000萬美元的A+輪融資,本輪融資由螞蟻金服與三星風投領投,招商局創投與華創資本跟投。
2) 產品進展
深鑑科技在10月24日舉行了2017新產品發布會。本場發布會深鑑一共發布了六大產品:人臉檢測識別模組DP-1200-F01、人臉分析解決方案DP-2100-F16、視頻結構化解決方案DP-2100-O16、雙目深度視覺套件DP-5000-D01、ARISTOTLE架構平臺、深度學習開發SDK。
其中,前四款是針對安防場景的解決方案,搭載了深鑑科技的深度加速技術。其中,人臉監測識別模組DP-1200-F1,主要用於幫助打造具有人臉識別功能的相機;人臉分析解決方案DP-2100-F16主要用於打造大批量人臉識別計算方案;DP-2100-O16可以用於打造視頻結構化解決方案。
DNNDK™ (Deep NeuralNetwork Development Kit)是深鑑科技面向AI異構計算平臺DPU自主研發的國內首款原創深度學習開發SDK,對標英偉達TensorRT。DNNDK可支持神經網絡推理階段模型壓縮、編譯優化和高效運行時支持的不同功能需求,為DPU平臺各種深度學習應用開發和部署提供的全棧式解決方案。
晶片方面,公司表示其自主研發的晶片「聽濤」「觀海」將在2018年第三季度推出,其中,「聽濤」系列晶片,採用臺積電28納米製程,核心使用深鑑自己的亞里斯多德架構,峰值性能1.1瓦 4.1 TOPS,預計將於上半年完成產品裝載。
&比特大陸
1) 產品進展
11月8日的AI WORLD 2017世界人工智慧大會上,比特大陸公布了公司人工智慧品牌SOPHON、全球首款張量加速計算晶片BM1680以及板卡SC1/SC1+、智能視頻分析伺服器SS1等產品。
BM1680是一顆面向深度學習應用的張量計算加速處理的專用定製晶片,適用於CNN、RNN、DNN等深度神經網絡的推理和訓練。晶片由64 NPU構成,特殊設計的NPU調度引擎可以提供強大的數據吞吐能力,將數據輸入到神經元核心。BM1680採用改進型脈動陣列結構。單晶片能夠提供2TFlops單精度加速計算能力,片上32MB SRAM擁有高帶寬,在片外有DDR4內存接口,單晶片可支持高達16GB DDR內存。這就是BM1680交出的數據。
比特大陸還通過在晶片內集成高度定製的BMDNN Chiplink晶片鏈路技術,實現在高速SerDes上提供穩定,靈活,低延遲的鏈路,可以使多個BM1680晶片一起工作,使其作為一個統一的系統,提供更高的處理能力。
比特大陸提供了Sophon SC1和SC1+兩款深度學習加速板卡產品。其中SC1 擁有一顆高性能的BM1680晶片,而SC1+ 則是雙BM1680級聯架構,晶片之間通過高速SerDesChiplink互聯,為深度學習計算帶來全新的加速體驗。
SC1和SC1+的架構類似,都通過PCIE的總線連入系統。具備高達2TFlops /4TFlops的單卡計算能力(單精度),單晶片On Chip SRAM高達32MB,較大的SRAM適合裝載整個神經網絡模型。同時在板卡上搭載16GB 或32GB DDR4內存,大容量存儲適合存儲較大的神經網絡模型。
根據比特大陸的路線圖,其第二代晶片1682下個月發布,也是採用16納米工藝,功耗差不多還是30瓦,計算能力大概是3T。第三代晶片會在明年的9月份發布,會採用12納米工藝,功耗還是涉及在30瓦,計算能力到6T,同時將支持16位和8位的數據精度。
&ThinkForce
1) 融資進度
12月中旬,ThinkForce宣布完成由依圖科技、雲鋒基金、紅杉資本、高瓴資本的4.5億元A輪融資。
2) 產品進展
ThinkForce目前暫未發布相關產品。
據官方介紹,公司計劃推出的AI晶片是基於半導體製程工藝,採用自主研發的微內核ManyCore架構,能完成AI雲虛擬化調度在晶片級的實現。
晶片虛擬化技術,在需要彈性計算的場景成倍提高晶片使用率,例如讓整體AI雲使用率成倍提高,類似CPU的虛擬化給雲計算的彈性調度帶來成倍的成本節約。通過在晶片架構與Firmware上進行大量研究和實驗,以保證在雲端應用中可以實現完全透明的虛擬化能力。另外,結合自主研發的固件和TFDL軟體SDK能夠實現對於各類神經網絡模型的計算加速,加速單元實際效率在90% - 95%之間,相對於Nvidia的主流計算卡能達到5倍以上的功耗和成本節省。
&啟英泰倫
1) 融資進度
啟英泰倫在16年10月完成了Roobo的千萬級天使融資,今年9月完成了數千萬人民幣的A輪融資。
2) 產品進展
2016年9月推出了專用的深度神經網絡智能語音識別晶片CI1006,今年已經量產和出貨。
CI1006是基於ASIC架構的人工智慧語音識別晶片,包含了腦神經網絡處理硬體單元,支持DNN運算架構,進行高性能的數據並行計算,可極大的提高人工智慧深度學習語音技術對大量數據的處理效率。晶片方案成本不到通用晶片方案成本的1/2,功耗則在1/10以下。
啟英泰倫也提供基於CI1006的智能語音識別方案模塊,包括單麥克風和雙麥克風語音識別方案模塊,可以為不同需求的客戶提供相應的解決方案。據介紹,單/雙麥克風方案均可以實現十米識別距離,識別精度在90%以上。
&雲知聲
1) 融資進度
今年8月雲知聲獲得3億人民幣戰略投資,具體投資機構未披露。
2) 產品進展
人工智慧專用晶片UniOne仍在研發當中。
據介紹,UniOne將內置DNN處理單元,兼容多麥克風、多作業系統,對任何的場景不做限制,無論是在智能的空調上、車載上或其他智能設備上都可以植入這個晶片,該晶片具有高集成度的,低功耗、低成本的優點。與此同時,公司還有IVM-M高性能嵌入式晶片,基於高通wifi模組,提供高性價比的物聯網語音交互整體方案,主要應用在智能空調,廚電等職能家具產品上;基於Linux系統設計的Unitoy晶片可一站式解決兒童陪伴式機器人的喚醒、識別、設備互聯能力。
&閱面科技
1) 融資進度
今年3月獲得博將資本的B輪投資,具體金額未披露。
2) 產品進展
支持同一張註冊照片在可見光、紅外、3D三種不同的Sensor中進行識別,實現前端和雲端的聯動以及知識的遷移,提高整體的識別效率,做到以FaceID為連通的人臉識別體系。
繁星AI晶片視覺模塊由Sensor+ISP+VPU+嵌入式深度學習視覺算法組成,能從晶片端智能輸出結構化數據。在模塊設計上,閱面科技使用了常規的38mmX38mm的尺寸,保障模塊能夠做到即插即用,降低開發智能視覺產品的技術成本;在功耗上,本地深度學習處理功耗僅為 0.5W,整體高峰功耗小於 2.5W;能夠支持不同場景的算法IP:包括人臉識別模塊、數據採集模塊、人機互動模塊。
RV1108是瑞芯微Rockchip布局AI及視覺相關領域的重要產品,具有智能圖像處理等關鍵技術,內嵌高性能CEVA XM4視覺處理器DSP。閱面科技針對RV1108 CEVAXM4處理器優化定製CNN人臉檢測,能在1080P解析度下可達到120ms檢測速度以及90%的檢出率。同時提供了完整的算法矩陣,包括了人臉檢測、人臉識別、人臉追蹤、人體檢測、人體追蹤、屬性識別等,實現低功耗、高性能的本地化計算。
&雲飛勵天
1) 融資進度
今年3月雲天勵飛獲得數千萬美元的A輪融資,投資方包括山水從容傳媒投資有限公司、松禾資本、深投控、投控東海、紅秀盈信等多家投資機構。
2) 產品進展
雲天勵飛的業務主要聚焦在平安城市的安防領域,自主研發的AI晶片DeepEye採用ASIP(專用指令集處理器)晶片設計方式。7月推出了DeepEye100系列產品,包含硬體模組及開發包,模組中內置深度學習人像抓拍算法,可以降低攝像機合作夥伴的開發難度。目前該產品有2種方案,分別支持200-230萬像素攝像機(DeepEye102)和600萬像素攝像機(DeepEye106)的開發。
&耐能Kneron
1) 融資進度
耐能成立於2015年11月,總部位於美國聖地牙哥,在深圳和珠海也設有辦公室。
今年11月耐能完成超過千萬美元的A輪融資,由阿里創業者基金領投,奇景光電、中華開發資本、高通、中科創達、紅杉資本與創業邦跟投。
2) 產品進展
耐能主打低功耗異構晶片,其第一代產品功耗做到了350毫瓦,比市場上的主流產品功耗低了60%;新的晶片模塊功耗只有約100毫瓦,預期在2017年底能夠正式完成。
Kneron現階段主要有三款產品:
適配ARM M4、M5系列的低端產品,主要適用於智能家居產品,並已在與某知名家電廠商力合作的空調中使用;
適配ARM A8、A9系列的終端產品,可適用於安防產品;
適用於ARM A53、A57系列的高端產品,可用於手機。
晶片採取IP授權方式生產。應用方面,Kneron主打智能家居、智能安防、智慧型手機三大場景。
&異構智能NovuMind
1) 融資進度
NovuMind於2017年初完成了A輪融資,投資方包括了真格基金、寬帶資本、英諾天使基金、洪泰基金、臻雲創投、極客幫創投等,據報導近期正在進行新一輪融資。
2) 產品進展
NovuMind產品暫未發布。據介紹,其晶片僅使用3×3卷積過濾器,通過使用獨特的張量處理架構直接對三維Tensor進行處理,新晶片將支持Tensorflow,Cafe和Torch模型。
NovuMind的第一個AI晶片原型預計會在今年聖誕節前推出。到明年2月份應用程式準備就緒,並能夠在該晶片上實現耗能不超過5瓦進行15萬億次浮點運算;第二個晶片,耗能將不超過1瓦,計劃在2018年中期面世。公司晶片將在臺積電生產。
今年7 月,NovuMind與華西醫院成立了四川希氏異構醫療科技有限公司,將 AI 技術應用在消化道的內窺鏡上。NovuMind提供AI 專用晶片,植入到內窺鏡中使用。
10月的英偉達GTC歐洲大會上,NovuMind對外發布其深度學習訓練平臺,並且宣布與惠普 HPE 達成了戰略合作。
&人人智能
1) 融資進度
人人智能在年初獲得了英諾天使基金和ARM的千萬人民幣天使投資;公司目前正在進行A輪融資。
2) 產品進展
人人智能提供一個基於ARM的人臉識別核心晶片及模組方案,識別模組是獨創的支持深度學習算法的嵌入式高性能ARM平臺,支持外接攝像機從視頻流檢測和載取人臉照片等功能。據介紹,人人智能發布的「智能芯」是國內首個人臉識別硬體模組,尺寸僅為86mm*56mm*21mm,集成了人工智慧作業系統FaceOS。通過將人工智慧算法進行集成產品化,能夠把產品的研發周期減少60%,成本降低50%。
&深思創芯
1) 融資進度
深思創芯在今年初獲得了清華啟迪和電子科技大學校友求實基金的天使投資;據悉,公司目前正在進行pre-A輪融資。
2) 產品進展
今年9月深思創芯研發了第一代人工智慧神經網絡平臺晶片,這顆晶片面積為9平方毫米,晶片內置多個核心,每個單核心可實現三層神經網絡,每層神經網絡均可復用,從而實現深度遞歸神經網絡,這一拓撲結構可映射幾乎所有類型的人工神經網絡,具有速度快、低功耗、面積小等特點,能夠適用於眾多的領域。據介紹,晶片中內置全連接神經元和神經突觸,在200MHz頻率下已經可以實現每秒50億次以上的16位運算能力。
&智芯原動
1) 融資進度
公司今年上半年開始進行B輪融資,公開資料暫未披露相關細節。
2) 產品進展
在智能晶片方面,公司通過提供晶片IP授權,涉及參與定製晶片、第三方晶片、合作晶片等多種業務模式。其中智能視頻引擎IVE作為智芯原動的首創的核心技術,從IVE1.0僅有視頻檢測算法,到IVE2.0擴充了車牌識別、視頻檢測、模式識別和運動目標檢測算法,再到IVE3.0則在2.0基礎上擴充了人臉檢測、深度感知算法,且IVE作為晶片內部的視頻分析加速器,在相同的CPU、GPU條件下,IVE大幅提升智能算法性能,同時減少CPU和GPU的調用,降低晶片功耗。
&深維科技
1) 融資進度
公司成立之初獲得了洋浦偉業的天使投資,目前正在進行A輪融資。
2) 產品進展
深維科技主要做FPGA的AI應用加速,目前重點面向智能視覺和視頻應用。公司也基於現有的FPGA晶片推出了一系列面向AI應用的FPGA設計工具,比如,針對開發環節,提供行業專用開發工具、專用高效開發語言以及專用調試工具;針對硬體系統設計,提供標準化專用系統設計工具等。
目前典型的設計工具包括,通過DPNetGen可以自動完成從Caffe網絡模型到Verilog代碼的AI算法描述轉換、DNN網絡FPGA集群實現自動優化算法,通過DPComp工具對AI應用的針對性優化策略,可以提高FPGA實現結果的性能。從實際應用效果來看,相比於傳統設計,基於深維設計工具的FPGA加速可以使工具運行速度提升10倍,結果質量快10%,開發過程時間是原來的1/10,使用的資源數量也會相應降低。
&西井科技
1) 融資進度
西井科技今年6月完成 A 輪約3000萬人民幣融資,投資方包括了復星同浩、源政投資、合力投資、十維資本等。
2) 產品進展
西井科技在17年暫未有新的產品介紹。
根據前期介紹,西井科技是用FPGA模擬神經元以實現SNN的工作方式,有兩款產品:
仿生類腦神經元晶片DeepSouth(深南),第三代脈衝神經網絡晶片(SNN),基於STDP的算法構建完整的突觸神經網絡,由電路模擬真實生物神經元產生脈衝的仿生學晶片,通過動態分配的方法能模擬出高達5000萬級別的「神經元」,功耗為傳統晶片在同一任務下的幾十分之一到幾百分之一。
深度學習類腦神經元晶片DeepWell(深井),處理模式識別問題的通用智能晶片,基於在線偽逆矩陣求解算法(OPIUM lite)對晶片中神經元間的連接權重進行學習和調整;擁12800萬個神經元,通過專屬指令集調整晶片中神經元資源的分配;學習與識別速度遠遠高於運行在通用硬體(例如,CPU, GPU)上的傳統方法(例如,CNN),且功耗更低。
&鯤雲科技
1) 融資進度
鯤雲科技今年11月初完成了Pre-A輪融資,由星瀚資本領投,深圳雲創、拓金資本跟投。公司目前正在進行A輪融資。
2) 產品進展
鯤雲科技研發的星空和雨人兩款AI晶片平臺,可嵌入現有物聯網產品對數據信息和視覺信息實時分析,監測異常數據提取有效信息,3W~10W低功耗使晶片支持移動、野外場景。針對30多層的深度學習網絡,其晶片也可保證每秒處理16幀1080P解析度的圖像。
目前,鯤雲科技自主研發的產品和技術已經迭代到第二代,預計明年將會推出第三代產品,在功耗和性能方面將會有進一步的優化,並根據需要推出量產FPGA或者晶片。
Part Three:全球AI晶片初創公司
&Graphcore
Graphcore是一家英國的AI晶片初創公司,今年11月獲得了紅杉資本的5000萬美元投資。在此之前,公司已經獲得了Atomico、DeepMind聯合創始人哈薩比斯、Uber首席科學家ZoubinGhahramani 、OpenAI的Greg Brockman、戴爾、三星等機構及個人的投資。
Graphcore的產品命名為IPU,其特點可概述為:
(註:摘要於公眾號StarryHeavensAbove文章「Graphcore AI晶片:更多分析」)。
據介紹,Graphcore的第一款IPU晶片使用了16納米製程,通過PCI Express接口與計算機連接。按計劃,首批客戶將於年底前拿到IPU。預計2018年開始大規模發售。
&Groq
由谷歌TPU初始團隊離職創建的AI晶片公司,核心成員包括Google TPU的主要設計者之一Jonathan Ross。
官網資料顯示,Groq將在2018年發布第一代AI晶片產品。這款晶片的運算速度將可以達到400萬億次每秒,每瓦特能進行8萬億次的運算。而谷歌最新一代的TPU才達到每秒180萬億次運算,Groq晶片的性能將會是谷歌TPU的兩倍多。
&Gyrfalcon
Gyrfalcon今年初在矽谷成立,旨在開發低成本、低功耗、高性能的人工智慧處理器,創始人均為矽谷華人人工智慧科學家和半導體晶片資深工程專家及企業家。
Gyrfalcon第一代人工智慧處理器晶片Lightspeeur2801S 已於今年九月從TSMC下線,該晶片採用28nm工藝,擁有5.6 TOPS/Watt 的能效比,側重於邊緣推理模式,在人工智慧邊緣計算與數據中心機器學習領域相比市場上其他方案高出幾個數量級。
Lightspeeur是基於Gyrfalcon自主APiM架構,該架構使用內存作為人工智慧處理單元,能夠消除在其他架構中的大量數據移動,極大降低功耗。這一架構支持真正的片上並行和原位計算,成功克服了由存儲器帶寬而導致的性能瓶頸。
Lightspeeur2801S約有28000個並行計算核,不需要使用外部存儲單元用於人工智慧推斷,在圖像處理速度達140幀/秒時功耗小於0.3瓦,支持卷積神經網絡(CNN)、殘差網絡(ResNet)、循環神經網絡(RNN)和長短期記憶(LSTM)等神經網絡模型,其分布式內存塊結構對CNN計算相當友好並且支持多層結構,每層的尺寸可以不同,內置模型壓縮算法能夠實現快速且低功耗的CNN計算。此外,Lightspeeur還同時支持Caffe、TensorFlow和MXNet等標準的開源深度學習系統。
&LeapMind
LeapMind是一家日本AI晶片研發商,自主研發的神經網絡優化技術,能在小型計算環境中實現深度學習,並且在提高深度學習進度、降低計算複雜度的基礎上,把該技術功能帶入到物聯網和機器人應用裡。
今年10月LeapMind獲得1000萬美元的A輪融資,領投方為英特爾資本,參投方包括Visionnaire Ventures, NTT Data, Innovative Ventures,伊藤忠科技風投,日本金融科技巨頭GMO VenturePartners,以及 Archetype Ventures。
&cNeuron
cNeuron專注於提供深度學習處理器在FPGA,ASIC中的架構與實現方案(CNN,RNN,DNN),具有深度學習加速器的下一代視覺處理器單元VPU,可用於無人機,監控攝像機,自動駕駛車。另外還提供晶片SoC網絡和高吞吐量,低功耗,高效率的處理器陣列。
&Mythic
Mythic是專注於研發深度學習的神經網絡晶片的公司,總部設在奧斯汀,今年3月獲得900萬美元A輪融資,由Draper FisherJurvetson 領投,Lux Capital、 Data Collective和AME Cloud Ventures參投。
該公司研發了一款能夠實現深度學習的神經網絡晶片,晶片大小相當於襯衫紐扣,通過相匹配的軟體,使之能與其他處理器和內存一起工作。同時該晶片可實現極低功耗,從而可以應用於智能家居、物聯網等領域。
&KnuEdge
KnuEdge是一家神經網絡晶片研發商,由前NASA署長Dan Goldin創立,設計是基於人類大腦的生物計算原理,功耗極低,致力於從語音識別到加速AI方面改變人們與機器的互動。公司成立至今累計融資已經超過1億美元。
公開資料顯示,公司提供的產品包括了以下幾類:
KnuEdge晶片:基於「稀疏矩陣」。第一個晶片有256核,程式設計師可給每個核做不同算法的編程,並可使所有核同時運行。
KnuVerse:軍用級語音識別和授權技術,適用於噪音非常大的環境。
Knurld.io:軟體開發包,利用它,不到兩個小時就能將這個支持雲端服務的語音識別和授權服務整合到App應用裡。
KnuPath晶片:類似大腦神經,是256核單晶片晶片,性能是同級別晶片的2-6倍。
&Cerebras Systems
CerebrasSystems是一家位於加州洛思阿圖斯的AI晶片技術及產品研發商,致力於研發用於深度學習的晶片產品。公司的聯合創始人及CEO AndrewFeldman此前曾創立伺服器晶片公司SeaMicro,後者在2012年被AMD以3.34億美元收購。CerebrasSystems的公開資料極少,據介紹,CerebrasSystems目前已經累計完成 1.12億美元融資,公司價值預計達到8.6億美元。
&Auviz Systems
AuvizSystems專注於數據中心和嵌入式系統的加速應用,在卷積神經網絡方向有著一定的技術積累。其技術專長是FPGA實現、機器學習、視覺算法等,為行業提供基於FPGA的中間件IP,以減少應用程式的功耗。去年9月,Xilinx收購了該公司。
&Wave Computing
WaveComputing2010年成立於美國矽谷,專注於深度學習晶片架構的研發設計。公開資料顯示,公司成立至今已完成兩輪總計2450萬美元融資。
WaveComputing在今年9月Hot Chips大會上介紹了該公司研發的多核架構資料流處理器DPU (Dataflow Processing Unit),號稱在神經網路訓練速度方面可達GPU加速器的1,000倍。據介紹,Wave Computing發布的DPU晶片具有16,000個處理元件、8,000個以上的運算單元以及獨特的自定時機制,使用粗粒可重組式架構CGRA (Coarse Grained Reconfigurable Architecture),運行頻率為6.7GHz,在沒有數據通過時,DPU會進入休眠狀態。DPU可以看作是FPGA與多核處理器的混合體,能處理數千個元件的靜態數據流程。
&寫在最後
2017年的AI晶片產業處在了一個高速發展的快車道上,傳統晶片巨頭們不斷加碼AI領域新產品的研發投入,並且通過併購、合作、開源工具、開放生態等各種方式企圖在這一新興領域取得領先。從產品布局來看,目前數據中心(雲端)、自動駕駛、智慧型手機等應用領域是巨頭們重點爭奪的市場,尤其在數據中心領域,Nvidia、Intel、Google、Xilinx、AMD等都在爭搶這個市場,初創公司機會很小。國內創業公司中,寒武紀MLU100/MLU200高性能晶片是面向數據中心的兩款晶片,預計會與中科曙光、聯想等合作;比特大陸的BM1680也是同時面向深度神經網絡的Training和Inference需求。國外初創公司裡,Wave Computing的DPU、Graphcore的IPU也都面向深度學習Training需求。
初創公司的機會主要在終端應用領域。智能駕駛方向,Nvidia、Intel、Qualcomm、英飛凌、瑞薩等都有涉及,考慮到汽車市場的龐大空間和高壁壘,在這一領域大公司的優勢也會比較明顯。國內創業公司中,寒武紀(1M處理器IP)、地平線(徵程Journey)在智能駕駛領域也有相關產品,其中地平線重點布局自動駕駛,後續發展值得期待。
在智慧型手機和泛移動終端方向,創業公司的機會更多。寒武紀1A處理器IP已經用在了華為麒麟970上,1H16和1H18處理器IP也是面向移動終端;地平線(旭日Sunrise)、深鑑、人人智能、雲飛勵天(DeepEye)、閱面科技(繁星)、智芯原動、瑞星微(RV1108)等公司的產品則重點面向智能安防領域;啟英泰倫(CI1006)、雲知聲(UniOne)等主攻DNN智能語音晶片;Kneron、NovuMind等重點在泛IOT領域,主打低功耗異構晶片。
深思創芯、西井科技是兩家主攻人工智慧神經網絡晶片的初創公司,目前兩家公司的產品信息仍較少,後續發展還有待觀察。