綜合來看,未來可能呈現如下產業格局:GPU應用於高端複雜算法、高性能計算和數據中心;ASIC在雲端訓練、推理及智能終端廣泛應用;FPGA 應用於變化較快的行業應用和虛擬化雲平臺。
表1:四類人工智慧晶片對比
資料來源:九鼎投資整理
2.1 GPU和FPGA1、GPU
GPU(Graphics Processing Unit)是一種進行圖形運算工作的微處理器。隨著通用計算技術發展,GPU的功能已經不再局限於圖形處理,在浮點運算、並行計算等高性能計算方面開始有廣泛的應用。目前支持金融工程學、氣象及海洋建模、數據科學及分析、國防與情報、製造業(CAD製圖及CED)、成像與計算機視覺、醫學影像、電子設計自動化、計算化學等多個領域共150多種應用程式的加速。但由於其功耗較高,主要用於雲端計算。
GPU是目前深度學習算法訓練的首選晶片,在該領域擁有最高的市佔率。其擁有完備的人工智慧計算軟體生態,越來越多的深度學習標準庫支持基於GPU的深度學習加速。與CPU相比,GPU適用於密集型程序以及並行計算,而CPU擅長於邏輯運算和串行計算。
(1)英偉達(NVIDIA)
英偉達的GPU產品主要包括PC端處理器GeForce、移動處理器Tegra和深度學習晶片Tesla。其中Tesla的核心產品包括基於PASCAL架構和Volta架構的系列晶片。
目前英偉達的GPU產品主要應用於各類計算平臺、數據中心加速和深度學習訓練,應用領域包括醫療、汽車、智能家電、金融服務等。基於Tegra系列處理器,英偉達發布了DRIVE PX開放式人工智慧車輛計算平臺,可實現包括高速公路自動駕駛與高清製圖在內的自動巡航功能,應用的特斯拉ModelS已經開始量產,百度、沃爾沃也跟英偉達達成了合作,他們都將生產搭載DRIVE PX的智能駕駛汽車。
英偉達2018年5月推出的Telsa V100浮點運算速度提高了1.5倍,深度學習訓練速度提高了12倍,推理速度提高了6倍。
(2)ATI(被AMD收購)
ATI是與英偉達齊名的顯卡製造商,2006年被AMD以54億美元收購。2017年8月,AMD搭載深度學習功能的新一代GPU正式發布,在各項測試和應用中性能超過英偉達Pascal系列。2018年,AMD 公開展示了全球首款7納米製程的GPU晶片原型。總體而言,AMD在產品生態和市場份額方面不如英偉達,但仍是全球僅次於英偉達的GPU廠商。
(3)景嘉微
景嘉微是國內唯一擁有自主智慧財產權和成熟產品的圖形處理晶片公司。公司創建於2006年4月,2016年3月在深圳證券交易所掛牌上市,現有員工400多人。公司創新的MPPA架構提供單晶片超算解決方案,具有高性能、低功耗、實時性等特點,可以為視頻、網絡、電信、大數據等領域的雲計算應用實現實時加速,還可以為航空航天、國防、汽車等領域的嵌入式應用提供嵌入式高性能運算能力。但是,景嘉微與國外GPU巨頭技術差距較大,短期內尚無可能影響人工智慧GPU晶片的產業格局。
2、FPGA
FPGA為現場可編程門陣列。高密度計算、大吞吐量和低功耗的特點使其在各個行業領域有較大的發展空間。
在通信領域,FPGA主要用在通信和無線設備系統,為數據中心提供更高的能源效率、更低的成本和更高的擴展性,還可以用於 5G 的可編程解決方案;在工業領域,FPGA可實現自動化、機器視覺和運動控制;在汽車領域,FPGA成為 ADAS 的主要處理平臺,提供實時圖像分析與智能傳輸。由於 FPGA 可編程,其在提供差異化產品和快速響應上有著極大的優勢。此外,CPU+FPGA 的混合結構也可用於雲服務計算。
FPGA的市場發展迅速,但技術門檻比較高,目前市場上主要由Xilinx(賽靈思)與 Altera(阿爾特拉)兩家公司主導,兩家市場份額合計達80%以上。
(1)賽靈思(Xilinx)
Xilinx是全球排名第一的可編程邏輯完整解決方案的供應商。公司成立於1984年,Xilinx首創了現場可編程邏輯陣列(FPGA)這一技術,並於1985年首次推出商業化產品。Xilinx研發、製造並銷售多種類型的集成電路、軟體設計工具以及作為預定義系統級功能的IP(Intellectual Property)核。
Xilinx產品已經被廣泛應用於從移動通信基站到DVD播放機的數字電子應用技術中。作為FPGA技術的發明者和產業龍頭型公司,Xilinx約佔全球FPGA市場出貨量的50%,在高端FPGA市場(16nm、20nm、28nm)佔有較大優勢。公司在全世界擁有7500多家客戶,包括IBM、NEC、Samsung,Siemens、Sony等知名公司。
(2)阿爾特拉(Altera)
Altera在FPGA領域長期佔據領先地位,是Xilinx之外另一家FPGA寡頭級企業。Altera公司的FPGA分為兩大類,一種側重低成本應用,容量中等,性能可以滿足一般的邏輯設計要求,如Cyclone,CycloneII;還有一種側重於高性能應用,容量大,能滿足各類高端應用,如Stratix,StratixII等。Altera的FPGA產品被廣泛應用於汽車、消費電子、軍事航空、醫療、無線通信等多個領域。
2015年末Intel斥資167億美元收購了Altera公司。Intel計劃將Altera的可定製晶片和自有的標準化半導體相整合,以針對網絡搜索、機器學習等特定任務打造更加高效的產品解決方案。
(3)深鑑科技(被Xilinx收購)
深鑑科技提供基於FPGA平臺的人工智慧加速解決方案,2018年8月被賽靈思收購。深鑑科技在深度神經網絡壓縮、指令集與計算架構等領域具有技術領先優勢,其關於深度壓縮的論文與谷歌DeepMind的論文並列ICLR2016最佳論文。2016年Open Power峰會上全球最大FPGA廠商介紹深度學習處理器新方法中的技術部分大多來自深鑑科技。深鑑科技基於FPGA的DPU產品可為多行業提供深度學習加速解決方案。相對於CPU、GPU等通用化產品具有更高的能效,目前已經應用於安防、大數據等行業。
中國其他的FPGA晶片公司,包括京微齊力、高雲、安路、智多晶等,普遍還未能量產高性能FPGA,短期內尚無可能影響人工智慧FPGA的產業格局。
2.2 ASIC
ASIC(Application Specific Integrated Circuits)指針對特定需求而設計、製造的集成電路。神經網絡處理器是ASIC專用電路在人工智慧領域的應用形態。
目前,國際龍頭晶片廠商在GPU和FPGA領域對AI晶片應用競爭呈現白熱化,而隨著未來終端人工智慧應用的興起,為深度學習算法定製的ASIC晶片在計算速度和功耗上大大優於GPU和FPGA,伴隨人工智慧加速對行業滲透,未來在安防、智能終端、金融、車聯網等領域,ASIC將得到廣泛應用,廣闊的市場空間使ASIC大規模應用成為可能。
可以預見,專用AI晶片(ASIC)將成為新晉AI晶片領域廠商與傳統巨頭競爭的主戰場。同時,我國專用AI晶片公司與世界領先水平差距不大,某些領域位於世界前沿,ASIC將成為我國晶片行業彎道超車的關鍵。
當前,國內已經出現了一些面向終端人工智慧的ASIC晶片企業,大致可以劃分為四類:一是網際網路、通信類巨頭的晶片設計團隊;二是存在多年的成熟的晶片設計公司;三是新創立的AI晶片創業團隊/公司;四是延伸做AI晶片的算法公司,
1、網際網路、通信類巨頭
以華為、百度等為代表的巨頭公司,在算法、數據方面具有明顯優勢,為了延伸實現AI應用的落地,加快了晶片端的布局,但主要集中在雲端晶片上。
(1)谷歌
谷歌的TPU(Tensor Processing Unit)是一種專用的加速器晶片,跟其深度學習軟體Tensor Flow 匹配。TPU 專門針對機器學習進行裁減,運行單個操作時需要的電晶體更少,其研發目的是為了替代GPU,實現更高效率的深度學習。
TPU的設計不僅僅是針對某種神經網絡模型,而是能夠在多種神經網絡(CNN、LSTM,以及大型全連接網絡模型等)中執行CISC(複雜指令計算機)的指令。在TOPS / Watt(每瓦特性能)功耗效率測試中,TPU的性能要優於常規的處理器30到80倍;而同傳統的GPU/CPU的計算組合相比,TPU的處理速度快15到30倍;更為關鍵的是,由於TPU的運用,深度神經網絡所需要的代碼數量也大幅的減少。在深度學習技術迅速發展,數據和算力要求快速提高的人工智慧時代,谷歌的這一替代方案將為硬體大規模減負,進一步降低人工智慧的硬體成本。
(2)華為海思
華為海思作為我國晶片領域的領軍企業之一,2017年發布了全球首款AI移動端晶片麒麟970,搶先一步佔領AI晶片制高點,引起業界廣泛關注。麒麟970採用了行業高標準的TSMC 10nm工藝,集成了55億個電晶體,實現了1.2Gbps的峰值下載速率,創新性地集成了NPU專用硬體處理單元,並設計了HiAI移動計算架構。
2018年9月,華為海思再次發布了新一代產品麒麟980。該產品基於CPU、GPU、NPU、ISP和DDR,實現了全系統融合優化的異構架構,並創下了六項世界第一:首次使用領先的TSMC 7nm製造工藝,首次在移動端晶片搭載雙NPU,首先實現基於ARM Cortex-A76 CPU架構進行商業開發等。其中,搭載的寒武紀NPU採用雙核結構,其圖像識別速度比麒麟970提升120%。
此外,華為海思在監控SOC晶片領域市佔率全球第一,其集成AI本地推斷功能的監控SOC必將在市場中佔據重要位置。
(3)百度
百度聯合硬體廠商推出DuerOS智慧晶片,是百度在人工智慧與硬體設備一體化方面的新探索。DuerOS智慧晶片擁有低成本晶片和模組,可以以晶片嵌入的形式放到任何硬體中,能夠更加快速而廣泛地應用到更多場景。可以看出,百度在利用「算法+晶片」的組合實現人工智慧產業化落地。
2018年7月,百度發布首款雲端AI晶片「崑崙」,這是百度基於八年的CPU、GPU和FPGA的AI加速器研發經驗,在中國大規模AI運算實踐中,經過20多次迭代產生的晶片。相對於谷歌TPU擅長浮點計算,百度AI晶片更擅長混合精度計算,一些場景下計算性能強2-3倍,同時功耗更低,將應用於未來的自動駕駛、圖像識別等領域。
2、傳統晶片公司
由於人工智慧算法逐漸開源和普及,一些存在多年的成熟的晶片設計企業迅速完成了人工智慧算法的吸收和研究,針對特定應用領域推出了終端AI晶片。這些成熟的晶片設計公司在成本控制、晶片定義、客戶渠道方面具有相當的優勢。
集成AI功能的音視頻SOC晶片系列可廣泛應用於機頂盒、數位電視、智能音箱、平板電腦等家電及消費電子市場,應用領域眾多,市場空間巨大,是消費電子的主戰場之一。中國音視頻SOC晶片的巨頭公司全部入場,未來競爭將十分激烈。
(1)杭州國芯
作為知名機頂盒SOC晶片設計公司的杭州國芯,針對語音識別領域, 2017年推出了集成NPU(神經網絡處理器)的SOC級AI晶片,其針對人工智慧與物聯網的特點,將算法、軟體、硬體深度整合,是一顆具備高智慧、低功耗、全集成特點的全新語音交互AI晶片,能夠幫助終端產品實現本地離線、低功耗和可移動的語音識別,主要面向智能音箱、智能電視、智能玩具等熱點領域。
(2)瑞芯微
作為數字音視頻、移動多媒體晶片研發廠商,瑞芯微2018年推出了其首次採用CPU+GPU+NPU硬體結構設計的AI晶片,其特點是融合了瑞芯微在機器視覺、語音處理領域的多年經驗,硬體性能高、平臺兼容性強。2019年初發布了定位於IoT領域的最新AI晶片,支持語音喚醒和識別、人臉檢測和識別等。目前,瑞芯微的AI晶片已經用於喜馬拉雅智能音箱、阿里巴巴人臉支付產品上。
(3)晶晨半導體
晶晨半導體是一家OTT/IPTV機頂盒以及智能電視和智能家居晶片設計公司。目前,晶晨半導體提出將在鞏固智能電視技術和市場優勢的基礎上,融合人工智慧的創新科技,積極開發含有嵌入式神經網絡處理器的人工智慧電視系列晶片,向萬物智能互聯生態邁進。產品方面,晶晨推出了12nm 超高性能六核人工智慧顯示晶片,內置NN(神經網絡)處理器的半通用終端AI晶片,可用於智能攝像頭、智能音箱等智能家居領域。
(4)全志科技
全志科技是一家專注於智能終端應用處理器SOC、高性能模擬器件和無線互聯晶片的設計公司。近期,全志科技在多個系列晶片產品中融合了語音識別、圖像識別的人工智慧技術,具有視覺和語音算法加速模塊。
(5)聯發科
聯發科是全球知名的IC設計公司,專注於無線通訊及數字多媒體技術。2018年底,聯發科發布了內建多核心人工智慧處理器的晶片P70。2019年初,聯發科又將手機領域的AI專核(APU)策略引入到智能音箱及其他智能硬體中,支持終端側AI解決方案。
3、初創晶片公司
部分高校、科研院所和海歸團隊,基於AI算法及晶片的技術積累,創辦多家AI晶片公司,針對某些特定應用領域的需求,推出定製化的AI晶片。
(1)寒武紀
寒武紀科技的前身是中國科學院計算技術研究所下的一個課題組,早在2008年就開始研究神經網絡算法和晶片,並於2012年開始陸續發表研究成果,公司創始人、執行長陳天石教授是處理器架構和人工智慧領域享有國際盛譽的青年科學家。寒武紀主要產品是各類智能雲伺服器、智能終端以及智慧機器人的核心處理器晶片。
2018年5月,寒武紀發布了首款雲端AI晶片MLU100。該晶片採用了最新的 MLUv01架構和TSMC 16nm 工藝,可工作在平衡模式(主頻 1Ghz)和高性能模式(1.3GHz)主頻下,等效理論峰值速度則分別可以達到 128 萬億次定點運算和166.4 萬億次定點運算,其功耗為 80w/110w。同時,寒武紀還發布了終端AI晶片1M,也是其第三代機器學習專用晶片,1M綜合性能是其前代產品十倍。
(2)地平線
地平線成立於2015年,創始人是前百度深度學習研究院負責人餘凱。BPU(BrainProcessing Unit)是地平線機器人自主設計研發高效的人工智慧處理器架構IP,支持ARM/GPU/FPGA/ASIC,專注於自動駕駛、人臉圖像辨識等專用領域。地平線基於高斯架構的嵌入式人工智慧解決方案在智能駕駛、智能生活、公共安防三個領域開始進行應用,地平線的第一代BPU採用TSMC的40nm工藝,相對於傳統CPU/GPU,能效可以提升2~3個數量級(100~1,000倍左右),目前處在量產前階段。
(3)比特大陸
比特大陸成立於2013年,是一家專注於高速、低功耗定製數字貨幣礦機晶片設計研發的公司。
比特大陸在2017世界人工智慧大會上發布了面向人工智慧應用的專用定製晶片Sophon BM1680,深度學習加速卡SC1和SC1+,以及智能視頻分析伺服器SS1,正式進軍人工智慧行業。2018年10月,比特大陸發布了新一代終端人工智慧晶片BM1880,其比上一代產品性能提升5倍以上,一同發布的還有算豐智能伺服器SA3、嵌入式AI迷你機SE3、3D人臉識別智能終端以及基於BM1880的開發板、AI模塊、算力棒等產品,開始全力向專用終端AI晶片邁進。
(4)嘉楠科技
嘉楠科技成立於2013年,是最早專注於數字區塊鏈計算設備的公司之一。目前推出了同時具備視覺識別和語音識別的人工智慧終端晶片勘智@K210系列晶片。該晶片具備高速卷積神經網絡加速器(KPU)和音頻處理加速器(APU),可靈活與物聯網技術、軟體系統、雲計算平臺等相關的基礎信息技術相結合,可廣泛應用於廣告/大數據收集、安防監控、物流檢測、無人商店、疲勞安全監測、電力/電源控制、玩具及機器人等市場,並且已經在智能家居、智慧工廠、人臉識別等多個領域有成功應用案例。
(5)西井科技
西井科技成立於2015年5月,是一家開發「類腦AI晶片+算法」的科技公司,其晶片用FPGA電路模擬神經元,成品有100億規模的仿真神經元,以實現SNN的工作方式。其產品Deepsouth與 IBM的truenorth構成競品。由於架構特殊,這些晶片計算能力強,可用於基因測序、模擬大腦放電等醫療領域。同時,西井科技還有一款5000萬個神經元的商用晶片,由於體積小、功耗低,可用於可攜式醫療設備。
(6)啟英泰倫
成都啟英泰倫科技有限公司成立於2015年11月,是一家專注於人工智慧終端晶片設計及配套智能算法引擎開發的公司。2016年9月,推出了全球首款深度神經網絡智能語音識別晶片CI1006。CI1006晶片集成了啟英泰倫自主智慧財產權的腦神經網絡處理單元BNPU,也採用了ARM最為先進的MCU內核Cortex-M4F,形成專用的SoC架構,具備高性能、低功耗、高識別率、低成本等優點,可以支持本地語音檢測、喚醒,以及數百條離線命令詞條的識別。
(7)ThinkForce
ThinkForce成立於2017年,是一家由依圖科技戰略投資的智能晶片研發商。依圖作為國內四大CV(計算機視覺)獨角獸之一,擁有強大的AI算法能力和人臉資料庫。2019年5月,依圖召開發布會推出了與ThinkForce聯合開發的雲端深度學習推理定製化SoC晶片「求索」。「求索」採用了自主智慧財產權的Many Core架構,運用在依圖的雲端和邊緣伺服器上,針對視覺領域不同運算進行加速,適用於人臉識別、車輛檢測、視頻結構化分析、行人再識別等多種視覺推理任務。AI晶片的量產標誌著依圖完成了從算法到晶片的跳躍,形成了軟體到硬體的垂直整合能力及完善的人工智慧軟硬體方案。
4、算法公司
部分AI算法公司苦於無法找到充分滿足算法需求的晶片,希望依靠自身能力提供完整的軟硬體解決方案,因此,開始根據自己的需求開發完全定製化的AI晶片。
隨著AI算法在視覺識別和語音識別領域的快速落地,相關算法公司意識到「算法+晶片+數據」的模式能夠有效實現規模化並降低成本。在語音識別領域,由於支持AI語音識別算法的終端ASIC的晶片複雜度相對較低,部分算法公司已經研發出專用於語音識別的AI晶片。主要代表有雲知聲、思必馳等。
圖3:我國AI晶片企業分布
資料來源:公開資料、九鼎投資整理