近幾年的AI晶片發布會上常常會出現這樣一張對比圖,自研AI晶片性能與對比英偉達GPU性能的對比,這說一方面明了英偉達在雲端AI晶片市場的地位,但也說明了市場缺乏一個判斷AI晶片性能的標準。
相同問題在邊緣端AI晶片中也存在。因此,為了能夠更直觀地展現晶片性能,雲天勵飛在2019深圳高交會期間發布首款5AIoT晶片Deepeye1000時從AI晶片最關鍵的性能、帶寬、成本與海思NNIE進行了對比.結果顯示,Deepeye1000平均性能提升了10倍,平均帶寬降低40%,平均成本降低60%。
不過,雲天勵飛並不是想證明其AI晶片業界最強,更關鍵的是Deepeye1000是雲天勵飛晶片即服務的一個重要節點。
AI性能全面超越海思NNIE
NNIE(Neural Network Inference Engine )是海思媒體SoC 中專門針對神經網絡特別是深度學習卷積神經網絡進行加速處理的硬體單元。雲天勵飛之所以選擇對比NNIE,道理與雲端AI晶片對比英偉達GPU一個道理,用更直觀的方式展現其DeepEye1000的AI能力。而之所以選擇海思,是因為在視頻監控晶片領域處於領導地位,用這樣的對比能夠更直觀地說明DeepEye1000在AI視覺領域以及邊緣計算中的能力。
雲天勵飛董事長兼CEO陳寧在發布會上介紹,我們的第一代晶片叫做初芯,經歷了三年的奮戰最終推出。功夫不負有心人,DeepEye1000流片回來一個星期就跑通了人像識別、人臉識別的全鏈路算法,一個月後就亮相了去年的高交會,並且跑通了完整業務的Demo,兩個月的時間跑通了100萬人像的4K以及基於4K的200個人像抓拍和識別的全功能。
雲天勵飛董事長兼CEO陳寧
據悉,雲天初芯DeepEye1000專注邊緣和端側視覺應用,採用22nm工藝,基於多核異構並行計算架構設計,內置四核神經網絡處理器,可支持INT16 / INT12 / INT8混合精度量化數據,採用存算融合體系架構和可重構計算陣列,可以靈活、高效的執行各種深度學習算法模型的推理計算,峰值算力達2.0Tops。
其中,DeepEye1000神經網絡處理器由雲天勵飛自主研發,深度定製指令集,定製指令多達160條以上,支持主流神經網絡模型。神經網絡處理器採用可重構計算陣列,支持靈活可編程計算流,計算效率超過99%,同時採用存算融合體系架構,使得DDR存儲訪問帶寬下降77%,功耗下降60%。
CPU採用RISC-V指令集的平頭哥玄鐵810,工作頻率達到1.2GHz,雙發射10級流水線,性能高於2.5 DMIPS/MHz。還集成了雙核視覺DSP處理器,內置硬體加速運算子ACC,支持超過20個高效算子,每秒可跟蹤1200張人臉。另外,還支持H.264和H.265解碼,可支持4K@30fps視頻、4路高清視頻並行的實時分析。
關注AI晶片的人都知道,國內清微智能的晶片也採用的可重構的架構,兩者是否相同?雲天勵飛副總裁 晶片產品線負責人李愛軍接受雷鋒網採訪時表示,雲天的實現方式是從PE的維度進行可重構,可以理解為是運算單元的可重構,通過工具鏈實現晶片的靈活性。因此,採用的方式和維度會有所不同,但最終的效果應該是異曲同工。
這種靈活性是否能夠滿足所有場景的需求?李愛軍表示,在我們覆蓋的場景裡,能夠滿足客戶超過90%的需求。
不過,AI晶片除了要找到靈活性和性能的平衡點,還需要解決卷積計算帶來的高帶寬挑戰。對此,雲天勵飛是通過結構的設計,並且配合軟體工具鏈,儘量提高數據的復用程度。更近一步,李愛軍表示,通過軟硬協同,AI算法映射到我們的神經網絡處理器時,CI和CO我們做的非常好,這樣就可以實現很高的並行度,並且,我們的架構設計還能實現多核之間參數和數據的復用。
最終,Deepeye1000實現了在AI算法和算力相同的情況下,比NNIE平均能夠節省40%的帶寬。雷鋒網了解到,Deepeye1000採用的是雲天勵飛自主研發的第二代神經網絡架構,第一代架構由於AI市場的快速發展以及需求還不夠巨大等原因,只是通過FPGA進行了商用,並沒有流片量產。
AI晶片的指標應該是有效算力
AI晶片的峰值性能並不代表其實際能力,在實際應用中的平均算力對於才更有參考價值。需要指出,雲天勵飛給出的Deepeye1000對比NNIE的10倍平均性能提升並非峰值性能而是算法執行性能IPS(Images Per Second Per 1Tops)。
陳寧表示,在人工智慧時代,我們更加關注的是面向場景的有效算力,因為人工智慧今天還處於非常早期的階段,還沒有進入通用人工智慧時代,更不存在通用的AI晶片。有效算力=算力X效率XAI性能,對應的就是晶片、工具鏈以及算法應用。
雲天勵飛提供的晶片工具鏈是DETVM,具有5大特性,分別是高可用、全自動、高性能、可編程、完備性。這其中值得關注的是這個工具鏈兼容TVM開源生態,因為大部分AI晶片提供商更多的是在強調其晶片的性能以及工具鏈的高效易用性,但大都沒有兼容開源生態。
「我們認為,AI之所以能發展這麼快,與開源有著密不可分的關係。雲天勵飛選擇開源社區,是希望能促進神經網絡處理器硬體的快速發展。」李愛軍表示。
DETVM對於開源社區的意義在於,雲天勵飛基於TVM,打通了CPU、DSP、NNP,一個統一的軟體框架把這些架構整合起來,不需要再去面對DSP複雜的編程,並且遵循接口標準就能夠很容易的集成自己設計的深度學習加速器。
至於更上層的算法,李愛軍表示,「如果用傳統的晶片和算法由不同的公司來做的方法,晶片的效率將會大打折扣,因此雲天勵飛是面向場景做協同設計和協同工作,為的就是讓AI的效果能夠達到預期。另外,算法公司要將算法移植到一個平臺上,必須經歷平臺的學習時間,這可能需要花費半年甚至一年的時間。」
據了解,為了加速開發者的進度,雲天勵飛不僅已經能夠提供配合晶片的硬體模組,還提供算法共享平臺ARCTERN,這個平臺自帶100種以上的算法,與Deepeye1000高度適配。並且這些算法還支持Android、Linux,它是一個非常開放的SDK。
基於雲天勵飛發布的晶片,他們還發布了晶片即服務-人工智慧「星雲」生態戰略,與海康威視、優必選科技、深圳超算中心、阿里巴巴平頭哥、TCL、京東、深圳巴士集團、邁德威視等8家首批合作夥伴,共同開啟「星雲」生態,加速AI向產業滲透。
雙11開放AI生態計劃
不過,雲天勵飛還有更遠大的目標。雲天勵飛首席科學家王孝宇提出了「雙11開放AI生態計劃」,他表示,雲天勵飛過去5年投入1億美金的研發成果,將共享給合作夥伴,致力於幫助合作夥伴解決AI開發周期長、投入大的問題, 「我們將本著降低AI門檻的目標,為合作夥伴提供『雙11』的AI開發能力,也就是說,我們將幫助合作夥伴在1周完成硬體、1周適配算法、1周對接服務,最終在1個月內完成AI能力的從無到有。」
雲天勵飛首席科學家王孝宇
王孝宇認為,AI大大規模應用有三個門檻,第一個是晶片成本太高,一塊GPU就需要幾千美金,二是算法需要投入大量的人力,三是雲服務需要大數據人才。
可以看到,雲天勵飛將AI晶片的成本從幾千美金降低到了10美金,且晶片功耗更低算力也足夠滿足邊緣應用需求,還提供了ARCTERN算法共享平臺。但還缺少雲服務,因此,雲天勵飛開發了雲服務平臺商簿Vesionbook,商簿家族由1 個大腦-AI數字商場大腦和1 個平臺-AI Campus場景管理平臺構成,支持30種以上的業務場景。主要的工作就是完成從終端到雲端的業務標準化。雲天勵飛把準化的協議叫做SIK(Service Integration Kit),通過幾條指令就可以和雲端通信,不需要再去開發。
王孝宇補充表示,如果客戶的業務場景沒有包含在這30種當中,還可以通過Open API構建自己開發定製化的場景。
既然場景定義定製,算法是否也可以定製?「我們和深圳超算聯合發布一套系統AIOS,它是無門檻一站式算法研發平臺,點擊滑鼠點擊就可以完成AI算法的研發,不僅可以把AI算法研發的成本從幾百萬降到一萬以下,還能把算法的研發周期降到一個月。」 王孝宇介紹。
AI應用零門檻
從晶片到工具鏈,從算法到場景,從晶片即服務到雙11開放AI生態計劃。雲天勵飛的更遠大的目標是讓AI應用零門檻。這個目標是可實現的嗎?雷鋒網認為雲天勵飛選擇的路徑值得期待。成立於2014年的雲天勵飛首先用過兩年時間打造了全球第一套動態人像識別系統,而後迅速產業化落地。如今雲天勵飛的視覺大腦在北京、上海、深圳、杭州等近100個城市都有產業化的落地,覆蓋了機場、地鐵、社區、大型商超、火車站等智慧城市的生活場景,也服務了G20、APEC、港珠澳大橋等一系列重要會議和重要工程。
人像識別系統更多的讓雲天勵飛深刻地了解了AI落地的場景,積累了算法能力,並且基於對場景和算法的理解開始晶片的自主研發。積累五年之後,以系統公司的方式為市場提供全棧的解決方案,這樣的能力既能夠服務有場景但是沒有技術積累的公司,也能夠服務有算法但沒有晶片的公司,通過全面、多樣的產品最大程度降低AI的落地門檻,可以看到,雲天勵飛在智能安防以及新商業領域取得了不錯的成績。
為滿足更多場景的需求並且提供穩定的計算平臺,李愛軍透露雲天勵飛的晶片將保持一年到一年半更新一代的速度,下一款AI晶片預計將會在2021年上半年推出。目前,Deepeye1000晶片選用的工藝能夠滿足工業市場的需求,未來也會應用在ADAS。
更長遠的未來,雲天勵飛也可能會推出雲端AI晶片。
雲天勵飛副總裁 晶片產品線負責人李愛軍
這樣的實力也是雲天勵飛能夠成為唯一一家企業能夠承擔科技創新2030「新一代人工智慧」重大項目的關鍵。雲天勵飛還獲得了國家科技部、發改委、工信部三大部委人工智慧晶片重大項目「大滿貫」!
雷鋒網小結
站在5G商用的元年,5G和AI將會帶來許多意想不到的應用,但可以遇見的是新的應用將會對晶片的算力提出更高的要求,而更重要的是能夠更加容易的落地。雲天勵飛Deepeye1000 AI晶片的推出,只是其全棧解決方案中核心的一部分,基於這個核心的能力,雲天勵飛可以構建具有足夠競爭力的AI解決方案,我們也期待AI應用零門檻的目標早日實現。