基於多年研發的CVKit™ NN IP的N1系列SoC晶片刷新了端側AI晶片性能記錄。領先的每TOPs處理幀數,實時數據流處理能力,支持高精度FP16神經網絡模型直接無損部署,高性能的INT8網絡支持能力,多級精細功耗控制,將端側AI晶片的能力提升到了一個新的高度。
01.單位算力下,誰能夠支撐更快更準的神經網絡推理,是衡量AI晶片性能的關鍵
對於AI應用和系統廠商而言,AI晶片是其核心元器件,是人工智慧的基礎設施,其重要性不言而喻。 每個應用和系統廠商都在尋找在性能、功耗、成本等方面綜合因素下合用的AI晶片。 評估AI晶片是否適合使用往往從每元錢能獲得的性能、每度電能獲得的性能、部署實施的成本、元器件是否穩定可靠等幾個方面來衡量。其中,晶片廠商宣稱的每TOPs(Tera operations per second)的算力對應的實際每秒計算多少幀數據(例如圖片或者視頻),以及算法從訓練到部署的轉換中對精度的保持成為關鍵。每秒計算多少幀數據的能力,決定了應用和系統廠商能以什麼樣的性價比來部署AI算法;算法從訓練到部署的數據類型轉換帶來精度損失,決定了應用和系統廠商算法部署前的數據投入(比如如何增加數據來儘量覆蓋數據類型轉換所帶來的損失從而保持精度)、和部署後的實際效果。
肇觀電子作為2016年成立的AI晶片領域第一梯隊企業,其團隊在晶片、數學、算法等方面深耕多年,一直潛心研發核心技術,已獲60餘件國內外專利授權。
02.AI 晶片性能,「又快又準」是主要指標
AI應用和系統的客戶對於AI晶片實際的深度神經網絡處理能力有著明確需求。對於系統性能而言,「又快又準「是其主要指標。「快」主要取決於晶片的每秒計算能力。晶片是個複雜系統,由於各種因素,晶片的理論計算能力和實際能達到的計算能力之間往往存在差距。 如何能夠在單位成本和單位功耗下最優地支持神經網絡模型的各種神經層的不同數據類型並使得客戶的模型部署的精度損失最小,體現出不同公司之間的技術水平的差異。綜合來看,客戶可感知、利用、發揮的晶片性能是整個系統的性能的關鍵因素。
根據不同算法網絡的測試結果,N161晶片每TOPS算力下每秒可推理圖片的數量展示出了業界領先的水平。同時,N161還支持FP16高精度網絡,同樣展示出強悍的性能。
在INT8精度下,N161跑各項網絡可以達到的每秒幀數
在FP16的精度下,N161跑各項網絡可以達到的每秒幀數
針對五種算法網絡,N161晶片與某業界旗艦晶片的運行結果對比
「準」主要取決於晶片對於算法中的神經網絡模型的各種神經層的不同數據類型的支持,支持能力方面的差異帶來模型部署的精度損失方面的差異。客戶的算法從模型的訓練到模型的部署的數據類型轉換所導致的精度損失往往十分昂貴。比如在無人零售設備的應用中,如果物體識別算法在實際運行中有1%的精度下降,會直接導致貨損率的上升以及運營成本的增加。
根據各種不同網絡的測試結果,N161 INT8量化網絡幾乎無精度損失(1%以內)。
採用1000張imagenet數據測試
基於對應用的深刻理解和長時間的技術積累,肇觀電子創新的CVKIT™ NN IP在諸多方面遙遙領先,並已部署至N1系列晶片,以及D163(3D視覺)、V163(車載)晶片。
03.Infer Studio™解決「算法落地難」問題
人工智慧落地的挑戰,一方面在於整個產業鏈亟待在性能、成本、功耗等方面合用的上遊核心晶片來破局;另一方面在於算法部署實施至具體應用所需知識技能過於專業而導致的綜合成本高昂。人工智慧等相關領域的人才,由於稀缺,其薪酬水平較高已是業界共識;既懂AI算法又懂硬體部署的人才更為缺乏,這導致很多應用和系統廠商的開發能力較為欠缺,落地較慢。不僅是各個中小企業面對這一挑戰,大廠也往往面對高薪招不到合用的人才的問題。人工智慧落地成本高昂,是業界公認的一個突出問題。
為了解決「算法落地難」的問題,肇觀電子發布了「5分鐘部署」的AI應用開發平臺Infer Studio™,助力算法快速商用。Infer Studio™能夠將算法「翻譯」成晶片能讀懂的表述文件,並快速部署,這種「一鍵式」開發體驗顯著地提高了開發者的效率。 Infer Studio™支持TensorFlow / TensorFlow Lite / ONNX / Caffe這些主流框架,開發者可以自由選擇訓練框架。從功能上來說,在軟體層Infer Studio™ 具有 Model Visualization 可視化模型、Compiler 編譯器、Evaluator 效果評估器、Debugger 調試器四種功能。
Infer Studio™ 操作平臺
不同於算法表現出來的精彩效果,算法網絡在PC端呈現出來的是一連串晦澀難懂的二進位數據和無數層的文本描述。然而Model Visualization可視化模型卻可以將這些描述轉換成網絡圖,便於開發者直觀地分析網絡的結構和屬性。
Compiler編譯器 可支持將客戶基於主流AI框架開發出來的算法,包括Caffe,Tensorflow,Tensoflow Lite,ONNX等,轉換成晶片可以理解的表述文件。同時Compiler還能完成Weight Compression的功能,進一步精簡算法模型大小,使其真正部署到存儲空間有限的端設備,提升了網絡推理性能。同時,編譯器也支持算子融合,預編譯等優化選項,進一步將推理性能提升至硬體的極限
一套在PC端運行強大的算法如何確保在晶片上也能快速呈現效果?Evaluator 評估器可以幫助客戶快速評估結果是否正確,性能是否能被發揮出來。通過Infer Studio™的Evaluator功能,客戶可以一鍵式將模型部署在設備上,全面透徹的看到運行結果,同時對分類,檢測分割等網絡在測試圖片中可視化呈現算法效果。
為了高效分析算法移植過程中可能遇到的偏差和兼容性問題,Infer Studio™ 的Debugger調試器能夠按層調試,隨時發現錯誤。客戶可以導出算法運行中的每一層數據,跟原本算法中的每一層數據做對比,便於隨時調試,找出錯誤。
04.Infer Studio™ 的行業落地應用
客戶的方案在算法移植驗證以後,是否也能在產品層面快速部署,正常運行?與Infer Studio™ 配套的SDK可以通過積木搭建的方式快速構建多媒體pipeline,並將算法模型靈活嵌入到pipeline中。
例如,一個經典的AI應用是:VI (Video Input) 從攝像頭外部接入原始數據,這些數據經過ISP模塊轉換成YUV格式,一路傳輸到Encoder進行編碼,並輸出。另一路ISP輸出的數據傳輸到CNN引擎運行各種AI算法。AI應用中各個功能模塊之間有著靈活的數據流向構建方式;通過模塊間Bind(一種數據建立的方法)的方式,客戶可以更靈活的根據自己的應用需求,組合功能模塊,完成應用部署落地。
客戶也可以自由刪除某些模塊,替換或者增加某些算法模塊。所有這些pipeline搭建工作都可以通過可視化或者幾行配置代碼來實現。將AI算法開發到產品落地的時間壓縮到極限。對於典型的AI應用,物體分類,人臉/車輛檢測,物體分割等應用,從算法編譯到應用部署,5分鐘內即可完成。
目前,Infer Studio™ 在諸多客戶的項目中作為日常使用的重要工具,得到了普遍認可和好評。
例如:在一個監測司機是否在說話、瞌睡、打電話的車載項目中,工程師需要檢測眼部的狀態來判斷司機是否在走神或者瞌睡,檢測耳朵旁邊是否有電話,等等。客戶原本需要一個星期甚至更久才能讓這套算法在晶片上跑起來,但是結合了Infer Studio™之後, 對多個神經網絡進行硬體加速,對神經網絡的前後處理再結合計算機視覺加速單元 CV Accelerator裡的內置算子來完成,使得該算法迅速完成編譯並在平臺上高性能跑起來。
肇觀電子的Infer Studio™是目前市面上罕見的的人工智慧算法的硬體移植和部署開發平臺,在提高人工智慧算法的落地效率、降低部署實施成本方面實效顯著,受到下遊廠商的廣泛好評。
05.結語
人工智慧技術所賦予時代的意義,往往短期被高估,長期被低估。作為AI晶片設計領域的核心公司之一的肇觀電子,不僅在晶片核心技術上不斷突破,還為客戶提供 「一鍵式」 配套開發工具。 這不僅促進了客戶的解決方案在應用場景中的部署,也推動了整個人工智慧行業的發展。
責任編輯:劉佳菲