肇觀電子刷新端側AI晶片性能記錄並發布「5分鐘部署」AI開發平臺

2020-12-28 慧聰網

基於多年研發的CVKit™ NN IP的N1系列SoC晶片刷新了端側AI晶片性能記錄。領先的每TOPs處理幀數,實時數據流處理能力,支持高精度FP16神經網絡模型直接無損部署,高性能的INT8網絡支持能力,多級精細功耗控制,將端側AI晶片的能力提升到了一個新的高度。

01.單位算力下,誰能夠支撐更快更準的神經網絡推理,是衡量AI晶片性能的關鍵

對於AI應用和系統廠商而言,AI晶片是其核心元器件,是人工智慧的基礎設施,其重要性不言而喻。 每個應用和系統廠商都在尋找在性能、功耗、成本等方面綜合因素下合用的AI晶片。 評估AI晶片是否適合使用往往從每元錢能獲得的性能、每度電能獲得的性能、部署實施的成本、元器件是否穩定可靠等幾個方面來衡量。其中,晶片廠商宣稱的每TOPs(Tera operations per second)的算力對應的實際每秒計算多少幀數據(例如圖片或者視頻),以及算法從訓練到部署的轉換中對精度的保持成為關鍵。每秒計算多少幀數據的能力,決定了應用和系統廠商能以什麼樣的性價比來部署AI算法;算法從訓練到部署的數據類型轉換帶來精度損失,決定了應用和系統廠商算法部署前的數據投入(比如如何增加數據來儘量覆蓋數據類型轉換所帶來的損失從而保持精度)、和部署後的實際效果。

肇觀電子作為2016年成立的AI晶片領域第一梯隊企業,其團隊在晶片、數學、算法等方面深耕多年,一直潛心研發核心技術,已獲60餘件國內外專利授權。

02.AI 晶片性能,「又快又準」是主要指標

AI應用和系統的客戶對於AI晶片實際的深度神經網絡處理能力有著明確需求。對於系統性能而言,「又快又準「是其主要指標。「快」主要取決於晶片的每秒計算能力。晶片是個複雜系統,由於各種因素,晶片的理論計算能力和實際能達到的計算能力之間往往存在差距。 如何能夠在單位成本和單位功耗下最優地支持神經網絡模型的各種神經層的不同數據類型並使得客戶的模型部署的精度損失最小,體現出不同公司之間的技術水平的差異。綜合來看,客戶可感知、利用、發揮的晶片性能是整個系統的性能的關鍵因素。

根據不同算法網絡的測試結果,N161晶片每TOPS算力下每秒可推理圖片的數量展示出了業界領先的水平。同時,N161還支持FP16高精度網絡,同樣展示出強悍的性能。

在INT8精度下,N161跑各項網絡可以達到的每秒幀數

在FP16的精度下,N161跑各項網絡可以達到的每秒幀數

針對五種算法網絡,N161晶片與某業界旗艦晶片的運行結果對比

「準」主要取決於晶片對於算法中的神經網絡模型的各種神經層的不同數據類型的支持,支持能力方面的差異帶來模型部署的精度損失方面的差異。客戶的算法從模型的訓練到模型的部署的數據類型轉換所導致的精度損失往往十分昂貴。比如在無人零售設備的應用中,如果物體識別算法在實際運行中有1%的精度下降,會直接導致貨損率的上升以及運營成本的增加。

根據各種不同網絡的測試結果,N161 INT8量化網絡幾乎無精度損失(1%以內)。

採用1000張imagenet數據測試

基於對應用的深刻理解和長時間的技術積累,肇觀電子創新的CVKIT™ NN IP在諸多方面遙遙領先,並已部署至N1系列晶片,以及D163(3D視覺)、V163(車載)晶片。

03.Infer Studio™解決「算法落地難」問題

人工智慧落地的挑戰,一方面在於整個產業鏈亟待在性能、成本、功耗等方面合用的上遊核心晶片來破局;另一方面在於算法部署實施至具體應用所需知識技能過於專業而導致的綜合成本高昂。人工智慧等相關領域的人才,由於稀缺,其薪酬水平較高已是業界共識;既懂AI算法又懂硬體部署的人才更為缺乏,這導致很多應用和系統廠商的開發能力較為欠缺,落地較慢。不僅是各個中小企業面對這一挑戰,大廠也往往面對高薪招不到合用的人才的問題。人工智慧落地成本高昂,是業界公認的一個突出問題。

為了解決「算法落地難」的問題,肇觀電子發布了「5分鐘部署」的AI應用開發平臺Infer Studio™,助力算法快速商用。Infer Studio™能夠將算法「翻譯」成晶片能讀懂的表述文件,並快速部署,這種「一鍵式」開發體驗顯著地提高了開發者的效率。 Infer Studio™支持TensorFlow / TensorFlow Lite / ONNX / Caffe這些主流框架,開發者可以自由選擇訓練框架。從功能上來說,在軟體層Infer Studio™ 具有 Model Visualization 可視化模型、Compiler 編譯器、Evaluator 效果評估器、Debugger 調試器四種功能。

Infer Studio™ 操作平臺

不同於算法表現出來的精彩效果,算法網絡在PC端呈現出來的是一連串晦澀難懂的二進位數據和無數層的文本描述。然而Model Visualization可視化模型卻可以將這些描述轉換成網絡圖,便於開發者直觀地分析網絡的結構和屬性。

Compiler編譯器 可支持將客戶基於主流AI框架開發出來的算法,包括Caffe,Tensorflow,Tensoflow Lite,ONNX等,轉換成晶片可以理解的表述文件。同時Compiler還能完成Weight Compression的功能,進一步精簡算法模型大小,使其真正部署到存儲空間有限的端設備,提升了網絡推理性能。同時,編譯器也支持算子融合,預編譯等優化選項,進一步將推理性能提升至硬體的極限

一套在PC端運行強大的算法如何確保在晶片上也能快速呈現效果?Evaluator 評估器可以幫助客戶快速評估結果是否正確,性能是否能被發揮出來。通過Infer Studio™的Evaluator功能,客戶可以一鍵式將模型部署在設備上,全面透徹的看到運行結果,同時對分類,檢測分割等網絡在測試圖片中可視化呈現算法效果。

為了高效分析算法移植過程中可能遇到的偏差和兼容性問題,Infer Studio™ 的Debugger調試器能夠按層調試,隨時發現錯誤。客戶可以導出算法運行中的每一層數據,跟原本算法中的每一層數據做對比,便於隨時調試,找出錯誤。

04.Infer Studio™ 的行業落地應用

客戶的方案在算法移植驗證以後,是否也能在產品層面快速部署,正常運行?與Infer Studio™ 配套的SDK可以通過積木搭建的方式快速構建多媒體pipeline,並將算法模型靈活嵌入到pipeline中。

例如,一個經典的AI應用是:VI (Video Input) 從攝像頭外部接入原始數據,這些數據經過ISP模塊轉換成YUV格式,一路傳輸到Encoder進行編碼,並輸出。另一路ISP輸出的數據傳輸到CNN引擎運行各種AI算法。AI應用中各個功能模塊之間有著靈活的數據流向構建方式;通過模塊間Bind(一種數據建立的方法)的方式,客戶可以更靈活的根據自己的應用需求,組合功能模塊,完成應用部署落地。

客戶也可以自由刪除某些模塊,替換或者增加某些算法模塊。所有這些pipeline搭建工作都可以通過可視化或者幾行配置代碼來實現。將AI算法開發到產品落地的時間壓縮到極限。對於典型的AI應用,物體分類,人臉/車輛檢測,物體分割等應用,從算法編譯到應用部署,5分鐘內即可完成。

目前,Infer Studio™ 在諸多客戶的項目中作為日常使用的重要工具,得到了普遍認可和好評。

例如:在一個監測司機是否在說話、瞌睡、打電話的車載項目中,工程師需要檢測眼部的狀態來判斷司機是否在走神或者瞌睡,檢測耳朵旁邊是否有電話,等等。客戶原本需要一個星期甚至更久才能讓這套算法在晶片上跑起來,但是結合了Infer Studio™之後, 對多個神經網絡進行硬體加速,對神經網絡的前後處理再結合計算機視覺加速單元 CV Accelerator裡的內置算子來完成,使得該算法迅速完成編譯並在平臺上高性能跑起來。

肇觀電子的Infer Studio™是目前市面上罕見的的人工智慧算法的硬體移植和部署開發平臺,在提高人工智慧算法的落地效率、降低部署實施成本方面實效顯著,受到下遊廠商的廣泛好評。

05.結語

人工智慧技術所賦予時代的意義,往往短期被高估,長期被低估。作為AI晶片設計領域的核心公司之一的肇觀電子,不僅在晶片核心技術上不斷突破,還為客戶提供 「一鍵式」 配套開發工具。 這不僅促進了客戶的解決方案在應用場景中的部署,也推動了整個人工智慧行業的發展。

責任編輯:劉佳菲

相關焦點

  • 2020最強終端AI加速晶片Top10排行榜
    隨著行業竭力尋求最佳方法來加速人工智慧性能以適應尖端神經網絡的要求,世界各地湧現了許多新興公司,通過跟蹤美國、歐洲和亞洲的大約60家AI晶片初創公司,為如何最好地實現這一目標提出了新思路。
  • 全球三十大最佳 AI 創業公司公布
    10、H2O.ai H2O.ai 成立於 2011 年,為開發人員和創業公司提供預測分析的深度學習平臺。平臺可用於智能家電、自駕車、智能助手等領域的應用開發,其產品支持理賠處理、信用評分、欺詐檢測、運營智能和預測性維護。2017 年,H2O.AI 發布了 Driverless AI,這項產品可以實現機器學習流程高度自動化,對非技術型的終端用戶同樣適用。
  • 亂戰中的AI晶片,創新與隱患誰更突出?
    鑑於這種優勢,邊緣AI晶片市場的增長非常顯著——2017年,市場才出現第一款商用企業邊緣AI晶片,據德勤預計,2020年,邊緣AI晶片銷量將超過7.5億個。 2018年,全球人工智慧晶片市場規模為66.4億美元,預計未來幾年將大幅增長,到2025年將達到911.9億美元,年複合增長率為45.2%。因此,許多公司都在努力開發人工智慧晶片。
  • 創維ai晶片電視怎麼樣 創維ai晶片電視優勢介紹【詳解】
    近幾年AI技術是被很多人提起的話題,為了讓人們真正感受到它的神奇,很多品牌會將其運用在自家產品上,其中創維新推出的ai電視就是運用了這一項科技,在發布會當天就引起了人們的極大興趣,這是一次跨越性的挑戰,意味著電視再一次進入了換新的時代。
  • 三星將推首款AI晶片NPU,性能超華為蘋果,智能終端AI芯大PK
    據《韓國先驅報》網站報導,三星電子已經基本完成第一款神經處理單元(NPU)的開發工作,準備在今年晚些時候部署到設備上。NPU被廣泛稱為AI晶片,據稱三星將在即將發布的智慧型手機上搭載這款晶片,此舉有助於其手機趕超競爭對手。「據三星內部人士爆料,三星已經基本完成了伺服器AI晶片的開發工作,預計該晶片將出售給伺服器廠商。」一名AI專家告訴《韓國先驅報》。
  • 華為重磅開源全場景AI計算框架MindSpore!計算視覺研究成果及新...
    至此,華為在2018年全聯接大會上發布的全棧全場景AI解決方案,已面向開發者全面落地。此外,華為全面分享在計算視覺領域的基礎研究成果,全球開發者可通過公開發表的論文及開原始碼,進一步開展AI的研究、開發和部署。同時,華為發布計算視覺研究計劃(以下簡稱視覺計劃),並邀請全球AI專家參與研究。
  • 完美體現華為麒麟810晶片的超強實力 升級版AI跑分高達41838分
    近日,知名跑分網站 ai-benchmark 上公布了麒麟 820 晶片的 AI 跑分,高達 41838 分,僅次於麒麟 990 5G 與聯發科的天璣 1000,排在第三位。據悉,麒麟 820 5G SoC 晶片,在「一代神 U」麒麟 810 的基礎上再次升級:強勁 8 核 CPU 性能提升 27%、新架構 GPU 圖形能力提升 38%、新升級 NPU AI 性能提升 73%。值得注意的是,麒麟 820 採用麒麟 990 同款 Kirin ISP 5.0,支持 BM3D 單反機圖像降噪和視頻雙域降噪。
  • 用於端點AI加速的10大處理器
    4uEedncMyriad X可用於第二代英特爾神經計算棒(NCS2),NCS2實際上是外形跟U盤一樣的評估平臺。它可以插入任何工作站,使AI和計算機視覺應用能夠快速啟動並在專用的Movidius硬體上運行。
  • 發布新一代NNP晶片外,英特爾AI軟體和應用更透露其AI野心
    雷鋒網消息,美國時間5月23日,會議上,英特爾副總裁、AI事業部(AIPG)負責人Naveen Rao介紹了英特爾AI的最新進展:英特爾至強處理器的性能有了進一步的提升,發布了新一代專為機器學習設計的神經網絡處理器(NNP)晶片——Nervana NNP-L1000 (Spring Crest);介紹了nGRAPH平臺、BigDL大數據開源平臺、OpenVINO等開源軟體工具;展示了用
  • 夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地
    安全生產監控方案 視頻分析邊緣計算盒 EM-BOX 全新升級,上新5項分析功能除安全帽佩戴合規檢測、煙火檢測、電子圍欄外,支持技能增加:陌生人檢測、攀高檢測、睡崗檢測、離崗檢測、人流過密預警。充分利舊現有攝像頭,即插即用,提供可視化管理平臺,支持二次開發。
  • 阿里發布機器學習平臺PAI2.0,Hinton帶頭在加拿大設立「向量學院...
    阿里發布機器學習平臺PAI2.0;繼小冰、小娜、Rinna、Tay、Zo之後,微軟再推全新聊天機器人Ruuh;吳恩達妻子Carol Reiley稱,吳恩達不會加入Drive.ai;任正非談人工智慧應用,警告不要遍地智能化,否則滿盤皆輸;60秒慢棋賽制「電聖戰」,騰訊「絕藝」戰勝日本新銳棋手一力遼;百度IDL最新成果:從自然語言入手,教AI智能體像人類一樣學習;騰訊優圖刷新人臉識別新高度。
  • 浪潮重磅升級AI開發平臺AIStation 全面開放生態夥伴產品對接能力
    近日,浪潮重磅升級人工智慧開發平臺AIStation3.0,打造更加完善和快捷的生態夥伴產品對接能力,實現與元腦生態夥伴的多元化AI開發工具、模型算法與解決方案無縫對接、融合,推動AI應用在實際生產環境中的敏捷開發、快速部署與持續創新。
  • 從帝國理工走出的中國AI晶片新秀,造出全球首款量產數據流AI芯!
    芯東西(ID:aichip001)文 | 心緣不知是否疫情使然,相較去年人工智慧(AI)晶片領域熱火朝天的發布潮,從今年開年至今,鮮少有國內AI晶片玩家發布新產品。而談及AI晶片,人們也不再局限於只看峰值性能和最大功耗,關注重心逐漸回歸到需求本身:能落地哪些場景?好不好用?使用壽命有多長?物理成本夠不夠低?
  • 汽車AI晶片創業公司地平線,是如何實踐軟體定義汽車的?
    地平線作為全球第一家新興汽車AI晶片公司,從量產落地到新品開發都取得了階段性的成果,在其2020北京車展的發布會上有四大亮點。 亮點一:產品性能行業領先,算力能耗比媲美特斯拉。發布會主角 「徵程3」是地平線車載AI晶片的進一步迭代。
  • 看懂未來十年AI晶片趨勢!GTIC 2020 AI晶片創新峰會成功舉行
    壁仞科技聯合創始人、總裁徐凌傑在現場談到,公司首款同時支持AI訓練和推理的晶片產品開發進展順利,預計將在明年正式流片。壁仞科技的晶片優勢在於以指令集為主要基本架構,以通用型為根本的同時,在專用領域做深耕和優化,並融合各種各樣的架構優點。同時,晶片支持通用、無邊場景、高度並行、虛擬部署、模塊混合、靈活擴展等特徵,也是壁仞科技正在踐行的方向。
  • AI晶片「點燃」北京!GTIC 2020 AI晶片創新峰會大咖演講全乾貨
    壁仞科技的晶片優勢在於以指令集為主要基本架構,以通用型為根本的同時,在專用領域做深耕和優化,並融合各種各樣的架構優點。同時,晶片支持通用、無邊場景、高度並行、虛擬部署、模塊混合、靈活擴展等特徵,也是壁仞科技正在踐行的方向。
  • 地平線:用AI晶片驅動智能汽車 - 新聞詳情 - 買車網
    這也就意味著,特斯拉能夠實現軟硬解耦,最大效率地利用底層硬體資源,提供開放式軟體平臺,之後可以僅通過軟體升級來不斷提高產品體驗。 相比於OTA,特斯拉更為激進的,則在於他的自動駕駛。 10月22日,馬斯克發布推特稱,自動駕駛計算平臺FSD beta版將於晚上發布,但僅限於少部分用戶。
  • 超越英偉達的,不會是另一款GPU——鯤雲數據流架構AI晶片利用率...
    pJQednc超高晶片利用率,定製數據流晶片架構完成3.0升級pJQedncCAISA 定製數據流晶片架構,相較於上一代晶片架構,CAISA3.0在架構效率和實測性能方面有了大幅的提升,並在算子支持上更加通用,支持絕大多數神經網絡模型快速實現檢測、分類和語義分割部署。
  • 瑞芯微技術大牛邱建斌37頁PPT詳解Toybrick AI開發平臺及其在嵌入...
    在本次講解中,邱建斌老師首先從嵌入式AI的發展現狀與挑戰入手,介紹了兩款Toybrick AI開發平臺主要在用的兩款晶片及在平臺部署的優勢,最後介紹了後續的產品規劃。今天分享的主題為《AI開發平臺如何幫助嵌入式開發者加速應用產品化落地》,主要分為以下4個部分:1、嵌入式AI的發展現狀與挑戰2、Toybrick AI開發平臺解析3、Toybrick系列在嵌入式視覺應用高效開發與部署上的優勢4、Toybrick的後續產品規劃
  • 區塊鏈第一股的AI晶片生意
    端側還沒有一家主導的公司,並且端側AI與礦機晶片都是對成本、功耗和性能都有極限要求,我們晶片設計的優勢在端側AI晶片上可以很好地發揮出來。」讓人有些意外的是,嘉楠科技2016年啟動AI晶片項目時就決定使用RISC-V指令集。