閱面科技合伙人兼CTO童志軍29頁PPT深入講解面向嵌入式設備的...

2020-12-22 智東西

出品 | 智東西公開課講師 | 童志軍 閱面科技合伙人&CTO提醒 | 點擊上方藍字關注我們,並回復關鍵詞 嵌入式04,即可獲取課件。

導讀:

4月17日,閱面科技合伙人&CTO童志軍在智東西公開課進行了嵌入式AI合輯第四講的直播講解,主題為《面向嵌入式設備的輕量級神經網絡模型設計》。

在本次講解中,童志軍老師從神經網絡模型在嵌入式設備運行的挑戰、神經網絡模型從「特徵驅動」、「數據驅動」、「精度優先」到「速度優先」等不同階段的發展歷程,並通過實際案例解讀如何在嵌入式設備上實現神經網絡模型的高效部署和運行。

本文為此次課程主講環節的圖文整理:

正文:

大家好,我是閱面科技合伙人&CTO童志軍,很高興能在智東西公開課和大家一起分享今天的課題。我今天分享的主題為《面向嵌入式設備的輕量級神經網絡模型設計》,主要分為以下4個部分:

1、神經網絡模型在嵌入式設備運行的挑戰2、從「特徵驅動」到「數據驅動」的大型神經網絡模型設計3、從「精度優先」到「速度優先」的輕量級神經網絡模型設計4、在嵌入式設備實現神經網絡模型的高效部署與運行

神經網絡模型在嵌入式設備運行的挑戰

目前,在所看見的嵌入式設備上,很大一部分會有AI的算法的身影。在我們身邊也有很多應用,比如刷臉解鎖手機、刷臉支付、家用的攝像頭,或馬路上隨處可見的公共安防攝像頭等。

嵌入式設備在我們身邊無孔不入,這些設備分為兩種,一種是只做視頻的抓取沒有計算,只是把視頻傳到後臺伺服器,然後做分析;另一種是設備上會帶有AI計算能力,一些算法會在前端設備上去計算,然後把計算得到的結構化數據再傳到後端伺服器去做進一步分析。

上圖左邊列舉了一些主流的神經網絡模型,包括計算量及參數量,相應在Imagenet公開數據集上Top-1的精度。上圖橫坐標代表的是計算的浮點計算量,然後縱坐標是精度。可以看到神經網絡模型的精度與模型的計算量成正比,隨著模型計算量越來越大,精度也越來越高。

但也可以看到,網絡模型的精度與模型的參數量是沒有完全呈正比。比如VGG網絡,它的參數量很大,但是精度不是特別高。在嵌式設備上運行神經網絡,首先要求模型的精度要非常高,只有模型的精度達到一定的準確率才能滿足人們實際使用的需求。由於嵌入式設備的功耗、存儲及計算資源都非常有限,如何在有限的計算資源下把高精度的模型運行為實時動態的效果是非常重要的,這裡會涉及到算法、算力及數據幾個層面的優化,今天主要與大家探討在算法層面,更確切的是在網絡設計的層面如何解決?

從「特徵驅動」到「數據驅動」的大型神經網絡模型設計

首先回顧下大型的神經網絡模型的發展脈絡,其實卷積神經網絡很早就出現, LeNet-5很早在美國郵政的數字識別上已經得到很好的應用。但後來並沒有得到更多的推廣,沉默了10年,10年內主流的一些視覺分析的方法還是手工特徵。

對於手工特徵,大家比較熟悉的是SIFT特徵,它是在x方向跟y方向去提取梯度圖,然後把每一個像素的梯度圖按照一定的角度區間各自去做梯度方向的投影,最終得到128位的描述子。如果把這個問題換一個角度來思考,可以發現 SIFT特徵的生成過程,可以等效是一個卷積層和一個pooling層。

上圖可以看到它的8個方向的梯度,代表的是輸出Channel為8,kernel大小為1*1的卷積,輸入是x方向跟y方向的梯度流。對於 x方向跟y方向的圖,等效成一個2*8*1*1的卷積操作,後面再接了一個8*8*4*4的Pooling層,最終得到一個兩層的神經網絡結構。

隨著特徵描述的發展,逐漸從底層的特徵設計發展到中層特徵設計。中層特徵設計比較典型的是Fisher Vector,它在圖像搜索的方面應用的非常廣泛。Fisher Vector特徵首先對圖像做特徵提取,然後基於GMM模型對特徵做進一步的編碼,編碼得到的特徵,再通過空間卷積得到在不同的尺度空間上的特徵描述。用現在的神經網絡結構的方式去看,可以等效為一個SIFT特徵提取過程,加一個編碼層和一個Pooling層,即為一個四層的神經網絡結構。4層的網神經網絡結構比兩層的神經網絡精度會更高,特徵也更抽象,表達能力更強。

到2010年時,李飛飛教授帶領的一幫學者整理了一個非常大型的數據集-Imagenet,這個數據集有1000類,大概120萬張圖片,這個數據集的出現是神經網絡得到飛速發展的基石,掀起了整個AI界的軍備競賽。

時間到了2012年,ImageNet比賽冠軍提出來一個新的網絡AlexNet。它由5個卷積層,3個全連接層。另外由於當時GPU顯存的限制,把網絡的卷積分成分組的形式,使得網絡能夠在 GPU有限的情況下運行起來,裡面還有drop out的技巧等。AlexNet開創了神經網絡結構的一個新河,在此之後,工業界的人開始相信深度學習是有效的,可以產生一些有價值的東西,而不僅是學術界的一個玩具。

2014年,出現了VGG和GoogleNet兩種不同的網絡結構,兩個網絡其實都是在不同層面對網絡去建模。在早期,AlexNet出現之後,在調網絡的時候發現一種很奇怪的現象,當把層數往上堆時,很容易出現梯度彌散的效應。如何把網絡做深,在當時一直沒有得到很好的解決。

VGG跟GoogleNet做的網絡都接近20層左右,這是一個突破,這裡也是使用了一些技巧,比如 GoogleNet是在層中間插入 loss的監督, 然後在block的設計上引入了一些技巧,通過這種多尺度的卷積核,提取圖像上的多尺度的信息。其實尺度是一個非常重要的因素。另外逐層的 finetuning,在VGG用的比較多,還引入了連續兩個3×3的卷積核去模擬5×5的感受野,它使得網絡可以做得更深,精度做得更高。

2015年,微軟亞洲研究員何凱明設計的殘差網絡,把神經網絡從20層提升到幾百層。可以看到網絡層數越來越深,而且網絡的寬度也越來越寬,當然最終的精度也是非常高。

上圖為ImageNet分類Top5錯誤率圖,可以看到網絡的精度隨著層數逐漸增加越來越高,網絡結構也在不斷創新。

從「精度優先」到「速度優先」的輕量級神經網絡模型設計

自2015-2016年之後出現網絡模型有往端上發展的趨勢,如何把神經網絡模型在終端上跑得更快,是演變的一個趨勢,也就是模型的設計從精度優先到後來的速度優先。

我們可以簡單分析下神經網絡模型的計算量,可以看到一般的神經網絡模型,大部分都是由卷積層組成,卷積層在裡面的計算量佔到了80%以上,卷積的計算示意圖如上圖所示,計算複雜度為N*M*H*W*K*K。

輕量級的神經網絡模型所做的工作,就是圍繞著計算複雜度,把裡面的一些參數儘量的減小,使得計算量能夠降低。計算量在嵌入式設備上體現最明顯的是它的速度。如何在優化計算複雜度的同時保證模型的高精度,就是下面一些主流的神經網絡模型設計所做的工作。

最開始比較有代表性的一個網絡是SqueezeNet網絡,它有兩個特點,先用1×1的卷積核做通道壓縮,然後把1×1與3×3的卷積核並排,使得卷積核可以更小。也就是通過減小通道數以及卷積核大小降低模型的計算量,使得模型可以推理的更快。

第二個是MobileNet網絡和ShuffleNet網絡,MobileNet網絡用到一個比較重要的點是Depthwise卷積,也是把原來稠密的卷積N*M的計算量,直接優化為N的計算量。ShuffleNet網絡借鑑了 MobileNet網絡一些點,比如Depthwise卷積,當應用Depthwise卷積後,發現整個神經網絡計算量更多是在1×1的卷積上,這時就可以把1×1卷積去做一個通道Shuffle分組,分組之後做通道卷積,使得它能夠在3×3上再進一步的融合,可以看到大家更多的是把卷積由原來的稠密卷積變成通道的卷積。

最近的神經網絡是模型搜索NAS,這方面有很多的輕量級的網絡結構,但是沒有把它應用到嵌入設備上,為什麼?因為 NAS搜索出來的網絡規律性比較差,對嵌入式設備不是很友好。實際應用更多的還是停留在MobileNet網絡這種比較直線型的網絡上去優化。

後來有一個EfficientNet網絡結構,它的想法比較綜合,把網絡計算量的幾個因素同時去做一個聯合搜索優化,比如網絡的層數,或者圖像的feature map的長寬,以及計算複雜度中提到的N、M、K,去做一個統一的建模,通過增強學習去搜索最優解。另外,網絡結構也做一些重複的堆疊,相對非常有規律,對整個嵌入式設備還是非常友好的。

在嵌入式設備實現神經網絡模型的高效部署與運行

首先看下整體的加速框架,這裡面大概包含了閱面所做的一些工作,左邊是訓練端,主要做了模型的通道剪枝、模型蒸餾和量化訓練的工作,右邊是在嵌入式設備上做模型的轉換,以及卷積運算算子的優化,使得我們的模型可以在一些硬體層面快速的跑起來。

第一個是通道剪枝,剪枝包括稀疏化等,但對嵌入式設備不是很友好,因為稀疏化剪枝得到的模型沒有規律,讓內存的取值變得隨機,使得設備速度跑不起來。後來通道剪枝可以得到規則模型,使得剪完之後的模型能夠復用以前的計算引擎,這方面更多的是基於一些規則,比如選取響應最大卷積核或選一些方差比較大的卷積核,對卷積核建模,通道壓縮率也可以通過強化學習的方法去反覆搜索,最終得到最優的結果。

通道剪枝主要針對MobileNetV2和 EfficientNet這類網絡,可以看到當模型從原來的200-300M的計算規模,到後來100M以下,其精度下降在一個可以接受的範圍內,這樣的模型可以在檢測或者是識別任務上得到很好的使用。

第二是模型蒸餾,最早主要是體現在loss設計上,比如 Student模型去學習Teacher模型的樣本分布,最終來提高Student模型的精度。以Margin為例,Margin在細粒度分類上用的比較多。通過Student模型去學習Teacher模型的Margin分布,使得Student模型的精度得到非常大的提升。

上圖為訓練人臉識別網絡,第一行是 Teacher模型的精度,第二行是Student模型的一個baseline ,第三行是用模型蒸餾的方法產生的Student模型的記錄,可以看到訓練出的 Student模型的精度,是介於Teacher模型跟Student模型之間,而且比較接近Teacher模型的精度,相對於baseline有非常大的提升。

第三塊是量化訓練,為什麼要做量化訓練?模型量化會帶來很多好處,最常見的比如可以把模型的存儲量,從原來的FP32減到INT16或INT8,直接減掉一半或1/4。另一點是做量化之後,使得模型做並行加速,比如同樣一個指令周期,原來可以操作1個浮點數,現在可以同時操作2個INT16或4個INT8,使得數據的吞吐量提升,這也是一種提速。

它的流程如下:首先會收集前向的數據集,然後對網絡做統計,統計分為兩部分,一個是模型的 weight做最大最小或者 kr散度分布上的統計,另一個是對模型的輸入輸出做統計,從而可以選取到最優的一個標準去對模型做量化。如果只做INT16的量化,模型的精度是可以完全保持住的。但當做更低精度,比如INT8或INT4,模型精度會有一些損失,這時還需要做一些finetune,使得模型精度可以回到跟原來浮點模型的精度。

上圖是在人臉識別模型上所做的工作,比如FP32在1/10萬是達到97.94%的識別率,直接量化INT8,精度為 85.17,通過finetune使得最終的模型可能只降低了1~2個點。量化是一個非常有效的降低模型計算量,同時適合嵌入式設備,不管是功耗或存儲的佔用都非常友好。

第四點是當得到一個最優的模型結構之後,最終部署到嵌入式設備上,就涉及到推理引擎。推薦引擎主要的計算在卷積運算, 我們採用的是直接基於原始的卷積方式做優化。這涉及到行主序的內存重排、矩陣分塊、內存對齊、內存復用、緩存預讀取、SIMD並行加速、循環展開、多線程等。

我們在RK3288上做的優化,對比的是騰訊開源的NCNN推理引擎。可以看到在同樣的輸入下,我們的速度提升大概有40%~50%之間,這個引擎還在持續的優化,算子的計算優化也是非常重要的一環。

最後總結下,在嵌入式模型部署所做的工作,首先會得到檢測或識別的業務模型,根據具體客戶的需求訓練浮點模型,之後做模型蒸餾的loss訓練,把計算量做進一步的精簡。精簡完之後,對一些稀疏的通道,做進一步的剪枝,並且把模型finetune,得到一個最緊湊的深度學習模型。之後根據前面的一些積累,我們更多是基於Caffe的框架,在這個基礎之上對模型做進一步的量化,量化可能會根據具體硬體不同會有所不同。最終得到一個最優化的量化模型之後,把算子計算庫打包一起,最終形成一個運行程序,部署到實際的設備上。上面就是完整的模型部署的流程。

以上就是我今天的分享內容,謝謝大家。

相關焦點

  • 原金山雲高管朱樺成為小黑魚科技合伙人,出任CTO
    2018年11月12日,會員制消費服務平臺小黑魚科技宣布原阿里系高管朱樺正式加入,成為合伙人之一併出任公司CTO,全面負責小黑魚科技整體技術架構的戰略規劃、制定和實施。據了解,朱樺曾任職於阿里巴巴、金山雲等多家網際網路頂級公司,曾歷任阿里巴巴集團資深技術專家、淘寶本地生活事業部總經理、大優酷事業群用戶產品技術中心總經理、金山雲合伙人兼高級副總裁。
  • 小魚兒科技與中國聯通達成深度戰略協議,生態合作,共創輝煌!
    (左起:中國聯通沃易購運營中心副總經理任志國、小魚兒科技創始人兼CEO宋晨楓、中國聯通沃易購運營中心總經理伍昭祥、小魚兒科技合伙人兼銷售市場副總裁李傳剛)3月28日上午,重慶市常務副市長翁傑明先生和中國聯通董事長王曉初先生在參觀小魚在家展區時,小魚兒科技合伙人兼銷售市場副總裁李傳剛為大家詳細講解了小魚在家智能陪伴機器人的創新設計理念和開放的遠程醫療
  • 探索AI語音技術的多場景應用,華北工控嵌入式計算機可全程助力
    在數字服務深入影響各行各業的當下,越來越多的交互需要通過語音指令來進行,AI語音技術的應用已成產業熱點,吸引了諸如谷歌、蘋果、百度等國內外高科技企業紛紛布局,AI語音技術在日常生活中的使用率快速上升。
  • 凌華科技面向設備狀態監測應用發布全新的邊緣DAQ系統MCM-204
    北京2020年3月18日 /美通社/ -- 全球領先的邊緣計算解決方案提供商 -- 凌華科技今日發布其全新的設備狀態監測 (MCM,Machine Condition Monitoring)邊緣數據採集系統(DAQ,Data Acquisition Systems)MCM-204。
  • 齊聚深圳、嵌入式專家研討人工智慧時代發展機遇
    人工智慧的應用日益普及,其中哪些細分市場會是物聯網與嵌入式行業重點關注的方向呢?嵌入式與物聯網研究和工程技術人員又該如何把握住人工智慧所帶來的重大機遇呢?  近日,嵌入式系統聯誼會第23次主題討論會就這些問題,邀請業內知名專家和學者做了深入的探討!本次會議由嵌入式系統聯誼會、深圳北航新興產業技術研究院主辦,深圳北航物聯網研究院、物聯網咖啡承辦,北京航空航天大學出版社、泰智會共同協辦。
  • PPT優秀目錄頁設計欣賞
    目錄頁的作用?告訴觀眾什麼時候結束?
  • 影創科技聯合創始人兼副董事長胡金鑫:MR+AI 如何改變教育
    原標題:影創科技聯合創始人兼副董事長胡金鑫:MR+AI,如何改變教育   7月10日,由世界
  • 雅觀科技舉辦智慧空間開放周 與設備生態夥伴深挖場景
    ;面向設備商,雅觀科技推出「雲梯計劃」,提供融合接入、雲服務及用戶多端交互等一站式服務,順利的話,設備商可以在一到兩周的時間內完成智能化升級。Akeeta空間智能化作業系統架構目前,在設備商端,雅觀科技已經和施耐德、萬家樂、華帝等家居家電企業實現了合作;在房開商、物管企業端,雅觀科技和萬科、綠城、碧桂園等企業合作全屋智能、智慧社區系統平臺,在全國各地持續批量交付。同時,雅觀科技在全國各地的城市合伙人,藉助智享平臺,在渠道端面向C端業主落地全屋智能。
  • 水滴公司合伙人兼CTO邱慧談ABDC戰略打法:數據形成壁壘,AI賦能產業...
    )北京】12月7日報導(文/尹子璇、呂鑫燚)12月2日,在逆勢生長-NFS2020年度CEO峰會暨獵雲網創投頒獎盛典上,水滴公司合伙人兼CTO邱慧發表了《科技賦能下的大健康產業新基建本屆峰會以「逆勢生長」為主題,開設了主論壇和九大專場,覆蓋母基金、新基建、電商、醫療等領域,近兩百名行業專家、投資人和創業者們深入探討各產業經營之道,以及行業變革中醞釀的創業與投資機遇。以下為水滴公司合伙人兼CTO邱慧實錄,獵雲網整理:非常榮幸代表我們公司參加獵雲網的這次活動,我今天分享的主題是科技賦能,構建大健康產業新基建。
  • Greenlight:面向青少年的家庭金融科技平臺
    導讀「少年即未來」——青少年用戶群體的需求愈發吸引金融科技公司的關注。成立於2014年的Greenlight就是一家面向青少年群體的家庭金融科技平臺,通過個性化的卡片及應用程式,Greenlight為家長提供了管理孩子消費、儲蓄和傳輸金融教育的渠道,也為青少年提供了自由儲蓄和接受金融教育的機會。
  • 銳成芯微攜手旺玖科技 推出面向車載系統的全新USB Auto Hub橋接晶片
    原標題:銳成芯微攜手旺玖科技 推出面向車載系統的全新USB Auto Hub橋接晶片   2020年11月,銳成芯微在中國成都宣布,攜手旺玖科技成功推出面向車載信息娛樂系統的全新跨平臺連結
  • 中南林業科技大學:面向全國29省市招生 涵蓋多類型招生
    面向全國29個省市招生 涵蓋多個招生類型  ——訪中南林業科技大學招辦主任史靈芝  2019年我校繼續面向全國除上海和西藏外的29個省(直轄市、自治區)計劃招收本科生6048人,招生類型涵蓋普通本科、貧困專項、農村學生專項、地方協作、藝術類、高水平運動員、中外合作辦學項目、援疆定向、南疆專項及內地新疆高中班等
  • 送你三招PPT關鍵頁面的萬能版式,不用模板也能高顏值
    不知道各位朋友有沒有發現一個問題,平時就算收集再多ppt模板,到真要自己製作ppt了,卻感覺力不從心。首先是因為大多數ppt模板是不存在實用價值的,比如很多英文模板,看著好看,一用就廢;其次就是ppt是非常多變的,使用場合不同、內容不同、風格不同,各種因素結合在一起會讓ppt有獨一無二的特性。
  • 搭載英韌科技ShastaPlus IG5216的存儲設備「雙十一」熱銷
    【TechWeb】11月14日消息,雙11已經落下帷幕,包括佰微、嘉合勁威在內的眾多知名SSD廠商,推出多款搭載英韌科技PCIe Gen3 SSD主控晶片ShastaPlus IG5216的頂級固態硬碟設備,這些產品在「雙十一」活動中受到熱烈關注。
  • 北京科技創業沙龍展覽電影活動222場(10月23日-29日)
    備件貿易:設備備件、設計、諮詢、礦建、勘測、鑽井裝備、設備維修、設備租賃等。我去辦公眾號:A57ban。時間:10月27日-29日09:00-15:00地點:國際展覽中心老館 2017北京國際電子菸加盟分銷體驗展覽會展品範圍:電子菸、電子菸煙杆、霧化器、菸嘴、電子菸方案。電池、啟動器、充電器、移動電源。煙油、煙油瓶、香料、其他儲存設備。包裝盒、印刷包裝。電子菸生產設備、五金配件、生產軟體等。
  • 品勝科技發布《面向智能製造的數字倉儲系統解決方案白皮書》
    品勝科技發布《面向智能製造的數字倉儲系統解決方案白皮書》 2020年12月21日 20:09 兩江新區官網  閱讀量: >12月21日,記者從兩江新區獲悉,重慶品勝科技有限公司智慧物流研究院日前發布了《面向智能製造的數字倉儲系統解決方案白皮書》。
  • 張巧龍任彰泰事業合伙人兼集團執行董事
    12月26日上午,在彰泰常規兩周舉行一次的集團全員例會上,老闆黃海濤宣布了張巧龍在彰泰的職位新變化,張巧龍由職業經理人轉為事業合伙人,張巧龍和彰泰將以更緊密的方式繼續合作。據記者了解,張巧龍因個人事業發展原因和家庭的需要作出職務調整,升格為彰泰事業合伙人同時兼任集團執行董事。
  • 華北工控嵌入式計算機,智能配送機器人多場景應用的關鍵硬體支撐
    在其實現更多應用場景落地的過程中,必須有高品質、高性能的嵌入式計算機為其提供關鍵硬體支撐。   隨著科技的進步,以及社會變智能化、信息化、數位化變革的需求與刺激,機器人應用越來越廣泛,智能配送機器人乘著東風,也進入了行業發展的「快車道」!
  • 文本排版新技巧,掌握它,從此對醜陋的PPT說拜拜
    你這ppt做的,還不如不做呢... 到底什麼樣的ppt讓老闆diss呢? 我隨便挑了兩頁吉吉做的ppt 看了一下 看懂了ppt內容講的是什麼了麼? 我看到這兩頁的時候啊,我就發現,這個小吉吉,他是一點都不懂老闆的心啊! 老闆每天日理萬機,那麼忙,哪裡有時間一字一字的去讀他做的ppt啊,他這樣的ppt和word文檔有什麼區別? 唉!看他這麼可憐,就幫幫他好了。