基於數據流計算圖的卷積神經網絡的理論和設計

2020-12-09 電子產品世界

謝仁傑（英特爾戰略合作和創新業務部技術經理，人工智慧開放創新平臺聯合學者，上海 200241）

本文引用地址：http://www.eepw.com.cn/article/202003/410481.htm

摘要：近年來在許多信號處理應用領域中，深度卷積神經網絡引起了學術界和工業界很大的關注，其中基於數據流圖的深度學習網絡Tensorflow框架得到了很多人的青睞。但在一些商業落地的研究和調查中發現，部分機構涉及一些自開發的計算單元，而它不被大型網絡框架所支持，又出於技術的保密性往往需要自行修改工業界的深度學習框架，這就造成了以下情況， ①工業級大型代碼框架極其複雜，各大庫之間的調用很深且一般沒有注釋，不容易讀懂和修改，②對某一個單一應用來說，工業界絕大多數的代碼都是有冗餘的，這就使得代碼整體比較臃腫（厚），性能會受點影響。基於這種受限的情況下，本文提出了一種基於信號處理數據流計算圖模型的方法，在多個平臺多核下實現車輛分類。該方法在整個使用過程中，展現了靈活地設計實現優化轉換能力，多平臺的兼容可實施性，可在有限的資源內根據自己的算法需求，分立式地量身定製。在硬體電路加速或晶片的設計中，數據流所得到的高輸出率、低延時特點是各廠家在寫 RTL硬體設計語言時著重提出的特點，其次基於數據流的軟硬體設計易於算法代碼之間的轉換、實現、移植、調試、分析、綜合、集成、優化和驗證。

關鍵詞：深度學習；數據流；計算圖；多核運算；車輛分類

0 引言

隨著國家進入人工智慧時代，深度學習在嵌入式和計算機應用領域無處不在，例如汽車嵌入式系統和物聯網，從而激發了在資源受限的邊緣端做深度卷積神經網絡的設計方法和研究。本文中以車輛分類作為具體研究案例，設計一種基於信號處理的數據流計算圖的模型框架和實現優化方法，迭代式的實現，實驗及優化，並在不同的平臺及有限的計算資源下實現針對四種相近車輛的分類。本文以數據流計算圖原理出發，介紹不同數據流技術建模的原理和形式，後舉一個從零開始基於車輛分類的例子，從訓練某個應用的網絡，選取網絡參數和神經元權重開始，進行Matlab 的仿真代碼實現，並以此為參考代碼進行基於數據流計算圖C代碼實現，隨後對整個計算圖進行深度優化，最後單核和多核在不同平臺下的性能進行了一一對比。數據流計算圖的簡潔，跨平臺，可擴展的完全自主的特性，可用於任何特定領域，特別適合量身定制的的嵌入圖像和視頻信號的操作。

1 數據流模型 (Dataflow Modeling)

1.1 數據流模型原理

在數據流建模模型中，數據流圖可表示為有向圖，由一系列Actors（頂點）和edges（前進先出， FIFO）組成，其中actor表示任意複雜程度的計算單元（可以是高節點的actor封裝了一些計算圖），edge表示連接各actors的連線，從而構成一組計算圖，代表一個函數功能系統，數據類型則封裝在token，在一個actor通過 edge輸出至另一個actor輸入端。數據流邊緣可以表示e =（v1; v2），表示數據從v1到v2。這裡 src（e）表示的v1稱為源actor，sink（e）表示的v2稱為接收器。在一個數據流計算圖中，一個actor在其接受的數據足以計算該單元actor的算法時可以啟動和調用該actor通過其enable和invoke函數, 每個actor需要明確定義其輸入口消耗和輸出口產生的 token的數量。整個數據流計算圖運行是一個離散的操作。在圖1 中，Actor: FS1，FS2是2個源的參與者；Actor: Adder 是加法操作; Actor: FK是接收器。整個圖表產生每個 actor觸發（消耗）一個token到每個actor輸出（輸入）埠上。

1.2 數據流模型概述

Core Functional Dataflow（CFDF）是一種可編程的模型，常用於設計、分析及實現信號處理系統，尤其是一種確定消耗產出比和有著動態數據流比例的的信號處理單元的系統開發；Synchronous Dataflow （SDF）是最簡單最流行的數據流模型，它有個限制，即一個actor在每個傳出邊緣上產生的數據值是個數字常量，同時actor從進入邊緣消耗的數據值的數量也需要是常量；Cyclo - Static Dataflow (CSDF) 是一種類型的SDF，在一個 actor產生和消耗的token比是可變的，只要這個變值是一個固定的周期性的模式； Parameterized Dataflow (PDF) 是一種結合動態參數與運行參數化的數據流計算圖，尤其是那些有很明確的圖迭代概念的圖形；Boolean Dataflow (BDF) 是SDF的擴展，其中一個actor產生和消耗的吞吐率取決於控制的二值函數token，它源自於動態數據流actor中的一個指定控制埠；Enable - Invoke Dataflow (EIDF)是另一種動態數據流建模技術。它將actors分成一系列模式，每個模式都有一個固定的消耗和生成的token 的數量，代表一個分支可以在運行時切換多種模式。

1.3 數據流模型環境： Lightweight Dataflow Environment – C (LIDE-C)

LIDE-C（輕量級數據流環境C）是一個靈活設計的C語言的編程環境，允許設計人員挖掘基於數據流的技術信號處理系統的設計實現和優化，專注於基本的應用程式編程接口（API）功能。在整個框架提供廣泛的實現信號處理系統功能的組件，以及跨平臺操作，包括可編程門陣列（FPGA），圖形處理單元（GPU），可編程數位訊號處理器（DSP）和服務器工作站。LIDE-C軟體包擁有許多數據流圖元素（actor和edge）實現庫，基於這些基本要素可以自由設計自己的數據流圖並定義元素，開發特定的應用程序（例如，控制，參數化和儀器相關的模塊），和觸發整個數據流圖的調度程序，詳解可參考文章^[1]。在 LIDE-C數據流計算圖種actor和edge是關鍵2元素，其中Actor設計包括四個接口函數：構造，啟動，調用和種植函數（圖2）。

1）構造函數：創建actor的實例並連接埠，通過函數參數列表進行算法處理後傳遞給相連的一組邊。

2）啟用功能：在運行時檢查該actor是否有足夠的輸入數據和空的緩衝區空間來支持下一次調用。

3）調用函數：為actor執行單次調用。

4）終止功能：關閉此actor在計算圖的作用，包括釋放相關的存儲對象及其所佔用的資源。

LIDE-C中的FIFO設計構成的數據流圖與其actors 本身相互獨立實現和優化，開發者可專注於Actor的設計（如算法的實現和優化），然後通過明確定義的接口和fifos集成這些actors，從而進行數據流圖的調度優化（並行，優先級），這些可通過相互溝通實現整個性能的表現。FIFO操作由C中的接口函數封裝。函數指針是指向這些接口功能，以不同形式實現不同的接口。LIDE-C中的標準FIFO有以下執行操作：

創建具有特定容量的新FIFO。

從/向一個fifo讀取和寫入 token。

檢查FIFO的容量。

檢查FIFO中當前的token數。

使用FIFO完成後，用FIFO解除存儲。

在一個數據流計算圖應用程式中創建所有actors和fifos之後，逐步連接並逐步觸發檢查圖形下一個關鍵actor，從而驗證檢查調試整個系統的當前使用情況。

2 基於圖像的車輛識別的網絡架構

本文以基於圖像的車輛識別網絡系統，從零開始一步一步得到相應的網絡，實現參考的Matlab推理網絡代碼，從而進一步實現優化基於數據流計算圖的C代碼實現，此方法具有一定的普適性和擴展性，且根據不同的需求可量身定製其它的應用需求。案例中的CNN實現四種車輛之間的分類——公共汽車，卡車，麵包車和汽車，此源數據和工作基於之前的車輛分類工作^[3]，提取了相關的有用信息，使用Caffe + Python 隨機搜索來最優的超參數。在使用50組隨機生成的超參數（圖 3）進行一系列搜索迭代之後，針對精確率和參數大小及性能的特徵平衡，推導出一套可實施的優化過的超參數車輛分類系統, 等到訓練模型穩定後，提取相關的模型權重圖4（註：本文目的是演示實現優化數據流計算圖的方法，所選取的類型為double型，讀者可根據深度學習相關知識，可相應地調整網絡，例如用全卷積網絡或半精度數據類型或者8比特的整數類型）。

訓練好後得到的超參數所形成的CNN架構（見圖 4）由五層組成——兩個卷積層，兩個全連接層，最後是分類器層。第一層包括三個通道（紅綠藍RGB通道），每個輸入圖像96 x 96的三通道經過過濾後分解成32個特徵圖，然後最大值池化為48×48。在第二層中，有32組特徵圖再次卷積，然後下採樣最大值池化到24×24。第三層和第四層是兩層全連接層，每個節點有100個節點。分類器層執行從100個元素到4個元素並通過softmax運算符得到4個等級可能概率值。在層於層相鄰之間，應用整流線性單元非線性激活函數（ReLU）。

3 基於數據流的網絡架構計算圖設計

在得到整個網絡拓撲圖（圖5）並提取出網絡各個神經元的權重（圖4）後，先在Matlab環境中實現其 CNN 推理的圖像分類代碼，其主要目的其一是確保此參數模型的最後效果，性能和準確性，其二是有一個參考代碼並可收集每一層運算後的數值，便於後續數據流計算圖C代碼的實現、比較、調試和優化，這種逐層式至最後龐大系統的檢測有益於整體代碼實現的魯棒性，並將可能的測試失敗的原因顯示化在具體的某一層某個actor或fifo，進行更好更快速的實現代碼設計優化和迭代。

在開發了基於Matlab的CNN車輛分類系統的仿真參考模型後（圖6和圖7），我們繼續開發基於數據流計算圖LIDE-C的設計以及實現，並在多平臺多核上進行性能測試，通過迭代式優化數據流計算圖及actor 算法來提高整體性能。

作為數據流模型的第一步，把CNN網絡拓圖轉換了網絡框圖（圖8），每個框圖都可以看成帶參數的高階actor, 高階actor可以封裝一個或多個帶參數 subgraph系統子圖，而其中可能存在成千上萬的actor 互連，其形式類似於硬體模塊的實現，所以可以進行很好的軟硬體結合，此網絡包含了共10種不同類型的actor：讀通道actor，寫通道actor，卷積actor，池化actor, 非線性激活函數actor，分類器actor，聚合actor, 廣播actor，乘加 actor，矩陣乘法actor。針對這些actors，按照不同的圖結構進行封裝設計，形成三種不同的數據流計算圖（圖9，圖10，圖11）。

設計一的優點是整個架構與框圖最接近，且非常的清晰，易於理解和實現，驗證和檢查整個數據流計算圖很直接方便。缺點是當子圖已經確定且封裝為一個大的 actor後，難以進一步深層次地優化，若子圖來自於第三方機構，當整個程序有錯誤時，很難進行調試；設計二相對簡潔，在卷積層用到了循環展開(loop unrolling)和流水線(pipeline)技術進行優化，增加延遲但提高輸出量。此方法很適合用於網絡訓練圖結構，但需要一些技巧，總體來說，整個計算圖仍舊可以理解；設計三的優點是整個數據流計算圖可以任意地在某一步、某一個actor或fifo或緩衝區裡跟蹤，控制，管理，驗證，檢測數據，除此之外，設計三的顆粒度更細，可以更深層次進行優化，自行控制的選擇餘地比較多，相反的，缺點是不易於理解，構成，實現，優化這顆粒度細且龐大複雜的數據流計算圖。

參考文獻：

[1] SHEN C,PLISHKER W,WU H,et al.A lightweight dataflow approach for design and implementation of SDR systems[C]. Proceedings of the Wireless Innovation Conference and Product Exposition,Washington DC, USA, November, 2010:640–645.

[2] BHATTACHARYYA S S,PLISHKER W,SHEN C,et al.The DSPCAD integrative command line environment: Introduction to DICE version 1.1.Institute for Advanced Computer Studies, University of Maryland at College Park, Tech. Rep. UMIACSTR-2011-10, 2011.

[3] HUTTUNEN H,YANCHESHMEH F, CHENK.Car type recognition with deep neural networks[C].ArXiv e-prints, February 2016, submitted to IEEE Intelligent Vehicles Symposium 2016.

[4] BOUTELLIER J,LUNNIKIVI H.Design Flow for Portable Dataflow Programming of Heterogeneous Platforms[C].2018 Conference on Design and Architectures for Signal and Image Processing (DASIP):106-111.

[5] Representative Projects of the Maryland DSPCAD Research Group[EB/OL]. https://ece.umd.edu/DSPCAD/ projects/toplevel/projects.htm.

本文來源於科技期刊《電子產品世界》2020年第03期第22頁，歡迎您寫論文時引用，並註明出處。

基於數據流計算圖的卷積神經網絡的理論和設計

相關焦點

基於PVANet卷積神經網絡模型的交通標誌識別算法

改進卷積神經網絡,你需要這14種設計模式

讓你的電腦擁有「視力」,用卷積神經網絡就可以!

卷積神經網絡預測模型:提前24個月預測ENSO

卷積神經網絡理解(一):濾波器的意義

用TensorFlow和Keras構建卷積神經網絡

盤點四大民間機器學習開源框架:Theano、Caffe、Torch和SciKit-learn

卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構

北京大學查紅彬:基於數據流處理的SLAM技術

卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構

卷積神經網絡與Transformer結合,東南大學提視頻幀合成新架構

重金屬汙染土壤穩定化修復材料 ——基於理論原理和實踐條件的設計...

基於工作流理論的民用飛機排故路徑

自動化數據增強:實踐、理論和新方向

JMC|賽諾菲研究基於AI的分子從頭設計

用樂高積木搭建的首臺——卷積神經網絡樂高分揀機

基於軟體無線電理論設計的接收機射頻前端系統

從系統和代碼實現角度解析TensorFlow的內部實現原理 | 深度

數據中心自動化與網絡可視性的作用

基於數據流計算圖的卷積神經網絡的理論和設計

相關焦點

基於PVANet卷積神經網絡模型的交通標誌識別算法

改進卷積神經網絡,你需要這14種設計模式

讓你的電腦擁有「視力」,用卷積神經網絡就可以!

卷積神經網絡預測模型:提前24個月預測ENSO

卷積神經網絡理解(一):濾波器的意義

用TensorFlow和Keras構建卷積神經網絡

盤點四大民間機器學習開源框架:Theano、Caffe、Torch和SciKit-learn

​卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構

北京大學查紅彬:基於數據流處理的SLAM技術

卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構

​卷積神經網絡與Transformer結合,東南大學提視頻幀合成新架構

重金屬汙染土壤穩定化修復材料 ——基於理論原理和實踐條件的設計...

基於工作流理論的民用飛機排故路徑

自動化數據增強:實踐、理論和新方向

JMC|賽諾菲研究基於AI的分子從頭設計

用樂高積木搭建的首臺——卷積神經網絡樂高分揀機

基於軟體無線電理論設計的接收機射頻前端系統

從系統和代碼實現角度解析TensorFlow的內部實現原理 | 深度

數據中心自動化與網絡可視性的作用

卷積神經網絡與Transformer結合,東南大學提出視頻幀合成新架構

卷積神經網絡與Transformer結合,東南大學提視頻幀合成新架構