Xilinx Zynq使用HLS實現OpenCV的開發流程

2021-01-07 電子產品世界

　　摘要：首先介紹OpenCV中圖像類型和函數處理方法，之後通過設計實例描述在VivadoHLS中調用OpenCV庫函數實現圖像處理的幾個基本步驟，闡述從OpenCV設計到RTL轉換綜合的開發流程。

本文引用地址：http://www.eepw.com.cn/article/234670.htm

　　關鍵詞：可編程;處理器;VivadoHLS;OpenCV;Zynq AP SOC

　　開源計算機視覺 (OpenCV) 被廣泛用於開發計算機視覺應用，它包含2500多個優化的視頻函數的函數庫並且專門針對臺式機處理器和GPU進行優化。Xilinx VivadoHLS高層次綜合工具能夠使用C/C++ 編寫的代碼直接創建RTL硬體，顯著提高設計生產力，同時，Xilinx Zynq全可編程SOC系列器件嵌入雙核ARM Cortex-A9處理器將軟體可編程能力與FPGA的硬體可編程能力實現完美結合，以低功耗和低成本等系統優勢實現單晶片無以倫比的系統性能、靈活性、可擴展性，加速圖形處理產品設計上市時間。OpenCV擁有成千上萬的用戶，而且OpenCV的設計無需修改即可在 Zynq器件的ARM處理器上運行，但是利用OpenCV實現的高清處理經常受外部存儲器的限制，尤其是存儲帶寬會成為性能瓶頸，存儲訪問也限制了功耗效率。使用Xilinx公司的VivadoHLS高級語言綜合工具，可以輕鬆實現OpenCV C++視頻處理設計到RTL代碼的轉換，輸出Zynq的硬體加速器或者直接在FPGA上實現實時硬體視頻處理功能。同時，Xiinx公司的Zynq All-programmable SoC是實現嵌入式計算機視覺應用的好方法，解決了在單一處理器上實現視頻處理性能低功耗高的限制，Zynq高性能可編程邏輯和嵌入式ARM內核，是一款性能功耗最優化的圖像處理集成式解決方案。

　　1 OpenCV中圖像IplImage, CvMat, Mat 類型的關係和VivadoHLS中圖像hls::Mat類型

　　OpenCV中常見的與圖像操作有關的數據容器有Mat，cvMat和IplImage，這三種類型都可以代表和顯示圖像，但是，Mat類型側重於計算，數學性較高。而CvMat和IplImage類型更側重於「圖像」，OpenCV對其中的圖像操作(縮放、單通道提取、圖像閾值操作等)進行了優化。

　　1.1 OpenCV中的Mat矩陣類型

　　在OpenCV中，Mat是一個多維的密集數據數組。可以用來處理向量和矩陣、圖像、直方圖等等常見的多維數據。

　　Mat類型較CvMat與IplImage類型來說，有更強的矩陣運算能力，支持常見的矩陣運算。在計算密集型的應用當中，將CvMat與IplImage類型轉化為Mat類型將大大減少計算時間花費。

　　1.2 OpenCV中的CvMat與IplImage類型

　　在openCV中，CvMat和IplImage類型更側重於「圖像」，尤其是對其中的圖像操作進行一定程度的優化。OpenCV沒有向量(vector)的數據結構，但當我們要表示向量時，需要用矩陣數據表示。但是，CvMat更抽象,它的元素數據類型並不僅限於基礎數據類型，而且可以是任意的預定義數據類型，比如RGB或者別的多通道數據。、

　　在OpenCV類型關係上，我們可以說IplImage類型繼承自CvMat類型，當然還包括其他的變量將之解析成圖像數據。IplImage類型較之CvMat多了很多參數，比如depth和nChannels。IplImage對圖像的另一種優化是變量origin原點，為了彌補這一點，OpenCV允許用戶定義自己的原點設置。

　　1.3 VivadoHLS中圖像數據類型hls::Mat<>

　　VivadoHLS視頻處理函數庫使用hls::Mat<>數據類型，這種類型用於模型化視頻像素流處理，實質等同於hls::steam<>流的類型，而不是OpenCV中在外部memory中存儲的matrix矩陣類型。因此，在用vivadoHLS實現OpenCV的設計中，需要將輸入和輸出HLS可綜合的視頻設計接口，修改為Video stream接口，也就是採用HLS提供的video接口可綜合函數，實現AXI4 video stream到VivadoHLS中hls::Mat<>類型的轉換。

　　2 使用VivadoHLS實現OpenCV到RTL代碼轉換的流程

　　2.1 OpenCV設計中的權衡

　　OpenCV圖像處理是基於存儲器幀緩存而構建的，它總是假設視頻frame數據存放在外部DDR 存儲器中，因此，OpenCV對於訪問局部圖像性能較差，因為處理器的小容量高速緩存性能不足以完成這個任務。而且出於性能考慮，基於OpenCV設計的架構比較複雜，功耗更高。在對解析度或幀速率要求低，或者在更大的圖像中對需要的特徵或區域進行處理是，OpenCV似乎足以滿足很多應用的要求，但對於高解析度高幀率實時處理的場景下，OpenCV很難滿足高性能和低功耗的需求。

　　基於視頻流的架構能提供高性能和低功耗，鏈條化的圖像處理函數減少了外部存儲器訪問，針對視頻優化的行緩存和窗口緩存比處理器高速緩存更簡單高效，更易於使用VivadoHLS 在FPGA部件中採用數據流優化來實現。

　　VivadoHLS對OpenCV的支持，不是指可以將OpenCV的函數庫直接綜合成RTL代碼，而是需要將代碼轉換為可綜合的代碼，這些可綜合的視頻庫稱為HLS視頻庫，由VivadoHLS提供。

　　OpenCV函數不能直接通過HLS進行綜合，因為OpenCV函數一般都包含動態的內存分配、浮點以及假設圖像在外部存儲器中存放或者修改。

　　VivadoHLS視頻庫用於替換很多基本的 OpenCV函數，它與OpenCV具有相似的接口和算法，主要針對在FPGA架構中實現的圖像處理函數，包含了專門面向FPGA的優化，比如定點運算而非浮點運算(不必精確到比特位)，片上的行緩存(line buffer)和窗口緩存(window buffer)。圖2.1展示了在Xilinx Zynq AP SOC器件上實現視頻處理的系統結構。

　　圖2.1 Zynq視頻處理系統結構

　　2.2 在FPGA/Zynq開發中使用VivadoHLS實現OpenCV的設計流程

　　設計開發流程主要有如圖2.2三個步驟。

　　1. 在計算機上開發OpenCV應用，由於是開源的設計，採用C++的編譯器對其進行編譯，仿真和debug，最後產生可執行文件。這些設計無需修改即可在 ARM內核上運行OpenCV應用。

　　2. 使用I/O函數抽取FPGA實現的部分，並且使用可綜合的VivadoHLS Video庫函數代碼代替OpenCV函數的調用。

　　3. 運行HLS生成RTL代碼，在VivadoHLS工程中啟動co-sim，HLS工具自動重用OpenCV的測試激勵驗證產生的RTL代碼。在Xilinx的ISE或者Vivado開發環境中做RTL的集成和SoC/FPGA實現。

　　圖2.2 在FPGA/Zynq設計中使用OpenCV的開發流程

　　2.2.1 VivadoHLS視頻庫函數

　　HLS視頻庫是包含在hls命名空間內的C++代碼。#include 「hls_video.h」

　　HLS視頻庫與OpenCV等具有相似的接口和等效的行為，例如：

　　OpenCV庫：cvScale(src, dst, scale, shift);

　　HLS視頻庫：hls::Scale<...>(src, dst, scale, shift);

　　HLS視頻庫的一些構造函數具有類似的或替代性的模板參數，例如：

　　OpenCV庫：cv::Mat mat(rows, cols, CV_8UC3);

　　HLS視頻庫：hls::Mat mat(rows, cols);

　　ROWS和COLS指定處理的最大圖像尺寸。

　　表1 VivadoHLS視頻處理函數庫

　　2.2.2 VivadHLS實現OpenCV設計的局限性

　　首先，必須用HLS視頻庫函數代替OpenCV調用。

　　其次，不支持OpenCV通過指針訪問幀緩存,可以在HLS中使用VDMA和 AXI Stream adpater函數代替。

　　再者，不支持OpenCV的隨機訪問。HLS對於讀取超過一次的數據必須進行複製，更多的例子可以參見見hls::Duplicate()函數。

　　最後，不支持OpenCVS的In-place更新，比如 cvRectangle (img, point1, point2)。

　　下表2列舉了OpenCV中隨機訪問一幀圖像處理對應HLS視頻庫的實現方法。

　　表2 OpenCV和HLS中對一幀圖像像素訪問對應方法

OpenCV

HLS視頻庫

讀操作

pix = cv_mat.at(i,j)

pix = cvGet2D(cv_img,i,j)

hls_img>> pix

寫操作

cv_mat.at(i,j) = pix

cvSet2D(cv_img,i,j,pix)

hls_img<< pix

　　2.3 用HLS實現OpenCV應用的實例(快速角點濾波器image_filter)

　　我們通過快速角點的例子，說明通常用VivadoHLS實現OpenCV的流程。首先，開發基於OpenCV的快速角點算法設計，並使用基於OpenCV的測試激勵仿真驗證這個算法。接著，建立基於視頻數據流鏈的OpenCV處理算法，改寫前面OpenCV的通常設計，這樣的改寫是為了與HLS視頻庫處理機制相同，方便後面步驟的函數替換。最後，將改寫的OpenCV設計中的函數，替換為HLS提供的相應功能的視頻函數，並使用VivadoHLS綜合，在Xilinx開發環境下在FPGA可編程邏輯或作為Zynq SOC硬體加速器實現。當然，這些可綜合代碼也可在處理器或ARM上運行。

　　2.3.1 設計基於OpenCV的視頻濾波器設計和測試激勵

　　在這個例子中，首先設計開發完全調用OpenCV庫函數的快速角點濾波器設計opencv_image_filter.cpp和這個濾波器的測試激勵(不在本例中展示)，測試激勵用於仿真驗證opencv_image_filter算法功能。OpenCV算法實現的設計代碼如下：

　　void opencv_image_filter(IplImage* src, IplImage* dst)

　　{

　　IplImage* gray = cvCreateImage( cvGetSize(src), 8, 1 );

　　std::vectorkeypoints;

　　cv::Mat gray_mat(gray,0);

　　cvCvtColor(src, gray, CV_BGR2GRAY );

　　cv::FAST( gray_mat, keypoints, 20, true);

　　cvCopy( src,dst);

　　for (inti=0;i

　　{

　　cvRectangle(dst, cvPoint(keypoints[i].pt.x-1,keypoints[i].pt.y-1),

　　cvPoint(keypoints[i].pt.x+1,keypoints[i].pt.y+1), cvScalar(255,0,0),CV_FILLED);

　　}

　　cvReleaseImage( &gray );

　　}

　　例子2.3.1 通常的OpenCV視頻處理代碼opencv_image_filter.cpp

　　上面的例子是直接調用OpenCV在處理器上軟體應用實現的例子，可以看到在算法設計中直接調用opencV庫函數，測試激勵讀入圖像，經過濾波器處理輸出的圖像保存分析。可以看到，算法的處理基於IPIimage類型，輸入和輸出圖像都使用此類型。

　　2.3.2 使用IO函數和Vivado HLS視頻庫替換OpenCV函數庫

　　需要特別說明的是，Xilinx公司通常使用的視頻處理模塊是基於AXI4 streaming協議進行不同模式見像素數據的交互，也就是我們所說的AXI4 video接口協議格式。為了和Xilinx視頻庫接口協議統一，VivadoHLS提供了視頻接口函數庫，用於從OpenCV程序中抽取需要進行RTL綜合轉換的頂層函數，並把這些可綜合的代碼和OpenCV不可綜合轉換的代碼進行隔離。然後，對需要綜合轉換為RTL代碼的OpenCV函數，用Xilinx VivadoHLS提供相應功能的可綜合video函數進行替換。最後在C/C++編譯環境下仿真驗證OpenCV代碼和替換video函數後功能的一致性，並在VivadoHLS開發環境中做代碼綜合和產生RTL代碼的co-sim混合仿真驗證。

　　VivadoHLS可綜合的視頻接口函數：

　　Hls:：AXIvideo2Mat 轉換AXI4 video stream到hls::Mat表示格式

　　Hls:：Mat2AXIvideo 轉換hls::Mat數據格式到AXI4 video stream

　　首先，我們對2.3.1中OpenCV的設計進行改寫，改寫的代碼還是完全基於OpenCV的函數，目的是為了對視頻的處理機制基於視頻流的方式，與VivadoHLS視頻庫提供函數的處理機制一致。

　　其次，使用Vivado HLS視頻庫替代標準OpenCV函數，並使用可綜合的視頻接口函數，採用video stream的方式交互視頻數據。用於FPGA的硬體可綜合模塊由VivadoHLS視頻庫函數與接口組成，我們用hls命名空間中的相似函數代替OpenCV函數，增加接口函數構建AXI4 stream類型的接口。

　　void image_filter(AXI_STREAM& input, AXI_STREAM& output, int rows, int cols)

　　{

　　hls::Mat _src(rows,cols);

　　hls::Mat _dst(rows,cols);

　　hls::AXIvideo2Mat(input, _src);

　　hls::Mat src0(rows,cols);

　　hls::Mat src1(rows,cols);

　　hls::Mat mask(rows,cols);

　　hls::Matdmask(rows,cols);

　　hls::Scalar<3,unsigned char> color(255,0,0);

　　hls::Duplicate(_src,src0,src1);

　　hls::Mat gray(rows,cols);

　　hls::CvtColor(src0,gray);

　　hls::FASTX(gray,mask,20,true);

　　hls::Dilate(mask,dmask);

　　hls::PaintMask(src1,dmask,_dst,color);

　　hls::Mat2AXIvideo(_dst, output);

　　}

　　例子2.3.2 採用VivadoHLS視頻庫替換後可綜合的設計opencv_image_filter.cpp

　　最後，在vivadoHLS開發環境下綜合例子2.3.2.2的設計，產生RTL代碼並重用OpenCV的測試激勵驗證RTL代碼功能。

　　3 VHLS實現OpenCV設計流程總結

　　OpenCV函數可實現計算機視覺算法的快速原型設計，並使用VivadoHLS工具轉換為RTL代碼，在FPGA可編程邏輯上或者Zynq SoC邏輯上作為硬體加速器，實現高解析度高幀率的實時視頻處理。計算機視覺應用與生俱來的異構特性，使其需要軟硬體相結合的實現方案，採用Vivado HLS視頻庫能加快OpenCV函數向FPGA或Zynq SOC全可編程架構的映射。

　　參考文獻：

　　[1]Vivado Design Suite User Guide: High-LevelSynthesis(UG902).

　　[2]Accelerating OpenCV applications with Zynq using VivadoHLS video libraries(XAPP1167)

　　[3]Bradski G,Kaebler 「A.Learning OpenCV」.ISBN 978-7-302-20993-5

　　[4]Implementing Memory structure for video processing in the vivadoHLStool(XAPP793)

　　[5] Rafael C.Gonzalez,Richard E.Wood 「Digital Image Processing, Third Edition」ISBN 978-7-121-11008-5

相關焦點

Xilinx FPGA/Zynq設計中使用HLS實現OpenCV的開發流程

1.3 VivadoHLS中圖像數據類型hls::Mat<>　　VivadoHLS視頻處理函數庫使用hls::Mat<>數據類型，這種類型用於模型化視頻像素流處理，實質等同於hls::steam<>流的類型，而不是OpenCV中在外部memory中存儲的matrix矩陣類型。
實例詳解:如何利用Zynq-7000的PL和PS進行交互?

該系列四款新型器件得到了工具和IP 提供商生態系統的支持，將完整的 ARM® Cortex™-A9 MPCore 處理器片上系統（SoC）與 28nm 低功耗可編程邏輯緊密集成在一起，可以幫助系統架構師和嵌入式軟體開發人員擴展、定製、優化系統，並實現系統級的差異化。　　實際上，Zynq就是兩大功能塊：雙核Arm的SoC和FPGA。
用OpenCV實現條形碼識別

/opencv_contrib/tree/master/modules/barcode。同時，我們的算法是C++實現，ZXing是Java實現。另外，對於用圖片數據集進行的測試，ZXing99%的時間是在做彩色圖到灰度圖的轉換。本文將對此模塊的原理和使用方式進行介紹。
使用Python+OpenCV實現圖像數據採集

安裝cv2（OpenCV）我們將使用的圖像庫是cv2。因為cv2不能在Kaggle這樣的在線平臺上工作，所以它必須在你的計算機上本地完成。然而，模型的權重仍然可以在Kaggle上進行訓練，以.h5文件的形式下載(基於Keras/TensorFlow)並加載。
—— Xilinx Versal 評估套件上市, 助力開發者...

VCK190 是賽靈思首款 Versal™ AI Core 系列評估套件，可幫助設計者使用 AI 和 DSP 引擎開發解決方案，與當前伺服器級 CPU 相比，該解決方案可將計算性能提升 100 多倍！
OpenCV入門及應用案例:手把手教你做DNN圖像分類

該庫的設計主要基於以下考慮：處於初始開發階段的功能模塊，它的API定義會經常變化，各種測試也不夠全面。為了不影響OpenCV核心模塊的穩定性，這些新功能模塊會發布到opencv_contrib中。等到模塊足夠成熟並且在社區得到了足夠的關注和使用之後，這個模塊便會被移到OpenCV核心庫，這意味著核心庫開發團隊將會對該模塊進行全面的測試，保證這個模塊具有產品級的質量。
使用Python+OpenCV實現神經網絡預處理人臉圖像的快速指南

注意:本文中使用的所有靜態圖像都來自 https://imgflip.com/memetemplates圖片載入我們將使用imread()函數加載圖像，指定文件的路徑和mode，第二個參數對於動態運行通道和像素轉換非常重要。
Ubuntu16.04 配置OpenCV3.4.2及基本使用

Ubuntu16.04 配置OpenCV3.4.2及基本使用作者：OpenS_Lee
python+opencv實現車牌識別

文章目錄：一、前言二、訓練分類器2.1、準備訓練用單字符圖片2.2、圖片預處理2.3、用opencv的preprocess_hog()處理圖片2.4、用SVM訓練分類器三、車牌定位四、字符分割五、字符識別六、Mysql保存七、總結八、參考資料一、前言：最近一直在學習機器學習，花了段時間把《機器學習實戰》(【美】Peter Harrington著
南京家長日記 —揭秘hls hls hls!價值2萬的幼升小經驗

hls不是什麼學生都收的！這聽起來，仿佛有點小米手機當年飢餓營銷的意思，hls不是你交錢就能上的！面測就是為了看看孩子的真實情況，如果孩子能力太差或者存在某方面問題，可能真的會被拒之門外。這樣的情況後來也確實發生了，後期hls會有模擬考試，如果孩子的成績特別差，老師也會勸退。
OpenCV 強大的開源計算機視覺庫

如何使用最初的OpenCV使用C語言實現，後來C++逐步加入並成為了OpenCV開發的核心語言。因此你可以通過C++來使用OpenCV庫。另外OpenCV也提供了類似的Python、JavaScript等接口，可以讓您避免C++難度過大的問題。
Linux虛擬機上安裝Xilinx petalinux2015.4版本詳細步驟

一直以來在Xilinx Zynq上進行Linux開發使用的是Digilent提供的linux源碼，而近來發現petalinux也成為免費軟體了，官網描述如下「The PetaLinux Tools License is no longer required.
OpenCV手部關鍵點檢測(手勢識別)代碼示例

Mask RCNN實例分割的博文（詳見：OpenCV4.0 Mask RCNN 實例分割示例 C++/Python實現），展示了OpenCV作為DNN推斷工具的簡單用法。昨日Satya Mallick又發表了使用OpenCV調用OpenPose工程中的手部關鍵點檢測（hand pose estimation）模型的文章，對於想要使用手部關鍵點檢測做手勢識別、手語識別、抽菸檢測等工程開發的朋友來說這是一個非常簡單的上手教程。先來看看作者發布的視頻效果：在大部分情況下還是不錯的，但也出現了少數幀關鍵點跳變的情況。
Xilinx發布Vivado 2014.1版大幅提升生產力

；NASDAQ:XLNX）今天宣布推出Vivado®設計套件2014.1版，這是業界唯一一款SoC增強型開發環境。該版本增加了UltraFast™設計方法的自動化功能，讓所有器件的運行時間平均縮短達25%，性能提升5%。此外，2014.1版本還在Vivado HLS（高層次綜合)中新增了OpenCL內核硬體加速功能。
《抖音》hls可樂桶介紹

《抖音》上面最近出現了一個非常奇怪的詞，這一個詞就是「hls可樂桶」，聽上去是不是非常像KFC新出的套餐呢？不過，真實的意思可遠遠不是這樣的。接下來小編就給各位玩家小夥伴詳細的講解一下《抖音》hls可樂桶介紹，一起來看看吧。
python利用opencv實現證件照換底

opencv今天就給大家介紹一下python利用opencv庫進行藍底換紅底或者白底照片的操作。1.強大的opencv庫說到圖像處理，不得不提opencv庫。它是一個跨平臺的計算機視覺庫，可以運行在不同作業系統上，它由一些列c函數和少量c++函數組成，並提供python，matlab等語言的接口，實現了圖像處理和計算機視覺方面的很多通用算法。我們這裡用的opencv-python 就是opencv的python API接口。
如何快速簡單的安裝opencv-python

：可以在使用pip的時候，加上參數-i和鏡像地址(如https://pypi.tuna.tsinghua.edu.cn/simple)，例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-contrib-python這樣就會從清華鏡像安裝opencv-contrib-python
《抖音》上火的hls可樂桶是什麼

抖音上火的hls可樂桶是什麼？最近刷《抖音》的小夥伴相信都看到了一些關於hls可樂桶的視頻，視頻除搞笑之外，還有很多小夥伴都在想這個hls可樂桶是什麼意思，那麼今天小編就給大家介紹一下抖音上火的hls可樂桶的相關含義。
資料很清晰,小白都可快速入門—創龍Zynq7020 SoC開發板評測(軟體篇)

哦，不好意思我們扯遠了，本期的分享是以測評為主，我們現在就作為小白來上手實踐下創龍TLZ7x-EasyEVM Zynq7020開發板的使用。我們先來看下創龍為我們學習、開發所提供的資料。再我們購買創龍TLZ7x-EasyEVM Zynq7020開發板的時候，創龍為我們提供了一共三張DVD光碟的開發板相關資料，第一張光碟的內容主要包含，晶片手冊，例程Demo，相關工具，以及ZYNQ晶片相關的參考文檔，底板原理圖、PCB設計和創龍提供的針對板卡的使用手冊，第二張光碟和第三張光碟主要包含創龍所提供的SDK（軟體開發包），通過SDK我們可以快速搭建板卡的使用、開發的環境，方便我們快速導入開發流程
利用OpenCV和深度學習實現人臉檢測

這裡整理了一份前段時間做的小demo，實現獻醜了本文基於OpenCV3.3.1或以上版本（如OpenCV3.4）、DNN模塊和face_detector示例實現簡單、實時的人臉檢測。為了避免折騰，還是建議使用OpenCV3.3.1及以上（如OpenCV3.4）。