基於卷積神經網絡的目標檢測算法簡介

2020-12-04 智眼科技

1. 什麼是目標檢測?

目標檢測的主要任務是從圖像中定位感興趣的目標,需要準確判斷每個目標的具體類別,並給出每個目標的邊界框。

2. 實現目標檢測需要哪些步驟?

要實現目標檢測,傳統的方法主要分為預處理、窗口華東、特徵提取、特徵選擇、特徵分類和後處理六個步驟。

a) 預處理,對待檢測圖像進行圖像去噪、圖像增強、色彩空間轉換等操作

b) 在待檢測圖像中滑動一個固定大小的窗口,將窗口中的子圖像作為候選區

c) 利用特定算法對候選區域進行特徵提取

d) 從特徵向量中選擇具有代表性的特徵,降低特徵維數

e) 利用特徵分類器對特徵進行分類,判定候區是否包含了目標及其類別

f) 合併判定為統一類別的相交候選區,計算出每個目標的邊界框,完成目標檢測。

3. 目標檢測算法的研究難點在哪?

主要是兩個方面。第一,特徵提取,即如何提高特徵的表達能力和抗形變能力。第二,特徵分類,即如何提高分類器的準確度和速度。

3. 為什麼說使用設計的特徵存在缺點?

a) 設計的特徵為底層特徵,對目標表達能力不足

b) 設計的特徵的可分性較差,導致分類錯誤率較高

c) 設計的特徵具有針對性,很難選擇單一特徵應用於多目標檢測,如Haar特徵用於人臉檢測,HOG特徵用於行人檢測,Strip特徵用於車輛檢測

5.什麼是卷積神經網絡?

卷積神經網絡是一個層次模型,主要包括輸入層,卷積層,池化層、全連接層以及輸出層。

卷積神經網絡是專門針對圖像而設計,主要特點在於卷積層的特徵是由前一層的局部特徵通過卷積共享的權重得到。

在卷積神經網絡中,輸入圖像通過多個卷積層和池化層進行特徵提取,逐步由底層特徵變為高層特徵;高層特徵再經過全連接層和輸出層進行特徵分類,產生一維向量,表示當前輸入圖像的類別。

根據每層的功能,卷積神經網絡可劃分為兩個部分:由輸入層、卷積層和池化層構成特徵提取器,以及由全連接層和輸入層構成分類器。其中:

輸入層:作用是接收輸入圖像,輸入層的大小與輸入圖像的大小一致。

卷積層:作用是運用卷積操作提取特徵,卷積層越多,特徵表達能力越強。

池化層:通過設置在卷積層之後,通過對特徵圖的局部區域進行池化操作,使特徵具有一定的空間不變性。常用的池化操作有均值池化和最大值池化。池化層具有類似於特徵選擇的功能,根據一定規則從卷積特徵圖的局部區域計算出重要的特徵值,通常情況下,池化層會無重疊地選擇局部區域,因此,池化操作降低了特徵維度,同時保證了特徵具有抗形變的能力。池化層與卷積層的特徵圖是一一對應,因此,池化層的特徵圖個數與卷積層的特徵圖個數一致。

全連接層:

位於特徵提取之後,將前一層的所有神經元與當前層的每個神經元相連接。全連接層會根據輸出層的具體任務,有針對性地對高層特徵進行映射。

輸出層:輸出層的形式面向具體任務,如果將卷積神經網絡作為分類器使用,輸出層採用softmax回歸,產生一個圖形類別的預測向量y=(y1,…,ym)T,其中,M表示類別的個數。

6.卷積神經網絡的常見網絡類型有哪些?

常用的卷積神經網絡類型包括:LeNet-5,AlexNet,VGG,GooLeNet和ResNet等。

7. 基於卷積神經網絡實現的目標檢測算法怎麼分類?

根據卷積神經網絡的使用方式,可以將基於卷積神經網絡的目標檢測分為兩大類:基於分類的卷積神經網絡目標檢測和基於回歸的卷積神經網絡目標檢測。

傳統目標檢測方法包含預處理、窗口滑動、特徵提取、特徵選擇、特徵分類、後處理等步驟,而卷積神經網絡本身具有特徵提取、特徵選擇和特徵分類的功能。那麼,可以直接利用卷積神經網絡對每個滑動窗口產生的候選區進行二分類,判斷其是否為待檢測目標。相比於傳統目標檢測的六個步驟,基於分類的卷積神經網絡目標檢測只有:窗口滑動、圖像分類、後處理三個步驟,而且窗口滑動和後處理都是固定的方法。因此,該類方法的研究重點在於如何提升卷積神經網絡的特徵提取能力、特徵選擇能力以及特徵分類能力,以提高圖像識別的準確度。

基於分類的卷積神經網絡目標檢測充分利用了卷積神經網絡在圖像識別上的能力,然而,候選區提取的準確度很大程度上決定了這類方法的準確度。因此,研究者開始針對目標檢測重新設計卷積神經網絡的結構,提出了將卷積神經網絡作為回歸器,把整幅待檢測圖像看成一個候選區,直接輸入卷積神經網絡,回歸目標在待檢測圖像中的位置信息。這類方法可以稱為基於回歸的卷積神經網絡目標檢測。

8.基於卷積神經網絡實現的目標檢測目前存在哪些問題

目前,基於卷積神經網絡的目標檢測取得了一定進展,但仍存在一些需要解決的問題。一方面,目前都是通過實驗來證明卷積神經網絡的有效性,訓練參數的設置大多依靠經驗和實踐,缺乏理論指導和量化分析;另一方面,需要針對目標檢測設計更加合理的網絡結構,提升檢測效率,實現多尺度多類別的目標檢測。

相關焦點

  • 基於PVANet卷積神經網絡模型的交通標誌識別算法
    結果表明, 所構建的卷積神經網絡具有優秀的小目標物體檢測能力, 相應的交通標誌檢測算法可以實現較高的準確率。 計算機目標檢測是指計算機根據視頻、圖像信息對目標物體的類別與位置的檢測, 是計算機視覺研究領域的基本內容。隨著硬體和軟體技術的發展, 尤其是基於卷積神經網絡目標檢測算法的普及應用, 計算機目標檢測的準確率及速度都有了很大提高[1]。
  • 騰訊優圖推出卷積神經網絡深度學習算法模型
    騰訊優圖實驗室聯合廣東省肺癌研究所吳一龍教授/鍾文昭教授團隊,與清華大學以及國內多家中心呼吸科/放射科團隊等共同開發了基於卷積神經網絡算法的肺結節診斷模型,近日,該初步研究成果已被全球癌症領域知名醫學期刊《腫瘤學家》(《The Oncologist》)收錄並全文發表。
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 基於RCNN的多層次結構顯著性目標檢測方法
    常見的道路的識別算法基於圖像特徵進行計算,其分析圖像中表示車道線或道路邊界等的灰度,顏色,紋理等特徵,通過神經網絡、支持向量機、聚類分析和區域生長等方法便可以分割出路面區域。這類方法對道路曲率的變化有很好的魯棒性。 最近基於條件隨機場的道路檢測方法取得了重要的進展。
  • 卷積神經網絡算法結構分析及其工作效率的影響因素
    2012年Krizhevsky等提出的卷積神經網絡卷積神經網絡算法結構分析。就目前算法的發展狀況而言,卷及神經網絡作為當前在圖像識別領域的主流算法,被諸多工作團隊所廣泛接受,而對於圖像識別的研究重點,也從尋找更為優秀的算法,轉移到了對卷積神經網絡算法本身的優化上,並且在應用領域,也在近年取得了長足進展。
  • 9大主題卷積神經網絡(CNN)的PyTorch實現
    上文聚焦於源碼和論文,對於各種卷積神經網絡模型的實現,本文將介紹它們的 PyTorch 實現,非常有用!這份資源已經開源在了 GitHub 上,連結如下:https://github.com/shanglianlm0525/PyTorch-Networks先來個總結介紹,該系列的卷積神經網絡實現包含了 9 大主題,目錄如下:1. 典型網絡2. 輕量級網絡3. 目標檢測網絡4.
  • DAC快速目標檢測算法優化和架構設計優化方案
    並針對ZU3的資源限制,精簡了我們團隊設計的一個可以支持通用網絡的DNN加速器(HiPU),將其部署在ZU3的PL側。主要工作分為針對硬體平臺的算法優化和架構設計優化兩部分: 算法上的優化主要有: 1) 選擇ShuffleNet V2作為特徵提取的主框架; 2) 選擇YOLO作為單目標位置的回歸框架; 3) 對神經網絡進行8bit量化。
  • 滴普技術薈:基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    機器視覺領域的核心問題之一就是目標檢測 (object detection),它的任務是找出圖像當中所有感興趣的目標 (物體),確定其位置和大小。作為經典的目標檢測框架 Faster R-CNN,雖然是 2015 年的論文,但是它至今仍然是許多目標檢測算法的基礎,這在飛速發展的深度學習領域十分難得。
  • 深度學習閱讀導航 | 03 FPN:基於特徵金字塔網絡的目標檢測
    2016年,何凱明大神、 Ross Girshick等人在CVPR上發表了《Feature Pyramid Networks for Object Detection》,提出了FPN的思想,為卷積神經網絡檢測不同尺寸大小的目標提供了新的解決思路
  • 大話卷積神經網絡CNN,小白也能看懂的深度學習算法教程,全程乾貨...
    來源 | 程式設計師管小亮本文創作的主要目的,是對時下最火最流行的深度學習算法的基礎知識做一個簡介,作者看過許多教程,感覺對小白不是特別友好,尤其是在踩過好多坑之後,於是便有了寫這篇文章的想法。一、簡介百度百科中對深度學習的定義是深度學習(DL, Deep Learning)是機器學習(ML, Machine Learning)領域中一個新的研究方向,它被引入機器學習使其更接近於最初的目標——人工智慧(AI, Artificial Intelligence)。
  • 卷積神經網絡的卷積到底是什麼
    打開APP 卷積神經網絡的卷積到底是什麼 人工智慧遇見磐創 發表於 2020-05-05 08:40:00 卷積神經網絡是一種特殊的神經網絡結構,是自動駕駛汽車、人臉識別系統等計算機視覺應用的基礎,其中基本的矩陣乘法運算被卷積運算取代。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    自1974年Paul Werbos等人提出反向傳播算法(BP算法),解決了由淺層的神經網絡模型應用到深層的神經網絡模型中線性不可分的問題。深層神經網絡一般使用反向傳播算法的方法來訓練,但是由於層數較多並且隨機初始化的方法較粗糙,隨著深度加深,會造成的訓練結果不穩定或產生「梯度消失」的問題,使得深層神經網絡無法work。
  • 看了這篇文章,了解深度卷積神經網絡在目標檢測中的進展
    回顧從 2014 到 2016 這兩年多的時間,先後湧現出了 R-CNN,Fast R-CNN, Faster R-CNN, ION, HyperNet, SDP-CRC, YOLO,G-CNN, SSD 等越來越快速和準確的目標檢測方法。1.
  • 整合全部頂尖目標檢測算法:FAIR開源Detectron
    該系統是基於 Python 和深度學習框架 Caffe 2 而構建的。>Fast R-CNN (https://arxiv.org/abs/1504.08083)R-FCN (https://arxiv.org/abs/1605.06409)這些目標檢測算法主要使用以下卷積網絡架構
  • 基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻...
    2018發表論文,提出基於尺度-時間網格的視頻中物體檢測算法,解決如何優化和平衡視頻物體檢測中精度和速度的難題。 簡介 本文主要研究如何更好地優化和平衡視頻中物體檢測的準確率和檢測速度。物體檢測器為了達到高準確率,往往需要使用高性能的卷積神經網絡來提取圖像特徵,導致檢測速度難以滿足實時性的需求。解決這個問題的關鍵在於尋求一種有效的方式,在準確率和檢測速度之間作出平衡。為了尋找一個良好的平衡點,之前的研究工作通常集中在如何優化網絡結構上。
  • 使用卷積神經網絡,構建圖像分類模型檢測肺炎
    來源 | DeepHub IMBA作者 | Eunjoo Byeon在本篇文章中,我將概述如何使用卷積神經網絡構建可靠的圖像分類模型,以便從胸部x光圖像中檢測肺炎的存在。肺炎是一種常見的感染,它使肺部的氣囊發炎,引起呼吸困難和發燒等症狀。
  • 「少即是多」的目標檢測算法Sparse R-CNN
    近幾年來,目標檢測算法發展迅速,許多新出現的目標檢測範式有著很強的相同之處,如Anchor-Free的方法中不依賴於Anchor的目標檢測範式:CenterNet兼有結構簡單和高的準確率;FCOS創新性目標檢測思路。
  • MSRA視頻理解新突破,實現199層三維卷積神經網絡
    然而目前視頻識別的相關研究多數使用的是基於圖像的卷積神經網絡(如微軟研究院在 2015 提出的殘差神經網絡 ResNet)來學習視頻特徵,這種方法僅僅是對單幀圖像的 CNN 特徵進行融合,因此往往忽略了相鄰的連續視頻幀間的聯繫以及視頻中的動作信息。目前,視頻專用的深度神經網絡還很缺乏。
  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。