卷積神經網絡 物體檢測 SSD

2020-12-12 三姐的哥

2015年,YOLO之後,另外一個直接回歸的方法SSD,以state-of-the-art的檢測效果和檢測效率橫空出世;

SSD,single shot multibox detector

直接看下圖吧,可以看出,YOLO是在卷積層後加了FC,然後預估2*7*7共49個位置98BBox;而SSD顯著的不同就是多尺度:1) 多尺度的feature map上提取特徵,通過3*3的卷積核,保證特徵的細粒度和豐富性; 2) 多尺度feature map上抽取anchor,每張圖共有7308個BBox,遠大於YOLO的98;

上圖中,Conv4_3上面的Conv: 3*3(4*(classes+4)),前面的3*3是卷積核,後面的4是每個點的有4個anchor,所以這一層共有38*38*4個BBox,把7個卷積層加起來,一共就是7308個BBox;

另外,每個正例BBox學習的並不是絕對位置或者相對grid的位置,而是相對於ground truch的偏移,如下圖:

因此,其loss function包括兩部分,分類的confidence+回歸相對ground truth的位置偏移,如下:

在VOC和COCO上的效果

1. 準確率上:VOC達到最高80%,COCO這個小物體也是最高26.8%;

2. 速度上,500尺寸下,SSD和YOLO基本持平,20幀,但是mAP高10點;

另外,16年的YOLOv2在檢測效果和速度上更高一層,在效果保持state-of-the-art的基礎上,FPS能達到50+,是SSD的2倍+,但是!小物體檢測依然是YOLO的短板,COCO上的依然低於SSD5個百分點,如下:

SSD: Single Shot MultiBox DetectorWei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

相關焦點

  • 卷積神經網絡 物體檢測 FPN
    2017年,kaiming和rbg再次合作(一作Tsung-Yi Lin),提出了FPN解決小物體檢測的問題FPN(feature pyramid network)從rcnn到fater rcnn,物體的分類都是在最後conv層的feature map上做的,而此時feature map每個點對應的是原圖的一個區域,如果我們要檢測的物體比較小,很容易漏檢;所謂低層的特徵淺但是位置精細,高層的特徵深但是位置粗糙,因此如何加入多尺度特徵是本篇要解決的問題,如下是幾種方案:(a)通過多尺度圖片分別獲取多尺度特徵
  • 目標檢測算法之SSD
    摘要本文提出了僅需要單個卷積神經網絡就能完成目標檢測的算法,並命名為SSD(Single Shot Detector)。SSD算法將目標框的輸出空間離散化為一組在每個特徵圖位置不同大小和形狀的默認框。預測時,網絡對位於每個默認框類的物體類別進行打分,並修正默認框位置來更好的匹配物體的位置。此外,SSD網絡在不同解析度的特徵圖上預測,這樣就可以處理大小不同的物體。
  • 目標檢測|SSD原理與實現
    前言目標檢測近年來已經取得了很重要的進展,主流的算法主要分為兩個類型(參考RefineDet):(1)two-stage方法,如R-CNN系算法,其主要思路是先通過啟發式方法(selective search)或者CNN網絡(RPN)產生一系列稀疏的候選框,然後對這些候選框進行分類與回歸,two-stage
  • 卷積神經網絡 物體檢測 Faster-RCNN
    轉化為固定的長度給全連接層,通過分類和位置組合Loss學習;在fast rcnn裡除了region proposal外,其他的部分都可以end to end了,fast rcnn不算region proposal是0.3s每張圖片,而region proposal最快也要0.2s,這就是本篇要解決的問題了,如何提升region proposal的效率,按照之前的套路肯定是加入到一個網絡中
  • 卷積神經網絡學習路線(五)| 卷積神經網絡參數設置,提高泛化能力?
    type:優化算法的選擇,一共有六種可選:SGD、AdaDelta、AdaGrad、Adam、Nesterov和RMSProp。默認為SGD。原理建議看看史丹福大學的CS231N視頻課程。竟可能標註更多的訓練數據,這是提高泛化能力最理想的方法,更多的數據讓模型得到更充分的學習,自然提高了泛化能力,但實際場景中考慮到標註成本的問題,可能並不能無腦加數據。使用更大的batch_size。在相同迭代次數和學習率的條件下,每批次採用更多的數據將有助於模型更好的學習到正確的模式,模型輸出結果也會更加穩定。數據過採樣。
  • 卷積神經網絡(CNN)新手指南
    我們可以毫不猶豫迅速識別出我們周圍的環境以及物體,當我們看到一張圖片或者觀察周遭環境時,大部分時間我們都能馬上對場景做出判斷並且給每個物體都打上標識,這些甚至都不需要刻意去觀察。這些技能能夠迅速識別其模式,從我們以前的經驗中做出推論,然後將其運用至不同的圖片或者環境中——這些都是我們與機器不同的地方。
  • 計算機視覺(及卷積神經網絡)簡史
    幾年後,在1989年,一位年輕的法國科學家Yann LeCun將一種後向傳播風格學習算法應用於Fukushima的卷積神經網絡結構。 在完成該項目幾年後,LeCun發布了LeNet-5--這是第一個引入我們今天仍在CNN中使用的一些基本成分的現代網絡。在他面前的Fukushima,LeCun決定將他的發明應用於角色識別,甚至發布了用於閱讀郵政編碼的商業產品。
  • SSD物體檢測算法詳解
    物體檢測算法,按算法結構,可以分為one-stage和two-stage兩類。
  • 卷積神經網絡(CNN)簡易教程
    讓我們先來了解一下我們的大腦是如何識別物體的。我們將學習什麼是CNN, CNN如何利用大腦的啟發進行物體識別,CNN是如何工作的。讓我們來了解一下我們的大腦是如何識別圖像的根據諾貝爾獎獲得者Hubel和Wiesel教授的說法,視覺區域V1由簡單細胞和複雜細胞組成。簡單的單元有助於特徵檢測,而複雜的單元則結合了來自小空間鄰域的多個這樣的局部特徵。
  • 給你一個卷積神經網絡工作原理最直觀的解釋
    卷積神經網絡(Convolutional Neural Network, CNN)是人工神經網絡的一種,是當下語音分析和圖像識別領域的研究熱點。這篇文章用最簡明的語言和最直觀的圖像,帶你入門CNN。準備好了嗎?Let’s go——我們先從最基礎的內容說起。對二維數位訊號(圖像)的操作,可以寫成矩陣形式。
  • 學術簡報︱基於反饋機制的卷積神經網絡絕緣子狀態檢測方法
    針對已有檢測模型處理不同樣本時採用固定特徵空間的不足及現有絕緣子檢測算法特徵提取複雜的缺陷,模仿人類由簡到細反覆推敲比對的認知過程,探索一種基於反饋機制的卷積神經網絡絕緣子狀態檢測方法。首先,針對絕緣子樣本的特點,改進LeNet_5網絡結構,引入隨機配置網絡分類器,添加反饋機制調節卷積核的大小和個數,採用交替優化的策略以優化卷積神經網絡的參數。
  • CDA 試聽課|什麼是卷積神經網絡運算?
    ▲ 點擊藍字關注我們CDA 金牌講師覃老師,帶你5分鐘了解什麼是卷積神經網絡運算?
  • 實例分割與物體檢測的統一——Mask-RCNN
    深度學習在計算機視覺上的運用主要是卷積神經網絡,必須強調的是卷積神經網絡的應用並不僅僅局限於圖像,在音頻、視頻方面也有不少的應用,甚至NLP中也有使用卷積神經網絡的例子,所以說對AI從業者來說學習這些還是很有好處的。在這篇文章中,我們以Mask-RCNN[1]的發展歷史為線索探討計算機視覺問題中的圖像分割問題以及物體檢測,並最後簡單講解一些我在醫學圖像領域使用Mask-RCNN的例子。
  • 第六講 走進卷積神經網絡
    從本講開始,我們正式進入卷積神經網絡(Conventional Neural Networks, CNN)的學習了
  • 一文讀懂卷積神經網絡工作原理 | 網際網路數據資訊網-199IT | 中文...
    讓這些濾波器組對特定的模式有高的激活,以達到CNN網絡的分類/檢測等目的。 一個實際CNN(AlexNet)第一個卷積層的濾波器>卷積神經網絡的第一個卷積層的濾波器用來檢測低階特徵,比如邊、角、曲線等。
  • 卷積神經網絡(一)——卷積、邊緣化與池化層
    卷積神經網絡(一)——
  • 卷積神經網絡(CNN)介紹與實踐
    - 來源:http://cs231n.github.io/classification/為了「教會」一種算法如何識別圖像中的對象,我們使用特定類型的人工神經網絡:卷積神經網絡(CNN)。他們的名字源於網絡中最重要的一個操作:卷積。卷積神經網絡受到大腦的啟發。
  • 深度學習入門:淺析卷積神經網絡
    至今已有數種深度學習方法,如卷積神經網絡(CNN)、自編碼神經網絡(包括Auto encoder和Sparse Coding)和深度置信網絡(DBN),並在各個領域中取得了極好的效果。二卷積神經網絡搭建1.
  • 卷積神經網絡概念與原理
    一、卷積神經網絡的基本概念       受Hubel和Wiesel對貓視覺皮層電生理研究啟發,有人提出卷積神經網絡(CNN),Yann Lecun
  • 一文看懂卷積神經網絡-CNN(基本原理+獨特價值+實際應用)
    卷積神經網絡 - CNN 最擅長的就是圖片的處理。它受到人類視覺神經系統的啟發。