基於CNN的單階段目標檢測器

2020-12-04 老白說圖像

1 You Only Look Once (YOLO)

YOLO是在2015年R.Joseph提出的,在深度學習時期,它是第一個單階段檢測器。YOLO是很快的:YOLO的快速版本可以在VOC07上以mAP=52.7%的準確度跑到155fps,其加強版可以在VOC07以mAP=63.4%和VOC12以mAP=57.9%的準確率跑到45fps。

YOLO是YouOnlyLookOnce的縮寫,從它的名字可以看出,作者作者已經完全捨棄了之前的檢測範式:提議檢測+驗證。然而,它遵循了一個完全不同的哲學,即將一個單神經網絡應用到整張圖像上。這個網絡將圖像劃分不同成不同的區域,然後同時對每個區域的boundingbox和可能性作出預測。R.Joseph基於YOLO作出了一些列的改進,已經提出的v2和v3版本在保持很高的檢測速度的情況下,更進一步提高了檢測的準確度。

儘管檢測速度的很大提高,但是相比於兩階段檢測器,其定位的準確性有一定的下降,尤其是對於一些小目標。YOLO隨後的版本和後邊提出的SSD開始聚焦這個問題。

2 Single Shot MultiBox Dector(SSD)

SSD是在2015年提出來的,它是第二個在深度學習時期的單階段檢測器。SSD的主要貢獻是多參考和多解析度檢測技術的引進,其能夠很大的提高單階段檢測器的檢測準確度,尤其對於小目標(VOC07mAP=76.8%,VOC12mAP=74.9%,COCOmAP@.5=46.5%,mAP@[.5,.95]=26.8%,快速版本可以跑到59fps)。

SSD與之前檢測器最大的不同是,SSD在網絡中不同層上檢測不同尺度的目標,而後者則是僅僅在頂層進行檢測。

3 RetinaNet

儘管單階段檢測器的高速度和簡單性,但是其準確性在幾年內都不及兩階段檢測器。後來,T.-Y.Lin等發現了其背後的原因,並在2017年提出了RetinaNet。他們聲稱,在密集檢測器訓練中碰到的前景-背景類及其不平衡是最主要的原因。

為了解決這個問題,通過對標準交叉熵的改進,一個命名為「focalloss」的新損失函數在RetinaNet中被引進,所以檢測器在訓練中將更多的關注那些難分和錯誤分類的樣本,進而實現兩階段檢測器相當的準確度,同時也保持比較高的檢測速度(COCOmAP@.5=59.1%,mAP@[.5,.95]=39.1%)。

相關焦點

  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    當下非常火熱的無人駕駛汽車,就非常依賴目標檢測和識別,這需要非常高的檢測精度和定位精度。目前,用於目標檢測的方法通常屬於基於機器學習的方法或基於深度學習的方法。對於機器學習方法,首先使用 SIFT、HOG 等方法定義特徵,然後使用支持向量機 (SVM)、Adaboost 等技術進行分類。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    ILSVRC2015的VID評價指標與圖像目標檢測評價指標相同——計算檢測窗口的mAP。然而對於視頻目標檢測來說,一個好的檢測器不僅要保證在每幀圖像上檢測準確,還要保證檢測結果具有一致性/連續性(即對於一個特定目標,優秀的檢測器應持續檢測此目標並且不會將其與其他目標混淆)。ILSVRC2016針對這個問題在VID任務上新增加了一個子任務(詳見第四部分——視頻目標檢測時序一致性介紹)。
  • 比當前SOTA小4倍、計算量少9倍,谷歌最新目標檢測器EfficientDet
    論文連結:https://arxiv.org/abs/1911.09070基於這些優化,研究者開發了新型目標檢測器 EfficientDet。在廣泛的資源限制下,這類模型的效率仍比之前最優模型高出一個數量級。
  • 在多目標識別方面,maskr-cnn已經取得了一些進展
    maskr-cnn是業界首款實用的全卷積神經網絡模型,為計算機視覺中的多目標識別與自動對焦,開創性的成為計算機視覺發展的新方向。無論是基於計算機視覺的自動對焦系統、模式識別系統,還是圖像識別,maskr-cnn都是有標誌性意義的。它強調平滑準確的計算輸入、檢測框和定位點,訓練過程與特徵提取過程採用多級感受野融合技術進行自動優化提高目標解析度及精度,以及做出精度更高的語義推理判斷。
  • 深蘭ACM MM 2020視頻目標檢測挑戰賽冠軍 助機器理解視頻級別目標身份和動態
    賽題介紹儘管計算機視覺的最新進展有效地提高了多媒體系統的性能,但仍然不能明確回答一個核心問題:機器是否理解視頻中發生的事情,分析結果是否可以被人類用戶解釋?為了推動上述問題的研究,新加坡國立大學推出了VidOR數據集。
  • 融合視頻目標檢測與單目標、多目標跟蹤,港中文開源視頻感知平臺
    該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。GitHub 地址:https://github.com/open-mmlab/mmtrackingMMTracking 效果展示。據介紹,MMTracking 具備以下主要特性:1.
  • 從R-CNN到YOLO,一文帶你了解目標檢測模型(附論文下載)
    它是將CNN用於對象檢測的起源,能夠基於豐富的特徵層次結構進行目標精確檢測和語義分割來源。如何確定這些邊界框的大小和位置呢?R-CNN網絡是這樣做的:在圖像中提出了多個邊框,並判斷其中的任何一個是否對應著一個具體對象。
  • OpenMMLab 第二版發布:吸引業界「目光」的史上最完整的目標檢測...
    MMDetection 有幾個主要的特點:除了介紹代碼庫和基準測試結果外,我們還報告了訓練目標檢測器的過程和最佳方法。並討論了關於超參數、體系結構、訓練策略的燒蝕實驗。我們希望該研究能夠有助於未來的研究,並促進不同方法之間的比較。支持架構MMDetection 包含主流目標檢測和實例分割方法的高質量實現。
  • MatrixNets:可替代FPN,用於目標檢測的可感知比例和長寬比的網絡結構
    首先,作者將xNets應用於基於錨(anchor)的目標檢測,用於預測目標中心並回歸左上角和右下角。其次,作者根據預測的左上角和右下角,將MatrixNets用於基於角點(corner)的目標檢測。每個角點都會預測目標的中心位置。作者還通過將嵌入層替換為中心回歸來增強基於角點的檢測。
  • ML算法實現10萬高壓非晶矽原子模擬;E2E單階段目標檢測
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括牛津大學等機構的學者利用機器學習算法實現 10 萬高壓非晶矽原子的模擬,以及香港大學和字節跳動 AI 實驗室研究者提出的端到端單階段目標檢測器
  • ...檢測與單目標、多目標跟蹤,港中文開源一體化視頻感知平臺MM...
    新年伊始,香港中文大學多媒體實驗室(MMLab)OpenMMLab 又有新動作,發布了一款一體化視頻目標感知平臺 MMTracking。該框架基於 PyTorch 寫成,支持單目標跟蹤、多目標跟蹤與視頻目標檢測,目前已開源。GitHub 地址:https://github.com/open-mmlab/mmtracking
  • 基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。
  • FAIR最新視覺論文集錦:FPN,RetinaNet,Mask 和 Mask-X RCNN(含代碼...
    對每一個模塊都進行了單變量實驗,從而證明了開頭的說法。 基於 DeepMask and SharpMask 架構演示了 FPN 可以用於圖像分割建議生成。 對實現細節感興趣的同學一定要去讀一讀原文。   附註:FPN 是基於一個主幹模型的,比如 ResNet。
  • 以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題
    隨著高性能目標檢測模型的出現,一個強大的替代方案誕生了:檢測-跟蹤法(更準確地說是「基於檢測的跟蹤」)。這些模型依賴給定的準確識別率來識別目標對象,然後在另一個階段中將它們按時間順序關聯起來。基於檢測的跟蹤利用基於深度學習的目標檢測器,是目前主流的目標跟蹤範式。但是,性能最好的目標跟蹤器也不是沒有缺點的。很多跟蹤器需要依靠低速複雜的關聯策略,才能將檢測框按時間串聯起來。
  • 經典解讀 | Cascade R-CNN詳細解讀
    從文章的題目上我們就可以看出來這篇文章目標是提高檢測質量,希望能獲得更精確的檢測結果。文章提出的cascade結構的效果是驚豔的,幾乎對於任意的R-CNN(Faster rcnn,FPN,R-FCN等)都可以帶來2到4個點的AP提升!!!而且實現十分簡單,已使用Pytorch在Pascal VOC上復現論文。此外,本篇文章的實驗講解部分對於理解R-CNN網絡有很大的幫助,建議詳細閱讀。   0.
  • 揭秘沃特世最新質譜檢測器ACQUITY QDa
    沃特世中國產品市場發展總監舒放   沃特世根據用戶提出的要求進行有目標的創新,終於在今天推出了專門為液相色譜量身打造的質譜檢測器   產品性能:37項全新專利和更多正在申請中的專利              可替代80%傳統單四極質譜儀的工作   ACQUITY QDa中QDa的英文全稱為:Quadrupole Dalton,顧名思義它是一款基於單四極杆的質譜檢測器
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    雷鋒網 AI 開發者按:Detectron 是 FAIR 在 2018 年初公開的目標檢測平臺,包含了大量業內最具代表性的目標檢測、圖像分割、關鍵點檢測算法,該框架主要基於 python 和 caffe2 實現,開源項目已獲得了超 2.2w 的星標數。
  • 基於深度學習的多目標跟蹤(MOT)技術一覽
    其中單目標跟蹤(VOT/SOT)、目標檢測(detection)、行人重識別(Re-ID)都是非常熱門的方向。而偏視頻的相關方向就比較冷門。而且今年五月DukeMTMC因為隱私問題不再提供MTMCT的數據了,MTMCT的研究也是舉步維艱。
  • 詳解目標檢測Faster R-CNN
    基於深度學習的目標檢測中,可能最難的問題就是生成長度不定(variable-length)的邊界框列表。在構建深度神經網絡時,最後的網絡輸出一般是固定尺寸的張量輸出(採用RNN的除外)。例如,在圖片分類中,網絡輸出是 (N,) 的張量,N 是類別標籤數,張量的每個位置的標量值表示圖片是類別i的概率值.
  • 滴普技術薈:基於機器視覺的典型多目標追蹤算法應用實踐
    視頻目標追蹤算法是機器視覺中一項很實用重要的算法,視頻目標追蹤算法應用場景很廣,比如智能監控、機器人視覺系統、虛擬實境(人體跟蹤)、醫學診斷(細胞狀態跟蹤)等。本文由滴普科技2048團隊AI產品部算法工程師朱曉麗介紹基於機器視覺的典型多目標追蹤算法應用實踐。