COCO 54.7mAP!DetectoRS目標檢測:改進主幹網,成就新高度!

2020-12-05 我愛計算機視覺

COCO 數據集上的目標檢測精度的最高紀錄已經有將近一年時間停留在53.3 mAP,曾經報告達到過這一高度的算法有:

1)Cascade Mask R-CNN(Triple-ResNeXt152, multi-scale) ;

2)ResNeSt-200DCN (multi-scale);

均使用了多尺度測試,

它們分別來自論文:

1)CBNet: A Novel Composite Backbone Network Architecture for Object Detection, AAAI 2020;

2)ResNeSt: Split-Attention Networks, arXiv 2020;

這兩篇論文均為在主幹網上做文章,尤其是後者,其提出的主幹網ResNeSt不僅大幅提高了目標檢測的精度,在語義分割、實例分割中也登頂COCO數據集。

這不由得使我們思考,現有目標檢測、語義分割等的任務架構是不是已經較為完備,而研究更好的主幹網、增強網絡的表達能力是提升精度更好的選擇?

今天新出的文章 DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution ,則再一次在主幹網上做文章,其在COCO數據集上的單尺度測試精度已經達到53.3mAP(53.3真是一個神奇的數字!),而多尺度測試中 DetectoRS (ResNeXt-101-32x4d, multi-scale) 達到目前所有文獻報告的最高精度:54.7mAP!代碼已開源。

不僅如此,在COCO數據集上的實例分割和全景分割任務中,DetectoRS 也一舉登頂,成為目前目標檢測、語義分割、全景分割領域的全能王者!

DetectoRS 作者信息:

第一作者 Siyuan Qiao目前是約翰斯霍普金斯大學博士生,第二作者是著名的DeepLab 系列算法主要作者谷歌公司研究員Liang-Chieh Chen。

主要思想

DetectoRS的思想來自成功的目標檢測算法如Faster RCNN 、Cascade R-CNN所體現出的哲學:looking and thinking twice (無論是兩階段還是級聯檢測器,都體現出信息的反覆利用和提精)作者是把這一思想應用於主幹網的改進上,主要創新如圖:

1)宏觀層次,提出遞歸特徵金字塔網絡(RFP,Recursive Feature Pyramid),集成FPN的反饋連接到主幹網,使得主幹網再訓練得到的特徵更好的適應檢測或分割任務。

2)微觀層次,提出可切換的空洞卷積(SAC,Switchable Atrous Convolution)替換主幹網上的標準卷積,使得模型可自適應選擇感受野。

以上新技術帶來的改進是顯著的,作者將其應用於實例分割算法HTC,在其他不變的情況下,檢測和分割精度提升明顯,如圖:

遞歸特徵金字塔網絡(RFP)

大家所熟知的特徵金字塔網絡(FPN)是將主幹網不同階段(stage)特徵組成特徵金字塔,如下圖(a),而RFP則添加了對於目標檢測任務的梯度向主幹網方向回傳,如下圖(b)。

圖中(c)是將這個遞歸的過程展開的示意圖,FPN反饋連接到主幹網每個階段的第一個block,使用的是ASPP結構(圖中綠色圓點),圖中畫出的是2-step 序列RFP,FPN之間也進行了特徵融合(圖中紅色部分)。

反饋連接網絡ASPP:

RPN中的融合模塊:

作者最終實驗中使用的就是2-step RFP。

這種遞歸特徵金字塔網絡有什麼好處呢?很明顯它能夠使得目標檢測的錯誤回傳信息更直接的反饋調整主幹網的參數。

可切換的空洞卷積(SAC)

空洞卷積可增大網絡感受野,這已經被證明對檢測和分割任務是有效的。

而作者提出的可切換的空洞卷積(Switchable Atrous Convolution)則使得網絡訓練時尺度選擇更靈活,如下圖:

不同空洞率的空洞卷積捕捉到不同感受野的目標,網絡可以學習到一個開關,以自適應調整選擇哪個感受野的卷積結果。

其網絡結構如圖:

作者將主幹網所有標準卷積替換為可切換的空洞卷積,而且為了更方便地從ImageNet預訓練模型給主幹網賦值,作者發明了可兼容標準卷積的可切換空洞卷積,具體細節請查看原論文。

實驗結果

作者在消融實驗中對上述兩種改進進行了效果評估,如圖:

可見HTC算法+RFP或者HTC+SAC均獲得了大幅的精度提升,且相比較之下HTC+SAC的提升幅度更大,而同時加上RFP與SAC,取得了最高的精度。

一些檢測結果示例:

下圖為DetectoRS使用不同類型主幹網與其他SOTA算法的比較:

使用ResNeXt-101-32x4d主幹網,DetectoRS 取得了 COCO 目標檢測單尺度和多尺度目前的最高精度,分別達到53.3mAP和54.7mAP。

在COCO實例分割和全景分割任務中的結果:

同樣獲得了目前最高的精度。

速度:在NVIDIA TITAN RTX顯卡上運行幀率3.9fps。

最後讓我們一起回顧一下COCO數據集目標檢測近幾年的SOTA(請點擊並橫屏查看大圖):

圖片來自paperswithcode.com

DetectoRS 已經站在風口浪尖,不知下一個出現在最右上角的是誰呢?

在我愛計算機視覺公眾號後臺回復「DetectoRS」,即可收到論文原文和代碼下載。

DetectoRS 等論文改進主幹網,提升網絡表達能力,實現新高度,結果很漂亮,但從工程的角度,最簡單、直接改進網絡表達能力的是增加數據規模、提高數據質量,這也是谷歌一直在做的,

百度搜索「52CV」網了解更多有關計算機視覺的信息,你也可以在公眾號」我愛計算機視覺「找到CV君。

相關焦點

  • 經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...
    機器視覺領域的核心問題之一就是目標檢測 (object detection),它的任務是找出圖像當中所有感興趣的目標 (物體),確定其位置和大小。作為經典的目標檢測框架 Faster R-CNN,雖然是 2015 年的論文,但是它至今仍然是許多目標檢測算法的基礎,這在飛速發展的深度學習領域十分難得。
  • 目標檢測:Anchor-Free時代
    ,最近達到了井噴的狀態,宣告著目標檢測邁入了Anchor-Free時代。給出4個極值點,計算幾何中心,如果幾何中心在center map上對應高響應,那麼這4個極值點為有效檢測。作者使用暴力枚舉的方式來得到所有有效的4個關鍵點。CornerNet和ExtremeNet的區別:1.CornerNet通過預測角點來檢測目標的,而ExtremeNet通過預測極值點和中心點來檢測目標的。
  • 整合全部頂尖目標檢測算法:FAIR開源Detectron
    昨天,Facebook AI 研究院(FAIR)開源了 Detectron,業內最佳水平的目標檢測平臺。據介紹,該項目自 2016 年 7 月啟動,構建於 Caffe2 之上,目前支持大量機器學習算法,其中包括 Mask R-CNN(何愷明的研究,ICCV 2017 最佳論文)和 Focal Loss for Dense Object Detection,(ICCV 2017 最佳學生論文)。
  • 輕鬆識別小目標的物體檢測算法揭秘
    在眾多模型使用場景中,小目標物體的檢測比較常見,一般的目標檢測算法往往效果不理想;因此,EasyDL團隊針對小目標物體的檢測進行了專項優化,並取得了令人矚目的效果提升。自AlexNet在2012年ImageNet比賽上展露頭角以來,計算機視覺各個方向和神經網絡的聯繫變得越發緊密,物體檢測也不例外。
  • 分析COCO數據集進行姿態估計
    這是一個包含圖像寬度、高度、名稱、許可證等一般信息的詞典。在第14行,我們加載給定圖像的注釋元數據。這是一個字典列表,每個字典代表一個人。第27-32行顯示了如何加載整個訓練集(train_coco)。類似地,我們可以加載驗證集(val_coco)。將COCO轉換為Pandas數據幀讓我們將COCO元數據轉換為pandas數據幀。
  • mmdetection使用目標檢測工具箱訓練,測試
    通過這些模塊的組合,可以迅速搭建出各種著名的檢測框架,比如 Faster RCNN,Mask RCNN,R-FCN,RetinaNet , Cascade R-CNN及ssd 等,以及各種新型框架,從而大大加快檢測技術研究的效率。
  • 目標檢測和感受野的總結和想法
    Faster R-CNN, YOLOv3等都用到了Anchor, 怎麼設計Anchor每個目標檢測方法各不相同。這是感受野的一個性質,不過好在大多數現代的網絡設計是對齊的,對很多計算機視覺任務來說,都需要對其輸出特徵,包括目標檢測、語義分割、邊緣檢測、著色等。在網絡對齊時候,所有不同路徑都會導致感受野的中心是重合的,所以不同路徑必須保持相同的stride。這一點可以觀察Inception系列的網絡,兩條路的Stride是不可能不同的。
  • 目標檢測必須要OpenCV?10行Python代碼也能實現,親測好用!
    目標檢測是藉助於計算機和軟體系統在圖像/場景中,定位目標並識別出每個目標的類別的技術。目前已廣泛用於人臉檢測、車輛檢測、行人計數、網絡圖像、安全系統和無人駕駛汽車等領域。隨著計算機技術不斷發展和軟體開發人員的不懈努力,未來目標檢測技術將更廣泛的普及開來。在應用程式和系統中使用先進的目標檢測方法,以及基於這些方法構建新的應用程式並不容易。
  • 中國國家電網公司承建的緬甸北克欽邦與230千伏主幹網連通工程竣工
    1月11日,中國國家電網公司承建的緬甸北克欽邦與230千伏主幹網連通工程竣工儀式在緬甸實皆省瑞博市舉行。緬甸電力與能源部部長吳溫楷、實皆省省長敏奈博士,中國駐緬甸大使館經商參贊譚書富出席儀式。中國國家電網有限公司所屬中國電力技術裝備有限公司以工程總承包(EPC)模式建設實施該項目。
  • 詳解目標檢測Faster R-CNN
    目標檢測的一般結構: 背景R-CNN - 是 Faster R-CNN 的啟發版本.這對於分類任務是重要的,在目標檢測中也如此。另外,ResNet 採用殘差連接(residual connection) 和 BN (batch normalization) 使得深度模型的訓練比較容易. 這對於 VGG 首次提出的時候沒有出現.
  • ILSVRC2016目標檢測任務回顧:圖像目標檢測DET
    2016年,在該比賽的圖像目標檢測任務中,國內隊伍大放異彩,包攬該任務前五名(如圖1所示)。我們將根據前五名參賽隊伍提交的摘要與公開發表的論文或技術文檔,簡析比賽中用到的圖像目標檢測方法。圖1.ILSVRC2016目標檢測(無額外數據)任務比賽結果總體上說,參賽隊伍大多採用ResNet/Inception網絡+Faster R-CNN框架,注重網絡的預訓練,改進RPN,並利用Context信息,測試時結合普遍被使用的多尺度測試、水平翻轉、窗口投票等方法,最終融合多個模型得到結果。下面我們將細數參賽方法中的諸多亮點。
  • DAC快速目標檢測算法優化和架構設計優化方案
    DAC快速目標檢測算法優化和架構設計優化方案 Pynq 發表於 2020-12-03 15:26:17 1.
  • 前沿丨水中目標新型被動檢測理論及方法
    《水中目標新型被動檢測理論及方法》以艦船、水下航行器等水中目標的輻射噪聲和航行器自噪聲為研究對象,開展新型被動檢測的理論與方法研究。利用現代信號處理技術對艦艇輻射噪聲、水下航行噪聲及海洋環境噪聲進行分析,提取多方位、多層次上的目標特徵。研究被動檢測中的「三非」過程的信號處理問題,確定適合水下航行器微弱信號目標檢測的新信號處理技術。
  • 增加檢測類別?這是一份目標檢測的一般指南
    我如何才能向自己的目標檢測器中增加新類別?有這個可能嗎?如果你能就這兩個問題寫一篇文章,我將不勝感激。Ezekiel 並不是受此問題困擾的唯一讀者。事實上,如果你仔細瀏覽了我最近關於深度目標檢測兩篇文章的評論,你會發現最常見的問題可以被表述為:我該如何修改你的原始碼來包含我自己的類別?
  • YOLO,一種簡易快捷的目標檢測算法
    YOLO全稱You Only Look Once,是一個十分容易構造目標檢測算法,出自於CVPR2016關於目標檢測的方向的一篇優秀論文(https://arxiv.org/abs/1506.02640 ),本文會對YOLO的思路進行總結並給出關鍵代碼的分析,在介紹YOLO前,不妨先看看其所在的領域的發展歷程。
  • ILSVRC2016目標檢測任務回顧——視頻目標檢測(VID)
    由於視頻中存在運動模糊,遮擋,形態變化多樣性,光照變化多樣性等問題,僅利用圖像目標檢測技術檢測視頻中的目標並不能得到很好的檢測結果。如何利用視頻中目標時序信息和上下文等信息成為提升視頻目標檢測性能的關鍵。ILSVRC2015新增加了視頻目標檢測任務(Object detection from video, VID),這為研究者提供了良好的數據支持。
  • 從零開始碼一個皮卡丘檢測器-CNN目標檢測入門教程(上)
    本文先為大家介紹目前流行的目標檢測算法SSD (Single-Shot MultiBox Object Detection)和實驗過程中的數據集。訓練、測試過程及結果參見《從零開始碼一個皮卡丘檢測器-CNN目標檢測入門教程(下)》目標檢測通俗的來說是為了找到圖像或者視頻裡的所有目標物體。在下面這張圖中,兩狗一貓的位置,包括它們所屬的類(狗/貓),需要被正確的檢測到。