COCO 數據集上的目標檢測精度的最高紀錄已經有將近一年時間停留在53.3 mAP,曾經報告達到過這一高度的算法有:
1)Cascade Mask R-CNN(Triple-ResNeXt152, multi-scale) ;
2)ResNeSt-200DCN (multi-scale);
均使用了多尺度測試,
它們分別來自論文:
1)CBNet: A Novel Composite Backbone Network Architecture for Object Detection, AAAI 2020;
2)ResNeSt: Split-Attention Networks, arXiv 2020;
這兩篇論文均為在主幹網上做文章,尤其是後者,其提出的主幹網ResNeSt不僅大幅提高了目標檢測的精度,在語義分割、實例分割中也登頂COCO數據集。
這不由得使我們思考,現有目標檢測、語義分割等的任務架構是不是已經較為完備,而研究更好的主幹網、增強網絡的表達能力是提升精度更好的選擇?
今天新出的文章 DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution ,則再一次在主幹網上做文章,其在COCO數據集上的單尺度測試精度已經達到53.3mAP(53.3真是一個神奇的數字!),而多尺度測試中 DetectoRS (ResNeXt-101-32x4d, multi-scale) 達到目前所有文獻報告的最高精度:54.7mAP!代碼已開源。
不僅如此,在COCO數據集上的實例分割和全景分割任務中,DetectoRS 也一舉登頂,成為目前目標檢測、語義分割、全景分割領域的全能王者!
DetectoRS 作者信息:
第一作者 Siyuan Qiao目前是約翰斯霍普金斯大學博士生,第二作者是著名的DeepLab 系列算法主要作者谷歌公司研究員Liang-Chieh Chen。
主要思想
DetectoRS的思想來自成功的目標檢測算法如Faster RCNN 、Cascade R-CNN所體現出的哲學:looking and thinking twice (無論是兩階段還是級聯檢測器,都體現出信息的反覆利用和提精)作者是把這一思想應用於主幹網的改進上,主要創新如圖:
1)宏觀層次,提出遞歸特徵金字塔網絡(RFP,Recursive Feature Pyramid),集成FPN的反饋連接到主幹網,使得主幹網再訓練得到的特徵更好的適應檢測或分割任務。
2)微觀層次,提出可切換的空洞卷積(SAC,Switchable Atrous Convolution)替換主幹網上的標準卷積,使得模型可自適應選擇感受野。
以上新技術帶來的改進是顯著的,作者將其應用於實例分割算法HTC,在其他不變的情況下,檢測和分割精度提升明顯,如圖:
遞歸特徵金字塔網絡(RFP)
大家所熟知的特徵金字塔網絡(FPN)是將主幹網不同階段(stage)特徵組成特徵金字塔,如下圖(a),而RFP則添加了對於目標檢測任務的梯度向主幹網方向回傳,如下圖(b)。
圖中(c)是將這個遞歸的過程展開的示意圖,FPN反饋連接到主幹網每個階段的第一個block,使用的是ASPP結構(圖中綠色圓點),圖中畫出的是2-step 序列RFP,FPN之間也進行了特徵融合(圖中紅色部分)。
反饋連接網絡ASPP:
RPN中的融合模塊:
作者最終實驗中使用的就是2-step RFP。
這種遞歸特徵金字塔網絡有什麼好處呢?很明顯它能夠使得目標檢測的錯誤回傳信息更直接的反饋調整主幹網的參數。
可切換的空洞卷積(SAC)
空洞卷積可增大網絡感受野,這已經被證明對檢測和分割任務是有效的。
而作者提出的可切換的空洞卷積(Switchable Atrous Convolution)則使得網絡訓練時尺度選擇更靈活,如下圖:
不同空洞率的空洞卷積捕捉到不同感受野的目標,網絡可以學習到一個開關,以自適應調整選擇哪個感受野的卷積結果。
其網絡結構如圖:
作者將主幹網所有標準卷積替換為可切換的空洞卷積,而且為了更方便地從ImageNet預訓練模型給主幹網賦值,作者發明了可兼容標準卷積的可切換空洞卷積,具體細節請查看原論文。
實驗結果
作者在消融實驗中對上述兩種改進進行了效果評估,如圖:
可見HTC算法+RFP或者HTC+SAC均獲得了大幅的精度提升,且相比較之下HTC+SAC的提升幅度更大,而同時加上RFP與SAC,取得了最高的精度。
一些檢測結果示例:
下圖為DetectoRS使用不同類型主幹網與其他SOTA算法的比較:
使用ResNeXt-101-32x4d主幹網,DetectoRS 取得了 COCO 目標檢測單尺度和多尺度目前的最高精度,分別達到53.3mAP和54.7mAP。
在COCO實例分割和全景分割任務中的結果:
同樣獲得了目前最高的精度。
速度:在NVIDIA TITAN RTX顯卡上運行幀率3.9fps。
最後讓我們一起回顧一下COCO數據集目標檢測近幾年的SOTA(請點擊並橫屏查看大圖):
DetectoRS 已經站在風口浪尖,不知下一個出現在最右上角的是誰呢?
在我愛計算機視覺公眾號後臺回復「DetectoRS」,即可收到論文原文和代碼下載。
DetectoRS 等論文改進主幹網,提升網絡表達能力,實現新高度,結果很漂亮,但從工程的角度,最簡單、直接改進網絡表達能力的是增加數據規模、提高數據質量,這也是谷歌一直在做的,
百度搜索「52CV」網了解更多有關計算機視覺的信息,你也可以在公眾號」我愛計算機視覺「找到CV君。