CVPR論文解讀:非常高效的物體檢測Mimic方法

2020-12-12 雷鋒網

雷鋒網 AI科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續。下文是Momenta高級研發工程師蔣雲飛對此次大會收錄的 Mimicking Very Efficient Network for Object Detection 一文進行的解讀。

背景

Mimic作為一種模型小型化的方法,Hinton在 Distilling the Knowledge in a Neural Network  一文中已經詳細定義並介紹過,但近些年來大部分有關於mimic的論文主要都是局限在較為簡單的classification 的任務中,而對於較為複雜一些的detection任務,直接套用以前的方案則顯得不行。本文提出了一種學習feature map來實現Object Detection任務上mimic的方法。

傳統的Mimic過程,一般使用一個已經訓練好的大模型,固定該模型的weights不變,設計一個小模型,學習大模型的soft targets 或者logits的輸出;大模型學習到有效的信息可以傳遞給小模型,使得小模型也可以有較為不錯的性能表現,其Loss函數如下:

其中W為小模型的weights,g(x;W) 為小模型的輸出,z為學習的大模型的輸出。

然而直接套用該方法在檢測任務中,效果很差,因此作者進行了進一步的探索。首先,對於常見的檢測網絡如Faster-RCNN、RFCN、SSD等進行分析,可以發現,它們主要包含兩部分,分別為feature extractor以及feature decoder。而不同的大網絡主要是feature extractor不同,因此作者認為對於feature map進行mimic,可以獲得較為有效的結果。

Mimic方法詳細敘述:

因此作者提出了本文的mimic算法,在使用本身ground-truth監督小模型訓練的同時,加入大小模型之間feature map的監督,使得mimic的效果會更好。大致的流程如下圖所示:

但同時作者也指出,單純使小模型學習大模型的feature map並不能work,原因在於feature map的維度太高,包含太多全局的信息,而對於僅有少量object的feature map,通常只有微弱的響應。因此,該文中提出了一個新的卷積網絡mimic方法,即將學習整個feature map變為學習proposal採樣之後的feature來簡化任務。

在由小網絡生成的proposal中,使用spatial pyramid pooling方法在大小網絡上進行局部特徵採樣(後經作者指正為直接使用pixel-wise的學習),然後通過L2 loss減小二者之間的差別,loss function定義如下:

總的loss主要由兩部分組成,分別為mimic loss 以及ground-truth loss,作者在實驗中發現,對於mimic loss進行normalization可以取得更為穩定的mimic結果:

同時,作者還提到了對於小網絡與大網絡feature map大小不同的情況(譬如小網絡中輸入圖像減半),可以增加一個轉換層(deconvolution)使得大小網絡最終mimic的層保持一致,如下圖所示:

另外,在faster rcnn中stage2 fast rcnn的訓練過程中,也可以添加大網絡的監督信號(監督框的classification以及regression),使得小網絡可以學習到更多大網絡的有效信息,得到更好的結果。

結果分析:

作者在Caltech行人數據集以及PASCAL VOC 2007 數據集上進行了實驗。

Caltech使用log average Miss Rate on False Positive Per Image作為評價標準,作者首先訓練並得到了兩個baseline檢測網絡:

同時,定義了mimic的小網絡的結構為1/n-Inception 網絡,網絡的深度與層數沒有改變,減小每層conv的channel個數,使得網絡變得更細。

可以看到直接使用傳統mimic方法訓練模型,結果非常糟糕,甚至不及直接使用數據集對小網絡進行訓練:

而後作者使用本文方法進行Mimic訓練,取得了較為可觀的性能增長:

從上述結果中,可以看到使用mimic的結果取得了與原網絡差不多甚至稍好的結果。

同理,在VOC數據集的測試結果中也可以看到,Mimic的方法取得了很有競爭力的結果。

現場問答

在2017 CVPR現場與論文的作者李全全進行的討論與交流:

Q:本文為何使用 spatial pyramid pooling進行feature map的sample,是否考慮使用其他方式例如ROI-pooling?

A:經過李全全確認,他後期是直接使用ROI,也即兩個feature map pixel-wise相減,而不是spatial pyramid pooling;使用SPP的效果理應是好於單size的pooling的(roi-pooling)。

Q:為何使用單層(最後一層)feature map進行mimic,是否可以融合多個feature map?

A:可以嘗試融合多個feature map 進行監督,理論上來說效果應該會比較好,但由於時間較為緊張,所以沒有做。文中使用的normalization是為了穩定,因為每次出來的proposal的size是不斷變化的,因此在計算loss的時候的pixel的數量也會發生較大的變化,因此需要使用normalization。

Q:為何使用 deconvolution,是否可以對feature map 直接進行線性縮放?

A:直接對於feature map進行縮放是可行的。同時,這樣的結構本身會在小物體的檢測上比較有用。如果把deconv層獨立成一個分支的話(deploy的時候去掉這個分支),效果可能比不上將這個小網絡放大,目前看來,大的feature層對於小物體的檢測還是比較有好處的。

Q:為何使用小網絡生成的 proposal ,有沒有嘗試過直接使用 ground-truth boxes?

A:希望模型更多的是關注object在feature map上有響應的地方,所以使用Top-proposal。具體來說,Top-proposal的方法中,proposal的數量設定在256或者512,正負樣本比例設定在1:1;而使用GroundTruth的框來做監督的效果並不好,作者有進行過類似的實驗:對於負樣本來說使用random的sample,正樣本直接使用GroundTruth,結果比使用top-proposal的方法差一些。

Q:有沒有嘗試過其他不同網絡結構的mimic (更小或者更瘦長的)?

A:對於mimic來說,其實小網絡本身有一個baseline,大網絡有一個baseline,mimic的任務便是縮小兩者之間的差別;而對於小網絡來說,相似的網絡會有較好的學習能力,當然對於不同結構的小網絡也可以使用deconv的方式來進行學習。

論文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Mimicking_Very_Efficient_CVPR_2017_paper.pdf

雷鋒網(公眾號:雷鋒網) AI科技評論編輯。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CVPR精彩論文解讀:對當下主流CNN物體檢測器的對比評測
    如何選擇物體檢測器——對當下主流CNN物體檢測器的評測自2014年RCNN被提出以來,基於卷積神經網絡的物體檢測已經成為主流。Faster RCNN、SSD、YOLO、 R-FCN等諸多檢測算法百花齊放,每種方法都在各自的維度上達到當時的state-of-the-art。
  • CVPR 2017 全部及部分論文解讀集錦
    下面為我們整理的一些關於CVPR2017的論文解讀的總結。論文主要解決的是semantic segmentation中imbalanced training data distributions問題。在semantic segmentation數據集包括現實世界中存在明顯的長尾分布的問題,即大多數的數據組成了小部分的類別,因此會導致學習器更偏向於這些類別。
  • 歷年 CVPR 最佳論文盤點
    對於大部分視覺識別任務,深度表示是非常重要的。僅由於極深的表示,在 COCO 對象檢查數據時,我們就得到了近 28% 相關的改進。深度剩餘網絡是我們提交給 ILSVRC 和 COCO2015 競賽的基礎,而且在 ImageNet 檢測任務,ImageNet 定位,COCO 檢測和 COCO 分割等領域贏我們獲得了第一。
  • CVPR2019無人駕駛相關論文
    點擊文末「閱讀原文」立刻申請入群~CVPR2019 accepted list ID已經放出,極市已將目前收集到的公開論文總結到github上(目前已收集210篇),後續會不斷更新,歡迎關注,也歡迎大家提交自己的論文:https://github.com/extreme-assistant/cvpr2019
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    對於大部分視覺識別任務,深度表示是非常重要的。僅由於極深的表示,在 COCO 對象檢查數據時,我們就得到了近 28% 相關的改進。深度剩餘網絡是我們提交給 ILSVRC 和 COCO2015 競賽的基礎,而且在 ImageNet 檢測任務,ImageNet 定位,COCO 檢測和 COCO 分割等領域贏我們獲得了第一。
  • CVPR2019 | 29篇目標檢測相關論文匯總(部分含源碼)
    ps.極市也曾分享過一篇:CVPR2019目標檢測方法進展綜述,可以結合本文一起閱讀~1、Stereo R-CNN based 3D Object Detection for Autonomous Driving作者:Peiliang Li, Xiaozhi Chen, Shaojie Shen論文連結:https://arxiv.org
  • CVPR 2017論文解讀:特徵金字塔網絡FPN
    近日,CVPR 2017獲獎論文公布,引起了業內極大的關注。但除了這些獲獎論文,還有眾多精彩的論文值得一讀。因此在大會期間,國內自動駕駛創業公司 Momenta 聯合機器之心推出 CVPR 2017 精彩論文解讀專欄,本文是此系列專欄的第二篇,作者為 Momenta 高級研發工程師李俊。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    這套系統的思路是,不再像以往一樣把圖像中的物體分割作為一種像素標註問題,把它看作一個多邊形位置預測問題,從而模仿目前已有的標註數據集的方式生成檢測標註框。具體來講,論文中的方法在輸入圖像後可以依次生成多邊形的邊把圖像中的物體圍起來。這個過程中,人類標註員可以隨時參與並糾正錯誤的頂點,從而得到人類標註員眼中儘可能準確的分割。
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    這是一種對虛擬智能體進行聯合訓練的高效方法。它有效地利用了相關物體間的有用的上下文情境信息(contextual information),並且改進了目前最先進的主動定位模型(active localization models)論文:Neural Aggregation Network For Video Face Recognition簡介:傳統的深度學習方法在進行人臉識別時需要對每一幀都進行特徵提取,這樣的效率是很低的
  • 兩屆CVPR最佳論文得主何愷明新作:利用焦點損失提升物體檢測效果
    這次,何愷明博士的新論文名為「Focal Loss for Dense Object Detection」,利用焦點損失提升物體檢測效果,以下是雷鋒網根據論文摘要進行的編譯。論文摘要物體檢測(Object detection)是計算機視覺研究領域的一項重要任務,而迄今為止表現最好的物體檢測方法是由於R-CNN而流行開來的兩階段法(Two-stage approach),在該方法中分類器被應用於候選物體位置的稀疏集合(Sparse set of candidate object locations)中。
  • CVPR 2017最佳論文解讀:密集連接卷積網絡
    日前,CVPR 2017獲獎論文公布,其中一篇最佳論文為康奈爾大學、清華大學、Facebook FAIR 實驗室合著的《Densely Connected Convolutional Networks》。在這篇文章中,Momenta 高級研發工程師胡杰對這篇文章進行了解讀。此文為該系列專欄的第三篇。
  • CVPR 2020 目標檢測論文精選
    字幕組雙語原文:CVPR 2020 目標檢測論文精選英語原文:CVPR 2020: The Top Object Detection Papers翻譯:雷鋒字幕組(李珺毅、沫年惜雪)一、基於在點雲上的3D目標檢測的分層圖形網絡原文標題:A Hierarchical Graph Network for 3D Object Detection on Point Clouds這篇論文提出了一種基於圖卷積(gconv)的三維目標檢測層次圖網絡(hgnet)。
  • 大學生畢業論文檢測 高效修改重複率的經驗解讀
    大學生畢業論文檢測是確保畢業論文是否合格,提前知道結果,並進行修改,然爾很多的大學生畢業論文檢測時,系統反饋了報告,卻表示看不懂,只知道 一片紅的,頭痛!!我們的畢業論文要怎麼修改呢?以下小編,分享修改重複率的經驗,高效修改重複率。
  • CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)
    目前官方已公布了接收論文列表,極市已匯總目前公開的所有論文連結及code(目前已更新612篇),今日更新論文如下:CVPR2019 全部論文匯總:https://github.com/extreme-assistant/cvpr2019CVPR2019 論文解讀
  • 從CVPR2019看計算機視覺的最新趨勢
    CVPR為每篇論文指定一個主要的主題區域。按學科類別劃分的獲接納論文的細目如下:不出所料,大多數研究都集中在深度學習(現在還不是所有的都是深度學習!)、檢測和分類以及面部/手勢/姿勢。這種分解是非常普遍的,並不能提供很好的見解。
  • 對話頂會、解讀最佳:CVPR 2020最佳論文對CV領域的啟發
    對話頂會,探索最新學術進展,本次分享AI TIME特地邀請到CVPR 2017最佳論文得主、世界人工智慧大會 Super AI Leader(SAIL)先鋒獎得主、來自清華大學自動化系的黃高老師為大家解讀本屆CVPR「最佳論文」和「最佳學生論文」背後蘊含的亮點,深入剖析其核心思路、創新點,談談它們對CV領域的啟發。
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    項目地址:https://github.com/DengPingFan/SINet/這篇論文解決的問題是:如何檢測嵌入在周圍環境中的物體,即偽裝目標檢測(camouflaged object detection,COD)。
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    除此之外,還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。現有的弱監督目標檢測方法大多數是基於多實例學習框架的,對於每個物體類別,基於多實例學習框架的方法傾向於學習圖像中該類中特徵最明顯的物體,並對於每張圖片選取得分最大的一個物體框進行訓練,其他被忽略的物體實例容易使學習網絡陷入局部最優,進而影響弱監督目標檢測的性能。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    1  導讀  CVPR 2020上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。
  • CVPR2017精彩論文解讀:用於生物醫學圖像分析的精細調節卷積神經...
    雷鋒網(公眾號:雷鋒網)AI科技評論按:雖然CVPR 2017已經落下帷幕,但對精彩論文的解讀還在繼續使用CNN進行生物醫學圖像分析在最近幾年得到了比較多的關注,但面臨的一個問題是缺乏大量的標註數據,相比imagenet,對醫學圖像進行標註需要大量的專業背景知識,為了節約標註的成本和時間,這篇論文提供了一個新型的方法AIFT(Active,Incremental Fine-Tuning),把主動學習和遷移學習集成到一個框架。