Jigsaw pre-training以拼圖的方式從檢測數據集中生成用於主幹網絡預訓練的數據集,而不需要額外的預訓練數據集,如ImageNet。另外為了讓網絡更好的適應拼圖數據,論文提出ERF-adaptive密集分類方法,能夠很好地擴大預訓練主幹網絡的有效感受域。整體而言,Jigsaw pre-training方便且高效,性能比使用ImageNet預訓練模型效果要好
論文: Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection
目標檢測網絡一般都使用如ImageNet的大型分類數據集進行主幹網絡的預訓練,藉助大規模數據集上學習到的特徵表達,能幫助檢測算法更快地收斂,但這種方法帶來的額外數據集需求和計算消耗是不可忽視的。儘管有一些方法通過改善權值初始化來優化直接訓練檢測網絡的效果,但這種方法通常收斂都比較慢,需要更多的訓練時間,主要由於主幹網絡在直接訓練時會面對大量的無效信息,過多的背景會帶來冗餘的計算消耗,造成收斂過慢且效果不好。
基於上面的分析,論文提出了很「實惠」的預訓練方法Jigsaw pre-training,從檢測數據集中提取出目標樣本和背景樣本,根據目標的長寬比以拼圖的方式將其組合成一個訓練樣本進行模型預訓練。為了提高預訓練網絡的有效感受域,論文設計了ERF-adaptive密集分類策略,根據有效感受域(ERF)來給每個特徵點指定平滑標籤(soft label)。論文的貢獻如下:
Jigsaw pre-training方法如圖1所示,能夠用於各種目標檢測框架中。給定檢測數據集
Sample Selection在目標檢測模型訓練中,正負樣本平衡是十分重要的。為了高效的預訓練,論文小心地將原圖提取的目標劃分為正負樣本,正負樣本的提取都有其對應的規則。
根據GT bbox從原圖提取區域,考慮到上下文信息對特徵表達的學習有幫助,隨機擴大bbox大小來包含更多的上下文信息。具體做法為移動bbox的左上角和右下角,最大可擴展為原邊長的兩倍,若bbox超過原圖邊界則進行裁剪,如上圖所示。
為了讓預訓練模型更適應檢測場景,從背景區域提取一些負樣本。首先隨機生成一些候選區域,然後獲取
Jigsaw Assembly有很多方法能夠處理樣本進行預訓練,比如warping以及padding,但warping會破壞原本的上下文信息和形狀,而padding會加入無意義的填充像素,帶來額外的計算時間和資源消耗。為了更有效地進行預訓練,論文基於目標的尺寸和長寬比,採用拼圖的方式處理樣本,每次拼四個目標。在獲得所有樣本後,根據長寬比將他們分為3組:
Group S(square):長寬比在0.5到1.5直接如上圖所示,每次拼圖隨機選擇兩個S樣本、1個T樣本和1個W樣本填充到預設的區域中。較小的S樣本放置於左上角,較大的S樣本放置於右下角,而T樣本和W樣本分別放置於左下角和右上角。若樣本大小不符合預設的拼圖區域大小不一致,根據其大小選擇填充或隨機裁剪,根據實驗結果,不會對目標進行縮放和warping。
ERF-adaptive Dense Classification由於拼圖樣本可能包含多個類別的目標,因此需要特殊的訓練方法,論文先介紹了兩種用於對比的策略:
Global classification,給整張圖片一個全局的標籤,該標籤為4個目標標籤的區域大小加權和,有點類似CutMix數據增強方法,最後使用全局池化,進行交叉熵損失更新。Block-wise classification,保留每個目標的標籤,在池化的時候對每個區域對應的特徵進行獨立的池化和預測,最後也單獨地進行交叉熵損失計算。 但論文通過可視化左上角區域的有效感受域發現,上面兩種方法的左上角區域的有效感受域都集中在了對應小S-sample區域,這種局限的有效感受域可能會降低深度模型的性能。
為了儘量考慮每個像素,論文提出ERF-adaptive密集分類策略,對特徵圖
權重
在得到位置
同樣是左上角區域對應的有效感受域的可視化,ERF-adaptive有更大的有效感受域。
論文也對3種策略的效果進行了對比。
Experiments與ImageNet預訓練方法對比,Cost為耗時,單位為GPU day。
不同訓練參數的性能差異。
不同主幹網絡上的效果對比。
在多種檢測框架和策略上進行對比。
與直接訓練方法的對比。
Conclustion論文提出了一種高效的預訓練方法Jigsaw pre-training,該方法以拼圖的方式從檢測數據集中生成用於主幹網絡預訓練的數據集,而不需要額外的預訓練數據集,如ImageNet。另外為了讓網絡更好的適應拼圖數據,論文提出ERF-adaptive密集分類方法,能夠很好地擴大預訓練主幹網絡的有效感受域。整體而言,Jigsaw pre-training方便且高效,性能比使用ImageNet預訓練模型效果要好。
下載
本文論文PDF已打包好,在CVer公眾號後臺回覆:Jigsaw,即可下載訪問
下載1:動手學深度學習
在CVer公眾號後臺回覆:動手學深度學習,即可下載547頁《動手學深度學習》電子書和源碼。該書是面向中文讀者的能運行、可討論的深度學習教科書,它將文字、公式、圖像、代碼和運行結果結合在一起。本書將全面介紹深度學習從模型構造到模型訓練,以及它們在計算機視覺和自然語言處理中的應用。
下載2:CVPR / ECCV 2020開原始碼
在CVer公眾號後臺回覆:CVPR2020,即可下載CVPR 2020代碼開源的論文合集
在CVer公眾號後臺回覆:ECCV2020,即可下載ECCV 2020代碼開源的論文合集
重磅!CVer-論文寫作與投稿交流群成立
掃碼添加CVer助手,可申請加入CVer-論文寫作與投稿 微信交流群,目前已滿2300+人,旨在交流頂會(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、頂刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等寫作與投稿事宜。
同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。
一定要備註:研究方向+地點+學校/公司+暱稱(如論文寫作+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲長按加微信群
▲長按關注CVer公眾號
整理不易,請給CVer點讚和在看!