ECCV 2020 | 擺脫ImageNet!Jigsaw預訓練來了!用於目標檢測的拼圖式主幹網絡預訓練方法

2021-02-20 CVer

Jigsaw pre-training以拼圖的方式從檢測數據集中生成用於主幹網絡預訓練的數據集,而不需要額外的預訓練數據集,如ImageNet。另外為了讓網絡更好的適應拼圖數據,論文提出ERF-adaptive密集分類方法,能夠很好地擴大預訓練主幹網絡的有效感受域。整體而言,Jigsaw pre-training方便且高效,性能比使用ImageNet預訓練模型效果要好

論文: Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection

image.png論文地址:https://arxiv.org/abs/2004.12178Introduction

  目標檢測網絡一般都使用如ImageNet的大型分類數據集進行主幹網絡的預訓練,藉助大規模數據集上學習到的特徵表達,能幫助檢測算法更快地收斂,但這種方法帶來的額外數據集需求和計算消耗是不可忽視的。儘管有一些方法通過改善權值初始化來優化直接訓練檢測網絡的效果,但這種方法通常收斂都比較慢,需要更多的訓練時間,主要由於主幹網絡在直接訓練時會面對大量的無效信息,過多的背景會帶來冗餘的計算消耗,造成收斂過慢且效果不好。
  基於上面的分析,論文提出了很「實惠」的預訓練方法Jigsaw pre-training,從檢測數據集中提取出目標樣本和背景樣本,根據目標的長寬比以拼圖的方式將其組合成一個訓練樣本進行模型預訓練。為了提高預訓練網絡的有效感受域,論文設計了ERF-adaptive密集分類策略,根據有效感受域(ERF)來給每個特徵點指定平滑標籤(soft label)。論文的貢獻如下:

提出高效且通用的預訓練範式,僅需檢測數據集,消除了額外的預訓練數據需求。設計了樣本提取規則,以拼圖策略和ERF-adaptive密集分類來高效地進行主幹網絡的預訓練,提高了訓練效率和最終性能。在不同的檢測框架驗證了Jigsaw pre-training的有效性,展示其通用型。Methodology

   Jigsaw pre-training方法如圖1所示,能夠用於各種目標檢測框架中。給定檢測數據集

Sample Selection

  在目標檢測模型訓練中,正負樣本平衡是十分重要的。為了高效的預訓練,論文小心地將原圖提取的目標劃分為正負樣本,正負樣本的提取都有其對應的規則。

  根據GT bbox從原圖提取區域,考慮到上下文信息對特徵表達的學習有幫助,隨機擴大bbox大小來包含更多的上下文信息。具體做法為移動bbox的左上角和右下角,最大可擴展為原邊長的兩倍,若bbox超過原圖邊界則進行裁剪,如上圖所示。

  為了讓預訓練模型更適應檢測場景,從背景區域提取一些負樣本。首先隨機生成一些候選區域,然後獲取

Jigsaw Assembly

  有很多方法能夠處理樣本進行預訓練,比如warping以及padding,但warping會破壞原本的上下文信息和形狀,而padding會加入無意義的填充像素,帶來額外的計算時間和資源消耗。為了更有效地進行預訓練,論文基於目標的尺寸和長寬比,採用拼圖的方式處理樣本,每次拼四個目標。在獲得所有樣本後,根據長寬比將他們分為3組:

Group S(square):長寬比在0.5到1.5直接

  如上圖所示,每次拼圖隨機選擇兩個S樣本、1個T樣本和1個W樣本填充到預設的區域中。較小的S樣本放置於左上角,較大的S樣本放置於右下角,而T樣本和W樣本分別放置於左下角和右上角。若樣本大小不符合預設的拼圖區域大小不一致,根據其大小選擇填充或隨機裁剪,根據實驗結果,不會對目標進行縮放和warping。

ERF-adaptive Dense Classification

  由於拼圖樣本可能包含多個類別的目標,因此需要特殊的訓練方法,論文先介紹了兩種用於對比的策略:

Global classification,給整張圖片一個全局的標籤,該標籤為4個目標標籤的區域大小加權和,有點類似CutMix數據增強方法,最後使用全局池化,進行交叉熵損失更新。Block-wise classification,保留每個目標的標籤,在池化的時候對每個區域對應的特徵進行獨立的池化和預測,最後也單獨地進行交叉熵損失計算。

  但論文通過可視化左上角區域的有效感受域發現,上面兩種方法的左上角區域的有效感受域都集中在了對應小S-sample區域,這種局限的有效感受域可能會降低深度模型的性能。
  為了儘量考慮每個像素,論文提出ERF-adaptive密集分類策略,對特徵圖

  權重

  在得到位置

  同樣是左上角區域對應的有效感受域的可視化,ERF-adaptive有更大的有效感受域。

  論文也對3種策略的效果進行了對比。

Experiments

  與ImageNet預訓練方法對比,Cost為耗時,單位為GPU day。

  不同訓練參數的性能差異。

  不同主幹網絡上的效果對比。

  在多種檢測框架和策略上進行對比。

  與直接訓練方法的對比。 

Conclustion

  論文提出了一種高效的預訓練方法Jigsaw pre-training,該方法以拼圖的方式從檢測數據集中生成用於主幹網絡預訓練的數據集,而不需要額外的預訓練數據集,如ImageNet。另外為了讓網絡更好的適應拼圖數據,論文提出ERF-adaptive密集分類方法,能夠很好地擴大預訓練主幹網絡的有效感受域。整體而言,Jigsaw pre-training方便且高效,性能比使用ImageNet預訓練模型效果要好。

下載

本文論文PDF已打包好,在CVer公眾號後臺回覆:Jigsaw,即可下載訪問


下載1:動手學深度學習

在CVer公眾號後臺回覆:動手學深度學習,即可下載547頁《動手學深度學習》電子書和源碼。該書是面向中文讀者的能運行、可討論的深度學習教科書,它將文字、公式、圖像、代碼和運行結果結合在一起。本書將全面介紹深度學習從模型構造到模型訓練,以及它們在計算機視覺和自然語言處理中的應用。

下載2:CVPR /  ECCV 2020開原始碼

在CVer公眾號後臺回覆:CVPR2020,即可下載CVPR 2020代碼開源的論文合集

在CVer公眾號後臺回覆:ECCV2020,即可下載ECCV 2020代碼開源的論文合集

重磅!CVer-論文寫作與投稿交流群成立

掃碼添加CVer助手,可申請加入CVer-論文寫作與投稿 微信交流群,目前已滿2300+人,旨在交流頂會(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、頂刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等寫作與投稿事宜。

同時也可申請加入CVer大群和細分方向技術群,細分方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。

一定要備註:研究方向+地點+學校/公司+暱稱(如論文寫作+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群

▲長按加微信群


▲長按關注CVer公眾號

整理不易,請給CVer點讚和在看

相關焦點

  • 何愷明「終結」ImageNet預訓練時代:從0開始訓練神經網絡,效果比肩...
    這篇重新思考ImageNet預訓練(Rethinking ImageNet Pre-training)就給出了他們的答案。 FAIR(Facebook AI Research)的三位研究員從隨機初始狀態開始訓練神經網絡,然後用COCO數據集目標檢測和實例分割任務進行了測試。結果,絲毫不遜於經過ImageNet預訓練的對手。
  • 【必看系列】ECCV 2020 優秀論文大盤點-目標檢測篇
    本文盤點ECCV 2020 與目標檢測相關的研究,包含目標檢測新範式、密集目標檢測、點雲目標檢測、少樣本目標檢測、水下目標檢測、域適應目標檢測、弱監督目標檢測
  • 國內數十位NLP大佬合作,綜述預訓練模型的過去、現在與未來
    BERT 、GPT 等大規模預訓練模型(PTM)近年來取得了巨大成功,成為人工智慧領域的一個裡程碑。由於複雜的預訓練目標和巨大的模型參數,大規模 PTM 可以有效地從大量標記和未標記的數據中獲取知識。通過將知識存儲到巨大的參數中並對特定任務進行微調,巨大參數中隱式編碼的豐富知識可以使各種下遊任務受益。現在 AI 社區的共識是採用 PTM 作為下遊任務的主幹,而不是從頭開始學習模型。
  • 預訓練模型綜述
    Dai 和 Le[6] 使用語言建模和序列自編碼來改善循環神經網絡(RNN, Recurrent Neutral Language)的序列學習,可以被認為是現代 PTMs 的開端。它系統地闡述了上遊預訓練語言模型可以用於下遊特定任務這個劃時代的思想,並用一系列分類任務的實驗來對比支持了這個觀點。從此以後,PTMs 漸漸步入了人們的視野。
  • 【NLP】預訓練模型綜述
    Dai 和 Le[6] 使用語言建模和序列自編碼來改善循環神經網絡(RNN, Recurrent Neutral Language)的序列學習,可以被認為是現代 PTMs 的開端。它系統地闡述了上遊預訓練語言模型可以用於下遊特定任務這個劃時代的思想,並用一系列分類任務的實驗來對比支持了這個觀點。從此以後,PTMs 漸漸步入了人們的視野。
  • MimicDet:縮小一階段和兩階段目標檢測之間的差距 | ECCV 2020
    現代目標檢測方法可分為一階段方法和兩階段方法。由於採用簡單的體系結構,一階段檢測器效率更高,但是二階段檢測器仍然在精度方面處於領先地位。儘管最近的工作試圖通過模仿兩階段檢測器的結構設計來改進一階段檢測器,但其精度差距仍然很大。
  • 視覺Transformer BERT預訓練新方式:中科大、MSRA等提出PeCo,優於MAE、BEiT
    然而,在視覺任務上設計具有相似風格的目標是具有挑戰性的,因為圖像作為一種高維和冗餘的模態,在兩個方面與文本不同:首先,文本由離散字符組成,而圖像在顏色空間中呈現連續值;其次,文本中的離散 token 包含高級語義含義,而離散化的圖像在像素級和 patch 級包含大量冗餘 token。因此,我們不禁會問是否有一種方法可以學習感知離散視覺 token,這將有助於圖像預訓練。
  • Keras筆記03—利用預訓練模型進行特徵提取
    利用預訓練模型可以有效的提取圖片的特徵,提取出特徵後,可以利用除了神經網絡以外的別的方法,對特徵數據集進行分析。
  • 預訓練模型探索1
    在最近剛結束的2020年ACL大會上,「不要停止預訓練:將語言模型應用於目標領域和任務上」[^1]這樣看似標題黨的論文獲得了ACL2020 best paper的榮譽提名。[^2]這裡所說預訓練思想的本質是模型參數不再是隨機初始化,而是通過一些任務(如語言模型)對模型進行預訓練從而使模型得到一個初始化的參數。
  • 復旦邱錫鵬教授:2020最新NLP預訓練模型綜述
    本篇文章主要介紹邱錫鵬老師在2020年發表的一篇預訓練模型的綜述:「Pre-trained Models for Natural Language Processing: A survey」。該綜述系統地介紹了nlp中的預訓練模型。主要的貢獻包括:1、深入盤點了目前主流的預訓練模型,如word2vec,ELMo,BERT等。
  • BERT-預訓練的強大
    不同於圖像領域,自然語言理解領域,預訓練雖說表現出一定的優勢,但優勢卻遠遠不如圖像領域那麼明顯。直到本文介紹的方法出現前,預訓練方法都表現的不慍不火;而本文中方法的出現,則直接將自然語言理解中的預訓練問題直接提到普適性的高度,引爆了業界。
  • CodeBERT: 面向程式語言和自然語言的預訓練模型
    CodeBERT通過預訓練的方式學習一個通用表示來支持下遊和程式語言相關的應用,比如自然語言代碼檢索,代碼文檔生成等。CodeBERT使用Transformer作為基本的網絡結構,採用了混合目標函數:掩碼語言模型(MLM)和替換詞檢測(RTD)。實驗結果表明,CodeBERT在下遊的自然語言代碼檢索和代碼文檔生成任務上都取得了SOTA效果。
  • 資源 | 從VGG到ResNet,你想要的MXNet預訓練模型輕鬆學
    每個模型在特定圖像上的表現略有不同,訓練多個模型旨在找出更適合特定任務的模型。在這篇博文中,你將會了解如何使用 Apache MXNet 預訓練出的多個模型。為什麼要嘗試多個模型呢?為什麼不直接選擇準確率最高的呢?稍後我們會在文章中看到,儘管這些模型是在相同的數據集上訓練的,並且都針對最大準確率進行了優化,但它們在特定圖像上的表現略有不同。
  • 預訓練語言模型fine-tuning近期進展概述
    如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特徵的loss(如MLM)對一個模型做預訓練,然後在下遊任務的有標籤數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。標準的pre-train —— fine-tuning 場景雖然預訓練依賴於大量的計算資源,但是fine-tuning只需要使用少量計算資源。
  • NeurIPS2021-《YOLOS》-ViT現在可以做目標檢測任務啦!華科提出目標檢測新方法YOLOS
    作者發現,僅在ImageNet-1k數據集上預訓練的YOLOS已經能夠在COCO上實現具有競爭力的目標檢測性能,例如,YOLOS Base可以實現42.0 的box AP。以圖像patch嵌入序列作為輸入,ViT可以從純序列到序列的角度,將預訓練的通用視覺表示遷移到更具體的圖像分類任務。由於預訓練的Transformer可以在NLP中的句子級任務以及token級任務上進行微調,因此,作者提出了一個問題:ViT能否也遷移到計算機視覺中更複雜的任務中,例如目標檢測?
  • 深度 | 通過NMT訓練的通用語境詞向量:NLP中的預訓練模型?
    在大型圖像分類數據集 ImageNet 上訓練的深度卷積神經網絡(CNN)經常被用作其他模型的組成部分。為了將圖像分類做得更好,卷積神經網絡通過逐漸構建一個更加複雜模型,而去理解像素是如何與其他像素關聯的。模型可以在這些表徵的基礎上去解決看圖說話問題、人臉識別問題以及目標檢測問題,而不是一切都從零開始。自然語言處理也應該做一些類似的表徵去解決單詞和語境之間的關聯。
  • 乘風破浪的PTM:兩年來預訓練模型的技術進展
    PLM一樣採用單個Transformer模型作為主幹結構,但是從訓練方法上來說,是個很另類也很有創意的做法,是種「形為AR,實為AE」的做法。在語言模型預訓練過程中,它看上去遵循AR從左到右的輸入過程,這符合一般生成任務的外在表現形式,但是在內部通過Attention Mask,實際做法其實是AE的做法,無非是把AE的做法隱藏在Transformer內部。
  • PTMs:NLP預訓練模型
    2020年3月18日,邱錫鵬老師發表了關於NLP預訓練模型的綜述《Pre-trained Models for Natural Language Processing: A Survey》[1],這是一篇全面的綜述,系統地對PTMs進行了歸納分類。
  • SFFAI分享 | 馬聰:NLP中的生成式預訓練模型【附PPT與視頻資料】
    通過分析GPT的兩個模型,重點探討基於單向語言模型的NLP預訓練過程對序列生成任務的作用以及利用預訓練模型進行NLP多種任務無監督測試的方式和效果。GPT-2.0在機器翻譯、問答系統、文本摘要等複雜任務上的性能展示出NLP預訓練模型的強大功能以及其在自然語言序列生成中性能。
  • COLING 2020 | 字符感知預訓練模型CharBERT
    如果字符序列出現了噪音或者拼寫錯誤(如去掉了字符k),那麼整個子詞組合就會完全變化,輸入到模型中的表示也就完全不一樣了,因此魯棒性較差。以CoNLL-2003 NER的開發集為例,我們基於BERT[2]的tokenizer切詞後統計發現28%的名詞會被切分成多個子詞。如果隨機刪除所有名詞中的任意一個字符,78%的詞會切分成如圖1這樣完全不一樣的組合。