增量學習不只有finetune,三星AI提增量式少樣本目標檢測算法|CVPR...

2020-12-04 AI科技大本營

作者 | VincentLee

來源 | 曉飛的算法工程筆記

該論文研究了非常有意義的增量式少樣本目標檢測場景iFSD(Incremental Few-Shot Detection),場景設置如下:

檢測模型可以在包含充足樣本的基礎類別上進行訓練訓練好後,iFSD能夠應用到真實世界中,任何新類別在任何時候都能通過少量標註樣本進行註冊對於無限的新類別的學習,在內存使用量、存儲用量和計算量上都應該是可行的,理想情況下,模型可以發布在資源有限的設備上,如手機和機器人目前的常規目標檢測算法大都難以適用於iFSD的場景設置,一般的做法是對新類別進行fine-tune,但這樣既耗時效果又一般。為此,論文提出無限制CentreNet(OpeN-ended Centre nEt, ONCE),在原CentreNet(CenterNet?)的基礎上,採用基於特徵的知識遷移策略,將網絡分成類可知和類不可知模塊進行增量式少樣本學習。首先使用基類訓練一個通用的特徵提取器,然後基於meta-learning學習class code生成器,最後通過結合特徵和class code進行目標定位。

論文的主要貢獻如下:

在增量式少樣本目標檢測問題上,論文首次嘗試減少常規需要深度訓練的目標檢測算法對大量訓練數據進行批量訓練的依賴提出無限制CentreNet(OpeN-ended Centre nEt, ONCE),將CentreNet適應到增量式少樣本場景中在目標檢測和服裝關鍵點檢測實驗上,ONCE都比目前的方法要好

方法論

增量式少樣本目標檢測算法(Incremental Few-Shot Detection, iFSD)的目標為獲得能夠僅使用少量樣本就能進行增量式學習新類別學習器,將目標類別分為足夠樣本的基礎類別和少量樣本的新類別,分別用於系統初始化和增量式學習,注意在增量式學習期間不能使用基類數據。

目標檢測架構

常規的目標檢測算法由於兩階段設計以及softmax分類器的使用,導致很難動態直接加入新類別。論文選擇了CentreNet作為基礎模型,出於以下兩點考慮:

高效的one-stage目標檢測pipeline類別獨立的建模範式(per-class heatmap centroid prediction),新類能夠以插件形式接入

CentreNet將目標檢測定義為point-attribute的回歸問題,結構如圖1,將中心點和空間大小(寬和高)作為回歸目標,每個目標使用2D heatmap進行表示,而heatmap是類間獨立的。

Incremental Few-shot Object Detection

由於CentreNet是批量學習的模型,不適合iFSD場景,在其結構上引入meta-learning的思想,即文中的無限制CentreNet(OpeN-ended Centre nEt , ONCE)

Model formulation:ONCE將CtreNet分為兩部分:(i) 通用的特徵提取器,將輸入轉化為3D特徵圖 (ii) 目標定位器,包含用於將特徵圖成heatmap的類特定編碼(class code)。為了脫離批量學習的形式,類特定編碼(class code)由meta-learned network(class code generator)根據輔助集生成Meta-Training: Learning a Few-Shot Detector,為了充分壓榨基礎類別的作用,將ONCE訓練分別兩個串行的階段。第一階段訓練類不可知的特徵提取器,第二階段固定特徵提取器,聯合訓練目標定位器和meta-network,meta-network根據給定的輔助集生成類特定編碼,目標定位器則結合類編碼和特徵進行少樣本目標定位學習Meta-Testing: Enrolling New Classes,給予包含少量標註圖片的新類別輔助集,直接使用學習到的特徵提取器、目標定位器和meta-network。先通過meta-network生成類特定編碼參數化目標定位器,然後直接進行圖2 stage I對應的推理,不需要模型再訓練。

Stage I: Feature Extractor Learning階段一主要訓練ONCE的類可知特徵提取器,使用正常的CentreNet訓練方法進行完整訓練,目標定位器不用於階段二,但後面基類的class code會復用階段一的。

對於訓練圖片,提取類可知特徵圖, ,目標定位器結合學習到的與類相關的卷積核(class code)得到類的中心點heatmapYk。

對於目標的定位,先確定局部峰值,局部峰值為bbox輸出位置,要求大於等於所有臨界像素,最終的bbox結果如公式2,為中心偏移,為尺寸預測,結合offset code和size code獲得,具體方法與上面的類別heatmap獲取類似,使用回歸損失對的參數和的參數進行優化。

Stage II: Class Code Generator Learning在階段一學習到的參數僅包含基類,是固定的。為了適應iFSD場景,使用class code生成器來根據樣本圖片在線生成新類別的class code。生成器的訓練使用matching network的meta-learning策略,從基類中採樣大量的少樣本訓練數據子集,模擬測試時的場景。

定義單個iFSD任務為在基類上平均採樣獲得的類標籤集,標籤集僅包含一個或幾個類別,將標籤集中的每個類的圖片隨機分為輔助集合(meta-training)和查詢集(meta-valudation)Q。

在推理階段,輔助集用於為每個類別生成class code

基於class code集合,按照公式4和公式5在查詢圖片上進行目標檢測,通過最小化在上的平均預測誤差來優化class code生成器的參數,誤差計算使用損失,為GT heatmap。

Meta Testing: Enrolling New Classes給予少量的標註樣本,新類別的meta-testing流程如下:

使用少量的標註樣本通過公式3獲取class code通過公式4獲取測試圖片的特徵通過公式1定位新類別的目標實例找到heatmap中局部最大位置,通過公式2獲取所有bbox的坐標進行輸出對於基類的測試在第一步直接使用階段一學習到class code,通過上述步驟,可以簡單且獨立地將新類別加入到iFSD中。

Architecture

特徵提取器使用主幹為ResNet的Simple baseline,結構如上圖,包含encoder-decoder對。首先提取圖片的低解析度的3D特徵圖,然後通過可學習的上採樣卷積輸出高解析度的特徵圖。class code生成器使用相同的encoder主幹,在進行階段二之前,生成器的權重拷貝特徵提取器的權重進行初始化,最終通過global average pooling輸出256維的class code 。鑑於輔助集的數量可能各不一樣,最終的class code為類所有輔助圖片的class code的平均值。

實驗

Non-Incremental Few-Shot Detection

將樣本少的新類(10 shot)和樣本充足的基類(all)混在一起進行訓練,結果如表1。

Incremental Few-Shot Object Detection

Experimental setupsame-dataset實驗,將COCO的60類作為基類,其餘20類作為新類別。對於meta-training,從基類隨機採樣32個任務,每個任務包含3個類別,每個類別包含5個標註的bbox。對於meta-testing,使用全部20個新類別,每個類別隨機採樣幾張圖片,有兩種測試方法,一種是一次性加入全部類別(incremental batch learning),另一種是逐步加入類別(continuous incremental learning)

cross-dataset實驗,跟上述類似,只是meta-training的基類從COCO採樣,meta-testing的新類從VOC採樣。

Object detection on COCO

ONCE的性能比其它方法優異,儘管在新類別上的準確率普遍較低,但ONCE算是一種不錯的快速解決增量式少樣本檢測的方法。

在逐漸增加類別的場景下,ONCE表現穩定,而其它方法的表現則逐漸變差。

Object detection transfer from COCO to VOC

與same-dataset的結果相差不大。

Few-Shot Fashion Landmark Detection

結論

在研究了現實的增量少樣本目標檢測問題後,論文提出了一個不錯的快速解決算法ONCE,能夠以推理的形式將新類別進行註冊而不需要再使用舊的訓練數據,相比其它類似的方法更有效。

這裡需要注意的是,論文的方法與主流的少樣本目標檢測算法不太一樣,目前很多性能高的方法大都基於比對的方式進行有目標的檢測,並且需要大量的數據進行模型訓練再應用到新類中,要檢測所有的類別則需要全部進行比對,十分耗時。而論文是增量式添加類別到模型,以常規的推理形式直接檢測,十分高效且數據量需求十分低,雖然最終的性能有點難看,但是這個思路還是可以有很多工作可以補的。

論文地址:https://arxiv.org/abs/2003.04668

【end】

有獎徵文

了解這4個重點,帶你探索未來將如何設計智能系統和機器人!IJCAI 2020滅霸式拒稿,AI審稿是否更公平?64% 的企業未實現智能化,5 成公司算法工程師團隊規模小於 10人,AI 工程師的機遇在哪裡?Docker 開發環境的滑坡比特幣Logo背後有哪些歷史及象徵意義?Logo 上的「B」為什麼會向右傾斜?抗住百萬人直播、被聯合國推薦,起底飛書技術演進之路!你點的每個「在看」,我都認真當成了AI

相關焦點

  • CVPR 2019提前看:少樣本學習專題
    接下來我們會從少樣本分類學習的問題定義入手,結合一個二分類的例子來闡述 EGNN 的各個模塊與更新算法規則,幫助我們理解 EGNN,最後順延擴展到論文實驗中真正部署的多分類任務。少樣本分類顧名思義就是通過每個類別極少或較少的訓練樣本來學習泛化而且魯棒的分類器能夠保持較高的準確度並且具有擴展性從而識別新的類別。
  • 小樣本學習(Few-shot Learning)綜述
    首先,這些梯度優化算法包括 momentum, adagrad, adadelta, ADAM 等,無法在幾步內完成優化,特別是在非凸的問題上,多種超參的選取無法保證收斂的速度。其次,不同任務分別隨機初始化會影響任務收斂到好的解上。雖然 finetune 這種遷移學習能緩解這個問題,但當新數據相對原始數據偏差比較大時,遷移學習的性能會大大下降。
  • 乾貨| BERT fine-tune 終極實踐教程
    另一個是訓練具體任務(task)的fine-tune部分。在開源的代碼中,預訓練的入口是在run_pretraining.py而fine-tune的入口針對不同的任務分別在run_classifier.py和run_squad.py。其中run_classifier.py適用的任務為分類任務。如CoLA、MRPC、MultiNLI這些數據集。
  • 基於Co-Attention和Co-Excitation的少樣本目標檢測|NeurIPS 2019
    「免費學習 60+ 節公開課:投票頁面,點擊講師頭像」作者 | VincentLee來源 | 曉飛的算法工程筆記(ID: gh_084c810bc839)導讀:論文提出CoAE少樣本目標檢測算法,該算法使用non-local block來提取目標圖片與查詢圖片間的對應特徵,使得RPN網絡能夠準確的獲取對應類別對象的位置,另外使用類似
  • 港中文MMLab自步對比學習:充分挖掘無監督學習樣本
    目標重識別 (Object Re-ID)包括行人重識別、車輛重識別等,旨在跨攝像機檢索和追蹤目標人物或車輛。重識別任務的關鍵之一是學習具有辨識性的特徵,並在多樣的條件變化下保持魯棒性。在如今深度學習盛行的時代,大規模數據集推動了目標重識別任務的快速發展,然而,領域差異及標註數據的高消耗等都成為了部署重識別算法中無法忽視的問題。
  • CVPR 2018 最前沿:讓神經網絡學習比較來實現少樣本學習
    前言相信每一位研究深度學習的朋友都明白,深度學習能夠在這幾年取得如此爆炸式的發展,除了算法本身的改進與創新,最關鍵的因素就是擁有海量的數據和強大的計算資源。那麼,我們很自然的會問:沒有海量數據怎麼辦?現實生活中有很多問題並沒有那麼多的數據可以採集,或者說採集數據所需的成本很高,比如稀有物種的圖片,醫療診斷的圖片。
  • 今日Paper|小樣本學習;機器學習;單幅圖像去霧;零樣本目標檢測等
    GTNet:用於零樣本目標檢測的生成遷移網絡 提高小樣本學習對全新分類的識別能力論文名稱:Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation
  • 圖像樣本不夠用?元學習幫你解決
    然而,如果你不是 Google 或者 Facebook,你就不可能總是能夠用這麼多的圖像來構建一個數據集。當您從事計算機視覺工作時,有時您必須對每個標籤只有一個或兩個樣本的圖像進行分類。在這場比賽中,人類仍將被打敗。給嬰兒看一張大象的照片,從現在起他們永遠不會認不出大象。如果你對 Resnet50 做同樣的事情,你可能會對結果感到失望。
  • 清華張長水等人30頁少樣本學習綜述論文,涵蓋400+參考文獻
    選自arXiv作者:張長水等機器之心編譯編輯:魔王這篇綜述文章回顧了少樣本學習(FSL)的演進歷史和當前進展,對 FSL 方法進行了層次分類,並總結了近期多個 FSL 擴展性主題及其最新進展
  • 吳博:目標檢測集成框架在醫學圖像 AI 輔助分析中的應用 | AI 研習...
    醫學圖像分析中目標檢測任務的普遍性,使得開發目標檢測集成框架顯得必要。近日,在雷鋒網 AI 研習社公開課上,深圳市宜遠智能科技有限公司負責人吳博剖析了目標檢測已有的框架,重點分享如何對目標檢測框架進行改造,以便在醫學圖像分析中產生更好的效果。公開課回放視頻網址:http://www.mooc.ai/open/course/559?
  • 阿里文娛資深算法專家:視頻物體分割算法的三個方向與最新應用
    (b)(c) 和 (d) 是後續的第 20、40 和 60 幀,後續的圖像只有 RGB 圖片,需要算法去估計物體的區域。該示例的難點是:(1) 前景背景顏色非常相似;(2)隨著目標駱駝的運動,背景中出現一個新的駱駝,需要分割出這兩個不同的駱駝區域。目前半監督視頻物體分割算法分為兩大類:有在線學習、無在線學習。
  • CVPR 2020 目標檢測論文精選
    Detection on Point Clouds這篇論文提出了一種基於圖卷積(gconv)的三維目標檢測層次圖網絡(hgnet)。這個網絡通過處理原始點雲,直接預測目標的3 d邊界框。對於檢測目標,HGNet能夠捕捉這些點之間的關係並且使用多層次語義。
  • DAC快速目標檢測算法優化和架構設計優化方案
    算法在設計時需要對這12類物體進行分類; 4) 即使測試圖片中出現多個相似的目標,標定框也是指定固定的一個目標。即訓練時需要適當的過擬合。 圖 2 訓練集的部分圖片 2.2 單目標檢測網絡選擇 為滿足移動端的檢測實時性,我們團隊最終選定了YOLO作為基礎檢測算法
  • 計算機視覺中,究竟有哪些好用的目標跟蹤算法(下)
    容易跟丟這個比較好理解,前面分析了相關濾波是模板類方法,如果目標快速變形,那基於HOG的梯度模板肯定就跟不上了,如果快速變色,那基於CN的顏色模板肯定也就跟不上了。這個還和模型更新策略與更新速度有關,固定學習率的線性加權更新,如果學習率太大,部分或短暫遮擋和任何檢測不準確,模型就會學習到背景信息,積累到一定程度模型跟著背景私奔了,一去不復返。
  • 做目標檢測,這6篇就夠了:CVPR 2020目標檢測論文盤點
    CVPR 2020 會議上,有哪些目標檢測論文值得關注?目標檢測是計算機視覺中的經典問題之一。憑藉大量可用數據、更快的 GPU 和更好的算法,現在我們可以輕鬆訓練計算機以高精度檢測出圖像中的多個對象。前不久結束的 CVPR 2020 會議在推動目標檢測領域發展方面做出了一些貢獻,本文就為大家推薦其中 6 篇有價值的目標檢測論文。
  • 深度長文:計算機視覺中,目前有哪些經典的目標跟蹤算法?
    關於這一點可能解釋是,訓練尺度濾波器用的是一維樣本,而且沒有循環移位,這就意味著一次訓練更新只有33個樣本,如果降低樣本數量,會造成訓練不足,分類器判別力嚴重下降,不像平移濾波器有非常多的移位樣本(個人看法歡迎交流)。總之,請不要輕易嘗試大幅降低尺度數量,如果非要用尺度濾波器33和1.02就很好。以上就是兩種推薦的尺度檢測方法,以後簡稱為類似DSST的多尺度和類似SAMF的多尺度。
  • 騰訊優圖CVPR中標論文:不靠硬體靠算法,暗光拍照也清晰
    雷剛 發自 凹非寺量子位 報導 | 公眾號 QbitAI暗光拍照也清晰,這是手機廠商目前激烈競爭的新拍照目標。但除了堆攝像頭和硬體,AI科學家帶來算法方面的新突破。由此構建出的數據集,使得本算法在複雜光照下,也能得到穩定結果。對於上邊描述的深度神經網絡結構,優圖利用對應的暗光和清晰圖片進行網絡的訓練。因為卷積網絡不限制輸入圖片的大小,研究人員隨機從圖片中截取256x256尺寸大小的圖片塊進行網絡訓練來更好地利用GPU顯存。訓練好的模型可以利用在任何尺寸的圖片上。
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    arxiv.org/pdf/2003.09119.pdf  代碼地址:https://github.com/KiveeDong/CentripetalNet  1  導讀  CVPR 2020上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡
  • 如何學習SVM(支持向量機)以及改進實現SVM算法程序 - 雷鋒網
    雷鋒網 AI 科技評論按,本文為韋易笑在知乎問題如何學習SVM(支持向量機)以及改進實現SVM算法程序下面的回覆,雷鋒網 AI 科技評論獲其授權轉載。以下為正文:學習 SVM 的最好方法是實現一個 SVM,可講理論的很多,講實現的太少了。
  • 全球首例,Adversarial T-shirt讓你在AI目標檢測系統中隱身
    Jiajun Lu 等人也在 2017 年認為:現實世界中不需要擔心對抗樣本(NO Need to Worry about Adversarial Examples in Object Detection in Autonomous Vehicles)。他們通過大量實驗證明,單純地將在數字世界裡生成的對抗樣本通過列印再通過相機的捕捉,是無法對 AI 檢測系統造成影響的。