基於Co-Attention和Co-Excitation的少樣本目標檢測|NeurIPS 2019

2021-01-15 AI科技大本營

「免費學習 60+ 節公開課:投票頁面,點擊講師頭像」

作者 | VincentLee

來源 | 曉飛的算法工程筆記(ID: gh_084c810bc839)

導讀:論文提出CoAE少樣本目標檢測算法,該算法使用non-local block來提取目標圖片與查詢圖片間的對應特徵,使得RPN網絡能夠準確的獲取對應類別對象的位置,另外使用類似SE block的squeeze and co-excitation模塊來根據查詢圖片加強對應的特徵緯度,最後結合margin based ranking loss達到了state-of-the-art,論文創新點滿滿。

論文地址:https://arxiv.org/abs/1911.12529代碼地址:https://github.com/timy90022/One-Shot-Object-Detection論文認為,人類能夠在圖片中找出模版對應的物體,是因為人類具備將像素分組,提取獨特特徵比對以及專註定位的能力。因此,論文希望提出一個具備人類視覺功能的網絡來解決one-shot目標檢測的問題,給予網絡一張未見過的查詢模版(query image),然後在目標圖片(taget image)中找出其位置。論文提出的one-shot目標檢測算法的特徵主要來自兩種上下文信息:目標圖片能夠提供空間上下文,對比其它前景物體和背景來找出特殊對象的位置目標圖片和查詢圖片能夠提供類別上下文,而確切的類別層次則是由模版和目標對象的相同屬性(顏色,紋理,形狀等)決定的度量學習(Metric learning)是one-shot分類問題的關鍵,但不能直接簡單地將學習到的度量方法應用到one-shot目標檢測中,因為檢測器需要先知道哪塊區域最有可能包含目標才能進行比較。另外,目標追蹤可以認為是少樣本目標檢測的一個特殊案例,區別在於,少樣本目標檢測的目標圖片中不一定包含查詢圖片,並且允許圖片之間存在明顯的外觀差異,只要他們有公共的特徵進行歸類即可。論文推出新的機制squeeze and co-excitation(CoAE)來同時強化新類別對象在查詢圖片和目標圖片上的特徵,實驗證明,CoAE框架能更好地發掘空間和類別上下文信息,帶來很好的性能提醒

方法

定義數據集的類別標籤集合為,進一步將其分為,分別用於訓練和測試。少樣本目標檢測的流程定義為,給予查詢圖片,為集合的一個類別對象,測試就是查找目標圖片所有對應的對象,假設每張可用的圖片包含至少一個查詢對象。

論文的主要架構如1,主要包含4個部分,分別是前面的基礎特徵提取,然後是Non-local feature的提取,用於提取共同特徵,接著是論文提出的squeeze and co-excitation(CoAE)模塊,用於強化目標channel,最後是metric模塊,用於最好的分類。

Non-local object proposals

定義訓練集為,包含類別的bbox,論文採用Faster R-CNN架構進行檢測,這會帶來一個基礎問題,即RPN能否檢測出未訓練過的類別的bbox。由於類別與類別可能存在十分明顯的區別,因此,RPN不一定能檢測出的bbox。為了解決這個問題,論文引入non-local operation來優化卷積特徵,non-local operation是一種類似attention的操作,能夠根據參考輸入來強化目標輸入上的特徵分布,具體可以看 Non-local neural networks

讓為目標圖片,為查詢圖片,目標圖片的主幹網絡輸出為,查詢圖片的輸出為。將作為參考輸入,的non-local block輸出為,同樣的,以作為參考輸入,可以得到的,和之間的相互non-local operations可以認為進行co-attention機制

兩個擴展的特徵圖可以表示為公式1和公式2,是element-wise sum。由於不僅包含了目標圖片的特徵,還包含了和加權特徵,所以將RPN接在這層特徵上能夠發現更多關於查詢圖片的信息,從而獲取更高質量的bbox,即non-local region proposals更適合少樣本目標檢測

Squeeze and co-excitation

除了關聯region proposals和查詢圖片外,co-attention機制產生了channel數一樣的兩組特徵 ,而這兩組特徵可以通過論文提出的squeeze-and-co-excitation(SCE)來根據查詢圖片對N個channel進行自適應重新加權。具體地,squeeze步驟通過GAP(global average pooling)概括了每一個特徵圖,而co-excitation則同時對和進行channel緯度的特徵加強,重點加強對最後相似度度量有用的特徵。在squeeze層和co-excitation層之間,放置了兩個fc/MLP層,跟SE block設計一樣

SCE operation如公式3,和為重新加強後的特徵圖,是co-excitation向量,而表示element-wise product

通過公式3,查詢圖片可以表示為公式4,同樣RPN提取的區域特徵可以同樣得出,例如對的裁剪區域進行channel-wise的GAP

Proposal ranking

論文設計了一個兩層MLP網絡M,以二分類softmax結尾,RPN根據查詢圖片選出K個bbox,K一般為128。在訓練階段,K個bbox會根據IoU是否大於0.5分成前景(label 1)和背景(label 0),接著使用margin-based ranking loss來指導度量學習,使得最相關的bbox出現在bbox列表的前面。因此,論文將每個bbox的特徵向量分別和查詢圖片特徵進行concatenate,標記為,網絡M的層輸出分布

論文定義margin-based ranking loss為公式5,為前景的預測的置信度,為Iverson bracket,括號內為true則輸出1,否則輸出0,為前景的下限,為背景的上線,在實際中,一般分別設為0.7和0.3

margin-based loss分為兩部分,前部分為限制前景和背景的置信度,前景必須大於0.7,背景必須小於0.3,否則產生loss。而另一部分則是ranking的loss,初始的順序是根據RPN的置信度輸出。這裡可以看出,論文沒有設定真正意義的先後順序,而是限制了正負樣本間的置信度差,同類別樣本間置信度差要小於0.3,而不同類別樣本間置信度差則要大於0.7

最後的總loss如公式7,前兩個loss為交叉熵和Faster R-CNN的回歸loss

實驗

數據集和超參數

Table1展示了VOC上的seen和unseen類別,而在COCO上,則對80個類進行4等分,然後隨機選取3個作為seen類別,剩下一個為unseen類別,如圖2所示。訓練使用SGD優化器,momentum為0.9,訓練10個周期,batch size為128,使用8塊v100,學習率為0.01,每4個周期下降10倍,margin-based ranking loss的

生成目標和查詢對

對於VOC,直接裁剪gt bbox作為查詢圖片,而對於COCO,由於目標太小且對於人也太難辨認,不能直接裁剪,因此,使用預訓練的Mask R-CNN去掉過小和過難的目標。另外,實驗僅使用Mask R-CNN檢測出來的GT。在訓練時,對於目標圖片,隨機獲取圖片上的seen類別作為查詢圖片。而在測試時,先使用圖片ID作為種子,隨機打亂查詢圖片的順序,然後選取前五個查詢圖片,最後計算mAP。打亂順序能保證獲取的5個查詢圖片上隨機的,從而保證驗證結果上準確的

ImageNet預訓練

為了保證實驗的嚴格性,使用縮減後的ImageNet對ResNet-50進行重新訓練,將COCO-related ImageNet類別去掉,大約933052張圖片,剩下725類,精度top-1 75.8%,完整的ImageNet包含1284168張圖片,共1000類

性能

對於VOC,Table1中可以看到,使用縮減的數據集訓練的模型依然優於baseline模型,而使用完整的數據集訓練的模型則是性能有很明顯地提升。unseen類別性能比seen類別好,這是由於部分類別的對象差異較大,比如plant, bottle, chair

對於COCO,Table2中可以看出,論文的模型在seen類別和unseen類別上優於Siamese Mask-RCNN

消融實驗

Co-attention, co-excitation, and margin-based ranking loss

論文研究了不同的策略的共享,如Table3。首先,不使用Co-attention和Co-excitation的模型表現最差,而分別單獨加入non-local RPN和SCE在VOC和COCO上能分別能帶來6.3/4.4mAP和9.8/8.2AP(%)提升,同時加入則分別進一步帶來0.9/1.8mAP(%)和0.3/1.9AP(%)提升,這意味著co-attention和co-exciation對性能表現都很關鍵,而margin-based ranking loss也是很重要的。

Visualizing the distribution of non-local object proposals

為了分析non-local bbox的性能,將bbox分布以heatmap方式可視化, 如Figure3,co-attention模塊讓RPN更專注於查詢圖片的相似區域。

Visualizing the characteristics of co-excitation

為了分析co-excitation機制是否學習到了不同類別的權重分布,論文收集了測試時不同類別的查詢圖片的co-excitation權重,最後對其求平均得到類別的單一向量,再用歐式距離計算類別單一向量間的距離。從圖4的結果可以看出,co-excitation模塊學習到了有意義的權重分布,相似的物體的向量距離比較近,而person類別則遠離其它所有類別,表明person類別的權重與其它類別基本不同。

Analyzing the co-excitation mechanism

論文進行了兩個相反的實驗,首先對同一張目標圖片使用不同的查詢圖片,從圖5的結果可以看出,p1和p2的顏色與目標相似,而p3和p4則截然不同,從結果來看,結論是前兩張圖片更注重顏色,而後兩張則更注重形狀特徵。另外一個則是對不同的目標圖片使用同一張查詢圖片,從圖6結果可以看出,I1和I2更注重紋理而I3和I4更注重形狀特徵。

結論

論文提出CoAE少樣本目標檢測算法能夠根據查詢圖片提取對應的特徵,不依賴於訓練數據的標註信息,在COCO和VOC上達到state-of-the-art,未來的工作是將網絡推廣到k-shot(k0)目標檢測中。

參考內容

Non-local neural networks(*本文為AI科技大本營轉載文章,轉載請聯繫原作者)

所有CSDN 用戶都可參與投票和抽獎活動

加入福利群,每周還有精選學習資料、技術圖書等福利發送

相關焦點

  • IP、co-IP、ChIP、RIP、pull-down了解一下?
    以上幾個實驗技術都和蛋白有關,他們之間既有聯繫又有區別。今天小編主要介紹一下這幾個實驗技術,嗯,都是知識點。免疫沉澱技術(Immunoprecipitation, IP)主要原理是根據抗原和抗體的特異性結合,利用抗體將靶標蛋白(即抗原)分離出來,只是為了檢測某一種蛋白的表達情況。co-IP、ChIP、RIP等技術由IP演化而來,可以用來研究與蛋白結合的分子。
  • > co是什麼面料成分
    co是什麼面料成分 2019-01-29 09:41:49 來源:全球紡織網 co是什麼面料成分?
  • 增量學習不只有finetune,三星AI提增量式少樣本目標檢測算法|CVPR...
    的基礎上,採用基於特徵的知識遷移策略,將網絡分成類可知和類不可知模塊進行增量式少樣本學習。首先使用基類訓練一個通用的特徵提取器,然後基於meta-learning學習class code生成器,最後通過結合特徵和class code進行目標定位。
  • co催化燃燒設備
    co催化燃燒設備,探析軌道車輛塗裝VOCs廢氣治理技術! 近年來,軌道交通由於其快速、方便,並有效緩解城市交通壓力的特點,得到了快速發展。
  • Why far-right groups co-opt Norse symbols 解讀北歐神話中的標誌
    Borrowed symbolsAngeli claims that he wears his bizarre (奇怪的) costume to draw attention to himself—but there’s surely another reason for the bare chest and precariously (岌岌可危的
  • CVPR 2019提前看:少樣本學習專題
    近兩年來我們注意到學界開始改變之前大數據好效果的模型訓練方式,關注用少量的數據來達到較好的任務表現,目前此類方法還處在學界探索實驗階段,在業界運用還不算普及(由於業界產品對模型精確度有比較高的要求,且大多針對的都是特定業務細分場景),然而該方向『小數據學好模型』的思想對之後的機器學習研究和應用都具有非常好的前景以及應用潛力,所以筆者今年挑了四篇思路和方法都比較新穎,同時結果也具有說服力的少樣本學習的文章進行了比較細緻的引讀和推薦
  • 今日Paper|小樣本學習;機器學習;單幅圖像去霧;零樣本目標檢測等
    GTNet:用於零樣本目標檢測的生成遷移網絡 提高小樣本學習對全新分類的識別能力論文名稱:Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation
  • Twitter周一開始強推t.co網址縮略服務
    騰訊科技訊(無忌)北京時間10月11日消息,據國外媒體報導,微型博客Twitter周一在開發者博客中宣布,所有在Twitter消息(tweet)和直接留言中提交的超級連結,都必須使用Twitter的網址縮略服務t.co。
  • co-ip實驗12個常見的問題,帶你在線掃盲
    答:ProteinA/G 能特異性地結合到免疫球蛋白的 FC 片段,因此能和抗體結合,而抗體與目標蛋白結合,目標蛋白和相互作用的蛋白結合。5. Co-ip 實驗中使用的對照抗體有哪些?答:用兔的 lgG 做對照;用抗 Fab 和 Fc 抗體特異性封閉輕鏈和重鏈;在 WB 二抗上著手,這種二抗針對的是輕重鏈間的二硫鍵,若跑 SDS 膠,最後顯影是檢測不到重鏈和輕鏈的。8. 免疫共沉澱中沒有檢測到與目的蛋白相互作用的蛋白或檢測得到的信號太弱?
  • Sergey Brin, co-founder of Google appear
    Sergey Brin, co-founder
  • Coarticulation 協同發音
    When such simultaneous or overlapping articulations are involved, we call the process coarticulation.當涉及到這種同時或重合的發音時,我們稱之為協同發音。(分 逆化協同發音 和 重複性協同發音。)
  • 【求學求職】復旦大學腦科學轉化研究院邵志成課題組誠聘co-PI和...
    二十一世紀是腦科學的世紀,基於國家發展重大需求及腦科學的發展趨勢,復旦大學依託於上海醫學院、醫學神經生物學國家重點實驗室和教育部腦科學前沿中心,新成立腦科學轉化研究院(Institute for Translational Brain Research, Fudan University),開展腦科學的基礎研究和轉化研究
  • 為創業者提供初創企業的研究報告,英國諮詢公司「Dealroom.co...
    據外媒 EU-Startups報導,英國 Dealroom.co 籌集275萬歐元(約為300萬美元)A輪融資,由 Shoe Investments 和 Knight Venture Capita 領投。該輪融資將用於公司的人才招聘,以及實現國際擴張的計劃。
  • 注意力機制Attention
    注意力機制(attention mechanism)Attention實質上是一種分配機制,其核心思想是突出對象的某些重要特徵。根據Attention對象的重要程度,重新分配資源,即權重,實現核心思想是基於原有的數據找到其之間的關聯性,然後突出其某些重要特徵。注意力可以被描述為將一個查詢和一組鍵值對映射到一個輸出,其中查詢、鍵、值和輸出都是向量。
  • 法國國立路橋學校在讀博士肖洋:非特定場景下的目標檢測和3D姿態...
    作為場景理解的關鍵子任務,圖像中目標檢測和姿態估計也是近幾年的研究熱點。針對圖像中目標檢測問題,大部分方法已經在多樣本情況下取得了很好的結果。然而,對於樣本較少的新對象類別,其性能仍然滯後;在姿態估計領域,近幾年的方法都需要針對特定的對象實例或類別進行訓練。但是對於未預定義類別的事物,目前方法性能略顯不足。那麼,到底如何解決當前出現的場景理解問題並進行優化呢?
  • 基於層級圖網絡的圖卷積:用點雲完成3D目標檢測
    論文背景由於點雲的稀疏性,一些已有的為網格形式數據設計的方法(如CNN)在點雲上的表現並不好,為解決這一問題,最近有一些對點雲數據的方法被提出,例如基於投影的方法、基於體卷積的方法和基於 PointNet 的方法。前兩種試圖將點雲數據嚴格轉換為網格結構數據,而後一種則在不明確考慮點的幾何位置的情況下聚合特徵。
  • 蘋果2億美元收購AI創業公司Lattice.co 強化機器學習能力
    DoNews 5月14日消息(記者 趙晉傑)根據《財富》雜誌北京時間5月14日消息,蘋果以1.75億至2億美元的區間價格收購了一家數據挖掘和機器學習創業公司Lattice.co。  根據CrunchBase提供的數據,Lattice.co誕生於史丹福大學的科研項目Deep Dive。
  • Covaris為拭子樣本採集設備推出全新的病毒RNA提取試劑盒
    麻薩諸塞州沃本2020年2月18日 /美通社/ -- Covaris, Inc.今天宣布,該公司為鼻咽拭子樣本採集設備推出兩款新的病毒RNA提取試劑盒。第一款新產品是利用Puritan®拭子的truXTRAC®病毒RNA提取試劑盒,含有利用合成拭子進行高品質RNA的AFA改進型提取和磁珠純化從而進行下遊分析的所有組件。第二款新產品是truXTRAC-PCR直接病毒RNA提取試劑盒,能夠在實時RT-PCR(逆轉錄-聚合酶鏈反應)檢測中直接使用,無需之前進行純化,還包含內部控制。
  • 美國FDA緊急授權:通過唾液樣本檢測新冠病毒
    數據來源:worldometers) 撰文 | 湯佩蘭 責編 | 李娟 陳曉雪 ● ● ● 在4月14日本周二的白宮新聞發布會上,美國總統川普盛讚一款基於唾液樣本的新冠檢測方式為
  • 基於RCNN的多層次結構顯著性目標檢測方法
    在現有的基於傳統特徵的自動駕駛中,目標識別是核心任務之一,其包括道路及道路邊沿識別、車道線檢測、車輛識別、車輛類型識別、非機動車識別、行人識別、交通標誌識別、障礙物識別與避讓等等。目標識別系統利用計算機視覺觀測交通環境,從實時視頻信號中自動識別出目標,為實時自動駕駛,如啟動、停止、轉向、加速和減速等操作提供判別依據。