「免費學習 60+ 節公開課:投票頁面,點擊講師頭像」
作者 | VincentLee
來源 | 曉飛的算法工程筆記(ID: gh_084c810bc839)
導讀:論文提出CoAE少樣本目標檢測算法,該算法使用non-local block來提取目標圖片與查詢圖片間的對應特徵,使得RPN網絡能夠準確的獲取對應類別對象的位置,另外使用類似SE block的squeeze and co-excitation模塊來根據查詢圖片加強對應的特徵緯度,最後結合margin based ranking loss達到了state-of-the-art,論文創新點滿滿。
論文地址:https://arxiv.org/abs/1911.12529代碼地址:https://github.com/timy90022/One-Shot-Object-Detection論文認為,人類能夠在圖片中找出模版對應的物體,是因為人類具備將像素分組,提取獨特特徵比對以及專註定位的能力。因此,論文希望提出一個具備人類視覺功能的網絡來解決one-shot目標檢測的問題,給予網絡一張未見過的查詢模版(query image),然後在目標圖片(taget image)中找出其位置。論文提出的one-shot目標檢測算法的特徵主要來自兩種上下文信息:目標圖片能夠提供空間上下文,對比其它前景物體和背景來找出特殊對象的位置目標圖片和查詢圖片能夠提供類別上下文,而確切的類別層次則是由模版和目標對象的相同屬性(顏色,紋理,形狀等)決定的度量學習(Metric learning)是one-shot分類問題的關鍵,但不能直接簡單地將學習到的度量方法應用到one-shot目標檢測中,因為檢測器需要先知道哪塊區域最有可能包含目標才能進行比較。另外,目標追蹤可以認為是少樣本目標檢測的一個特殊案例,區別在於,少樣本目標檢測的目標圖片中不一定包含查詢圖片,並且允許圖片之間存在明顯的外觀差異,只要他們有公共的特徵進行歸類即可。論文推出新的機制squeeze and co-excitation(CoAE)來同時強化新類別對象在查詢圖片和目標圖片上的特徵,實驗證明,CoAE框架能更好地發掘空間和類別上下文信息,帶來很好的性能提醒
方法
定義數據集的類別標籤集合為,進一步將其分為,分別用於訓練和測試。少樣本目標檢測的流程定義為,給予查詢圖片,為集合的一個類別對象,測試就是查找目標圖片所有對應的對象,假設每張可用的圖片包含至少一個查詢對象。
論文的主要架構如1,主要包含4個部分,分別是前面的基礎特徵提取,然後是Non-local feature的提取,用於提取共同特徵,接著是論文提出的squeeze and co-excitation(CoAE)模塊,用於強化目標channel,最後是metric模塊,用於最好的分類。
Non-local object proposals
定義訓練集為,包含類別的bbox,論文採用Faster R-CNN架構進行檢測,這會帶來一個基礎問題,即RPN能否檢測出未訓練過的類別的bbox。由於類別與類別可能存在十分明顯的區別,因此,RPN不一定能檢測出的bbox。為了解決這個問題,論文引入non-local operation來優化卷積特徵,non-local operation是一種類似attention的操作,能夠根據參考輸入來強化目標輸入上的特徵分布,具體可以看 Non-local neural networks
讓為目標圖片,為查詢圖片,目標圖片的主幹網絡輸出為,查詢圖片的輸出為。將作為參考輸入,的non-local block輸出為,同樣的,以作為參考輸入,可以得到的,和之間的相互non-local operations可以認為進行co-attention機制
兩個擴展的特徵圖可以表示為公式1和公式2,是element-wise sum。由於不僅包含了目標圖片的特徵,還包含了和加權特徵,所以將RPN接在這層特徵上能夠發現更多關於查詢圖片的信息,從而獲取更高質量的bbox,即non-local region proposals更適合少樣本目標檢測
Squeeze and co-excitation
除了關聯region proposals和查詢圖片外,co-attention機制產生了channel數一樣的兩組特徵 ,而這兩組特徵可以通過論文提出的squeeze-and-co-excitation(SCE)來根據查詢圖片對N個channel進行自適應重新加權。具體地,squeeze步驟通過GAP(global average pooling)概括了每一個特徵圖,而co-excitation則同時對和進行channel緯度的特徵加強,重點加強對最後相似度度量有用的特徵。在squeeze層和co-excitation層之間,放置了兩個fc/MLP層,跟SE block設計一樣
SCE operation如公式3,和為重新加強後的特徵圖,是co-excitation向量,而表示element-wise product
通過公式3,查詢圖片可以表示為公式4,同樣RPN提取的區域特徵可以同樣得出,例如對的裁剪區域進行channel-wise的GAP
Proposal ranking
論文設計了一個兩層MLP網絡M,以二分類softmax結尾,RPN根據查詢圖片選出K個bbox,K一般為128。在訓練階段,K個bbox會根據IoU是否大於0.5分成前景(label 1)和背景(label 0),接著使用margin-based ranking loss來指導度量學習,使得最相關的bbox出現在bbox列表的前面。因此,論文將每個bbox的特徵向量分別和查詢圖片特徵進行concatenate,標記為,網絡M的層輸出分布
論文定義margin-based ranking loss為公式5,為前景的預測的置信度,為Iverson bracket,括號內為true則輸出1,否則輸出0,為前景的下限,為背景的上線,在實際中,一般分別設為0.7和0.3
margin-based loss分為兩部分,前部分為限制前景和背景的置信度,前景必須大於0.7,背景必須小於0.3,否則產生loss。而另一部分則是ranking的loss,初始的順序是根據RPN的置信度輸出。這裡可以看出,論文沒有設定真正意義的先後順序,而是限制了正負樣本間的置信度差,同類別樣本間置信度差要小於0.3,而不同類別樣本間置信度差則要大於0.7
最後的總loss如公式7,前兩個loss為交叉熵和Faster R-CNN的回歸loss
實驗
數據集和超參數
Table1展示了VOC上的seen和unseen類別,而在COCO上,則對80個類進行4等分,然後隨機選取3個作為seen類別,剩下一個為unseen類別,如圖2所示。訓練使用SGD優化器,momentum為0.9,訓練10個周期,batch size為128,使用8塊v100,學習率為0.01,每4個周期下降10倍,margin-based ranking loss的
生成目標和查詢對
對於VOC,直接裁剪gt bbox作為查詢圖片,而對於COCO,由於目標太小且對於人也太難辨認,不能直接裁剪,因此,使用預訓練的Mask R-CNN去掉過小和過難的目標。另外,實驗僅使用Mask R-CNN檢測出來的GT。在訓練時,對於目標圖片,隨機獲取圖片上的seen類別作為查詢圖片。而在測試時,先使用圖片ID作為種子,隨機打亂查詢圖片的順序,然後選取前五個查詢圖片,最後計算mAP。打亂順序能保證獲取的5個查詢圖片上隨機的,從而保證驗證結果上準確的
ImageNet預訓練
為了保證實驗的嚴格性,使用縮減後的ImageNet對ResNet-50進行重新訓練,將COCO-related ImageNet類別去掉,大約933052張圖片,剩下725類,精度top-1 75.8%,完整的ImageNet包含1284168張圖片,共1000類
性能
對於VOC,Table1中可以看到,使用縮減的數據集訓練的模型依然優於baseline模型,而使用完整的數據集訓練的模型則是性能有很明顯地提升。unseen類別性能比seen類別好,這是由於部分類別的對象差異較大,比如plant, bottle, chair
對於COCO,Table2中可以看出,論文的模型在seen類別和unseen類別上優於Siamese Mask-RCNN
消融實驗
Co-attention, co-excitation, and margin-based ranking loss
論文研究了不同的策略的共享,如Table3。首先,不使用Co-attention和Co-excitation的模型表現最差,而分別單獨加入non-local RPN和SCE在VOC和COCO上能分別能帶來6.3/4.4mAP和9.8/8.2AP(%)提升,同時加入則分別進一步帶來0.9/1.8mAP(%)和0.3/1.9AP(%)提升,這意味著co-attention和co-exciation對性能表現都很關鍵,而margin-based ranking loss也是很重要的。
Visualizing the distribution of non-local object proposals
為了分析non-local bbox的性能,將bbox分布以heatmap方式可視化, 如Figure3,co-attention模塊讓RPN更專注於查詢圖片的相似區域。
Visualizing the characteristics of co-excitation
為了分析co-excitation機制是否學習到了不同類別的權重分布,論文收集了測試時不同類別的查詢圖片的co-excitation權重,最後對其求平均得到類別的單一向量,再用歐式距離計算類別單一向量間的距離。從圖4的結果可以看出,co-excitation模塊學習到了有意義的權重分布,相似的物體的向量距離比較近,而person類別則遠離其它所有類別,表明person類別的權重與其它類別基本不同。
Analyzing the co-excitation mechanism
論文進行了兩個相反的實驗,首先對同一張目標圖片使用不同的查詢圖片,從圖5的結果可以看出,p1和p2的顏色與目標相似,而p3和p4則截然不同,從結果來看,結論是前兩張圖片更注重顏色,而後兩張則更注重形狀特徵。另外一個則是對不同的目標圖片使用同一張查詢圖片,從圖6結果可以看出,I1和I2更注重紋理而I3和I4更注重形狀特徵。
結論
論文提出CoAE少樣本目標檢測算法能夠根據查詢圖片提取對應的特徵,不依賴於訓練數據的標註信息,在COCO和VOC上達到state-of-the-art,未來的工作是將網絡推廣到k-shot(k0)目標檢測中。
參考內容
Non-local neural networks(*本文為AI科技大本營轉載文章,轉載請聯繫原作者)
所有CSDN 用戶都可參與投票和抽獎活動
加入福利群,每周還有精選學習資料、技術圖書等福利發送