反向R?削弱顯著特徵為細粒度分類帶來提升|AAAI 2020

2020-12-05 AI科技大本營

作者 | VincentLee

來源 | 曉飛的算法工程筆記

導讀:論文提出了類似於dropout作用的diversification block,通過抑制特徵圖的高響應區域來反向提高模型的特徵提取能力,在損失函數方面,提出專注於top-k類別的gradient-boosting loss來優化訓練過程,模型在ResNet-50上提升3.2%,算法思路巧妙,結構易移植且效果也不錯,值得學習。

簡介

在FGVC(fine-grained visual categorization)上,一般的深度學習模型都是通過學習輸入圖片到輸出標籤的映射,這樣會導致模型傾向於專注少部分顯著區域來同時區分模糊的種群內(inter-class)相似性和種群間(intra-class)的變化。

如圖1所示,一般的深度學習模型的attention經常密集地集中在小部分區域,因此只會提出有限的特徵。因此,論文建議分散attention來構建多樣的分布在特徵圖上的特徵。因為在特徵層面進行attention分散,在預測時則需要反過來,例如只關注最相似的類別來提高模型的辨別能力。通過關注相似的類別以及分散模型的attention,論文實際是在讓模型避免對訓練集的overfiting,增加泛化能力。論文的主要貢獻如下:

提出gradient-boosting loss,通過適當地調整梯度更新的幅度來解決高度相關類別的模糊部分提出diversification block,掩蓋顯著的特徵,從而迫使網絡去尋找外觀相似的類別的不易察覺的不同點論文提出的方法能夠加速模型的收斂以及提高識別的效果

方法

論文提出的方法能簡單地接到所有分類網絡中,結構如圖2所示。使用論文的方法,需要將主幹網絡的所有global pooling layer和最後的fully conntected layer替換成1x1 convolution,ouput channel等於類別數,模型主要包含兩個部分:

diversification module,用於迫使網絡去獲取更多不易察覺的特徵,而非專注於明顯特徵gradient boosting loss,使模型在訓練時專注於容易混淆的類別

Diversification Block

考慮如圖2中個類別的多標籤分類任務,為訓練圖片,是對應的GT,diversification block的輸入是類別特定(category-specific)的特徵圖 ,由修改後的主幹網絡輸出。標記,其中是對應類別的獨立特徵圖。diversification block的核心思想是抑制中的明顯區域,從而迫使網絡去提取其它區域的特徵,主要面臨兩個問題:1) 抑制哪些特徵?2) 怎麼抑制?

Mask Generation下面解釋如何產生用於指明抑制區域的mask,定義,是二值抑制mask對應特徵圖,1表示抑制,0表示不抑制。

Peak suppression

首先對特徵圖的峰值進行隨機抑制,因為這是對分類器最顯著的部分,是的峰值mask,'*'是element-wise的相乘,而是服從伯努利分布的隨機值,即有的概率為1。

Patch suppression

將每個分成多個固定大小的patch,定義l行m列的patch為,為patch的集合

對應的抑制mask,跟峰值的mask一樣,使用伯努利分布對塊進行賦值,隨機值為1的塊將整塊進行抑制,

由於只考慮非峰值點,因此將峰值點的值設為0

最後將兩種mask相加得到最後的抑制mask

Activation Suppression Factor

為抑制後的特徵圖,為抑制因子,後面的實驗設置為0.1

在進行特徵抑制後,對特徵進行global average pooling來獲取最後的置信度

Gradient-boosting Cross Entropy Loss

diversification module用於發現更多不易察覺的細微特徵,而gradient-boosting loss則是避免容易混淆的類別的誤分

Loss Function

論文認為,目前使用最廣的交叉熵損失函數平均地考慮了所有的負類別,而在細粒度分類中,模型更應該關注相似的負類別,因此提出gradient-boosting cross entropy(GCE),只專注於top-k個負類別

首先定義為所有的負類別,,為所有負類別的得分,為負類別的top-k類別集合,將分別top-k集合和非top-k集合

對交叉熵進行改造,只考慮top-k類別的計算,k一般設置為15

Gradient Boosting

公式13和公式14分別是交叉熵和GCE的梯度回傳公式

根據公式10和公式11的定義,可以發現公式15的包含關係

因此可以推出GCE的梯度是要比交叉熵的梯度要大的,使用GCE能夠讓模型專注於區分混淆類別。

訓練和推理

diversification block僅在訓練階段使用,在測試階段不再使用,改為將完整的特徵圖輸入到global average pooling中。

實驗

實驗在5個最常用的數據機上進行

Quantitative Results

其中兩個數據集的結果如表2、表3所示,可以看到,論文提出的方法在效果上的提升還是挺不錯的,而且參數量比較小,在另外幾個數據集上,論文提出的方法也是比其它方法要出色

Ablation Study

Diversification block (DB)

使用diversification block能讓ResNet-50的性能提升0.8%

Gradient-boosting loss如表4所示,使用gradient-boosting loss能讓ResNet-50+DB從86.3%提升到87.7%,提升要比其它損失函數方法要好。

Suppressing Factor

從實驗看出,抑制因子對實驗結果影響挺大的,選擇0.1的時候表現最好。

Choices of k

top-k的數量選擇對結果影響也是比較大的,選擇top-15的時候效果最好。

Convergence Analysis

從圖5可以看出,論文提出的方法收斂速度更快,儘管可以看到原始方法在訓練集上的準確率比論文提出的方法要好,但是在測試集的表現不好,這說明原始方法對訓練集有點過擬合了。

Qualitative Results

從圖4可以看出,論文提出的方法提取了更多的特徵區域。

ImageNet Results

為了進一步驗證論文提出的模型的效果,在ImageNet上進行了實驗。由於論文的方法專注於難樣本,因此在50輪後的訓練才進行對比,可以看到論文的方法的效果在ImageNet上還是不錯的。

結論

論文提出了diversification block以及gradient-boosting loss,diversification block通過隨機抑制響應高的區域引導模型學習更多的不易察覺的特徵,有點類似dropout的思想,而gradient-boosting loss則讓模型專注於top-k個類別的學習,加大對應類別的梯度回傳,使得訓練收斂更快且提升性能。總體而言,論文的思路清晰,而且效果還是有的,可以實驗下,然後當作基本方法加入到平時網絡的架構中,特別是後面的gradient-boosting loss。

論文地址:https://arxiv.org/abs/1912.06842

(*本文為AI科技大本營轉載文章,轉載請聯繫原作者)

相關焦點

  • 超全深度學習細粒度圖像分析:項目、綜述、教程一網打盡
    圖 5:帶有 CUB200-2011 監督信息的示例圖像細粒度圖像識別這些細粒度識別方法可以總結為三個範式:(1)用定位分類子網絡進行細粒度識別;(2)用端到端的特徵編碼進行細粒度識別;(3)用外部信息進行細粒度識別。其中,第一個範式和第二個範式只用和細粒度圖像相關的監督(比如圖像標籤、邊界框以及部分注釋等)進行了限制。
  • CVPR 2020滿分論文 | FineGym:面向細粒度動作分析的層級化高質量...
    機器之心機器之心發布作者:邵典等本文介紹了一個大規模、高質量、層級化標註的細粒度人體動作數據集「FineGym」,研究者來自香港中文大學,目前這項研究已被 CVPR 2020 接收為 oral 論文。
  • CVPR 2020 | 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    本文介紹的是CVPR 2020上錄用為Oral的論文《Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene
  • 支付寶奪冠CVPR細粒度視覺分類挑戰賽:數據增強+知識蒸餾
    機器之心發布機器之心編輯部近日,支付寶天筭安全實驗室在 CVPR FGVC(細粒度視覺分類)workshop 舉辦的植物病理學挑戰賽(Plant Pathology Challenge)中奪冠。本文介紹了冠軍隊伍及其解決方案。
  • 李航等提出多粒度AMBERT模型,中文提升顯著
    尤其是對於中文而言,AMBERT的提升效果顯著。我們首先看一下中英文任務中細、粗粒度模型層的注意力圖。下圖 1 顯示了適用於中英文句子的細粒度模型的首層注意力圖。可以看到,某些 token 不恰當地出現在句子的其他 token 上。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    集成方法可以削弱這一缺點的影響。深度神經網絡在圖像、音頻和文本等數據上表現優異,並且該算法也很容易對新數據使用反向傳播算法更新模型參數。它們的架構(即層級的數量和結構)能夠適應於多種問題,並且隱藏層也減少了算法對特徵工程的依賴。缺點:深度學習算法通常不適合作為通用目的的算法,因為其需要大量的數據。實際上,深度學習通常在經典機器學習問題上並沒有集成方法表現得好。
  • ...CVPR 2020 論文推薦:元轉移學習;ABCNet;動態圖像檢索;點雲分類...
    2020 | Sketch Less for More:基於細粒度草圖的動態圖像檢索CVPR 2020 | PointAugment:一種自動增強的點雲分類框架12-in-1: 多任務視覺和語言表示學習論文名稱:12-in-1: Multi-Task Vision and Language Representation Learning
  • 基於類別深度典型相關分析的多模態數據下的細粒度場發現
    iifEETC-電子工程專輯在這項工作中,我們調查了來自 Wikipedia 和 Foursquare 的與場所相關的多模式數據,並研究了(i)精確的場所搜索(查找拍攝照片的場地),以及(ii)在用於細粒度場地發現的聯合框架中對場所進行搜索並分類(查找具有相同類別的相關場地)。
  • 美國東北大學提出MoNet,使用緊密池化緩解特徵高維問題
    雙線性池化已被證明在多項任務中有用,包括細粒度圖像分類、大規模圖像識別、分割、視覺問答、人臉識別和藝術風格重建。Wang et al. 提出,使用高斯嵌入層納入一階信息。實踐證明,歸一化方法對這些 CNN 的性能也很重要。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出,一舉斬獲大賽冠軍。
  • 今日Paper|社交媒體謠言檢測;連續手語識別;細粒度服裝相似性學習...
    一些工作嘗試利用各種深度模型來提升檢測效果.本文設計另一種雙向圖卷積神經網絡來同時從上到下+從下到上的進行謠言檢測.實驗結果也驗證了本文算法的有效性。/Ji Shouling發表時間:2020/2/7論文連結:https://paper.yanxishe.com/review/10992?
  • 【第65期】(第34屆) AAAI-2020 Accept-paper List(662篇) ​
    Tell Me What They're Holding: Weakly-Supervised Object Detection with Transferable Knowledge from Human-Object Interaction.
  • 文本標註案例:細粒度情緒多分類標註丨曼孚科技
    通過對包含主觀信息的文本進行情感傾向性判斷,可支持在線訓練模型調優效果,為口碑分析、話題監控、輿情分析等應用提供幫助。以下內容節選於某細粒度情緒多分類標註項目。1.標註分類情緒共分為3大類,11中類,26小類:2. 標註說明針對一段短對話數據,判斷每句話中說話者當時的情緒,並判斷該句話是否包含26小類的情緒,如果包含則標註該情緒標籤為1,反之為0。
  • 【第63期】(第34屆) AAAI-2020 Accept-paper List(部分602篇)
    Gummadi,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/5349[24].Carbonell,論文連結: https://aaai.org/ojs/index.php/AAAI/article/view/5382[57].
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    這些已有的圖像描述方法的訓練方式大都是根據之前的基本真值詞(ground-truth words)和圖像,使用反向傳播,最大化每個基本真值詞的可能性。這些已有的圖像描述方法存在三個主要問題。第一,它們很難生成豐富的細粒度的描述。第二,在訓練和測試之間存在曝光偏差。第三,存在損失與評估的不匹配問題。
  • AAAI 2020學術會議提前看:常識知識與常識推理
    本次 AAAI 2020 學術會議論文提前看,筆者挑選了常識知識、常識推理相關的 3 篇論文為大家作以解讀。圖 1.1 本文方法在 MSVD 視頻數據集合 Youku-vc 中文視頻數據集上的效果示例黃色和藍色的框分別表示對象和關係的候選,『o-r-o』表示的是語義圖中的『對象-關係-對象』,『o-r-a』表示的是『對象-關係-屬性』。Ours 指的是作者的方法生成的描述,GT 是真實的描述語句。
  • 全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選
    以下為部分騰訊優圖入選CVPR2020的論文:1、神經網絡的濾波器嫁接技術Filter Grafting for Deep Neural Networks神經網絡存在天然的無效濾波器,濾波器剪枝(filter pruning)技術主要對無效的濾波器進行移除使網絡的推理速度增加
  • 量子金融科技時代,可以為商業銀行帶來哪些價值?
    量子計算具有遠超經典計算資源的算力優勢,能夠提升商業銀行智能金融服務的數位化水平和響應速度。利用量子算法處理經典問題,稱為「量子增強機器學習」。有研究表明,量子增強機器學習具有處理速度快、所需數據量更小、處理能力強等優點。
  • 深度森林第三彈:周志華組提出可做表徵學習的多層梯度提升決策樹
    今日,南京大學的馮霽、俞揚和周志華提出了多層梯度提升決策樹模型,它通過堆疊多個回歸 GBDT 層作為構建塊,並探索了其學習層級表徵的能力。此外,與層級表徵的神經網絡不同,他們提出的方法並不要求每一層都是可微,也不需要使用反向傳播更新參數。因此,多層分布式表徵學習不僅有深度神經網絡,同時還有決策樹!近十年來,深層神經網絡的發展在機器學習領域取得了顯著進展。