原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型
選自CVPR 2017
參與:Smith、路雪、蔣思源
通過計算機視覺方法識別紋理細密的物體種類已經受到了學界的強烈關注。這一類任務往往是極具挑戰性的,這是因為一些紋理細密的物體種類只能被該領域的專家所識別出來。與一般的識別不同,細粒度圖像識別(fine-grained image recognition)是應該能夠進行局部定位(localizing),並且能在其從屬(subordinate)類別中表徵很小的視覺差異的,從而使各種應用受益,比如專家級的圖像識別、圖像標註等等。
微軟亞洲研究院梅濤研究員等人發表的論文是本次 CVPR 大會的亮點之一。
論文:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition
論文連結:http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf
識別紋理細密的物體類別(比如鳥類)是很困難的,這是因為判別區域定位(discriminative region localization)和細粒度特徵學習(fine-grained feature learning)是很具有挑戰性的。現有方法主要都是單獨地來解決這些挑戰性問題,然而卻忽略了區域檢測(region detection)和細粒度特徵學習之間的相互關聯性,而且它們可以互相強化。本篇論文中,我們提出了一個全新的循環注意力卷積神經網絡(recurrent attention convolutional neural network——RA-CNN),用互相強化的方式對判別區域注意力(discriminative region attention)和基於區域的特徵表徵(region-based feature representation)進行遞歸學習。在每一尺度規模上進行的學習都包含一個分類子網絡(classification sub-network)和一個注意力建議子網絡(attention proposal sub-network——APN)。APN 從完整圖像開始,通過把先期預測作為參考,由粗到細迭代地生成區域注意力,同時精調器尺度網絡(finer scale network)以循環的方式從先前的尺度規格輸入一個放大的注意區域(amplified attended region)。RA-CNN 通過尺度內分類損失(intra-scale classification loss)和尺度間排序損失(inter-scale ranking loss)進行優化,以相互學習精準的區域注意力和細粒度表徵。RA-CNN 並不需要邊界框或邊界部分的標註,而且可以進行端到端的訓練。我們實施了綜合性實驗,實驗證明 RA-CNN 在 3 個細粒度任務中均表現不俗,在 CUB Birds,Stanford Dogs 和 Stanford Cars 上的相對精度增益分別為 3.3%、3.7%、3.8%。
圖 1. 兩種啄木鳥。我們可以從高度局部區域(highly local regions),比如黃色框裡的頭部,觀察到非常不易察覺的視覺差異,這是難以在原始圖像規格中進行學習的。然而,如果我們可以學著去把注意區域放大到一個精細的尺度,差異可能就會更加生動和顯著。
圖 2. 循環注意力卷積神經網絡的框架。
輸入圖像從上到下按粗糙的完整大小的圖像到精煉後的區域注意力圖像排列。不同的網絡分類模塊(藍色部分)通過同一尺度的標註預測 Y(s) 和真實 Y∗之間的分類損失 Lcl 進行優化,注意力建議(紅色部分)通過相鄰尺度的 p (s) t 和 p (s+1) t 之間的成對排序損失 Lrank(pairwise ranking loss Lrank)進行優化。其中 p (s) t 和 p (s+1) t 表示預測在正確類別的概率,s 代表尺度。APN 是注意力建議網絡,fc 代表全連接層,softmax 層通過 fc 層與類別條目(category entry)匹配,然後進行 softmax 操作。+代表「剪裁(crop)」和「放大(zoom in)」。
圖 3. 區域注意力學習的相關說明。頂行指明了特定尺度下的兩個典型區域輸入,底行指明了反向傳播到輸入層的導數。黑色箭頭顯示了 tx、ty 和 tl 的優化方向,與人類的感知是一致的。
圖 4. 不同尺度規格下,已學習區域注意力的五種鳥類。在逐漸放大到注意力區域(attended region)後,我們可以觀察到清晰且顯著的分類視覺線索。
表 2. 在 CUB-200-2011 數據集上,關於分類精度的注意力局部的對比。
表 3. CUB-200-2011 數據集上的對比結果。Train Anno. 代表在訓練中使用邊界框或部分標註。
圖 5. 在第三尺度規格對鳥類、狗類和貓類進行注意力定位。
從多種圖像樣本中進行學習的區域(每一行),都代表一個特定細粒度類別下的一致性注意力區域,可以從其它種類中對該類別進行辨別分類。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。返回搜狐,查看更多
責任編輯: