學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...

2020-11-22 搜狐網

原標題:學界 | 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的卷積模型

選自CVPR 2017

參與:Smith、路雪、蔣思源

通過計算機視覺方法識別紋理細密的物體種類已經受到了學界的強烈關注。這一類任務往往是極具挑戰性的,這是因為一些紋理細密的物體種類只能被該領域的專家所識別出來。與一般的識別不同,細粒度圖像識別(fine-grained image recognition)是應該能夠進行局部定位(localizing),並且能在其從屬(subordinate)類別中表徵很小的視覺差異的,從而使各種應用受益,比如專家級的圖像識別、圖像標註等等。

微軟亞洲研究院梅濤研究員等人發表的論文是本次 CVPR 大會的亮點之一。

論文:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

論文連結:http://openaccess.thecvf.com/content_cvpr_2017/papers/Fu_Look_Closer_to_CVPR_2017_paper.pdf

識別紋理細密的物體類別(比如鳥類)是很困難的,這是因為判別區域定位(discriminative region localization)和細粒度特徵學習(fine-grained feature learning)是很具有挑戰性的。現有方法主要都是單獨地來解決這些挑戰性問題,然而卻忽略了區域檢測(region detection)和細粒度特徵學習之間的相互關聯性,而且它們可以互相強化。本篇論文中,我們提出了一個全新的循環注意力卷積神經網絡(recurrent attention convolutional neural network——RA-CNN),用互相強化的方式對判別區域注意力(discriminative region attention)和基於區域的特徵表徵(region-based feature representation)進行遞歸學習。在每一尺度規模上進行的學習都包含一個分類子網絡(classification sub-network)和一個注意力建議子網絡(attention proposal sub-network——APN)。APN 從完整圖像開始,通過把先期預測作為參考,由粗到細迭代地生成區域注意力,同時精調器尺度網絡(finer scale network)以循環的方式從先前的尺度規格輸入一個放大的注意區域(amplified attended region)。RA-CNN 通過尺度內分類損失(intra-scale classification loss)和尺度間排序損失(inter-scale ranking loss)進行優化,以相互學習精準的區域注意力和細粒度表徵。RA-CNN 並不需要邊界框或邊界部分的標註,而且可以進行端到端的訓練。我們實施了綜合性實驗,實驗證明 RA-CNN 在 3 個細粒度任務中均表現不俗,在 CUB Birds,Stanford Dogs 和 Stanford Cars 上的相對精度增益分別為 3.3%、3.7%、3.8%。

圖 1. 兩種啄木鳥。我們可以從高度局部區域(highly local regions),比如黃色框裡的頭部,觀察到非常不易察覺的視覺差異,這是難以在原始圖像規格中進行學習的。然而,如果我們可以學著去把注意區域放大到一個精細的尺度,差異可能就會更加生動和顯著。

圖 2. 循環注意力卷積神經網絡的框架。

輸入圖像從上到下按粗糙的完整大小的圖像到精煉後的區域注意力圖像排列。不同的網絡分類模塊(藍色部分)通過同一尺度的標註預測 Y(s) 和真實 Y∗之間的分類損失 Lcl 進行優化,注意力建議(紅色部分)通過相鄰尺度的 p (s) t 和 p (s+1) t 之間的成對排序損失 Lrank(pairwise ranking loss Lrank)進行優化。其中 p (s) t 和 p (s+1) t 表示預測在正確類別的概率,s 代表尺度。APN 是注意力建議網絡,fc 代表全連接層,softmax 層通過 fc 層與類別條目(category entry)匹配,然後進行 softmax 操作。+代表「剪裁(crop)」和「放大(zoom in)」。

圖 3. 區域注意力學習的相關說明。頂行指明了特定尺度下的兩個典型區域輸入,底行指明了反向傳播到輸入層的導數。黑色箭頭顯示了 tx、ty 和 tl 的優化方向,與人類的感知是一致的。

圖 4. 不同尺度規格下,已學習區域注意力的五種鳥類。在逐漸放大到注意力區域(attended region)後,我們可以觀察到清晰且顯著的分類視覺線索。

表 2. 在 CUB-200-2011 數據集上,關於分類精度的注意力局部的對比。

表 3. CUB-200-2011 數據集上的對比結果。Train Anno. 代表在訓練中使用邊界框或部分標註。

圖 5. 在第三尺度規格對鳥類、狗類和貓類進行注意力定位。

從多種圖像樣本中進行學習的區域(每一行),都代表一個特定細粒度類別下的一致性注意力區域,可以從其它種類中對該類別進行辨別分類。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權返回搜狐,查看更多

責任編輯:

相關焦點

  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。  不久之前,谷歌發布了 2017 版學術指標。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    Weinberger,Facebook 人工智慧研究院 Laurens van der Maaten論文地址:https://arxiv.org/abs/1608.06993 論文簡介:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。
  • 微軟亞洲研究院(MSRA)研究員林欽佑博士來訪
    2017年10月20日,應哈爾濱工業大學社會計算與信息檢索研究中心邀請,微軟亞洲研究院(MSRA)知識計算(Knowledge Computing
  • 學界| 微軟提出PrivTree:利用算法保護位置隱私
    選自微軟機器之心編譯參與:吳攀、蔣思源、李亞洲打車、導航、外賣、AR 紅包等各種基於位置的應用已經成為我們日常生活的重要組成部分,但位置的隱私安全也隨之成為了我們需要關注的問題之一。近日,微軟亞洲研究院高級研究經理 Winnie Cui 在微軟研究博客上發文介紹了他們為位置隱私安全所提出的一種新算法 PrivTree。點擊文末「閱讀原文」可查閱相關論文。
  • 大會直擊|微軟亞洲研究院劉鐵巖:深度學習成功的秘密
    根據微軟亞洲研究院劉鐵巖教授的現場精華整理,全部內容已經經由劉教授確認。劉鐵巖博士,微軟亞洲研究院首席研究員,美國卡內基梅隆大學(CMU)客座教授。劉博士的研究興趣包括:人工智慧、機器學習、信息檢索、數據挖掘等。他的先鋒性工作促進了機器學習與信息檢索之間的融合,被國際學術界公認為「排序學習」領域的代表人物,他在該領域的學術論文已被引用近萬次。
  • 微軟亞洲研究院訪問西安交大
    5月13日,微軟亞洲研究院常務副院長趙峰、副院長宋羅蘭一行訪問西安交大。鄭南寧校長在科學館107會見來賓。鄭南寧校長介紹了學校國際合作交流、網絡公開課、書院等相關情況。雙方就信息技術發展、人文教育、本科生培養、國際交流等問題進行討論和交流,並暢想了未來合作發展模式及內容。
  • 當微軟研究院遇上CVPR,四篇論文搶鮮看 | CVPR 2017
    CVPR將於2017於7月21日至7月26日舉行,雷鋒網AI科技評論將從夏威夷帶來一線報導。該會議舉辦期間,雷鋒網將圍繞會議議程及獲獎論文展開系列專題報導,敬請期待。圖一,展示了該論文採用的網絡結構,它包含有3個模塊:圖像編碼器、負責風格轉換的StyleBank層和圖像解碼器。
  • 微軟亞洲研究院獲計算機學會首個傑出貢獻獎
    【搜狐IT消息】 中國計算機學會近日向微軟亞洲研究院頒發了首度設立的「傑出貢獻獎」,以表彰和感謝其長期以來對中國計算機人才培養及中國計算機產業發展所做出的不懈努力和卓越貢獻。同時獲此殊榮的還有方正集團。
  • 北大、微軟亞洲研究院:高效的大規模圖神經網絡計算
    北京大學、微軟亞洲研究院的研究人員近日發表論文,提出NGra,這是第一個支持大規模GNN的系統。GNN(圖神經網絡)代表了一種新興的計算模型,這自然地產生了對在大型graph上應用神經網絡模型的需求。但是,由於GNN固有的複雜性,這些模型超出了現有深度學習框架的設計範圍。此外,這些模型不容易在並行硬體(如GPU)上有效地加速。
  • 微軟亞洲研究院/工程院 交大訪問日程
    出訪人員: 沈向洋 博士 微軟亞洲研究院院長 首席科學家 張益肇 博士 微軟亞洲工程院 副院長 李航   博士 微軟亞洲研究院自然語言組 研究員 校友 鄭海濤 博士 微軟亞洲研究院無線網絡組 研究員 校友 黨映農 博士 微軟亞洲研究院多通道用戶界面組 副研究員 校友 鄒靜   碩士 微軟亞洲研究院高校關係部 高校合作專員
  • 微軟亞洲研究院在西安交大設立「微軟小學者」獎學金
    日前,微軟亞洲研究院與西安交大籤署合作協議,面向學校基礎學科拔尖人才培養試驗班、錢學森實驗班和少年班學生設立「微軟小學者」獎學金項目,獲獎者除獲5000元獎學金外,還將參加當年的微軟暑期夏令營。首批「微軟小學者」獎學金評選近日揭曉,曹彬、竇竟銘、馬賢忠3位同學獲獎,同時,韓思陽等5名同學獲得參加2013年微軟暑期夏令營的機會。
  • 微軟亞洲研究院常務副院長郭百寧:計算機視覺的黃金時代到了
    「1998 年微軟亞洲研究院建院的時候我們第一個成立的組就是視覺計算組,那時候計算機視覺應用非常少,很冷門」,微軟亞洲研究院常務副院長郭百寧博士對極客公園說道,他同時也是計算機視覺領域的頂尖科學家,「當時圖形學火了很多年,現在輪到計算機視覺火了。」
  • 一隻龍蝦引發的盛宴:CVPR 亞洲人工智慧學者聚會 IJCV Asia Night...
    亞洲之夜」嘉賓合影雷鋒網(公眾號:雷鋒網)導讀:CVPR 2017 期間,國際計算機視覺頂級期刊 IJCV 舉辦了「IJCV 亞洲之夜」宴會。而上述學者,均於 24 日晚聚到了會議中心旁舉行的 IJCV 宴會——「IJCV 亞洲之夜」。一同出席的,還有兩位今年的 CVPR 大會主席:微軟研究院首席科學家張正友,以及馬裡蘭大學教授 Rama Chellapa。
  • 四篇入選oral,深睿醫療8篇科研論文被國際學術會議IEEE CVPR、ISBI...
    CVPR 2020本次收錄四篇科研論文,其中三篇為oral。從IEEE CVPR 2020公布的論文接收結果來看,在6656篇有效投稿中有1470篇論文被接收,接收率僅為22%,相比去年又降低3個百分點,oral按照往年經驗,一般只有5-7%,競爭越發激烈。
  • 計算機學院博士生與微軟亞洲研究院合作論文獲「2020年國際語音...
    >  南開新聞網訊(通訊員 楊徵路)日前,在國際語音交流協會主辦的2020年國際語音會議上,南開大學計算機學院博士生王程一與微軟亞洲研究院合作論文《基於偵察網絡的低延遲端到端實時語音識別系統》獲得最佳學生論文提名(第一作者單位為南開大學)。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • 新智元專訪CVPR2019程序主席微軟華剛 :arXiv讓雙盲評審形同虛設...
    「單純的刷分是對研究的暴力化、機械化」,「為了寫論文而刷分是沒有意義的」,開玩笑自稱「70後」的華剛博士說,他認為研究是一項高尚的職業,他選擇留在微軟研究院的原因也很簡單——開心,每天都能學到新的東西。最近,他對計算機視覺技術的商業應用也產生了興趣,認為現在是「很好的時機」。
  • 微軟亞洲研究院發布「微礦Qlib」:AI量化投資開源平臺
    【環球網科技綜合報導】12月11日報導,近日,微軟亞洲研究院正式發布了業內首個 AI 量化投資開源平臺「微礦 Qlib」。據了解,與傳統量化投資工具不同,Qlib 涵蓋了量化投資的全過程,而且從底層構造開始就專為 AI 而打造。
  • CVPR 2018 中國論文分享會之「分割與檢測」
    日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第 5 個 Session ——「Segmentation, Detection」環節的三場論文報告。來自微軟亞洲研究院的廖菁研究員在第三個報告中介紹了微軟亞洲研究院在神經風格變換方面的相關工作,包括理論和應用兩方面。在理論方面,他們通過分析先前的風格轉換不同類型的優缺點,設計出了一種綜合兩類模型優點,同時摒棄其缺點的模型。在應用方面,考慮到風格變換應用於VR/AR中,如果兩個視野的風格變換不一致將會導致鬼影出現,他們通過加入約束解決了該問題。