中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR...

2021-01-08 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:本文作者郭瑞娥,首發於中科院自動化所「智能感知與計算研究中心」微信公眾號,AI 科技評論獲授權轉載。

CVPR 是計算機視覺、模式識別和人工智慧領域國際頂級會議,2018 年 6 月 18-22 日將在美國鹽湖城召開,屆時 AI 科技評論也會在現場帶來一線報導。不論你是論文錄用作者,還是即將參會的企業機構,歡迎聯繫 AI 科技評論小編(微信號:aitechreview)報導/合作喲。

智能感知與計算研究中心為中科院自動化所獨立建制的科研部門,致力於研究泛在智能感知理論與技術以及與之相伴的海量感知數據的智能分析與處理。智能感知與計算研究中心在今年的 CVPR 2018 上共有 11 篇論文被接收,再次創下歷史新高。

論文 1 Dynamic Feature Learning for Partial Face Recognition

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

在視頻監控,移動手機等場景中,部分人臉識別是一個非常重要的任務。然而,很少有方法研究部分人臉塊識別。我們提出一種動態特徵匹配方法來解決部分人臉識別問題,它結合全卷積網絡和稀疏表達分類。首先,利用全卷積網絡提取 Gallery 和 Probe 的特徵圖;其次,利用一個大小滑動窗口把 Gallery 的特徵圖分解為與 Probe 特徵圖大小相同的子特徵圖,進而動態特徵字典;最後,利用稀疏表達分類來匹配 Probe 特徵圖與動態特徵字典的相似度。基於動態特徵匹配方法,我們提出了滑動損失來優化全卷積網絡。該損失減小類內變化,增加了類間變化,從而提高動態特徵匹配的性能。相比於其他部分人臉識別方法,我們提出的動態匹配方法取得很好的性能。

動態特徵匹配的部分人臉識別框架

論文 2 Deep Spatial Feature Reconstruction for Partial Person Re-identification: Freestyle Approach

Lingxiao He, Jian Liang, Haiqing Li, Zhenan Sun

部分行人再識別是一個非常重要並且具有挑戰性的問題。在無約束環境中,行人容易被遮擋,有姿態和視角變化,所以有時候只有部分可見的行人圖像可用於識別。然而,很少有研究提出一種可以識別部分行人的方法。我們提出了一種快速且精確的方法來處理部分行人再識別的問題。提出的方法利用全卷積網絡抽取與輸入圖像尺寸相對應的空域特徵圖,這樣輸入的圖像沒有尺寸約束。為了匹配一對不同尺寸大小的行人圖像,我們提出了一種不需要行人對齊的方法:深度空域特徵重建。特別地,我們借鑑字典學習中重建誤差來計算不同的空域特徵圖的相似度。按照這種匹配方式,我們利用端到端學習方法增大來自於同一個人的圖像對的相似度,反之亦然。由此可見,我們方法不需要對齊,對輸入圖像尺寸沒有限制。我們在 Partial REID,Partial iLIDS 和 Market1501 上取得很好的效果。

深度空域特徵重建

論文 3 Adversarially Occluded Samples For Improving Generalization of Person Re-identification Models

Houjing Huang, Dangwei Li, ZhangZhang, Kaiqi Huang

行人再識別(ReID)是跨攝像機行人檢索任務,由於存在光照變化、視角變化、遮擋等複雜因素,目前的模型往往在訓練階段達到了很高的準確率,但是測試階段的性能卻不盡人意。為了提高模型的泛化性能,我們提出了一種特殊的樣本來擴充數據集:對抗式遮擋樣本。

整個方法流程如下:(1)按照常用的方法訓練一個 ReID 模型;(2)通過網絡可視化的方法找出模型在識別訓練樣本時所關注的區域,對這些區域進行(部分)遮擋就可以產生新的樣本,同時我們保持這些樣本原有的類別標籤;(3)最後,把新的樣本加入到原始數據集中,按照之前的方法訓練一個新的模型。這種樣本不僅模擬了現實中的遮擋情況,而且對於模型來說是困難樣本,可以給模型的訓練提供動量,從而跳出局部極小點,減少模型的過擬合。實驗發現,原始的 ReID 模型識別訓練樣本時只關注一些局部的身體區域,加入新樣本訓練後的模型則可以同時關注到一些之前沒關注的身體區域,從而提高了模型在測試階段的魯棒性。下圖是該方法的一個具體實現,其中 ReID 採用 ID 多分類模型,模型可視化方法採用滑動窗口遮擋的方法。

基於對抗式遮擋的數據擴增算法流程圖

論文 4 Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

圖像文本匹配的關鍵問題在於如何準確度量圖像文本之間的跨模態相似度。我們通過數據分析發現:圖像文本之所以能夠匹配,主要是由於如下兩點原因:1)圖像文本雖體現不同的模態特性,但他們包含共同的語義概念;2)語義概念的集合併不是無序的,而是按照一定的語義順序組織起來的。由此,我們提出了一個模型來聯合對圖像文本所包含的語義概念和語義順序進行學習。該模型使用了一個多標籤區域化的卷積網絡來對任意圖像預測其所包含的語義概念集合。然後,基於得到的語義概念將其有規律地排列起來,即學習語義順序。這一過程具體是通過聯合圖像文本匹配和生成的策略來實現的。此外,還探究了局部語義概念與全局上下文信息之間的互補作用,以及對文本生成的影響。我們在當前主流的圖像文本匹配資料庫 Flickr30k 和 MSCOCO 上進行了大量實驗,驗證了我們所提出方法的有效性,並取得了當前最好的跨模態檢索結果。

聯合圖像語義概念和語義順序學習框架

論文 5 A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li,Huikai Wu,Junge Zhang,Kaiqi Huang

隨著當前圖像數據量的不斷增長,對圖像進行自動處理的需求也逐漸變大,而圖像裁剪是圖像處理中的一個十分重要的步驟。圖像自動裁剪技術不僅能夠快速的完成對大多數圖片的處理,同時還能夠輔助專業攝像師找到更好的視角來提升圖像的構圖質量,其具有十分大的應用價值。由於圖像裁剪的數據標註較難獲得,而且一般數據量較少,我們提出了一種基於強化學習的弱監督(不需要裁剪框標註)圖像自動裁剪算法 A2-RL。之前的弱監督自動裁剪算法大部分使用滑動窗口來獲取候選區域,其需要耗費較大的計算資源和時間,為了解決上述問題,我們將強化學習引入到自動裁剪中,使用一個智能體(agent)在輸入圖像上自適應的調整候選區域的位置和大小。該智能體以圖像的全局特徵和局部特徵作為觀測信息,並且根據當前和歷史的觀測作為依據來決定下一步的動作。在訓練過程中,該智能體根據圖像質量的評分計算獎勵,並使用 A3C 算法進行訓練,最終學到較好的候選區域調整策略。在實驗過程中,我們的方法在多個標準的裁剪數據集上進行了測試,其不僅在速度上取得了較大的提升,同時在精度上也有明顯的提高。我們方法的整體框架圖為:

基於強化學習的圖像自動裁剪模型架構

論文 6 Discriminative Learning of Latent Features for Zero-Shot Recognition

Yan Li, Junge Zhang, Kaiqi Huang, Jianguo Zhang 

零樣本學習(Zero-Shot Learning)通過在視覺和語義兩個空間之間學習一個共同的嵌入式空間,能夠實現對測試集中的未知類別進行測試。以往的零樣本工作,主要集中在嵌入式空間學習過程中,忽略了視覺特徵、語義特徵在零樣本學習中的作用。我們針對傳統的零樣本學習過程中,特徵表達區分度不足的問題,從視覺空間和語義空間兩個方面提出了改進方法,在兩個空間同時學習到區分度更強的特徵表達,進而極大地提升了零樣本學習的識別性能。具體來說,1)在視覺空間,我們提出了 zoom net,從原始的圖片中,自動挖掘具有區分度的圖片區域。2)在語義空間,除了用戶定義的屬性之外,我們利用 triplet loss,自動地學習具有區分度的「隱式屬性」。3)最終,圖片空間中的區分性區域挖掘,以及語義空間中的區分性隱屬性學習兩個模塊在一個端到端框架中聯合學習,共同促進。

用於零樣本學習的隱式判別性特徵挖掘框架

論文 7 Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bin Yu, Ran He, Zhenan Sun

隨著深度學習的發展,人臉識別算法的性能得到了廣泛提升,然而大姿態人臉識別問題依然亟待解決。人臉旋轉為人臉識別中的大姿態問題提供了一種有效的解決方式。我們提出了一種任意角度的人臉旋轉算法 Couple-Agent Pose-Guided Generative Adversarial Network (CAPG-GAN)。CAPG-GAN 通過人臉關鍵點編碼姿態信息指導對抗生成網絡進行人臉生成任務。同時使用身份保持損失函數和全變分正則項約束人臉的身份信息和局部紋理信息。最終我們的算法在 Multil-PIE 和 LFW 上均取得了不錯的識別率,同時如圖所示,CAPG-GAN 可以根據人臉關鍵編碼信息生成任意角度人臉。

不同姿態人臉圖像生成結果

論文 8 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

單張圖片的多視角圖像合成在計算機視覺中是一個非常重要並且具有挑戰性的問題,而且對於人的多視角圖像合成在對人體行為理解中具有很重要的應用價值。利用人的多視角合成可以有效地解決在計算機視覺中存在的跨視角問題,例如跨視角行為識別、跨視角行人再識別等等。由於人姿態的多變性,人的多視角圖像合成比剛性物體(如車、椅子等等)的多視角合成更具有挑戰性。我們提出了多階段對抗損失函數在基於人體關鍵點的多視角人體圖像合成算法,該算法可以生成高質量多視角人體圖像,而且可以保持合成人的姿態在三維空間中保持一致。為了可以生成高質量圖像,我們提出從低維度人體結構到圖像前景,最後合成背景的多階段圖像生成模型,為了解決均方誤差損失函數引起的圖像模糊的問題,我們在多階段使用對抗損失函數。我們的算法如圖所示:

基於pose的多階段對抗學習的人體圖像合成網絡框架

論文 9 Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, and Liang Wang

行人再識別問題是一個重要且具有挑戰性的經典計算機視覺任務。通常攝像頭採集到的行人圖像中含有雜亂的背景,並且圖像中的行人通常有多種多樣的姿態和視角,這些多樣性造成的困難在之前的研究中都尚未得到很好的解決。為了解決上述問題,我們引進了二值化的行人分割輪廓圖作為額外輸入,並與彩色圖像合成為四通道的新輸入,然後設計了一種基於分割輪廓圖的對比注意模型來學習背景無關的行人特徵。在此基礎上,我們提出了一種區域級別的三元組損失函數,分別來約束來自全圖區域、行人身體區域、背景區域的特徵,提出的損失函數可以讓來自全圖區域和行人身體區域的特徵在特徵空間靠近,並遠離背景區域,最終達到去除背景的作用。所提出的方法在三個行人再識別數據集上驗證了有效性,取得了當前最好的性能。

二值化分割輪廓與區域級別三元組約束示意圖

論文 10 M^3: Multimodal Memory Modelling for Video Captioning

Junbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan

視頻描述對於理解視覺與語言是十分重要的一環,同時也是很有挑戰性的任務。它有很多的實際應用價值,包括人機互動、視頻檢索、為盲人轉述視頻等。針對這一問題,我們提出了一個多模態記憶模型用於視頻描述,這一模型建立了視覺與文本共享的記憶存儲器用來模擬長範圍視覺文本依賴性並且進一步指導視頻描述中的全局視覺目標的關注。借鑑神經圖靈機模型的原理,該模型通過多次讀寫操作與視頻和句子進行交互並附加了一個外部記憶存儲器用來存儲來自視覺與語言模態的信息。下圖展示了用於視頻描述的多模態記憶建模的整體框架。

這一框架包含三個關鍵模塊:基於卷積網絡的視頻編碼器,多模態記憶存儲器,基於 LSTM 的文本解碼器。(1)基於卷積網絡的視頻編碼器首先利用預訓練的 2D 或者 3D 卷積網絡模型提取關鍵幀或段的特徵,再利用時序注意模型選擇與當前單詞最相關的視覺表示,並寫入到記憶存儲器中;(2)基於 LSTM 的文本解碼器利用 LSTM 模型對句子的產生進行建模,它預測當前的單詞不僅依賴於之前時刻的隱藏表示,而且還有從記憶存儲器中讀取的信息,同樣地,它會向記憶存儲器中寫入更新的表示。(3)多模態記憶存儲器包含一個記憶存儲矩陣用來與視頻編碼器和文本解碼器進行交互,例如,從 LSTM 解碼器中寫入隱藏表示和讀取記憶內容用於解碼器。每一步寫入操作都會更新多模態記憶存儲器。最後,我們在兩個公開的數據集(MSVD 和 MSR-VTT)上對提出的模型進行了評價。實驗結果表明提出的模型在 BLEU 和 METEOR 兩個指標上都超過了許多當前最好的結果。

用於視頻描述的多模態記憶模型架構

論文 11 Fast End-to-End Trainable Guided Filter

Huikai Wu, Shuai Zheng, Junge Zhang, Kaiqi Huang

我們提出了一個全新的用於聯合超分 (Joint Upsampling) 的深度學習模塊---引導濾波單元 (Guided Filtering Layer)。此模塊將傳統的引導濾波 (Image Guided Filtering) 算法建模為一個可以反向傳播、與其他模塊聯合訓練的深度學習單元,同時還引入可以自適應學習的引導圖 (Guidance Map) 來提高靈活性。通過與原有的卷積神經網絡結合,引導濾波單元可以廣泛地應用於稠密預測任務 (Dense Prediction Task),並獲得更快的速度、更高的精度和更少的內存佔用量。試驗證明,引導濾波單元可以在眾多圖像處理任務中取得最好的性能並獲得 10 至 100 倍的速度提升。在計算機視覺中的眾多稠密匹配任務中,此模塊同樣可以取得顯著的性能提升。代碼和論文將公布在 htt

ps://github.com/wuhuikai/DeepGuidedFilter。

使用卷積神經網絡和提出的引導濾波單元進行圖像到圖像變換的結果展示

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 1300篇!CVPR 2019錄取結果公布,7篇新鮮好文推薦
    [導讀]近日,CVPR 2019發布接收論文ID列表,共計1300篇論文被接收,接受率為
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    作為領域內具有權威性的會議,今年的 CVPR 共收到有效提交論文 2680 篇,其中 2620 篇論文經過完整評議,最終總計 783 篇被正式錄取(佔總提交數的 29%)。被接收的論文中,71 篇將進行長口頭演講,144 篇進行短亮點演講。 華人不僅佔據了論文作者的半壁江山,國內眾多人工智慧公司也已摩拳擦掌要在 CVPR 大會上大顯身手了。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    雷鋒網 AI 科技評論按:作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    ,共有6篇論文獲得四項榮譽。雷鋒網(公眾號:雷鋒網) AI 科技評論對6篇獲獎論文做了簡要介紹如下。CVPR最佳論文本屆CVPR共有兩篇最佳論文,其中就有一篇來自蘋果。Weinberger,Facebook 人工智慧研究院 Laurens van der Maaten論文地址:https://arxiv.org/abs/1608.06993 論文簡介:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。
  • 中科院自動化所發力類腦智能研究—新聞—科學網
    自動化所供圖 ■本報記者 彭科峰> 你能試想有一天,機器人的大腦能夠如同人腦一樣自主識別陌生的環境,並具備思考能力嗎?
  • CVPR 2020 Oral:一行代碼提升遷移性能,中科院計算所研究生一作
    中科院計算所的在讀研究生崔書豪等,提出了一種新的解決方法:批量核範數最大化(Batch Nuclear-norm Maximization,BNM)。在典型的標籤不足場景下(如半監督學習等),BNM可以有效地提升學習效果。並且,大量實驗表明,BNM的性能要優於目前主流的一些方法,並且搭配起來使用,效果也很不錯。
  • 雲知聲-中科院自動化所語言與知識計算聯合實驗室三篇論文被 ACL...
    日前,自然語言處理領域國際頂級會議 ACL 2020 (Association for Computational Linguistics)論文接收結果公布。大會共收到 3429篇投稿論文,投稿數量創下新高。作為計算語言學和自然語言處理領域最重要的頂級國際會議,ACL錄取論文代表了自然語言處理領域在過去一年最新和最高的科技水平以及未來發展潮流。
  • 300篇 CVPR 2019 Oral 論文精選匯總,值得一看的 CV 論文都在這裡
    今年有超過 5165 篇的大會論文投稿,最終錄取 1299 篇,其中 Oral 論文近 300 篇。為了方便社區開發者和學術青年查找和閱讀高價值論文,AI 研習社從入選的 Oral 論文中,按應用方向挑選了部分精華論文,貼在本文。
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
  • CVPR 2018 中國論文分享會之 「GAN 與合成」
    雷鋒網 AI 科技評論按:2018 年 5 月 11 日,由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦了 CVPR 2018 中國論文宣講研討會,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。
  • 「CVPR 2018」機器也能感知時間,AI系統可預測5分鐘內的未來!
    但是,有一件事情是我們一直沒有做得很好的,那就是對「時間」的感知——如何從當下推斷未來,如何最大限度的利用這種推測?現在看,機器似乎可以幫助我們做到這一點。德國波恩大學的計算機科學家設計出了一種軟體,能夠預測未來5分鐘的序列事件,準確率在15%到40%之間。
  • 學界| 微軟亞洲研究院CVPR 2017 Oral論文:逐層集中Attention的...
    這一類任務往往是極具挑戰性的,這是因為一些紋理細密的物體種類只能被該領域的專家所識別出來。與一般的識別不同,細粒度圖像識別(fine-grained image recognition)是應該能夠進行局部定位(localizing),並且能在其從屬(subordinate)類別中表徵很小的視覺差異的,從而使各種應用受益,比如專家級的圖像識別、圖像標註等等。
  • 【CVPR2018最佳論文重磅出爐】斯坦福伯克利折桂,何愷明獲TPAMI年輕研究員獎
    在這篇論文中,作者提出一種完全計算的方法來建模視覺任務的空間結構。這是通過在一個潛在空間的26個2D,2.5D,3D和語義任務中找到(第一階和更高階)的遷移學習依賴關係來實現的。其產物是一個用於任務遷移學習(task transfer learning)的計算分類圖(computational taxonomic map)。我們研究了這種結構的影響,並利用它們來減少對標記數據的需求。
  • 圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀
    雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM
  • IJCAI2020接收微信2篇論文,聚焦工業級智能推薦系統及應用
    近日,自然語言處理(NLP)領域的頂級會議ACL2020公布了論文評審結果,微信7篇文章被收錄;而人工智慧領域的頂級會議IJCAI2020前不久公布的收錄結果裡,微信也有2篇文章被收錄。微信在國際頂級會議上頻繁的出色表現,也代表了其在人工智慧領域的強大實力。
  • AAAI 2021論文接收列表放出,IJCAI 2020即將召開!AI頂會最新動態...
    2、AAAI 2021論文接收列表(一共1692篇論文)今日最新公布!  論文接收列表地址:  https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main
  • 計算所成立智能計算機研究中心
    計算所成立智能計算機研究中心 2019-06-28 計算技術研究所 【字體:大  智能計算機研究中心為計算所下屬二級研究機構,以「一個核心,兩個平臺」為發展思路,即以研製領先的智能計算機為核心任務,成為智能計算機關鍵技術研究平臺、智能計算系統優秀人才匯聚和成長的平臺;以「應用牽引,使能驅動」為技術發展路線,充分發揮計算所在計算機體系結構學科、大機器和大晶片設計、高層次人才聚集、高水平國際合作等方面的獨特優勢,以國家在智能計算機研究領域的布局和具體戰略需求為牽引,
  • 華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構
    根據本次Accept list接收情況來看,本次共接收文章1470篇(有效提交總數為5865篇),接受率為22%,比2018年的29.6%和2019年的25%都有下降,堪稱CVPR史上最嚴的收稿會。由於疫情,本次會議需要線上舉行,項目主席Ce Liu很期待參會註冊人數能有較大增長,今年的註冊者,已經超過2018年參會註冊人數。
  • 37 篇!Facebook 今年被 CVPR 收錄的論文都說了啥?
    而 Facebook AI 研究院也對自己今年的戰績進行了統計:共有 37 篇論文被收錄,其中包括 15 篇 Oral 論文。下面就讓我們一起來看看這些成果吧。3D 的聽覺感受,讓人對場景有豐富的感知體驗。
  • 西電學子獲國際頂會CVPR2020 -VQA比賽亞軍
    由西安電子科技大學人工智慧學院焦李成教授指導,2019級人工智慧學院智能感知與圖像理解教育部重點實驗室研究生郭志成、趙嘉璇、張豔組成的學生隊伍—Sudoku在這一國際計算機視覺領域最高水平大賽中斬獲亞軍,並受邀在CVPR 2020-Visual Question Answering and Dialog Workshop(線上)作專題報告。