CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山

2021-01-10 機器之心Pro

深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕，在本次大會接收的眾多論文當中，有華人參與的接近半數。這七百餘篇論文中有哪些亮點？眾多參會的中國研究機構又貢獻了多少？我們為你整理了一篇觀看指南。

不久之前，谷歌發布了 2017 版學術指標。從這次公布的數據來看，只有少數學術會議的影響因子超過了熱門的預印版論文發布平臺 arXiv。

其中可以看到，在計算機視覺與模式識別領域，CVPR 是影響力最大的論文發布平臺。CVPR 全稱為「IEEE Conference on Computer Vision and Pattern Recognition」（計算機視覺與模式識別會議），是近年來計算機視覺領域全球最影響力、內容最全面的頂級學術會議，由專業技術學會 IEEE（電氣和電子工程師協會）主辦。

不僅在學術領域，隨著深度學習在圖像處理領域的應用熱潮，越來越多的業界研究機構也在將目光投向 CVPR，從數量眾多的大會贊助商中，我們就可以感受到這一活動的關注度之高。在漫長的等待之後，本屆大會已於 2017 於 7 月 21 日在美國夏威夷開幕，並將舉行至 7 月 26 日。

作為領域內具有權威性的會議，今年的 CVPR 共收到有效提交論文 2680 篇，其中 2620 篇論文經過完整評議，最終總計 783 篇被正式錄取（佔總提交數的 29%）。被接收的論文中，71 篇將進行長口頭演講，144 篇進行短亮點演講。

華人不僅佔據了論文作者的半壁江山，國內眾多人工智慧公司也已摩拳擦掌要在 CVPR 大會上大顯身手了。本文中，我們將盤點國內外人工智慧公司在 CVPR 2017 上展現的技術，以及即將舉辦的精彩活動。文後我們附上了機器之心此前報導過的 CVPR 2017 論文。

產業界 CVPR 2017 論文

有眾多業界公司參與了 CVPR 2017。據大會官網的數據統計，全球共有約 90 家企業參與到本次大會中。海外科技巨頭谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達等，毫無意外都有論文被接收。即使是最為低調的蘋果，在日前新開的在線期刊《Apple Machine Learning Journal》中，最先介紹的也是該公司將在 CVPR 2017 大會上展示的論文。

把目光轉向國內公司，騰訊、阿里巴巴、京東、滴滴等大型網際網路公司，和商湯、Momenta、馭勢、格靈深瞳等初創企業也都或多或少地參與了這次大會。國內公司不僅提交論文，也在會議期間舉辦演講和各類活動，中國公司在機器學習領域的積累正在逐漸顯現。

以下，我們將介紹國內幾家人工智慧公司和機構在 CVPR 2017 上的論文接收情況，其中也包括這些參會者在 CVPR 2017 上將要介紹的重點論文。

微軟亞洲研究院

據機器之心了解，微軟有 28 篇論文被 CVPR 2017 接收，其中微軟亞洲研究院有 18 篇論文被接收。此外，微軟全球執行副總裁沈向洋將在大會上發表主旨演講

在 6 月 16 日北京中關村微軟大廈舉辦的「微軟亞洲研究院創研論壇――CVPR 2017 論文分享會」上，微軟亞研的研究員已經分享了數篇被 CVPR 2017 接收的論文：

論文：StyleBank: An Explicit Representation for Neural Image Style Transfer

簡介：作者們在這一設計中運用卷積神經網絡作為基礎，在通過卷積作用得到特徵層後，加入風格化分支――StyleBank 層作相應處理，可以得到很好的圖像效果。

論文：Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects

簡介：微軟亞洲研究院姚霆的相關研究成果為 Image Captioning with Attributes，通過利用屬性（attributes）對圖像標註進行改進，這種方法有很大的潛力可以成為生成開放性詞彙句子（open-vocabulary sentences）的有效方法。這種以搜索為基礎的方法，應用卷積神經網絡加循環神經網絡，可以使圖像標註系統更加實用。

論文：Collaborative Deep Reinforcement Learning for Joint Object Search

簡介：作者們提出了一種新的多智能體間的 Q-學習的方法，即門控選通式連接（gated cross connections）的深度 Q 網絡――給交流模塊設計一個門控結構，可以讓每個智能體去選擇相信自己還是相信別人。這是一種對虛擬智能體進行聯合訓練的高效方法。它有效地利用了相關物體間的有用的上下文情境信息（contextual information），並且改進了目前最先進的主動定位模型（active localization models）

論文：Neural Aggregation Network For Video Face Recognition

簡介：傳統的深度學習方法在進行人臉識別時需要對每一幀都進行特徵提取，這樣的效率是很低的。而 NAN 網絡可以對視頻或目標對象進行高度緊湊（highly-compact）的表徵（128-d）；利用注意力機制（attention mechanism）進行學習型聚合（learning-based aggregation）；這種網絡在三個關於人臉視頻的基準中都有著一流的表現。作者認為這種聚合網絡是簡單並且通用的，今後也會用於其它一些視頻識別的任務當中。

在微軟眾多被接收的論文中，我們注意到一篇 Oral 論文：Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition，介紹了一種端到端，逐層集中 Attention 到有用位置的方法。該研究作者為微軟亞研研究員梅濤等人。大會期間，該團隊將上臺進行 12 分鐘的演講，詳細介紹此項研究成果。

阿里巴巴

據機器之心了解，阿里巴巴共有四篇論文被 CVPR 2017 接收，其中阿里 AI Lab 3 篇，阿里 iDST 1 篇；阿里 iDST 視覺計算負責人華先勝華先勝也將在 ReID & MTMCT Workshop 上發表題為《Practices of Large-Scale Target Re-Identification》的演講。

以下為阿里巴巴 CVPR 2017 論文：

Deep Level Sets for Salient Object Detection

作者：Ping Hu、Bing Shuai、Jun Liu、Gang Wang

Global Context-Aware Attention LSTM Networks for 3D Action Recognition

作者：Jun Liu、Gang Wang、Ping Hu、Ling-Yu Duan、Alex C. Kot

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling

作者：Abrar H. Abdulnabi, Bing Shuai, Stefan Winkler, Gang Wang

Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images

作者：Zhi-Qi Cheng、Xiao Wu、Yang Liu、華先勝

此外，阿里在 CVPR 期間也將會演示拍立淘技術，簡單介紹就是拍照搜索技術。

騰訊 AI Lab

作為騰訊最新成立的人工智慧實驗室，騰訊 AI Lab 在基礎層的技術研究上實力非常。機器之心是首家報導騰訊 AI Lab 研究的媒體，我們注意到騰訊 AI Lab 首次公開的有關風格遷移的研究論文此次也被 CVPR 2017 所接收

據統計，騰訊 AI Lab 共有 6 篇論文被 CVPR 2017 接收，以下是對這些論文的簡要介紹：

論文一：Real Time Neural Style Transfer for Videos

簡介：本文用深度前向卷積神經網絡探索視頻藝術風格的快速遷移，提出了一種全新兩幀協同訓練機制，能保持視頻時域一致性並消除閃爍跳動瑕疵，確保視頻風格遷移實時、高質、高效完成。

論文二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

簡介：論文首次提出一種全尺寸、無標註、基於病理圖片的病人生存有效預測方法 WSISA，在肺癌和腦癌兩類癌症的三個不同資料庫上性能均超出基於小塊圖像方法，有力支持大數據時代的精準個性化醫療。

論文三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

簡介：針對圖像描述生成任務，SCA-CNN 基於卷積網絡的多層特徵來動態生成文本描述，進而建模文本生成過程中空間及通道上的注意力模型。

論文四：Deep Self-Taught Learning for Weakly Supervised Object Localization

簡介：本文提出依靠檢測器自身不斷改進訓練樣本質量，不斷增強檢測器性能的一種全新方法，破解弱監督目標檢測問題中訓練樣本質量低的瓶頸。

論文五：Diverse Image Annotation

簡介：本文提出了一種新的自動圖像標註目標，即用少量多樣性標籤表達儘量多的圖像信息，該目標充分利用標籤之間的語義關係，使得自動標註結果與人類標註更加接近。

論文六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

簡介：基於曼哈頓結構與對稱信息，文中提出了單張圖像三維重建及多張圖像 Structure from Motion 三維重建的新方法。

商湯科技

作為一家專注於計算機視覺和深度學習的創業公司，商湯科技也將在 CVPR 2017 上帶來一系列的技術 Demo、Presentation、PartyTime 等活動。據機器之心了解，商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。

其中，商湯科技高級研究員錢晨的論文獲得 CVPR2017 Spotlight 提名，他將在大會上做四分鐘的演講；商湯科技執行研發總監林也將會在 NITRE WORKSHOP 環節做出演講。

兩篇 Presentation 論文分別為：

Residual Attention Network for Image Classification

Attention-aware Face Hallucination via Deep Reinforcement Learning

日前機器之心對商湯科技 CVPR 2017 論文的報導中，對其中的幾篇論文進行了詳細的解讀，感興趣的讀者請參閱：業界 | 23 篇論文入選 CVPR2017，商湯科技精選論文解讀。

學術界 CVPR 2017 論文

在這一部分，我們根據公開信息對學術界的論文進行了盤點。需要說明的是這些論文可能包含學術界與產業界合作的論文，而且以下某些院校被 CVPR 2017 接收的論文可能遠遠超過我們收集到的，因此如果讀者們發現我們遺漏了哪些精彩的論文，希望能夠在下面留言。

1. 廈門大學信息學院

論文一：Cross-Modality Binary Code Learning via Fusion Similarity Hashing

作者：Hong Liu, Rongrong Ji（紀榮嶸）, Yongjian Wu, Feiyue Huang, Baochang Zhang

論文二：Non-Local Deep Features for Salient Object Detection

作者：Zhiming Luo, Akshaya Mishra, Andrew Achkar, Justin Eichel, Shaozi Li（李紹滋）, Pierre-Marc Jodoin

論文三：Re-Ranking Person Re-Identification With k-Reciprocal Encoding

作者：Zhun Zhong, Liang Zheng, Donglin Cao, Shaozi Li（李紹滋）

論文四：Removing Rain From Single Images via a Deep Detail Network

作者：Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, Xinghao Ding（丁興號）, John Paisley

2. 中國科學院大學電子學院模式識別與智能系統開發實驗室

論文一：SRN: Side-output Residual Network for Object Symmetry Detection in the Wild（CVPR 2017 Oral 1-1C)

作者：柯煒

簡介：論文創新性地提出了側輸出殘差網絡並將其成功應用在大規模複雜背景下的目標對稱性檢測任務中，取得了 State-Of-The-Art 性能。該架構顯著地提升了多尺度特徵融合性能，對尺度相關的深度學習任務具有應用價值。

論文二：Oriented Response Networks (CVPR 2017 Poster)

作者：周彥釗

簡介：論文從深度卷積網絡最為核心的卷積模塊出發，創新的設計了具有主動旋轉能力的向量場濾波器 ARF，賦予了深度網絡顯式編碼方向信息的能力，並顯著提升深度特徵對旋轉的泛化性能。該深度網絡架構在多個評測中取得 State-Of-The-Art 性能。

論文三:Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model (CVPR 2017 Poster)

作者：葉齊祥

簡介：論文提出了一種新穎的針對特定場景的自學習行人檢測算法，算法利用原始視頻數據即可自動挖掘其中的行人目標並學習檢測器，無需進行耗時耗力的逐幀數據標註，取得了 State-Of-The-Art 行人檢測性能。

3. 南開大學媒體計算實驗室

論文一：Richer Convolutional Features for Edge Detection

作者：Y Liu, MM Cheng, X Hu, K Wang, X Bai

論文二：Deeply supervised salient object detection with short connections

作者：Q Hou, MM Cheng, X Hu, Z Tu, A Borji

論文三：GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence

作者：JW Bian, W Lin, Y Matsushita, SK Yeung, TD Nguyen, MM Cheng

論文四：Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

作者：Y Wei, J Feng, X Liang, MM Cheng, Y Zhao, S Yan

4. 中科院計算所

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

作者：Haomiao Liu, Ruiping Wang（王瑞平）, Shiguang Shan, Xilin Chen

5. 清華大學計算機系智能技術與系統國家重點實驗室、清華國家信息實驗室、清華大學計算機科學與技術系、英特爾中國研究院、清華大學電子工程系

RON: Reverse Connection With Objectness Prior Networks for Object Detection

作者：孔濤、孫富春、Anbang Yao、劉華平、Ming Lu 和陳玉榮

Real-Time Neural Style Transfer for Videos

作者：Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, Wei Liu（劉威，騰訊 AI）

6. 大連理工大學信息與通信工程學院

李培華兩篇論文被 CVPR 2017 錄用, 其中一篇為**口頭報告。

G2DeNet: Global Gaussian Distribution Embedding Network and Its Application to Visual Recognition（Oral 4-2A）

作者：Qilong Wang, Peihua Li（李培華）, Lei Zhang

Mind the Class Weight Bias: Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation

作者：Hongliang Yan, Yukang Ding, Peihua Li（李培華）, Qilong Wang, Yong Xu, Wangmeng Zuo

7. 北京大學計算機科學技術研究所字形計算技術實驗室

北大學生劉俊成與大連理工大學、遼寧省泛在網絡與服務軟體重點實驗室合作的一篇論文。

Incremental Kernel Null Space Discriminant Analysis for Novelty Detection

作者：Juncheng Liu（劉俊成）, Zhouhui Lian, Yi Wang, Jianguo Xiao

更多亮點

多家海外科技巨頭也在 CVPR 開幕前夕介紹了自己在大會上即將展示的研究。

谷歌 CVPR 2017 研究集合：https://research.googleblog.com/2017/07/google-at-cvpr-2017.html

共有超過 250 名 Google 員工將參加本次會議，同時參與和組織 CVPR 上的多個研討會。

Facebook CVPR 2017 研究集合：https://research.fb.com/advancing-computer-vision-technologies-at-cvpr-2017/

Facebook 與 MIT Media Lab 的研究《Robocodes: Towards Generative Street Addresses from Satellite Imagery》獲得了大會 workshop 最佳論文獎，在 EarthVision 研討上，研究人員將介紹這項工作，它有關遙感圖像的大規模計算機視覺。

IBM CVPR 2017 研究集合：https://www.ibm.com/blogs/research/2017/07/computer-vision-cvpr-2017/

CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山

相關焦點

華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構

CVPR 2017 全部及部分論文解讀集錦

史上最全!歷年 CVPR 最佳論文盤點

乾貨 | 3分鐘讀完ICLR 2017最佳論文,谷歌佔據半壁江山

史上最全!歷年 CVPR 最佳論文盤點(2000 年——2018 年)

年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...

投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?

2020年7·25省考行測亮點分析：成語佔據「半壁江山」

利星行或將收購威斯特佔據卡特中國半壁江山

一文速覽ICML2020高引論文與華人作者

CVPR2019無人駕駛相關論文

ACL 2019論文提交數暴增81%,史上最大規模NLP會議即將誕生!

NIPS論文排行榜出爐,南大周志華5篇論文入選

IJCAI 2018所有獎項出爐:AlphaGo獲獎,中國研究成果佔據半壁江山

如何評價CVPR 2021的論文接收結果?

中國體育科學學會關於2017國際體育與健康學術論文報告會暨第八屆...

CVPR 2018 最牛逼的十篇論文！

CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)

乾貨| 2019 AI 國際頂級學術會議一覽表

CVPR2017精彩論文解讀:用於生物醫學圖像分析的精細調節卷積神經...

CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山

相關焦點

華人問鼎CVPR!最佳論文最佳學生論文一作均為華人,清華最高產機構

CVPR 2017 全部及部分論文解讀集錦

史上最全!歷年 CVPR 最佳論文盤點

乾貨 | 3分鐘讀完ICLR 2017最佳論文,谷歌佔據半壁江山

史上最全!歷年 CVPR 最佳論文盤點(2000 年——2018 年)

年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...

投稿量激增56%,CVPR 2019接收論文的關鍵詞是什麼?

2020年7·25省考行測亮點分析：成語佔據「半壁江山」

利星行或將收購威斯特 佔據卡特中國半壁江山

一文速覽ICML2020高引論文與華人作者

CVPR2019無人駕駛相關論文

ACL 2019論文提交數暴增81%,史上最大規模NLP會議即將誕生!

NIPS論文排行榜出爐,南大周志華5篇論文入選

IJCAI 2018所有獎項出爐:AlphaGo獲獎,中國研究成果佔據半壁江山

如何評價CVPR 2021的論文接收結果?

中國體育科學學會關於2017國際體育與健康學術論文報告會暨第八屆...

CVPR 2018 最牛逼的十篇論文！

CVPR2019| 05-17更新11篇論文及代碼合集(含一篇oral,視覺跟蹤/實例分割/行人重識別等)

乾貨| 2019 AI 國際頂級學術會議一覽表

CVPR2017精彩論文解讀:用於生物醫學圖像分析的精細調節卷積神經...

利星行或將收購威斯特佔據卡特中國半壁江山