深度學習界的「春晚」CVPR 2017 已在夏威夷火奴魯魯 Hawaii Convention Center 開幕,在本次大會接收的眾多論文當中,有華人參與的接近半數。這七百餘篇論文中有哪些亮點?眾多參會的中國研究機構又貢獻了多少?我們為你整理了一篇觀看指南。
不久之前,谷歌發布了 2017 版學術指標。從這次公布的數據來看,只有少數學術會議的影響因子超過了熱門的預印版論文發布平臺 arXiv。
其中可以看到,在計算機視覺與模式識別領域,CVPR 是影響力最大的論文發布平臺。CVPR 全稱為「IEEE Conference on Computer Vision and Pattern Recognition」(計算機視覺與模式識別會議),是近年來計算機視覺領域全球最影響力、內容最全面的頂級學術會議,由專業技術學會 IEEE(電氣和電子工程師協會)主辦。
不僅在學術領域,隨著深度學習在圖像處理領域的應用熱潮,越來越多的業界研究機構也在將目光投向 CVPR,從數量眾多的大會贊助商中,我們就可以感受到這一活動的關注度之高。在漫長的等待之後,本屆大會已於 2017 於 7 月 21 日在美國夏威夷開幕,並將舉行至 7 月 26 日。
作為領域內具有權威性的會議,今年的 CVPR 共收到有效提交論文 2680 篇,其中 2620 篇論文經過完整評議,最終總計 783 篇被正式錄取(佔總提交數的 29%)。被接收的論文中,71 篇將進行長口頭演講,144 篇進行短亮點演講。
華人不僅佔據了論文作者的半壁江山,國內眾多人工智慧公司也已摩拳擦掌要在 CVPR 大會上大顯身手了。本文中,我們將盤點國內外人工智慧公司在 CVPR 2017 上展現的技術,以及即將舉辦的精彩活動。文後我們附上了機器之心此前報導過的 CVPR 2017 論文。
產業界 CVPR 2017 論文
有眾多業界公司參與了 CVPR 2017。據大會官網的數據統計,全球共有約 90 家企業參與到本次大會中。海外科技巨頭谷歌、微軟、Facebook、亞馬遜、蘋果、英特爾、英偉達等,毫無意外都有論文被接收。即使是最為低調的蘋果,在日前新開的在線期刊《Apple Machine Learning Journal》中, 最先介紹的 也是該公司將在 CVPR 2017 大會上展示的論文。
把目光轉向國內公司,騰訊、阿里巴巴、京東、滴滴等大型網際網路公司,和商湯、Momenta、馭勢、格靈深瞳等初創企業也都或多或少地參與了這次大會。國內公司不僅提交論文,也在會議期間舉辦演講和各類活動,中國公司在機器學習領域的積累正在逐漸顯現。
以下,我們將介紹國內幾家人工智慧公司和機構在 CVPR 2017 上的論文接收情況,其中也包括這些參會者在 CVPR 2017 上將要介紹的重點論文。
微軟亞洲研究院
據機器之心了解,微軟有 28 篇論文被 CVPR 2017 接收,其中微軟亞洲研究院有 18 篇論文被接收。此外,微軟全球執行副總裁沈向洋將在大會上發表主旨演講
在 6 月 16 日北京中關村微軟大廈舉辦的「微軟亞洲研究院創研論壇――CVPR 2017 論文分享會」上,微軟亞研的研究員已經分享了數篇被 CVPR 2017 接收的論文:
論文:StyleBank: An Explicit Representation for Neural Image Style Transfer
簡介:作者們在這一設計中運用卷積神經網絡作為基礎,在通過卷積作用得到特徵層後,加入風格化分支――StyleBank 層作相應處理,可以得到很好的圖像效果。
論文:Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects
簡介:微軟亞洲研究院姚霆的相關研究成果為 Image Captioning with Attributes,通過利用屬性(attributes)對圖像標註進行改進,這種方法有很大的潛力可以成為生成開放性詞彙句子(open-vocabulary sentences)的有效方法。這種以搜索為基礎的方法,應用卷積神經網絡加循環神經網絡,可以使圖像標註系統更加實用。
論文:Collaborative Deep Reinforcement Learning for Joint Object Search
簡介:作者們提出了一種新的多智能體間的 Q-學習的方法,即門控選通式連接(gated cross connections)的深度 Q 網絡――給交流模塊設計一個門控結構,可以讓每個智能體去選擇相信自己還是相信別人。這是一種對虛擬智能體進行聯合訓練的高效方法。它有效地利用了相關物體間的有用的上下文情境信息(contextual information),並且改進了目前最先進的主動定位模型(active localization models)
論文:Neural Aggregation Network For Video Face Recognition
簡介:傳統的深度學習方法在進行人臉識別時需要對每一幀都進行特徵提取,這樣的效率是很低的。而 NAN 網絡可以對視頻或目標對象進行高度緊湊(highly-compact)的表徵(128-d);利用注意力機制(attention mechanism)進行學習型聚合(learning-based aggregation);這種網絡在三個關於人臉視頻的基準中都有著一流的表現。作者認為這種聚合網絡是簡單並且通用的,今後也會用於其它一些視頻識別的任務當中。
在微軟眾多被接收的論文中,我們注意到一篇 Oral 論文:Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition,介紹了一種端到端,逐層集中 Attention 到有用位置的方法。該研究作者為微軟亞研研究員梅濤等人。大會期間,該團隊將上臺進行 12 分鐘的演講,詳細介紹此項研究成果。
阿里巴巴
據機器之心了解,阿里巴巴共有四篇論文被 CVPR 2017 接收,其中阿里 AI Lab 3 篇,阿里 iDST 1 篇;阿里 iDST 視覺計算負責人華先勝華先勝也將在 ReID & MTMCT Workshop 上發表題為《Practices of Large-Scale Target Re-Identification》的演講。
以下為阿里巴巴 CVPR 2017 論文:
Deep Level Sets for Salient Object Detection
作者:Ping Hu、Bing Shuai、Jun Liu、Gang Wang
Global Context-Aware Attention LSTM Networks for 3D Action Recognition
作者:Jun Liu、Gang Wang、Ping Hu、Ling-Yu Duan、Alex C. Kot
Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling
作者:Abrar H. Abdulnabi, Bing Shuai, Stefan Winkler, Gang Wang
Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images
作者:Zhi-Qi Cheng、Xiao Wu、Yang Liu、華先勝
此外,阿里在 CVPR 期間也將會演示拍立淘技術,簡單介紹就是拍照搜索技術。
騰訊 AI Lab
作為騰訊最新成立的人工智慧實驗室,騰訊 AI Lab 在基礎層的技術研究上實力非常。機器之心是首家報導騰訊 AI Lab 研究的媒體,我們注意到騰訊 AI Lab 首次公開的有關風格遷移的研究論文此次也被 CVPR 2017 所接收
據統計,騰訊 AI Lab 共有 6 篇論文被 CVPR 2017 接收,以下是對這些論文的簡要介紹:
論文一:Real Time Neural Style Transfer for Videos
簡介:本文用深度前向卷積神經網絡探索視頻藝術風格的快速遷移,提出了一種全新兩幀協同訓練機制,能保持視頻時域一致性並消除閃爍跳動瑕疵,確保視頻風格遷移實時、高質、高效完成。
論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
簡介:論文首次提出一種全尺寸、無標註、基於病理圖片的病人生存有效預測方法 WSISA,在肺癌和腦癌兩類癌症的三個不同資料庫上性能均超出基於小塊圖像方法,有力支持大數據時代的精準個性化醫療。
論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
簡介:針對圖像描述生成任務,SCA-CNN 基於卷積網絡的多層特徵來動態生成文本描述,進而建模文本生成過程中空間及通道上的注意力模型。
論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization
簡介:本文提出依靠檢測器自身不斷改進訓練樣本質量,不斷增強檢測器性能的一種全新方法,破解弱監督目標檢測問題中訓練樣本質量低的瓶頸。
論文五:Diverse Image Annotation
簡介:本文提出了一種新的自動圖像標註目標,即用少量多樣性標籤表達儘量多的圖像信息,該目標充分利用標籤之間的語義關係,使得自動標註結果與人類標註更加接近。
論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images
簡介:基於曼哈頓結構與對稱信息,文中提出了單張圖像三維重建及多張圖像 Structure from Motion 三維重建的新方法。
商湯科技
作為一家專注於計算機視覺和深度學習的創業公司,商湯科技也將在 CVPR 2017 上帶來一系列的技術 Demo、Presentation、PartyTime 等活動。據機器之心了解,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。
其中,商湯科技高級研究員錢晨的論文獲得 CVPR2017 Spotlight 提名,他將在大會上做四分鐘的演講;商湯科技執行研發總監林也將會在 NITRE WORKSHOP 環節做出演講。
兩篇 Presentation 論文分別為:
Residual Attention Network for Image Classification
Attention-aware Face Hallucination via Deep Reinforcement Learning
日前機器之心對商湯科技 CVPR 2017 論文的報導中,對其中的幾篇論文進行了詳細的解讀,感興趣的讀者請參閱: 業界 | 23 篇論文入選 CVPR2017,商湯科技精選論文解讀 。
學術界 CVPR 2017 論文
在這一部分,我們根據公開信息對學術界的論文進行了盤點。需要說明的是這些論文可能包含學術界與產業界合作的論文,而且以下某些院校被 CVPR 2017 接收的論文可能遠遠超過我們收集到的,因此如果讀者們發現我們遺漏了哪些精彩的論文,希望能夠在下面留言。
1. 廈門大學信息學院
論文一:Cross-Modality Binary Code Learning via Fusion Similarity Hashing
作者:Hong Liu, Rongrong Ji(紀榮嶸), Yongjian Wu, Feiyue Huang, Baochang Zhang
論文二:Non-Local Deep Features for Salient Object Detection
作者:Zhiming Luo, Akshaya Mishra, Andrew Achkar, Justin Eichel, Shaozi Li(李紹滋), Pierre-Marc Jodoin
論文三:Re-Ranking Person Re-Identification With k-Reciprocal Encoding
作者:Zhun Zhong, Liang Zheng, Donglin Cao, Shaozi Li(李紹滋)
論文四:Removing Rain From Single Images via a Deep Detail Network
作者:Xueyang Fu, Jiabin Huang, Delu Zeng, Yue Huang, Xinghao Ding(丁興號), John Paisley
2. 中國科學院大學電子學院模式識別與智能系統開發實驗室
論文一:SRN: Side-output Residual Network for Object Symmetry Detection in the Wild(CVPR 2017 Oral 1-1C)
作者:柯煒
簡介:論文創新性地提出了側輸出殘差網絡並將其成功應用在大規模複雜背景下的目標對稱性檢測任務中,取得了 State-Of-The-Art 性能。該架構顯著地提升了多尺度特徵融合性能,對尺度相關的深度學習任務具有應用價值。
論文二:Oriented Response Networks (CVPR 2017 Poster)
作者:周彥釗
簡介:論文從深度卷積網絡最為核心的卷積模塊出發,創新的設計了具有主動旋轉能力的向量場濾波器 ARF,賦予了深度網絡顯式編碼方向信息的能力,並顯著提升深度特徵對旋轉的泛化性能。該深度網絡架構在多個評測中取得 State-Of-The-Art 性能。
論文三:Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model (CVPR 2017 Poster)
作者:葉齊祥
簡介:論文提出了一種新穎的針對特定場景的自學習行人檢測算法,算法利用原始視頻數據即可自動挖掘其中的行人目標並學習檢測器,無需進行耗時耗力的逐幀數據標註,取得了 State-Of-The-Art 行人檢測性能。
3. 南開大學媒體計算實驗室
論文一:Richer Convolutional Features for Edge Detection
作者:Y Liu, MM Cheng, X Hu, K Wang, X Bai
論文二:Deeply supervised salient object detection with short connections
作者:Q Hou, MM Cheng, X Hu, Z Tu, A Borji
論文三:GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence
作者:JW Bian, W Lin, Y Matsushita, SK Yeung, TD Nguyen, MM Cheng
論文四:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach
作者:Y Wei, J Feng, X Liang, MM Cheng, Y Zhao, S Yan
4. 中科院計算所
Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks
作者:Haomiao Liu, Ruiping Wang(王瑞平), Shiguang Shan, Xilin Chen
5. 清華大學計算機系智能技術與系統國家重點實驗室、清華國家信息實驗室、清華大學計算機科學與技術系、英特爾中國研究院、清華大學電子工程系
RON: Reverse Connection With Objectness Prior Networks for Object Detection
作者:孔濤、孫富春、Anbang Yao、劉華平、Ming Lu 和陳玉榮
Real-Time Neural Style Transfer for Videos
作者:Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, Wei Liu(劉威,騰訊 AI)
6. 大連理工大學信息與通信工程學院
李培華兩篇論文被 CVPR 2017 錄用, 其中一篇為**口頭報告。
G2DeNet: Global Gaussian Distribution Embedding Network and Its Application to Visual Recognition(Oral 4-2A)
作者:Qilong Wang, Peihua Li(李培華), Lei Zhang
Mind the Class Weight Bias: Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation
作者:Hongliang Yan, Yukang Ding, Peihua Li(李培華), Qilong Wang, Yong Xu, Wangmeng Zuo
7. 北京大學計算機科學技術研究所字形計算技術實驗室
北大學生劉俊成與大連理工大學、遼寧省泛在網絡與服務軟體重點實驗室合作的一篇論文。
Incremental Kernel Null Space Discriminant Analysis for Novelty Detection
作者:Juncheng Liu(劉俊成), Zhouhui Lian, Yi Wang, Jianguo Xiao
更多亮點
多家海外科技巨頭也在 CVPR 開幕前夕介紹了自己在大會上即將展示的研究。
谷歌 CVPR 2017 研究集合:https://research.googleblog.com/2017/07/google-at-cvpr-2017.html
共有超過 250 名 Google 員工將參加本次會議,同時參與和組織 CVPR 上的多個研討會。
Facebook CVPR 2017 研究集合:https://research.fb.com/advancing-computer-vision-technologies-at-cvpr-2017/
Facebook 與 MIT Media Lab 的研究《Robocodes: Towards Generative Street Addresses from Satellite Imagery》 獲得了大會 workshop 最佳論文獎 ,在 EarthVision 研討上,研究人員將介紹這項工作,它有關遙感圖像的大規模計算機視覺。
IBM CVPR 2017 研究集合:https://www.ibm.com/blogs/research/2017/07/computer-vision-cvpr-2017/