從20 篇ICCV 2017錄用論文,看商湯科技四大攻堅領域|ICCV 2017

2020-12-03 雷鋒網

雷鋒網 AI 科技評論:本文作者為香港中文大學林達華教授,雷鋒網(公眾號:雷鋒網) AI 科技評論獲授權轉載。

今秋,在以水城而聞名的威尼斯,來自世界各地的三千多位學者薈萃一堂,共赴兩年一度的國際計算機視覺大會 (ICCV)。這次大會的一個重要亮點就是中國學者的強勢崛起。根據組委會公開的數字,會議 40% 的論文投稿來自中國的研究者。在中國的人工智慧浪潮中,商湯科技以及它與港中文的聯合實驗室無疑是其中最有代表性的力量。在本屆 ICCV 大會,商湯科技與香港中大-商湯科技聯合實驗室共發表了 20 篇論文,其中包括 3 篇 Oral (錄取率僅 2.09%) 和 1 篇 Spotlight,領先 Facebook(15 篇)、Google Research(10 篇)等科技巨頭。

ICCV 是計算機視覺領域最高水平的國際學術會議,在其中發表的論文的量與質可以衡量一個公司或者研究機構的學術水平,以及其對未來科技發展潮流的把握。從商湯科技的 20 篇論文中,可以看到其在研究上重點發力的四大主線:

跨模態分析:讓視覺與自然語言聯合起來

在過去幾年,隨著深度學習的廣泛應用,計算機視覺取得了突破性的發展,很多傳統任務(比如圖像分類,物體檢測,場景分割等)的性能大幅度提高。但是在更高的水平上,計算機視覺開始遇到了新的瓶頸。要獲得新的技術進步,一個重要的方向就是打破傳統視覺任務的藩籬,把視覺理解與自然語言等其它模態的數據結合起來。商湯科技很早就捕捉了這一趨勢,並投入重要力量進行開拓,取得了豐碩成果。在這一方向上,有 4 篇論文被 ICCV 2017 錄用,包括一篇 Oral。

Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral).

Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin. 

看圖說話,也就是根據圖像生成描述性標題,是今年來非常活躍的研究領域。現有的方法普遍存在一個問題,就是產生的標題很多是訓練集中的表述的簡單重複,讀起來味同嚼蠟。這一問題的根源在於學習目標過分強調與訓練集的相似性。這篇論文提出了一種新型的基於 Conditional GAN 的訓練方法,把描述生成模型與評估模型合同訓練。這樣,評估的標準從「像不像訓練集」變成「像不像人說話」,從而驅動生成模型產生更加自然、生動,並具有豐富細節的描述。這一工作為看圖說話任務提供了新的思路。在 User Study 中,這種新的方法以 6:4 的勝率戰勝了傳統的方法。

另外兩篇 paper 則從相反的方向思考,力圖利用相關文本的信息來幫助提高視覺理解的能力。

Scene Graph Generation from Objects, Phrases and Caption Regions.

Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

這篇論文把三個有密切關係的任務——物體檢測,場景圖生成,以及圖像區域的描述聯合在一起,並且利用它們之間的關係建立了一個多層次的場景描述模型——Multi-level Scene Description Network (MSDN)。通過這個聯合模型,傳統上分離開來的三個任務可以結合在一起進行端對端的訓練,從而使得每個任務都獲得性能的提升。尤其在代表對圖像綜合理解能力的場景圖生成任務上,性能提高超過了 3%。

Learning to Disambiguate by Asking Discriminative Questions.

Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

這篇論文探索了一個新的方向,即透過提出有鑑別力的問題來區分不同的視覺實體。比如當你需要區分一隻白色的狗和一隻黑色的狗的時候,可以提出關於顏色的問題。為了支持這個方向的探索,作者在這項工作中建立了一個新的數據集,裡面含有了超過一萬組包含成對圖像與多個相關問題的樣本;並且提出了一種新型的弱監督訓練方法,可以在缺乏細緻標註的條件下,同時學習到一個具有區分度的問題生成器,以及能提供準確答案的鑑別模型。

Identity-Aware Textual-Visual Matching with Latent Co-attention.

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

特徵匹配是跨模態學習的核心環節。這篇論文提出了一個新的文本與視覺特徵匹配的框架。這個框架由兩個階段組成。第一階段能迅速排除明顯錯誤的配對,並為第二階段的訓練提供效度更高的訓練樣本。第二階段通過一個新的關聯注意力模型(co-attention model),把文本中的單詞關聯到圖像中的特定區域。在三個公開數據集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都顯著超過現行的主流方法。

視頻分析:讓計算機看懂視頻

雖然深度學習在圖像分析中取得了巨大的成功,它在視頻的理解與分析中的應用還有很長的路要走。相比於圖像,視頻數據具有更大的數據量以及更豐富的結構,因而也為視覺分析技術提出了更高水平的挑戰。商湯科技在數年前就開始了把深度學習用於視頻分析與理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在內的多種有很大影響並被廣泛應用的視頻分析架構,並在 ActivityNet 2016 取得了冠軍。在 2017 年,商湯科技以及相關實驗室繼續把這個方向的探索推向縱深,並在 ICCV 2017 發表了兩項重量級的工作,包括一篇 Oral。

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)

Wenbin Du; Yali Wang; Yu Qiao.

通常的視頻分析模型大部分是基於 video-level 的類別進行監督學習的,這種方法的局限是難以學習到複雜的運動結構。這篇論文另闢蹊徑,著力於動態人體的建模,並提出了一個新型的可以端對端訓練的深度網絡架構 Recurrent Pose Attention Network (RPAN)。該架構不僅可以自適應地整合人體運動姿態的特徵,還能很好地學習其時空演化結構。這項工作一方面為視頻動作理解提供了新的方法,另一方面作為副產品也獲得了一個不錯的粗粒度姿態估計的模型。

Temporal Action Detection with Structured Segment Networks.


Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin

時域上的動作檢測是近兩年興起的新型視頻分析任務。相比於傳統的動作分類,這個任務更具有挑戰性,不僅需要判斷一個運動或者事件的類型,還需要獲得它的準確起止時間。這個任務在實際場景中有很大的潛在價值,比如它可以從長時間的運動視頻或者電影中自動定位到相關的精彩片段。這篇論文提出了一種新型的視頻動作檢測模型,它在 TSN 的基礎上引入了三段結構模型以更有效地捕捉運動起始段與終結段的特徵。基於這一架構,動作分類器與時間定位器可以端到端聯合訓練。這個方法在多個大型視頻數據集上(包括 THOMOS 和 ActivityNet)取得了比現有方法超過 10 個百分點的提升。

生成對抗網絡:讓計算機學習創作

最近兩年,由於生成對抗網絡(Generative Adversarial Networks)的提出,生成模型(generative model)的學習成為一個新興的研究方向。和傳統的鑑別模型(discriminative model)主要關注信息提煉不同,生成模型需要從零開始,或者基於信息量非常有限的給定條件,產生出完整的圖像,因此特別具有挑戰性。這個研究方向在消費領域具有巨大的應用價值,同時它也可以通過產生訓練樣本的方式反哺傳統領域的研究。商湯科技在這個新興領域也積極開展研究,取得不少新的成果,並在 ICCV 2017 發表了兩項相關工作,包括一篇 Oral。

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

生成高質量的圖像是生成模型研究的核心問題。這篇文章提出了一個新型的生成框架,StackGAN,它能夠根據簡短的文字描述生成解析度為 256 x 256 的高質量圖片。生成如此高解析度的照片是一個極具挑戰性的問題,此前的生成模型通常只能產生大小為 64 x 64 的圖片。本文提出的方法把這個困難的任務分解為兩個階段。在第一階段,先根據文字描述產生粗粒度的草圖,以第一階段的結果作為輸入,第二階段產生高解析度的圖像,並補充豐富的細節。此文還進一步提出了一種新型的條件增強技術,以改進訓練過程的穩定性。和現有的生成網絡相比,StackGAN 在生成圖片的質量的解析度上獲得了非常顯著的進步。

Be Your Own Prada: Fashion Synthesis with Structural Coherence.

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy

這篇文章探索了一個極具應用價值的方向,把生成模型引入時尚領域:提出一種嶄新的方法產生換裝照片。具體而言,給定一個人的照片,以及對換裝的描述,此文提出的方法可以根據對換裝的描述,比如「黑色的短袖長裙」,產生換裝後的照片。和一般的生成任務相比,換裝任務更具挑戰性,換裝照不僅需要符合文字描述,而且需要和原照片中人體的姿態相吻合。此文提出一個兩階段的框架解決這個問題:第一階段產生一個和人體姿態吻合的分區圖,第二階段以此為基礎生成具有精細細節的服裝圖像。

除了在新興方向上積極開拓,商湯科技在一些重要的核心領域,包括人臉檢測、物體檢測、人體姿態估計、實際場景中的身份再識別等,也持續投入,精益求精,在本屆 ICCV 發表多篇相關論文。

商湯科技 ICCV 2017 論文列表:

1. 「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

2. 「Scene Graph Generation from Objects, Phrases and Caption Regions」. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

3. 「Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention」. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

4. 「Learning Feature Pyramids for Human Pose Estimation」. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

5. 「Learning Chained Deep Features and Classifiers for Cascade in Object Detection」. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

6. 「Identity-Aware Textual-Visual Matching with Latent Co-attention」. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

7. 「Towards Diverse and Natural Image Descriptions via a Conditional GAN」. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

8. 「Temporal Action Detection with Structured Segment Networks」. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin.

9. 「Learning to Disambiguate by Asking Discriminative Questions」. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

10. 「Be Your Own Prada: Fashion Synthesis with Structural Coherence」. Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy.

11. 「Recurrent Scale Approximation for Object Detection in CNN」. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

12. 「Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification」. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

13. 「Multi-label Image Recognition by Recurrently Discovering Attentional Regions」. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

14. 「HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis」. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

15. 「Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals」. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

16. 「Deep Dual Learning for Semantic Image Segmentation」. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

17. 「Detecting Faces Using Inside Cascaded Contextual CNN」. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

18. 「Single Shot Text Detector With Regional Attention」. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

19. 「RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos」. Wenbin Du, Yali Wang, Yu Qiao.

20. 「Range Loss for Deep Face Recognition With Long-Tailed Training Data」. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.

更多資訊,敬請關注雷鋒網AI科技評論。


4月19日 20:30-21:30 ,雷鋒網旗下學術頻道 AI 科技評論聯合AI慕課學院、騰訊課堂邀請商湯科技聯合創始人陳宇恆為大家帶來一場直播分享!點擊連結報名參與吧!!

課程主題:《人工智慧的系統工程與系統工程中的人工智慧應用》

報名連結:https://ke.qq.com/huodong/aiqzzty_pc/index.html#tuin=8f7939df

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 騰訊優圖的 ICCV 2017:12篇論文入選 CV 頂會,3篇Oral|ICCV 2017
    )AI科技評論按:本文首發於騰訊優圖公眾號,雷鋒網AI科技評論獲授權轉載,並做了不改動原意的編輯。被譽為計算機視覺領域三大頂級會議之一的ICCV(另外兩個為CVPR、ECCV)近日揭曉收錄論文名單,騰訊優圖共有12篇論文入選,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的2.1%(45/2143)。本屆 ICCV 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。
  • 解讀騰訊優圖ICCV2017 12篇論文:全球首個AI卸妝效果的算法等
    今年,即將於2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智慧大會上,我們請到了騰訊優圖實驗室傑出科學家賈佳亞教授發表演講。 想了解更多關於騰訊優圖和計算機視覺的前沿動態?點擊文末閱讀原文,馬上參會!
  • 商湯科技44篇論文入選CVPR 2018
    速途網5月10日消息,全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and PatternRecognition,即IEEE國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。
  • ICCV-2017參會碎碎念+Referring Expression論文解讀
    在頒發了傑出研究者和久經考驗論文獎之後,第一個oral session就開始了,轉播團隊也很專業,在合適的時候會切換到報告人的大特寫,特別帶感。設想如下情景,20年後的某一天,作為老司機的你去某商場逛街,碰巧進入一個仿真娃娃商店,貨架上擺著各種相貌服飾的仿真娃娃。機器人服務員小A熱情的說:「客官,您想要哪款娃娃?」老司機犀利的目光停留在一款娃娃身上,說:「那個黑色長髮的娃娃。」小A:「大叔,那幾個都是黑色長髮,您說的哪個啊?」
  • ICCV 2017獎項公布:最大贏家何愷明獲最佳論文,參與最佳學生論文
    當地時間 10 月 22 日,兩年一度的計算機視覺國際頂級會議 International Conference on Computer Vision(ICCV 2017
  • NIPS 2017錄用結果全公布,清華北大10篇,BAT 4篇(附詳細名單)
    雷鋒網AI科技評論按:NIPS 2017 將於 12 月份在美國長灘舉行,本屆NIPS共收到 3240 篇論文投稿,錄用 678 篇,錄用率為 20.9%;其中包括 40 篇口頭報告論文和 112 篇 spotlight 論文
  • CVPR 2017國內外亮點論文匯集:史上最盛大會議,華人佔據半壁江山
    商湯科技 作為一家專注於計算機視覺和深度學習的創業公司,商湯科技也將在 CVPR 2017 上帶來一系列的技術 Demo、Presentation、PartyTime 等活動。據機器之心了解,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。
  • 【ICCV 2017論文筆記】我們應當如何理解視頻中的人類行為?
    最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章。「What Actions are Needed for Understanding Human Actions in Videos?」 一文應該是我覺得最有趣的一篇文章。這篇論文並沒有提出或改進任何方法,而是通過各種小實驗,對目前視頻行為理解的各種資料庫和方法進行了細緻的討論和思考。
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    雷鋒網(公眾號:雷鋒網) AI 科技評論按:本文由商湯科技獨家投稿,AI 科技評論獲其授權轉載。
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    今年的 ICCV 於 10 月 27 日-11 月 2 日在韓國首爾召開,大會主席由首爾大學電子與計算機工程系教授 Kyoung Mu Lee、伊利諾伊大學香檳分校計算機科學教授 David Forsyth、蘇黎世聯邦理工學院計算機科學系視覺計算學院教授 Marc Pollefeys、商湯科技創始人及香港中文大學教授湯曉鷗聯合擔任。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎
    Bryan Perozzi   論文名稱:Local Modeling of Attributed Graphs: Algorithms and Applications論文地址: http://perozzi.net/publications/16_thesis.pdf SIGKDD 2017 的博士論文獎被谷歌的
  • NIPS 2017在美國長灘舉行 機器學習論文哪家強?
    近日,於美國西海岸時間12月4日開始舉辦的機器學習領域頂級會議、第31屆NIPS大會拉開序幕,今年美國計算機四大名校(CMU、MIT、UC伯克利、斯坦福)僅以第一作者所屬機構統計的錄用論文就有92篇,非常強勢。
  • AI Makes World Clear | 帝視科技最新產品點亮ICCV 2017計算機視覺國際大會
    當地時間10月22-28日,兩年一度的計算機視覺國際頂級會議International Conference on Computer Vision(ICCV 2017)在義大利威尼斯召開,來自全球頂尖研究機構以及公司的3000多名優秀計算機視覺大咖、研究學者等相聚在威尼斯,共同探討與交流計算機視覺領域最新最頂尖的的研究成果。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎,超百位員工參與
    一直以來,谷歌都是 KDD 的積極參與者,自然,今年的 KDD 也不例外,一起和雷鋒網(公眾號:雷鋒網) AI 科技評論來看看谷歌是如何深度參與 KDD 的吧。博士論文獎Bryan Perozzi  論文名稱:Local Modeling of Attributed Graphs: Algorithms and Applications論文地址:http://perozzi.net/publications/16_thesis.pdfSIGKDD 2017
  • 【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!
    )正在義大利威尼斯開幕,來自世界各地的計算機視覺專家聚集在威尼斯介紹計算機視覺和相關領域的最新進展。論文方面,錄取論文數目歷史最多。本屆會議收到來自世界各地的論文投稿2143篇,錄取621篇,其中口頭報告43篇,海報論文520篇,錄取率分別是2.09%和28.9%,可見競爭之激烈。
  • ICCV 2017 spotlight論文解讀:如何提高行人再識別的準確率
    AI科技評論按,本文作者孫奕帆,本文首發於知乎專欄行人重識別,雷鋒網(公眾號:雷鋒網) AI科技評論獲其授權轉載。與人臉識別相比,它在採集圖像時不需要行人主動配合,在安防等領域具有極大的應用潛力。基於深度學習的行人再識別方法,在近幾年快速進步,在絕大部分公開數據集上,深度學習特徵均超過了手工設計特徵。這篇文章的工作主要圍繞利用如何更好地學習的深度特徵,提高行人再識別的準確率進行。
  • 一騎絕塵 商湯科技44篇論文入選CVPR 2018
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。
  • 一騎絕塵 商湯科技 44 篇論文入選 CVPR 2018
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文 979 篇。
  • AAAI 2018全揭秘:1242篇中國投遞論文領跑全球,錄用數和美國平分秋色
    大會概況AAAI 2017 的註冊參會人數達到 1692 人,收到投遞論文 2571 篇,兩者都創下了歷史新高;AAAI 2017 最終收錄的論文總數為 639 篇,平均錄取率為 24.9%。而在 AAAI 2018,論文投遞數和錄用數呈現了一個新的高峰:註冊人數達到 2296 人次,相較去年提升了 34%;而收到的投遞論文為 3808 篇,提升了 47%;今年的錄用論文數共有 938 篇。
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。