計算機視覺領域2019推薦論文列表

2021-02-21 微軟研究院AI頭條

1. Deep High-Resolution Representation Learning for Human Pose Estimation

論文連結:https://arxiv.org/pdf/1902.09212.pdf

該論文在提出了一個新的網絡High-Resolution Network (HRNet),可以學到空間精度高語義強的高解析度表。該網絡設計的不同於其他主流網絡的有兩大關鍵點:一直保持高解析度表徵;並聯不同解析度的卷積分支。在人體骨架點檢測以及目標檢測、圖像語義分割、人臉 關鍵點檢測等視覺問題上取得了領先的結果,被同行廣泛接受和使用。該論文發表在CVPR 2019。

開源地址:https://github.com/HRNet

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

論文連結:https://arxiv.org/pdf/1908.08530.pdf

該文發表於ICLR 2020,是最早提出圖像和文本聯合預訓練模型的論文之一。研究員提出了一種新的通用的多模態預訓練模型VL-BERT,該模型採用簡單而強大的Transformer模型作為主幹網絡,並將其輸入擴展為同時包含視覺與語言輸入的多模態形式,適用於絕大多數視覺語義下遊任務。為了讓VL-BERT模型利用更為通用的特徵表示,研究員在大規模圖片描述生成數據集Conceptual Captions中進行VL-BERT的預訓練,實驗證明此預訓練過程可以顯著提高下遊的視覺語義任務的效果,包含視覺常識推理、視覺問答與引用表達式理解等。

3. A Relation Network Based Approach to Curved Text Detection

論文連結:https://icdar2019.org/list-of-accepted-papers/

該論文創新地提出了一套基於關係網絡(Relation Network)的新型文字檢測框架,有效提升了通用文本行檢測的準確率。該論文發表在ICDAR 2019會上。

4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches

論文連結:https://www.springerprofessional.de/en/an-anchor-free-region-proposal-network-for-faster-r-cnn-based-te/17013452

該論文提出了一種稱為anchor-free RPN的物體檢測算法來解決經典RPN算法無法有效預測任意方向文本框的問題。該算法不僅在單詞級別的文字檢測任務上取得很好的結果,而且類似思想在當前物體檢測領域也成為主流。該論文發表在IJDAR期刊上。

5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering

論文連結:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/0005880.pdf

該論文提出了一種通用分布式優化算法,在增量式學習框架內引入逐塊模型更新濾波(BMUF)算法,在線性加速深度學習模型訓練的同時,保持模型的準確率。該論文發表在ICASSP 2016會上。

6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition

論文連結:https://www.sciencedirect.com/science/article/abs/pii/S0031320319302547

該論文提出了一種針對CNN-DBLSTM模型中運算代價最大的CNN部分進行壓縮加速的方法,即首先在LSTM部分的指導下,對CNN部分進行知識蒸餾,然後利用Tucker分解算法,對CNN進行進一步壓縮和加速,由此得到的模型運行時相比原始模型加速14倍,解決了部署難題。該論文發表在Pattern Recognition期刊上。

7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models

論文連結:https://ieeexplore.ieee.org/abstract/document/8270022

該論文提出了一種以詞與子詞為基本語言單元的混合語言模型,來解決光學字符識別(OCR)中的集外詞(Out of Vocabulary, OOV)問題。該論文發表在ICDAR 2017 會上。

8. Relation Networks for Object Detection

論文連結:https://arxiv.org/pdf/1711.11575.pdf

在CVPR 2018上,該論文提出了一種即插即用的物體關係模塊,第一次實現了完全端到端的物體檢測器,該方法也是自注意力模型在視覺領域最早的應用之一。

9. Learning Region Features for Object Detection

論文連結:https://arxiv.org/pdf/1803.07066.pdf

在ECCV 2018上,該論文給出了區域特徵提取的通用表達式,並提出了一個完全可學習的區域特徵提取方法。

10. Local Relation Networks for Image Recognition

論文連結:https://arxiv.org/pdf/1904.11491.pdf

在ICCV 2019上,該論文提出了一種新的完全無需卷積的神經網絡,在ImageNet圖像分類基準數據集上取得了超越卷積神經網絡的準確率。

11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

論文連結:https://arxiv.org/pdf/1904.11492.pdf

在ICCVW 2019上,該論文改變了學界對於流行的非局部網絡工作機制的認識,並提出了一個新的高效的全局關係網絡。

12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks

論文連結:https://arxiv.org/pdf/1904.05873.pdf

在ICCV 2019上,研究員提出了一種關於空間注意力機制的通用表達形式,並分析了這一通用表達形式中不同的表達項在各種視覺任務上的表現,為今後空間注意力機制的應用提供參考。

13. Deep Metric Transfer for Label Propagation with Limited Annotated Data

論文連結:https://arxiv.org/pdf/1812.08781.pdf

該論文提出了一種新的半監督學習/遷移學習/小樣本學習範式,該範式的核心是利用無監督預訓練方法來獲得初始圖像特徵,其在半監督學習上取得近20%(絕對值)的準確率提升,文章發表在ICCVW 2019上。

14. Deformable ConvNets v2: More Deformable, Better Results

論文連結:https://arxiv.org/pdf/1811.11168.pdf

在CVPR 2019上,該論文提出了更強的可變形卷積網絡,相比標準卷積其能廣泛且顯著提升各種視覺感知任務的準確率,包括圖像分類,物體檢測,語義分割,物體跟蹤等等,例如在COCO物體檢測基準測試中,相比相同條件下的標準卷積網絡能取得近7個點的提升。

15. RepPoints: Point Set Representation for Object Detection

論文連結:https://arxiv.org/pdf/1904.11490.pdf

邊界框是視覺物體表示的標準方法,在ICCV 2019上,該論文提出了一種基於點集來替代邊界框的物體表示新方法,這一新方法具有更強的表示能力和可解釋性。基於這一新的表示,得到了當時最好的無錨點檢測器。這一表示方法最近還被推廣到實例分割和人體姿態估計中。

16. A Twofold Siamese Network for Real-Time Object Tracking

論文連結:https://arxiv.org/abs/1802.08817

該文章發表在CVPR 2018上,提出了雙路孿生網絡進行視覺物體跟蹤的方案,簡稱為SA-Siam,其中S代表的是語義(Semantic)分支,而A則代表外觀(Appearance)分支。兩個分支既獨立又互補,取得了極佳的跟蹤效果。

17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

論文連結:https://arxiv.org/abs/1904.04452

在CVPR 2019上,該文章提出了雙階段匹配和創新的串並聯結構實現物體的魯棒、精準跟蹤。SPM跟蹤器在粗匹配階段側重語義理解,在細匹配階段側重外觀表達,並通過不同訓練方式獲得了理想的平衡。

18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks

論文連結:https://arxiv.org/abs/1910.08897

文章發表在ICCV 2019上,提出了基於雙網絡結構的深度估計學習架構,使用較深的網絡提取低解析度輸入圖像中的全局特徵信息,使用較淺的網絡提取高分辨輸入圖像中的細節特徵信息,再將二者結合用來估計高解析度的深度。與以往方法相比,該方法以更低的計算量獲取了更好的深度估計效果,特別是對於圖像的精細區域和遠距離區域等對解析度敏感區域的深度估計結果提升顯著。

19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

論文連結:https://arxiv.org/abs/1910.08898

在ICCV 2019上,該文章提出了更為魯棒的光流重建監督信號,以解決難度更大的室內場景下的無監督深度估計。與傳統的圖像重建信號相比,針對紋理缺失嚴重的室內場景,利用稀疏到稠密的光流估計方法獲取穩定的光流估計,並將光流信息輸入相機估計網絡克服相機運動複雜的難題,從而實現了深度布局更為複雜多樣的室內場景下的穩定的深度估計。

20. Cross View Fusion for 3D Human Pose Estimation

論文連結:https://arxiv.org/abs/1909.01203

文章發表在ICCV 2019上,提出了首個跨攝像頭的特徵融合網絡,通過將「容易」視角的特徵融合到「困難」視角,有效地解決了遮擋問題。在Benchmark數據集上顯著降低了三維姿態的估計誤差。

21. Optimizing Network Structure for 3D Human Pose Estimation

論文連結:https://www.chunyuwang.org/img/ICCV_2019_CiHai.pdf

在ICCV 2019上,該文章提出了基於人體模型的網絡Locally Connected Network,該網絡參數量少,能夠有效緩解Over-fitting。

22. Online Dictionary Learning for Approximate Archetypal Analysis

論文連結:https://www.microsoft.com/en-us/research/publication/online-dictionary-learning-for-approximate-archetypal-analysis/

該文章發表在ECCV 2018上,提出了人體姿態的低維表達方法,通過投影的方式保證姿態估計的正確性。

23. Part-Aligned Bilinear Representations for Person Re-identification

論文連結:http://arxiv.org/pdf/1804.07094.pdf

該文在作者前面的工作弱監督 Deeply-Learned Part-Aligned Representations(https://arxiv.org/pdf/1707.07256.pdf)基礎上,引進了人體姿態來幫助人體部件對齊,提升了行人重識別性能。該文發表在ECCV 2018。

24. Semantics-Aligned Representation Learning for Person Re-identification

論文連結:https://arxiv.org/abs/1905.13143

本文即將發表在AAAI 2020上,提出了基於語義對齊的特徵學習網絡進行行人重識別。我們通過引入對人體空間語義對齊的全視圖的重建任務,實現了賦予網絡由單(視角)張圖像預測全視角人體外觀的能力,解決了行人重識別中圖像間空間語義不對齊的難題。

25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification

論文連結:https://www.msra.cn/wp-content/uploads/2020/01/Uncertainty-aware-Multi-shot-Knowledge-Distillation-for-Image-based-Object-Re-identification.pdf

將發表在AAAI 2020上,通過對同一目標的不同圖片的信息的聯合學習,獲取更全面的對該目標的特徵表達,並利用Teacher-Student網絡來針對性地將學到的更全面的信息傳遞給學生網絡(單張圖像為輸入),實現了測試階段僅需要單張圖片作為輸入,但更全面和高判別力的特徵提取。

26. Mask-Guided Portrait Editing with Conditional GANs

論文連結:https://arxiv.org/abs/1905.10346

文章發表於CVPR 2019,本模型解決了人臉合成中的三個問題:多樣性,高質量和可控性。在本文中,研究員們提出了一個基於cGAN的框架,可以分別對眼睛、鼻子、嘴、皮膚和頭髮進行編輯。我們的模型有許多應用,例如人臉編輯,改變髮型,放大眼睛,或者使其微笑。此外,研究員們可以局部修改現有人臉的外觀。

27. Learning Pyramid Context Encoder Network for High-Quality Image Inpainting

論文連結:http://openaccess.thecvf.com/content_CVPR_2019/papers/Zeng_Learning_Pyramid-Context_Encoder_Network_for_High-Quality_Image_Inpainting_CVPR_2019_paper.pdf

論文發表CVPR 2019, 基於「由深到淺,多次補全」的構想,提出了一種金字塔式注意力機制的上下文編碼網絡,可以生成語義合理且紋理細節豐富的圖像內容。

28. Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language

論文連結:https://arxiv.org/pdf/1912.03590.pdf

論文發表在AAAI 2020,提出了時序信息處理問題中一種全新的建模思路——二維時間圖,在基於自然語言描述的視頻內容定位和視頻內人體動作檢測兩個任務上驗證了其有效性。

29. Structured Knowledge Distillation for Semantic Segmentation

論文連結:https://arxiv.org/abs/1903.04197v1

文章發表在CVPR 2019。該文提出了結構化的知識蒸餾方法,來蒸餾圖像分割中的全局結構化信息以提升輕便網絡的性能。

開源地址:https://github.com/irfanICMLL/structure_knowledge_distillation

相關焦點

  • 2020 Top10計算機視覺論文總結:論文,代碼,解讀,還有demo視頻!
    有作者總結了10篇他認為最優秀的論文,大家一起看看吧,不光有論文,還有代碼,解讀,demo視頻哦。作者:louisfb01 編譯:ronghuaiyang 來源:AI公園儘管今年世界上發生了這麼多事情,我們還是有機會看到很多驚人的研究成果。特別是在人工智慧更精確的說是計算機視覺領域。
  • 你需要關注的計算機視覺論文在這裡!最新最全state-of-art論文,包含閱讀筆記
    我們不缺少計算機視覺論文,我們缺少的是鑑別哪些應該讀。無論是泛讀還是精度,海量論文總是讓我們迷失雙眼,Github搜索awesome有成百上千個repo,但是缺少比較和註解。我們應該去哪裡找值得讀的論文,我們打開pdf論文的姿勢正確嗎?計算機視覺的論文應該怎麼讀海量論文看不夠,自己萌發了分門別類寫閱讀筆記的習慣。
  • 最全 計算機視覺學習的終極列表,300多項優質資源推薦
    300多項優質的計算機視覺學習資源,涵蓋了該領域最值得觀看的書籍、在線課程、論文和講座等內容。不能再全了!以下分享只是列表中的一小部分,完整版令人震撼! 歡迎回復關鍵詞「CV」,獲得完整列表的連結! 感謝微博帳號:『視覺機器人』TABLE OF CONTENTS BOOKSCOMPUTER VISIONComputer Vision: Models, Learning,and Inference – Simon J.
  • 分享丨2020 Top10計算機視覺論文總結:論文,代碼,解讀,還有demo視頻!
    特別是在人工智慧更精確的說是計算機視覺領域。此外,今年還聚焦了許多重要的方面,比如倫理方面、重要的偏見等等。人工智慧和我們對人類大腦及其與人工智慧的聯繫的理解在不斷發展,在不久的將來顯示出了有前途的應用,這一點我一定會講到。以下是我今年在計算機視覺領域最有趣的10篇研究論文,以免你錯過了其中的任何一篇。
  • 資源 | 2019人工智慧學術會議列表,所有Deadline都在這裡
    本文經機器之心授權轉載、禁止二次轉載近日,來自 THU F205 CV Lab 的 Jackie Tseng 同學更新了人工智慧、計算機視覺
  • 2018計算機視覺及機器學習重要會議匯總
    2017年初,我們總結了2017年計算機視覺,機器學習和人工智慧領域內的重要會議。
  • 7500人參會,國內接收論文數量超越美國,ICCV 2019最佳論文揭曉
    在 CCF 版 AI 頂會和期刊列表以及今年 9 月份清華提出的「計算機科學推薦學術會議和期刊列表」中,ICCV 均屬於 A 類頂級會議,在業內影響極大。Marr 而得名,是計算機視覺研究領域的最高榮譽之一。這一次,獲得 ICCV2019 馬爾獎的論文為《SinGAN:Learning a Generative Model From a Single Natural Image》,論文作者分別為來自以色列理工學院的 Tamar Rott Shaham 和 Tomer Michaeli,以及谷歌的 Tali Dekei。
  • 計算機視覺領域的價值網站及書籍推薦​
    中科院計算所山世光研究員;http://www.jdl.ac.cn/user/sgshan/13. 人臉識別主頁;http://www.face-rec.org/14.西安交通大學人工智慧與機器人研究所:http://www.aiar.xjtu.edu.cn/47. 卡內基梅隆大學研究員Robert T.
  • 我院張宇老師課題組研究工作被計算機視覺與模式識別領域頂級期刊TPAMI錄用
    論文經過四輪審稿,歷時兩年,共獲得9名審稿人的認可。TPAMI是IEEE旗下的計算機視覺與模式識別領域最頂級期刊,是中國計算機學會(CCF)推薦的人工智慧領域A類期刊,2019年的影響因子(IF)為17.86,是模式識別和機器學習領域最重要的學術性彙刊之一。在各種統計中,TPAMI皆具有高影響力與排名。
  • 來了解下計算機視覺的八大應用
    >7000字,建議收藏閱讀之前通過三篇文章簡單介紹了機器學習常用的幾種經典算法,當然也包括了目前很火的 CNNs 算法了這些算法各有各的優缺點和適用的領域,了解熟悉它們是很有必要的,但如何應用它們還需要具體問題具體分析,而機器學習常見的應用方向,包括以下幾個:計算機視覺(CV)自然語言處理(NLP)語音識別
  • 【封面推薦】盤點!影響計算機視覺Top100論文,從ResNet到AlexNet
    【原文】github【編譯】新智元(ID:AI_era)計算機視覺近年來獲得了較大的發展,代表了深度學習最前沿的研究方向
  • ICCV'21 | Oct 11-17th, 計算機視覺領域頂會!投稿量與錄用量再創新高!南開程明明等獲傑出審稿人!
    ICCV是CCF A類,Core Conference Ranking A*類會議,H5指數176,Impact Score高達32.51,錄用率在20%-30%之間,在CV界具有極高的評價。ICCV每兩年召開一次,與ECCV穿插進行。不同於在美國每年召開一次的CVPR和只在歐洲召開的ECCV,ICCV在世界範圍內選址。
  • [計算機視覺論文速遞] ECCV 2018 專場9
    點擊上方「CVer」,選擇「置頂公眾號」重磅乾貨,第一時間送達前戲Amusi 將日常整理的論文都會同步發布到link: https://github.com/amusi/daily-paper-computer-visionECCV 2018是計算機視覺領域中的頂級會議,目前已經公開了部分已錄用的paper。
  • CVPR 2019 程序主席發文潑冷水:計算機視覺的黃金時代靠的都是記憶
    ▲點擊上方 雷鋒網 關注雷鋒網 AI 科技評論按,隨著計算機視覺技術日趨火熱,作為該領域的頂級學術會議,CVPR 參與人數逐年猛增
  • 清華最新計算機推薦學術會議和期刊列表,和CCF到底差異在哪兒?
    近日,清華大學發布了最新版《清華大學計算機學科推薦學術會議和期刊列表》(下文簡稱《推薦表》)。在計算機相關學科,國內目前最為通用的是中國計算機學會 (CCF) 每年發布的 「CCF 推薦國際學術會議和期刊目錄」,清華的新推薦目錄引發熱議。那麼,清華發布的新目錄和CCF目錄有哪些區別呢?
  • 【收藏】2019年不容錯過的20大人工智慧/機器學習/計算機視覺等頂會時間表
    本文介紹了2019年值得關注的20個頂會,包括人工智慧、機器學習、計算機視覺、自然語言處理、體系結構等領域。目錄人工智慧/機器學習計算機視覺/模式識別自然語言處理/計算語言學體系結構數據挖掘/信息檢索計算機圖形學1.
  • CVPR2019最全整理:全部論文下載,Github源碼匯總、直播視頻、論文解讀等
    點擊文末「閱讀原文」立刻申請入群~CVPR 由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,在機器學習領域享有盛名。今年的 CVPR 將於 6 月 16 日-20 日於美國加州的長灘市舉行。論文打包下載作為計算機視覺領域的頂級學術會議,CVPR 今年共收到了 5165 篇有效提交論文,並公布了接收論文1294篇!
  • 【視頻+PPT】CVPR 2019分享會論壇實錄丨2019最值得期待的計算機視覺問題有哪些?
    20餘位論文作者在分享會現場進行了報告宣講,30多篇論文進行了海報展示與交流,還有一場精彩的圓桌論壇,就計算機視覺領域值得關注的前沿問題、發展方向、人才培養等熱點話題進行了討論。這是微軟亞洲研究院主辦的第三屆CVPR分享會,除了容納300人的羅姆樓報告廳會場座無虛席,還有數千人通過網絡觀看了本場分享會的在線直播。如果你錯過了這場乾貨滿滿的分享會,歡迎掃描二維碼觀看錄播視頻並下載PPT。
  • ICCV 2019最佳論文歸屬谷歌,中國入選論文最多,商湯57篇全球第一
    在這個全球最重要的計算機視覺頂會上(與CVPR、ECCV並列),AI熱情繼續倍速增漲,中國力量依然閃耀——除了湯曉鷗任大會主席,中國學者的入選論文總數排名第一,各項奪冠數也遙遙領先。只是這一次,最佳論文和最佳學生論文,均未出現華人身影。最佳論文由以色列理工和谷歌研究院摘取,最佳學生論文屬於美國喬治亞理工。
  • 33篇頂會論文如何做到?北大施柏鑫:計算機視覺論文投稿到接收,不可不知的關鍵環節
    主要研究方向為計算攝像學與計算機視覺,發表論文95篇,包括6篇TPAMI和33篇計算機視覺三大頂級會議論文。、BMVC、ACCV、3DV等多個計算機視覺會議的領域主席。「無論是寫論文、審論文還是作為會議領域主席、期刊編委,國內外有太多老師具備更豐富的經驗和更透徹的見解。本文(和之前的報告)僅僅是在大量借鑑前輩們分享的基礎上,談了一些個人經歷和粗淺想法,供大家快速了解計算機視覺論文從哪裡來、到哪裡去。水平有限,疏漏難免,歡迎拍磚」。