【寵粉行動】100篇神經網絡必讀論文(檢測/識別/分類/分割……)!白給!

2021-02-21 計算機信息觀察家

作為深度學習的代表算法之一,卷積神經網絡(Convolutional Neural Networks,CNN)在計算機視覺等領域上取得了當前最好的效果。

研讀卷積神經網絡的經典論文,對於學習和研究卷積神經網絡必不可缺。根據相關算法,科技情報大數據挖掘與服務系統平臺AMiner從人工智慧領域國際頂會/期刊中提取出「卷積神經網絡」相關關鍵詞,篩選推薦了 100 篇經典必讀論文,內容包含CNN在檢測/識別/分類/分割/跟蹤等領域的理論與實踐,並按被引用量進行了排序整理。

這 100 篇論文大多發表於 2015 年至 2019 年間,主要發表在 CVPR、ICCV、ICML、NeuIPS 等計算機視覺頂級學術會議上。在該領域發表論文最多的學者中,「神經網絡之父」、「深度學習鼻祖」Hinton 與 Bengio 雙雙上榜,為深度學習研究持續貢獻了力量。

下文將對這100篇論文進行按被引用量的排序並對部分作簡單評述(文末附打包下載):


*1. Fully Convolutional Networks for Semantic Segmentation |CVPR2015|引用量:13136

作者信息:UC Berkeley|Jonathan Long,Evan Shelhamer,Trevor Darrell

本篇論文是神經網絡大神 Jonathan Long 與他的博士同學 Evan Shelhamer、導師 Trevor Darrell 的代表作,獲得了 CVPR 2015 年最佳論文獎。該文的核心貢獻,在於提出了全卷積網絡(FCN)的概念,它是一種可以接受任意大小圖像並輸出與輸入等大的圖像的全卷積神經網絡,針對語義分割訓練一個端到端,點對點的網絡,達到了 state-of-the-art。這是第一次訓練端到端的 FCN,用於像素級的預測;也是第一次用監督預訓練的方法訓練 FCN

*2. Convolutional Neural Networks for Sentence Classification|EMNLP 2014|引用量:5978
論文信息:紐約大學|Yoon Kim

*3. Large-Scale Video Classification with Convolutional Neural Networks|CVPR2014|引用量:4145
作者信息:谷歌,史丹福大學|Andrej Karpathy,George Toderici,Sanketh Shetty,Thomas Leung,Rahul Sukthankar,Li Fei-Fei

該文研究了多種方法來擴展 CNN 在時域上的連通性,以利用局部時空信息,作者提出一個多解析度、新穎的框架的方式來加快訓練(計算效率)。文章的貢獻點主要有三個:

1.將 CNN 拓展,用於視頻分類;
2.使用兩種不同的解析度的幀分別作為輸入,輸入到兩個 CNN 中,在最後的兩個全連接層將兩個 CNN 統一起來;兩個流分別是低解析度的內容流和採用每一個幀中間部分的高解析度流;

3.將從自建資料庫學習到的 CNN 結構遷移到 UCF-101 數據集上面。

*4. How transferable are features in deep neural networks? |NIPS 2014|引用量:3414
作者信息:卡耐基梅隆大學,懷俄明大學,蒙特婁大學|Jason Yosinski,Jeff Clune,Yoshua Bengio,Hod Lipson

本文是 Bengio 團隊關於遷移學習(Transfer Learning)的研究,文章實驗了深度神經網絡中不同層神經元的泛化性能和特異性,研究了模型的遷移能力兩個主要影響因素,對於研究深度神經網絡特徵的可遷移性具有重要意義。


*5. Learning Spatiotemporal Features with 3D Convolutional Networks|ICCV2015|引用量:2711

作者信息:Facebook,達特茅斯學院|Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,Manohar Paluri

這篇文章介紹了在大規模有監督的視頻數據集下,訓練出了一種簡單且高效的三維卷積神經網絡的方法來學習時空特徵。

3D 卷積網絡的優勢有三點:

1)同2D 卷積網絡相比,3D 卷積網絡更適合時空特徵的學習;

2)3D 卷積網絡的每一層的卷積核的結構是齊次的,並且在很多結構中都適用;

3)將學到的特徵成為 C3D,帶有一個簡單的線性分類器,在 4 個不同的 benchmarks 上測試都實現了最好的性能,並且在另外的 2 個 benchmarks 上與目前的最好的方法相媲美。

*6. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation|引用量:2373
作者信息:劍橋大學|Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla

本文提出了一種用於像素級語義分割的深度全卷積神經網絡結構 SegNet。SegNet 的創新點在於解碼器對輸入的低解析度特徵圖的上採樣處理方式。具體來講,解碼器利用在 max-pooling 過程中計算的池化 indices,計算對應的編碼器的非線性上採樣。這個操作就省去了上採樣過程的學習。上採樣後的 map 是稀疏的,再用可學習的 filter 通過卷積計算稠密的特徵圖。

*7. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks|ECCV2016|引用量:1713
作者信息:艾倫人工智慧研究所,華盛頓大學|Mohammad Rastegari,Vicente Ordonez,Joseph Redmon,Ali Farhadi

該文針對標準卷積神經網絡提出了兩種有效的近似網絡:二元權重網絡和 XNOR 網絡。二元權重網絡中,卷積核用兩個值來近似表示,從而節省 32 倍的存儲空間。在 XNOR 網絡中,卷積核和卷積層輸入都是用兩個值(1 和 -1)表示的。XNOR 網絡主要使用二元運算進行卷積運算。這使得卷積操作速度提高了 58 倍,節省了 32 倍的內存。 

 
*8. Character-level Convolutional Networks for Text Classification|NIPS2015|引用量:1701
作者信息:紐約大學|Xiang Zhang,Junbo Zhao,Yann LeCun

*9. Towards End-To-End Speech Recognition with Recurrent Neural Networks|ICML2014|引用量:1339
作者信息:DeepMind,多倫多大學|Alex Graves,Navdeep Jaitly

*10. DRAW: A Recurrent Neural Network For Image Generation|ICML 2015|引用量:1186
作者信息:Google DeepMind|Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra

本文介紹了一種可應用於圖像生成的 Deep Recurrent Attentive Writer(DRAW)神經網絡模型,此模型能夠生成高質量的自然圖像,並提高了在 MNIST 數據集上生成模型表現的最好水平。此外,使用 SVHN 數據集訓練的 DRAW 模型生成的圖片,裸眼無法分辨其與真實數據的區別。

*11. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps|ICLR2013|引用量:1170
作者:Karen Simonyan,Andrea Vedaldi,Andrew Zisserman

*12. Neural Collaborative Filtering|引用量:1141
作者:Xiangnan He,Lizi Liao,Hanwang Zhang,Liqiang Nie,Xia Hu,Tat-Seng Chua

*13. Image Style Transfer Using Convolutional Neural Networks|CVPR2016|引用量:1107
作者:Leon A. Gatys,Alexander S. Ecker,Matthias Bethge

*14. Image Super-Resolution Using Deep Convolutional Networks|IEEE2016|引用量:1035
作者:Chao Dong,Chen Change Loy,Kaiming He,Xiaoou Tang

*15. Distilling the Knowledge in a Neural Network|引用量:1021
作者:Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean

*16. Recurrent Convolutional Neural Networks for Text Classification」AAAI2015|引用量916
作者:Siwei Lai,Liheng Xu,Kang Liu,Jun Zhao

*17. Squeeze-and-Excitation Networks|CVPR2018|引用量886
作者:Jie Hu,Li Shen,Gang Sun

*18. Convolutional Sequence to Sequence Learning|ICML2017|引用量:777
作者:Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin

*19. Non-local Neural Networks|CVPR2018|引用量:751
作者:Xiaolong Wang,Ross B. Girshick,Abhinav Gupta,Kaiming He

*20. Residual Attention Network for Image Classification|CVPR2017|引用量:568
作者:Fei Wang,Mengqing Jiang,Chen Qian,Shuo Yang,Cheng Li,Honggang Zhang,Xiaogang Wang,Xiaoou Tang

*21. Image Super-Resolution via Deep Recursive Residual Network|CVPR2017|引用量559
作者:Ying Tai,Jian Yang,Xiaoming Liu

*22. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization|ICCV2015|引用量503
作者:Alex Kendall,Matthew Grimes,Roberto Cipolla

*23. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks|引用量:483
作者:Aliaksei Severyn,Alessandro Moschitti

*24. Deformable Convolutional Networks|ICCV2017|引用量:476
作者:Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,Guodong Zhang,Han Hu,Yichen Wei

*25. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting|引用量399
作者:Xingjian Shi,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai-Kin Wong,Wang-chun Woo

*26. Fast Training of Convolutional Networks through FFTs|引用量:385
作者:Michaël Mathieu,Mikael Henaff,Yann LeCun

*26. Large Kernel Matters - Improve Semantic Segmentation by Global Convolutional Network|CVPR2017|引用量377
作者:Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,Jian Sun

*27. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition|AAAI2018|引用量353
作者:Sijie Yan,Yuanjun Xiong,Dahua Lin

*28. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation|CVPR2017|引用量:333
作者:Simon Jégou,Michal Drozdzal,David Vázquez,Adriana Romero,Yoshua Bengio

*29. Multi-Oriented Text Detection with Fully Convolutional Networks|CVPR2016|引用量:313
作者:Zheng Zhang,Chengquan Zhang,Wei Shen,Cong Yao,Wenyu Liu,Xiang Bai

*30. Learning Efficient Convolutional Networks through Network Slimming|ICCV2017|引用量310
作者:Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,Changshui Zhang

*31. Multi-View 3D Object Detection Network for Autonomous Driving|CVPR2017|引用量:276
作者:Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,Tian Xia

*32. Very Deep Convolutional Networks for End-to-End Speech Recognition|ICASSP2017|引用量:242
作者:Yu Zhang,William Chan,Navdeep Jaitly

*33. A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification|引用量:229
作者:Yingjie Zhang,Byron C. Wallace

*34. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks|ACL2015|引用量:212
作者:Yubo Chen,Liheng Xu,Kang Liu,Daojian Zeng,Jun Zhao

*35. ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression|ICCV2017|引用量208
作者:Jian-Hao Luo,Jianxin Wu,Weiyao Lin

*36. Relation Extraction: Perspective from Convolutional Neural Networks|引用量173
作者:Thien Huu Nguyen,Ralph Grishman

*37. DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation|CVPR2016|引用量:166
作者:Hao Chen 0011,Xiaojuan Qi,Lequan Yu,Pheng-Ann Heng

*38. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition|CVPR2017|引用量:159
作者:Jianlong Fu,Heliang Zheng,Tao Mei

*39. Interpretable Convolutional Neural Networks|CVPR2018|引用量:154
作者:Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu

*40. A systematic study of the class imbalance problem in convolutional neural networks|引用量:148
作者:Mateusz Buda,Atsuto Maki,Maciej A. Mazurowski

……

在後臺回復520,即可獲得上述40篇和未列舉的60篇CNN必讀論文合集下載連結。

相關焦點

  • 大盤點|卷積神經網絡必讀的100篇經典論文,包含檢測/識別/分類/分割多個領域
    1998 年,Yann LeCun提出LeNet-5,將 BP 算法應用到神經網絡結構的訓練上,形成當代CNN雛形。2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。
  • 卷積神經網絡必讀的40篇經典論文,包含檢測/識別/分類/分割多個領域
    2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。在 2016 年,CNN 再次給人們一個驚喜:谷歌研發的基於深度神經網絡和搜索樹的智慧機器人「AlphaGo」在圍棋上擊敗人類。
  • 大盤點|卷積神經網絡必讀的40篇經典論文,包含檢測/識別/分類/分割多個領域
    1998 年,Yann LeCun提出LeNet-5,將 BP 算法應用到神經網絡結構的訓練上,形成當代CNN雛形。2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    Motivation深度學習技術已經成為當前人工智慧領域的一個研究熱點,其在圖像識別、語音識別、自然語言處理等領域展現出了巨大的優勢,並且仍在繼續發展變化。自 Google 提出 Cloud AutoML,NAS(Neural Architecture Search,神經網絡架構搜索)也取得重大進展,但更多的是在圖像分類和自然語言處理方面的應用。
  • 機器學習必讀TOP 100論文清單:高引用、分類全、覆蓋面廣丨GitHub...
    Fergushttp://arxiv.org/pdf/1311.2901這篇論文的目的,就是通過特徵可視化,查看精度變化,從而知道CNN學習到的特徵如何。這篇論文闡述了CNN的每一層到底學習到了什麼特徵,然後作者通過可視化進行調整網絡。
  • 今日Paper|神經網絡結構搜索;視覺目標;人物識別;視頻3D人體姿態...
    目錄基於進化算法和權值共享的神經網絡結構搜索檢測視頻中關注的視覺目標包含狀態信息的弱監督學習方法進行人物識別基於解剖學感知的視頻3D人體姿態估計RandLA-Net:一種新型的大規模點雲語義分割框架基於進化算法和權值共享的神經網絡結構搜索論文名稱:CARS: Continuous Evolution for Efficient Neural Architecture Search作者:Zhaohui發表時間
  • 詳解計算機視覺五大技術:圖像分類、對象檢測、目標跟蹤、語義分割和實例分割
    生物識別技術:指紋、虹膜和人臉匹配仍然是生物識別領域的一些常用方法。智能汽車:計算機視覺仍然是檢測交通標誌、燈光和其他視覺特徵的主要信息來源。視覺識別是計算機視覺的關鍵組成部分,如圖像分類、定位和檢測。神經網絡和深度學習的最新進展極大地推動了這些最先進的視覺識別系統的發展。
  • ...ACEnet上下文編碼網絡;卷積網絡生物系統;欺詐檢測;DialogueGCN等
    目錄ACEnet:用於神經解剖分割的解剖上下文編碼網絡圖延長卷積網絡:圖上的顯式多尺度機器學習及其在生物系統建模中的應用用於欺詐檢測的交織序列RNNs DialogueGCN:用於對話情感識別的圖卷積神經網絡模型
  • CVPR 2020文本圖像檢測與識別論文/代碼
    ,算法主要領域:圖像與視頻處理,圖像分類&檢測&分割、視覺目標跟蹤、視頻內容分析、人體姿態估計、模型加速、網絡架構搜索(NAS)、生成對抗(GAN)、光學字符識別(OCR)、人臉識別、三維重建等方向。
  • 百度Apollo全新車輛識別方法等多篇論文收錄CVPR
    據統計,會議往年的平均錄取率不超過30%,而根據CVPR2020官方公布論文收錄結果,本屆CPVR共接收6656篇論文,中選1470篇,「中標率」只有22%,堪稱十年來最難入選的一屆。然而,在論文接收率下降的同時,中國科技企業被錄取論文數量卻不降反增,百度作為AI代表企業今年中選22篇,比去年的17篇增加了5篇。
  • NIPS2018深度學習(20)|亮點: 雙向RNN時間序列;對抗自編碼異常檢測;脈衝神經網絡(論文及代碼)
    這篇文章提出一種新的適用於時間序列的缺失值填補方法,簡稱BRITS,該方法基於循環神經網絡。這種方法利用雙向循環動力系統直接學習缺失值,不需要任何特定的假設。填補值可以看做RNN圖的變量,利用反向傳播可以高效更新。
  • 論文精讀 | LaneNet 端到端車道線檢測的實例分割方法
    透個消息,近期會出一篇關於OpenCV實現車道線檢測的文章,檢測效果很贊,代碼也會上傳到github上;還會出一篇Amusi整理的關於車道線檢測最全的資料集錦(含教程、論文和代碼)。為什麼說Amusi與這篇論文有緣分呢?因為數月前,Amusi就在論文速遞中整理了這篇論文(沒有發布)。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    新智元專欄 作者:張皓【新智元導讀】本文作者來自南京大學計算機系機器學習與數據挖掘所(LAMDA),本文直觀系統地梳理了深度學習在計算機視覺領域四大基本任務中的應用,包括圖像分類、定位、檢測、語義分割和實例分割
  • AOGNets:首個語法生成網絡,視覺識別優於當前最先進框架
    研究人員開發出了首個通過語法引導的神經網絡生成器AOGNets,它能更有效地在原始數據中提取信息,在圖像分類、目標檢測和分割方面的表現優於包括ResNets、DenseNets、ResNeXts和DualPathNets在內最先進的神經網絡。北卡羅萊納州立大學的研究人員開發了一個通過語法指導的網絡生成器來打造深度神經網絡的新框架。
  • Facebook 最新論文:Mask R-CNN實例分割通用框架,檢測,分割和特徵...
    近日, FAIR部門的研究人員在這一領域又有了新的突破——他們提出一種目標實例分割(object instance segmentation)框架Mask R-CNN,該框架較傳統方法操作更簡單、更靈活。研究人員把實驗成果《Mask R-CNN》發布在了arXiv上,並表示之後會開源相關代碼。以下為AI科技評論據論文內容進行的部分編譯。
  • 三篇論文,縱覽深度學習在表格識別中的最新應用
    其中,第一篇文章重點關注表格識別任務的數據集構建,第二篇文章聚焦的是表格檢測與結構識別任務,第三篇文章重點研究表格結構識別任務。然後,將變換後的圖像標準化,使其值介於 0 和 1,以將其輸入到後續的遞歸神經網絡。1.2 分類器和之前兩篇文章不同,分類器的核心是利用循環神經網絡識別行和列間的分割區域。作者首先考慮的是門控遞歸單元(GRU)和長短期記憶網絡(Long Short-Term Memory ,LSTM)這兩種循環神經網絡。
  • 22篇入選CVPR 2020,百度 15 篇精選論文詳解
    今年,在6656篇有效投稿中,共有1470篇論文被接收,接收率為22%左右,相較去年25%的入選率,同比下降3%。本屆大會中,百度共有22篇論文入選,涉及主題涵蓋人臉檢測&識別、視頻理解&分析、圖像超分辨、及自動駕駛中的車輛檢測、場景實例級分割等領域。以下為其中 15 篇入選論文介紹。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    通過使用端到端網絡,計算機視覺進一步修正了網絡共享有用信息的方法。該方案降低了多進程全方位子任務分類的計算需求。以下是兩篇使用了該方法的論文。100 Layers Tiramisu[54] 是一個全卷積 DenseNet,其中每一層都以前饋的方式與其它層級相連接。該網絡在多個標準數據集上都以更少參數和訓練/處理過程達到了目前最先進水平。
  • 深度學習必讀10篇經典算法論文總結
    但是要讀什麼論文?我從哪說起呢?在本文中,我將介紹10篇最佳論文供初學者閱讀。通過這些論文,我們可以看到該領域是如何發展的,以及研究人員如何根據以前的研究成果提出新的想法。但是,即使您已經在此領域工作了一段時間,對您進行大範圍整理仍然很有幫助。
  • 實例分割與物體檢測的統一——Mask-RCNN
    深度學習在計算機視覺上的運用主要是卷積神經網絡,必須強調的是卷積神經網絡的應用並不僅僅局限於圖像,在音頻、視頻方面也有不少的應用,甚至NLP中也有使用卷積神經網絡的例子,所以說對AI從業者來說學習這些還是很有好處的。在這篇文章中,我們以Mask-RCNN[1]的發展歷史為線索探討計算機視覺問題中的圖像分割問題以及物體檢測,並最後簡單講解一些我在醫學圖像領域使用Mask-RCNN的例子。