機器學習和深度學習引用量最高的20篇論文(2014-2017)

2021-02-13 機器之心

選自Kdnuggets

作者:Thuy T. Pham

機器之心編譯

參與:邵明、黃小天


機器學習和深度學習的研究進展正深刻變革著人類的技術,本文列出了自 2014 年以來這兩個領域發表的最重要(被引用次數最多)的 20 篇科學論文,以饗讀者。

機器學習,尤其是其子領域深度學習,在近些年來取得了許多驚人的進展。重要的研究論文可能帶來使全球數十億人受益的技術突破。這一領域的研究目前發展非常快,為了幫助你了解進展狀況,我們列出了自 2014 年以來最重要的 20 篇科學論文。

我們篩選論文的標準是來自三大學術搜尋引擎谷歌學術(scholar.google.com)、微軟學術(academic.microsoft.com)和 semanticscholar.org 的引用量。由於不同搜尋引擎的引用量數據各不相同,所以我們在這裡僅列出了微軟學術的數據,其數據比其它兩家稍低一點。

我們還給出了每篇論文的發表時間、高度有影響力的引用數量(HIC)和引用速度(CV),以上數據由 semanticscholar.org 提供。HIC 表示了以此為基礎的論文情況和與其它論文的關係,代表了有意義的引用。CV 是最近 3 年每年引用數量的加權平均。有些引用的 CV 是 0,那是因為 semanticscholar.org 上沒有給出數據。這 20 篇論文中大多數(包括前 8 篇)都是關於深度學習的,但同時也很多樣性,僅有一位作者(Yoshua Bengio)有 2 篇論文,而且這些論文發表在很多不同的地方:CoRR (3)、ECCV (3)、IEEE CVPR (3)、NIPS (2)、ACM Comp Surveys、ICML、IEEE PAMI、IEEE TKDE、Information Fusion、Int. J. on Computers & EE、JMLR、KDD 和 Neural Networks。前 2 篇論文的引用量目前遠遠高於其它論文。注意第 2 篇論文去年才發表!要了解機器學習和深度學習的最新進展,這些論文一定不能錯過。

1. 論文:Dropout:一種防止神經網絡過擬合的簡單方法(Dropout: a simple way to prevent neural networks from overfitting)

連結:http://suo.im/3o6l4B

作者:Hinton, G.E., Krizhevsky, A., Srivastava, N., Sutskever, I., & Salakhutdinov, R. (2014). Journal of Machine Learning Research, 15, 1929-1958.

數據:引用:2084、HIC:142、CV:536

摘要:其關鍵思想是在神經網絡的訓練過程中隨機丟棄單元(連同它們的連接點)。這能防止單元適應過度,顯著減少過擬合,並相對於其它正則化方法有重大改進。

2. 論文:用於圖像識別的深度殘差學習(Deep Residual Learning for Image Recognition)

連結:http://suo.im/1JrYXX

作者:He, K., Ren, S., Sun, J., & Zhang, X. (2016). CoRR

數據:引用:1436、HIC:137、CV:582

摘要:目前的深度學習網絡層數越來越多,越來越難以訓練,因此我們提出了一種減緩訓練壓力的殘差學習框架。我們明確地將這些層重新定義為與輸入層有關的學習殘差函數,而不是學習未被引用的函數。與此同時,我們提供了全面的經驗證據以表明殘差網絡更容易優化,並可通過增加其層數來提升精確度。

3. 論文:批標準化:通過減少內部協移加速深度神經網絡訓練(Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift)

連結:http://suo.im/3sJtk1

作者:Sergey Ioffe, Christian Szegedy (2015) ICML.

數據:引用:946、HIC:56、CV:0

摘要:訓練深度神經網絡的過程很複雜,原因在於每層的輸入分布隨著訓練過程中引起的前面層的參數變化而變化。我們把這種現象稱為內部協變量轉移(internal covariate shift),並可利用歸一化層輸入來解決此問題。通過將此方法應用到最先進的圖像分類模型,批標準化在訓練次數減少了 14 倍的條件下達到了與原始模型相同的精度,這表明批標準化具有明顯的優勢。

4. 論文:利用卷積神經網絡進行大規模視頻分類(Large-Scale Video Classification with Convolutional Neural Networks)

連結:http://suo.im/25lfXF

作者:Fei-Fei, L., Karpathy, A., Leung, T., Shetty, S., Sukthankar, R., & Toderici, G. (2014). IEEE Conference on Computer Vision and Pattern Recognition

數據:引用:865、HIC:24、CV:239

摘要:針對圖像識別問題,卷積神經網絡(CNN)被認為是一類強大的模型。受到這些結果的激勵,我們使用了一個包含 487 個類別、100 萬 YouTube 視頻的大型數據集,對利用 CNN 進行大規模視頻分類作了一次廣泛的實證評估。

5. 論文:Microsoft COCO:語境中的通用對象(Microsoft COCO: Common Objects in Context)

連結:http://suo.im/DAXwA

作者:Belongie, S.J., Dollár, P., Hays, J., Lin, T., Maire, M., Perona, P., Ramanan, D., & Zitnick, C.L. (2014). ECCV.

數據:引用:830、HIC:78、CV:279

摘要:我們展示了一個新的數據集,通過將對象識別問題放入更廣泛的場景理解問題的語境中,以推進當前對象識別領域中最先進的技術。我們的數據集包含了 91 種對象類型的照片,這些圖片對於一個 4 歲大的孩子而言,很容易識別。最後,我們利用可變形部件模型(DPM)為邊界框和分割檢測結果提供了一個基線性能分析。

6. 論文:使用場景資料庫學習場景識別中的深層特徵(Learning deep features for scene recognition using places database)

連結:http://suo.im/2EOBTa

作者:Lapedriza, À., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. (2014). NIPS.

數據:引用:644、HIC:65、CV:0

摘要:我們引入了一個以場景為中心的新資料庫,這個資料庫稱為「Places」,裡面包含了超過 700 萬個標註好了的場景。我們提議使用新方法去比較圖像數據集的密度和多樣性,以表明 Places 與其它場景資料庫一樣密集並更具多樣性。

7. 論文:生成對抗網絡(Generative adversarial nets)

連結:http://suo.im/3YS5F6

作者:Bengio, Y., Courville, A.C., Goodfellow, I.J., Mirza, M., Ozair, S., Pouget-Abadie, J., Warde-Farley, D., & Xu, B. (2014) NIPS.

數據:引用:463、HIC:55、CV:0

摘要:通過對抗過程,我們提出了一個評估生成模型的新框架。在此框架中,我們同時訓練兩個模型:生成模型 G 捕獲數據分布;判別模型 D 評估樣本示來自訓練數據集(而不是來自 G 中)的概率。

8. 論文:通過內核相關濾波器實現高速跟蹤(High-Speed Tracking with Kernelized Correlation Filters)

連結:http://suo.im/2BBOea

作者:Batista, J., Caseiro, R., Henriques, J.F., & Martins, P. (2015). CoRR

數據:引用:439、HIC:43、CV:0

摘要:大多數的現代追蹤器,為應對自然圖像中的變化,典型的方法是採用翻譯和縮放樣本補丁訓練分類器。我們針對包含成千上萬個翻譯補丁數據集提出了一個分析模型。結果表明結果數據矩陣是循環的,我們可以利用離散傅立葉變換對角化已有的循環矩陣,將存儲和計算量降低了幾個數量級。

9. 論文:多標籤學習算法綜述(A Review on Multi-Label Learning Algorithms)

連結:http://suo.im/3LgpGf

作者:Zhang, M., & Zhou, Z. (2014). IEEE TKDE

數據:引用:436、HIC:7、CV:91

摘要:本論文的主要目的是對多標籤學習問題進行及時回顧。在多標籤學習問題中,一個實例代表一個樣本,同時,一個樣本與一組標籤相關聯。

10. 論文:深層神經網絡特徵的可傳遞性(How transferable are features in deep neural networks)

連結:http://suo.im/aDLgu

作者:Bengio, Y., Clune, J., Lipson, H., & Yosinski, J. (2014) CoRR

數據:引用:402、HIC:14、CV:0

摘要:我們用實驗量化了深層卷積神經網絡中每層神經元的一般性與特異性,並報告了一些令人驚訝的結果。可傳遞性受到兩個不同問題的不利影響:(1)以犧牲目標任務的性能為代價,實現更高層神經元對原始人物的專業化,這是預料之中的;(2)與分裂共同適應神經元(co-adapted neuron)之間的網絡有關的優化困難,這是預料之外的。

11. 論文:我們需要數百種分類器來解決真實世界的分類問題嗎?(Do we need hundreds of classifiers to solve real world classification problems)

連結:http://suo.im/2w14RK

作者:Amorim, D.G., Barro, S., Cernadas, E., & Delgado, M.F. (2014). Journal of Machine Learning Research

數據:引用:387、HIC:3、CV:0

摘要:我們評估了來自 17 個「家族」(判別分析、貝葉斯、神經網絡、支持向量機、決策樹、基於規則的分類器、提升、裝袋、堆疊、隨機森林、集成方法、廣義線性模型、最近鄰、部分最小二乘和主成分回歸、邏輯和多項回歸、多元自適應回歸樣條法等)的 179 個分類器。我們使用了來自 UCI 資料庫中的 121 個數據集來研究分類器行為,這些行為不依賴於所選取的數據集。最終勝出的是使用 R 語言實現的隨機森林方法和 C 中使用 LibSVM 實現的帶有高斯內核的 SVM。

12. 論文:知識庫:一種概率知識融合的網絡規模方法(Knowledge vault: a web-scale approach to probabilistic knowledge fusion)

連結:http://suo.im/3qCSs6

作者:Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., ... & Zhang, W.(2014, August). In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining ACM

數據:引用:334、HIC:7、CV:107

摘要:我們引入了一個網絡規模的概率知識庫,它將網頁內容提取(通過文本分析、表格數據、頁面結構和人工注釋獲得)與來自現存知識庫中的先驗知識相結合,以構建新知識庫。我們部署監督學習方法去融合不同的信息源。該知識庫比先前發布的任何結構化知識庫大得多,並且具有概率推理系統,該概率推理系統能計算事實準確性的校準概率。

13. 論文:用於高維數據的可擴展最近鄰算法(Scalable Nearest Neighbor Algorithms for High Dimensional Data)

連結:http://suo.im/hjTa4

作者:Lowe, D.G., & Muja, M. (2014). IEEE Trans. Pattern Anal. Mach. Intell.

數據:引用:324、HIC:11、CV:69

摘要:我們提出了用於近似最近鄰匹配的新算法,並將其與以前的算法進行比較。為了將其擴展到大型數據集(不適合單機的存儲處理)上,我們提出了一種分布式最近鄰匹配框架,該框架可以與論文中描述的任何算法一起使用。

14. 論文:回顧超限學習機的發展趨勢(Trends in extreme learning machines: a review)

連結:http://suo.im/3WSEQi

作者:Huang, G., Huang, G., Song, S., & You, K. (2015). Neural Networks

數據:引用:323、HIC:0、CV:0

摘要:我們的目標是報告超限學習機(ELM)的理論研究和實踐進展所處的現狀。除了分類和回歸,ELM 最近已經被擴展到集群、特徵選擇、代表性學習和許多其他學習任務。由於其驚人的高效性、簡單性和令人印象深刻的泛化能力,ELM 已經被廣泛用於各種領域,如生物醫學工程、計算機視覺、系統識別、控制和機器人。

15. 論文:一份關於概念漂移適應的調查(A survey on concept drift adaptation)

連結:http://suo.im/3bQkiz

作者:Bifet, A., Bouchachia, A., Gama, J., Pechenizkiy, M., & Zliobaite, I. ACM Comput. Surv., 2014

數據:引用:314、HIC:4、CV:23

摘要:該文全面介紹了概念漂移適應。它指的是當輸入數據與目標變量之間的關係隨時間變化之時的在線監督學習場景。

16. 論文:深度卷積激活特徵的多尺度無序池化(Multi-scale Orderless Pooling of Deep Convolutional Activation Features)

連結:http://suo.im/3gNw8e

作者:Gong, Y., Guo, R., Lazebnik, S., & Wang, L. (2014). ECCV

數據:引用:293、HIC:23、CV:95

摘要:為了在不降低其辨別力的同時改善卷積神經網絡激活特徵的不變性,本文提出了一種簡單但有效的方案:多尺度無序池化(MOP-CNN)。

17. 論文:同時檢測和分割(Simultaneous Detection and Segmentation)

連結:http://suo.im/4b0ye0

作者:Arbeláez, P.A., Girshick, R.B., Hariharan, B., & Malik, J. (2014) ECCV

數據:引用:286、HIC:23、CV:94

摘要:本文的目標是檢測圖像中一個類別的所有實例,並為每個實例標記屬於它的像素。我們稱將此任務稱為同時檢測和分割(SDS)。

18. 論文:一份關於特徵選擇方法的調查(A survey on feature selection methods)

連結:http://suo.im/4BDdKA

作者:Chandrashekar, G., & Sahin, F. Int. J. on Computers & Electrical Engineering

數據:引用:279、HIC:1、CV:58

摘要:在文獻中,有許多特徵選擇方法可用,由於某些數據集具有數百個可用的特徵,這會導致數據具有非常高的維度。

19. 論文:用回歸樹集成方法在一毫秒內實現人臉校準(One Millisecond Face Alignment with an Ensemble of Regression Trees)

連結:http://suo.im/1iFyub

作者:Kazemi, Vahid, and Josephine Sullivan, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014

數據:引用:277、HIC:15、CV:0

摘要:本文解決了單個圖像的人臉校準問題。我們展示了怎樣使用回歸樹集成來直接從像素強度的稀疏子集估計面部的地標位置,並通過高質量的預測實現了超實時性能。

20. 論文:關於作為混合系統的多分類器系統的調查(A survey of multiple classifier systems as hybrid systems)

連結:http://suo.im/3c9EFD

作者:Corchado, E., Graña, M., & Wozniak, M. (2014). Information Fusion, 16, 3-17.

數據:引用:269、HIC:1、CV:22

摘要:模式分類領域目前關注的焦點是幾種分類器系統的組合,構建這些分類器系統可以使用相同或者不同的模型和/或數據集構建。

原文地址:http://www.kdnuggets.com/2017/04/top-20-papers-machine-learning.html



本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:editor@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • ICLR 引用量最高的10篇論文!Adam霸榜!引用量破5萬
    10篇論文均已整理完畢,詳見:接下來,Amusi 將繼續整理其他頂會,像NeurIPS、ICLR、ICML上也有很多優質的CV論文,而且有更多深度學習、機器學習基礎性研究工作。本文就來盤點ICLR 2015-2019年引用量最高的10篇論文。根據此數據,一方面能看出這段深度學習黃金時期的研究熱點,另一方面查漏補缺,看看這些必看的Top級論文是不是都掌握了。
  • NeurIPS 引用量最高的10篇論文!Faster R-CNN登頂!何愷明和孫劍均有兩篇論文入圍
    10篇論文均已整理完畢,詳見:接下來,Amusi 將繼續整理其他頂會,像NeurIPS、ICLR、ICML上也有很多優質的CV論文,而且有更多深度學習、機器學習基礎性研究工作。這個排名是依據過去五年發表研究的數據(覆蓋2015-2019年發表的文章),並包括截止2020年6月在谷歌學術中被索引的所有文章的引用量。本文就來盤點NeurIPS 2015-2019年引用量最高的10篇論文。
  • ICCV 引用量最高的10篇論文!何愷明兩篇一作論文:Mask R-CNN和PReLU,Facebook佔據四席!
    10篇論文,詳見:何愷明ResNet登頂,YOLO佔據兩席!各位CVers反映內容很贊,於是Amusi 快速整理了ICCV 引用量最高的10篇論文。在谷歌發布的2020年的學術指標(Scholar Metrics)榜單,ICCV 位列總榜第29位,是計算機視覺領域排名第二的大會!
  • ECCV 引用量最高的10篇論文!SSD登頂!何愷明ResNet改進版位居第二
    重磅乾貨,第一時間送達 前言 前兩天,Amusi 整理了CVPR 和 ICCV 引用量最高的10篇論文,分別詳見: 眾所周知,CV領域的三大頂會就是:CVPR、ICCV和
  • 近200篇機器學習&深度學習資料分享
    具體內容推薦閱讀:http://intelligent-optimization.org/LIONbook/《深度學習與統計學習理論》介紹:作者是來自百度,不過他本人已經在 2014 年 4 月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.
  • Hinton、Bengio、何愷明等經典論文貢獻:機器學習必讀TOP100論文
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI想要入門機器學習,奈何領域的新論文太多,不知道該看哪一篇?自2017年以來,超越SOTA的方法天天有,但往往針對性非常強,不一定是顛覆機器學習圈的重要成果。
  • 用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼
    數據顯示,截至 2014 年底的時候,arXiv 已經達到了一百萬篇以上的論文藏量,並且還在以每月 8000 篇的速率增長。算是目前全球最具規模的論文資料庫之一。受此啟發,碰巧我手邊正好有一份 arXiv 論文數據集,它收集了過去五年中機器學習相關的 28303 篇論文。那麼與谷歌趨勢類似,從這些論文中,我們能否看到一些機器學習領域的科研發展趨勢呢?我就此進行了詳細的數據分析,發現這個結果相當有趣,因此在這裡把它分享出來。論文總量首先我們看一下論文數量。
  • 德國研究者用1.7萬篇arXiv論文預測機器學習...
    近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。
  • 論文主題、引用量、中國機構 & 華人學者,KDD 2020 關鍵數據搶先看!
    讓我們看看熱門主題中那些引用量最高的文章:1、圖神經網絡論文標題:Connecting the Dots:Multivariate Time Series Forecasting with Graph Neural Networks 論文連結:https://www.aminer.cn/pub/
  • 論文主題、引用量、中國機構&華人學者,KDD 2020 關鍵數據搶先看!
    投稿排名前五的主題為: 圖神經網絡:15 篇 圖形:13 篇 圖嵌入:9 篇 推薦:7 篇 表示學習:6 篇 讓我們看看熱門主題中那些引用量最高的文章
  • 卷積神經網絡必讀的40篇經典論文,包含檢測/識別/分類/分割多個領域
    2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。在 2016 年,CNN 再次給人們一個驚喜:谷歌研發的基於深度神經網絡和搜索樹的智慧機器人「AlphaGo」在圍棋上擊敗人類。
  • 【寵粉行動】100篇神經網絡必讀論文(檢測/識別/分類/分割……)!白給!
    作為深度學習的代表算法之一,卷積神經網絡(Convolutional Neural Networks,CNN)在計算機視覺等領域上取得了當前最好的效果。研讀卷積神經網絡的經典論文,對於學習和研究卷積神經網絡必不可缺。
  • NeurIPS 2017 論文 2018 年引用量排名揭曉,這裡是排名前三的論文...
    今年的會議在主題活動、投稿論文數量和參會人數上,相比往年都上了一個新臺階。NeurIPS 2018 吸引了近九千人參加,最終 1010 篇論文被接收,其中,有四篇論文被評為最佳論文,接收的覆蓋了十大研究領域。看完新論文,別忘舊論文。
  • 大盤點|卷積神經網絡必讀的100篇經典論文,包含檢測/識別/分類/分割多個領域
    2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。在 2016 年,CNN 再次給人們一個驚喜:谷歌研發的基於深度神經網絡和搜索樹的智慧機器人「AlphaGo」在圍棋上擊敗人類。
  • 百篇最值得一讀的「認知圖譜」經典論文
    那麼,想深入學習和研究認知圖譜,研讀該領域的經典論文,對於研究者和從業者都必不可缺。經過我們對人工智慧領域國際頂會/期刊中「認知圖譜」相關關鍵詞論文的計算,以及熱心讀者徐菁博士的整理,AMiner 推出了 100 篇認知圖譜經典必讀論文。這些論文可以說基本都是經典中的經典,他們多是領域大佬+頂級會議的組合,讀完它們,相信你對認知圖譜的認認識肯定會有質的飛越。
  • 大盤點|卷積神經網絡必讀的40篇經典論文,包含檢測/識別/分類/分割多個領域
    2012 年,在 Imagenet 圖像識別大賽中,Hinton 組的論文中提到的 Alexnet 引入了全新的深層結構和 dropout 方法,將 error rate 從 25% 以上提升到了 15%,一舉顛覆了圖像識別領域,CNN自此聲名大噪並蓬勃發展。在 2016 年,CNN 再次給人們一個驚喜:谷歌研發的基於深度神經網絡和搜索樹的智慧機器人「AlphaGo」在圍棋上擊敗人類。
  • 機器學習必讀TOP 100論文清單:高引用、分類全、覆蓋面廣丨GitHub...
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI想要入門機器學習,奈何領域的新論文太多,不知道該看哪一篇?自2017年以來,超越SOTA的方法天天有,但往往針對性非常強,不一定是顛覆機器學習圈的重要成果。
  • 【乾貨薈萃】機器學習&深度學習知識資料大全集(一)(論文/教程/代碼/書籍/數據/課程等)
    【導讀】轉載來自ty4z2008(GItHub)整理的機器學習&深度學習知識資料大全薈萃,包含各種論文、代碼、視頻、書籍、文章、數據等等。是學習機器學習和深度學習的必備品!具體內容推薦閱讀:http://intelligent-optimization.org/LIONbook/介紹:作者是來自百度,不過他本人已經在2014年4月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支持向量機/統計學習理論有什麼聯繫?那麼應該立即看看這篇文章.
  • 【PyTorch 挑戰 TensorFlow】28303 篇 arXiv 論文看深度學習 6 大趨勢
    你是否用過谷歌趨勢(Google Trends)(https://trends.google.com/trends/?cat=)呢?它的功能很酷:只需要輸入關鍵詞,就可以看到該詞的搜索量隨時間變化的情況。