用兩萬篇論文告訴你:機器學習在過去五年中發生了什麼

2020-12-16 雷鋒網

arXiv.org 是一個專門收集物理學、數學、計算機科學與生物學論文預印本的網站。數據顯示,截至 2014 年底的時候,arXiv 已經達到了一百萬篇以上的論文藏量,並且還在以每月 8000 篇的速率增長。算是目前全球最具規模的論文資料庫之一。

近日,來自史丹福大學計算機學院的博士畢業生、OpenAI 的高級科學家 Andrej Karpathy 基於一份 arXiv 機器學習論文大數據,從論文數量、開源框架、數學模型和優化算法等多個方面對過去五年中的機器學習變化趨勢進行了詳細分析,並將分析結果發布在個人博客上。以下內容整理自該博客,雷鋒網編譯。

想必你一定聽說過谷歌趨勢(Google Trends)或者百度指數這種工具,任意輸入一個關鍵詞,就能立刻看到關於該詞在過去幾個月甚至幾年之內的變化趨勢。受此啟發,碰巧我手邊正好有一份 arXiv 論文數據集,它收集了過去五年中機器學習相關的 28303 篇論文。那麼與谷歌趨勢類似,從這些論文中,我們能否看到一些機器學習領域的科研發展趨勢呢?我就此進行了詳細的數據分析,發現這個結果相當有趣,因此在這裡把它分享出來。

論文總量

首先我們看一下論文數量。在過去五年中,arXiv 收集的機器學習論文數量變化情況如下圖所示。

從上圖可以看到,論文總數在 2017 年 3 月出現了一次激增,從時間上看可能是由於 NIPS 和 ICML 等大型會議的論文提交截止日期正好在 3 月。而且有一點需要說明的是,arXiv 的論文數據集雖然全面,但也並不能完全代表整個機器學習行業的變化趨勢,因為畢竟不是所有人都習慣於將自己的論文投遞到 arXiv 網站上。不過,從上圖我們仍然可以看到一個明顯的上升趨勢,這說明機器學習的熱度的確在持續地上升中。

下面我們將以這些論文作為研究材料,看看其中包含著怎樣的變化趨勢。

深度學習框架

首先看看深度學習框架的情況。這裡我記錄了在 2017 年 3 月上傳的所有論文中(包括參考書目和論文內容)提到的機器學習框架情況:

可以看到,在 2017 年 3 月份提交的所有論文中大約有 10% 都提到了 TensorFlow。當然,並不是每一篇論文都聲明了框架的使用,但是如果我們假設論文以某一固定的概率分布來聲明框架,並且這個概率與框架本身無關的話,那麼大概有高達 40% 的社區都在使用 TensorFlow(如果也算上用 TensorFlow 作為 Keras 後端的論文,這一比例將會更大)。下面是這些框架隨時間變化的趨勢:

可以看到,Theano 已經高速發展了一段時間了,但近期它的增速正在放緩。Caffe 從 2014 年前後開始快速爆發,但在過去幾個月中已經被強大的 TensorFlow 反超。Torch(以及最近的 PyTorch)也處於上升期,雖然增速略顯緩慢,不過增長穩定。我估計再過幾個月再來看這個結果會更有趣,因為根據我的估計,未來 Caffe 和 Theano 將會緩慢衰落,而由於 PyTorch 的崛起,TensorFlow 的增速可能會放緩。

卷積神經網絡模型(CNN)

下面再看一下卷積神經網絡的情況,從下面的圖表中可以清楚地看到,作為 CNN 領域裡重要裡程碑的 ResNets(深度殘差網絡)在 2016 年底的激增情況,在 2017 年 3 月提交的所有論文中甚至有大約 9% 都提到了 ResNets。

另外,這裡還能看到在谷歌 InceptionNet 之前,實際上已經有論文提到了 inception 的概念。

優化算法

在優化算法方面,Adam 算法可以算是應用最多的一個,大約有高達 23% 的論文都提到了它。這裡需要說明的是,在實際使用中 Adam 算法的採用率可能更高,因為許多論文都不會顯式地聲明優化算法,更有一部分論文甚至不會闡述關於神經網絡優化的內容。另外,從圖表中還能看出,在 2014 年 12 月 Adam 優化算法被正式提出之前,實際上也有一些論文提到了 「Adam」 關鍵詞,它的概率大約維持在 5% 左右,我猜想可能是因為有許多作者的名字也叫 Adam 的緣故。

研究者

這裡我還很好奇地研究了一下深度學習領域各位大牛的名字在論文中的變化情況,結果如下圖所示。需要說明的是,這裡的僅根據關鍵詞統計的方式很粗糙,另外我還做了一些歸一化操作。

從圖表中可以看到,在所有提交的論文中,大約有 35% 提到了 bengio,但這裡實際上有兩個人: Samy 和 Yoshua,圖中是兩人加起來的結果。另外需要特別指出的是,在所有新論文中有超過 30% 都提到了 Geoff Hinton 大神,這一點很強大。

關鍵詞

最後一部分是關鍵詞。這裡我首先統計了所有一元關鍵詞和二元關鍵詞在論文中的出現情況 ,並對當下和一年之前這些詞彙的最大採用率做了對比。這裡我作為基準採用的論文都是一些近兩年被引用次數最高的優秀論文。以下是一些排名靠前的關鍵詞:

以 ResNet 舉例來說,它的相對熱度之所以是 8.17,是因為它在 2016 年 3 月所有論文中的採用比是 1.044%,而到了今年 3 月,它的採用比則增長到了 8.53%,用兩個百分比相除,就得到了 8.17。

從以上圖表可以看出,在過去一年中最火熱的機器學習創新技術包括:ResNets、GAN、Adam 和 BatchNorm。在研究方向上熱詞包括:風格轉換(style transfer)、深度強化學習(deep RL)、神經網絡翻譯以及圖像生成等。最後,在模型方面可以看到:全卷積網絡(FCN)、 LSTMs/GRUs、Siamese Nets 以及 Encoder decoder nets等熱詞。

與之相反,哪些關鍵詞在過去一年中出現了下滑,變成了最冷門的關鍵詞?我整理了以下排名:

可以看到,fractal(分形) 和 bayesian(貝葉斯)相關的內容在近一年的時間中熱度衰減嚴重

總結

話說,看完了所有的分析結果,你不趕緊寫一篇基於全卷積神經網絡、BatchNorm、ResNet 和 GAN 技術,通過 Adam 算法優化,並應用於風格轉換的論文麼 :)

來源:medium,雷鋒網(公眾號:雷鋒網)(公眾號:雷鋒網)編譯

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 文科生用機器學習做論文,該寫些什麼?
    下文我會一併分享給你。你可能會奇怪——老師,這東西針對你學生問題寫的,為什麼要分享出來呢?因為自從我開始在網上寫數據科學教程以來,收穫了許多讀者的反饋。從這些反饋中,我看到了來自許多專業的同學,特別是那些「文科生」,都在努力掌握機器學習方法,並且應用到自己的研究,甚至是畢業論文中。
  • 如何高效閱讀機器學習論文?
    看到這篇文章,我認為你準備入門機器學習算法崗,或者已經入門希望通過閱讀論文來提高自己。
  • 機器學習研究者的養成指南,吳恩達建議這麼讀論文
    >花時間思考哪些研究能夠產出成果;對於最後一點,我們可以自問「理論在什麼時候是有用的」、「實驗結果普遍嗎」、「為什麼一些方法廣泛被採納,其它又被遺忘」。研究是條旅途研究是一條漫漫長路,在這條路上可能發現新算法、發篇新論文,也可能是直到最後才能知道一個結果。為了在這條旅途中開發新的算法和見解,你需要在很長一段時間內把精力集中在一個問題上。
  • 什麼是小樣本學習?這篇綜述文章用166篇參考文獻告訴你答案
    機器之心報導參與:魔王什麼是小樣本學習?它與弱監督學習等問題有何差異?其核心問題是什麼?來自港科大和第四範式的這篇綜述論文提供了解答。數據是機器學習領域的重要資源,在數據缺少的情況下如何訓練模型呢?小樣本學習是其中一個解決方案。來自香港科技大學和第四範式的研究人員綜述了該領域的研究發展,並提出了未來的研究方向。這篇綜述論文已被 ACM Computing Surveys 接收,作者還建立了 GitHub repo,用於更新該領域的發展。
  • 吳恩達建議這麼讀論文(附機器學習研究者的養成指南)
    目標驅動的研究:將自己定義在通用解決方案中以目標導向的研究會存在一個陷阱,就是將目標看得太完全化,比如在你擁有相匹配的能力時,你會以最直接甚至無趣的方式去實現該目標,但是這種模式的研究並不能推進你自己在機器學習領域中的發展。
  • 2018年29篇必讀機器學習論文總結,BERT, SeqGAN等上榜
    Cody每年都會找一個月時間集中精讀當年的重要和經典的機器學習論文,每天一篇並寫上500-1000詞的總結,比如論文主要是思路,重要的創新點以及可能的應用方向等,這對於每個研究者來說都是一份重要的論文閱讀指導,可以作為初學者如何看論文,讀論文一個非常好的借鑑範例。在論文中,每篇論文,作者都給了論文的主要思路,與其他相關的研究有什麼區別,這篇論文有哪些亮點與創新點等等。
  • 狂啃53000篇論文寫成
    孔狀結構和材料的多孔性對於電池中分離器的性能也至關重要。一、什麼是機器學習?傳統的計算機編程只能重複性的運行一種程序,只要不改變編程信息,程序運行就永遠不會發生改變。而機器學習是從示例中學習的軟體,不需要人為的編寫機器學習的運行程序,通過提供大量的相關數據來訓練它們,當訓練數據達到一定量的時候,機器學習算法就能自動通過數據中的重複信息總結出答案。
  • 17篇論文詳解圖的機器學習趨勢 | NeurIPS 2019
    在NeurIPS 2019上,僅主會場就有 100多個與圖相關的論文;另外,至少有三個workshop的主題與圖有關:Graph Representation Learning (大約有100多篇論文);Knowledge Representation & Reasoning Meets Machine Learning (KR2ML)(也有50篇吧);我們希望在接下來的這篇文章裡,能夠儘可能完整地討論基於圖的機器學習的研究趨勢
  • 17篇論文,詳解圖的機器學習趨勢|NeurIPS 2019
    什麼是四元數?這個需要說清楚。簡單來說,複數有一個實部,一個虛部,例如a+ib;而四元數,有三個虛部,例如 a+ib+jc+kd。相比複數會多出兩個自由度,且在計算上更為穩定。QuatE將關係建模為4維空間(hypercomplex space)上的旋轉,從而將complEx 和 RotatE統一起來。在RotatE中,你有一個旋轉平面;而在QuatE中,你會有兩個。
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    在NeurIPS 2019上,僅主會場就有 100多個與圖相關的論文;另外,至少有三個workshop的主題與圖有關:我們希望在接下來的這篇文章裡,能夠儘可能完整地討論基於圖的機器學習的研究趨勢,當然顯然不會包括所有。
  • 百度研究院登上NeurIPS2020多篇論文解讀機器學習領先算法
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 德國研究者用1.7萬篇arXiv論文預測機器學習...
    圖 2:cs.LG 領域 top-100 論文的方法分布情況。我們可以從中看到強化學習和對抗學習是這些論文中使用最廣泛的方法。圖 3:cs.CL 領域 top-100 論文的目標分布情況。我們可以從中看到超半數研究的目標是提高準確率。預測研究趨勢一直是科學家的夢想。
  • 近200篇機器學習&深度學習資料分享
    而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹。My deep learning reading list介紹:主要是順著 Bengio 的 PAMI review 的文章找出來的。包括幾本綜述文章,將近 100 篇論文,各位山頭們的 Presentation。全部都可以在 google 上找到。
  • 【乾貨】來自小姐姐的29篇經典機器學習論文總結
    論文中哪些是關鍵?都是需要讓人去琢磨的地方。最近,有一份資源悄然流傳出來,裡面匯集了29篇經典的機器學習論文的總結,這些論文都是作者近半年來讀到的。每篇論文,作者都給出了論文的主要思路,與其他相關的研究有什麼區別,這篇論文有哪些亮點與創新點等等。而且,基本上每篇論文都附上了連結。這些論文,一共分為六個部分。
  • 【年終盤點】2018年29篇必讀機器學習論文總結,BERT, SeqGAN等上榜
    【導讀】本文作者 Cody Marie Wild,她是一位機器學習領域的數據科學家,她鍾愛語言和簡潔優美的系統,與此同時Cody Marie Wild
  • 陳天奇:機器學習科研的十年
    到 UW 的第一個學期,我無意看到一篇探討如何用 Lagevin 過程做採樣的文章,我想這不就是之前組會上探討過的東西麼,原來這些方法也可以用到機器學習上。我直接借用了原來的交大學會的知識完成了第一篇高效採樣 HMC 的文章。我後來並沒有繼續在這個方向上面耕耘下去,不過另外一位同在組會的學弟繼續基於這個方向完成了他的博士論文。
  • 人物 | 陳天奇:機器學習科研的十年
    到UW的第一個學期,我無意看到一篇探討如何用Lagevin過程做採樣的文章,我想這不就是之前組會上探討過的東西麼,原來這些方法也可以用到機器學習上。我直接借用了原來的交大學會的知識完成了第一篇高效採樣HMC的文章。我後來並沒有繼續在這個方向上面耕耘下去,不過另外一位同在組會的學弟繼續基於這個方向完成了他的博士論文。
  • 閱讀論文卻被堆滿的數學公式嚇跑?一文教你做個優雅的學霸
    上周,大數據文摘為大家介紹了在深度學習領域近幾年影響力最大的5篇論文(《熬過深宮十幾載,深度學習上位這五年》),有不少讀者在後臺留言表示,這些論文的數學部分實在是太難攻克。相信不少讀者在閱讀機器學習論文時也都遇到過類似的問題。滿懷野心地打開一篇論文,卻被裡面成片的數學公式地嚇得趕緊丟掉了那篇論文。
  • 【PyTorch 挑戰 TensorFlow】28303 篇 arXiv 論文看深度學習 6 大趨勢
    】本文由 Andrej Karpathy撰寫,他前不久加入了特斯拉,擔任AI 負責人。本文是他在 OpenAI 擔任研究員期間所寫,陳述了他通過分析機器學習論文資料庫arxiv-sanity裡面的28303篇論文裡面的高頻關鍵詞所發現的有趣的結論。你是否用過谷歌趨勢(Google Trends)(https://trends.google.com/trends/?cat=)呢?它的功能很酷:只需要輸入關鍵詞,就可以看到該詞的搜索量隨時間變化的情況。
  • 機器學習中基本的數學符號是什麼?
    此外,本文還給出了 5 個當你在理解數學符號遇到困難時可以應急的小技巧。在機器學習中,你永遠都繞不過數學符號。通常,只要有一個代數項或一個方程符號看不懂,你就完全看不懂整個過程是怎麼回事了。這種境況非常令人沮喪,尤其是對於那些正在成長中的機器學習初學者來說更是如此。