來源:數據派THU
作者:Andrej Karpathy
翻譯:賈琳 校對:閔黎
【新智元導讀】本文由 Andrej Karpathy撰寫,他前不久加入了特斯拉,擔任AI 負責人。本文是他在 OpenAI 擔任研究員期間所寫,陳述了他通過分析機器學習論文資料庫arxiv-sanity裡面的28303篇論文裡面的高頻關鍵詞所發現的有趣的結論。
你是否用過谷歌趨勢(Google Trends)(https://trends.google.com/trends/?cat=)呢?它的功能很酷:只需要輸入關鍵詞,就可以看到該詞的搜索量隨時間變化的情況。這個產品在一定程度上啟發了我,恰巧我有在過去五年中發表在(arxiv)機器學習論文資料庫(http://arxiv-sanity.com/)上的28303篇論文,所以我想,為什麼不研究一下該領域發展變化的情況呢?研究結果相當有趣,所以我決定跟大家分享一下。
(註:機器學習是一個包羅萬象的領域,本文中相當長的篇幅是對深度學習領域的研究,這也是我最為熟悉的領域)
讓我們先來看看提交到arxiv-sanity的所有分類(cs.AI, cs.LG, cs.CV, cs.CL, cs.NE, stat.ML)下的論文總數隨時間變化的趨勢,如下圖所示:
沒錯,峰值位於2017年3月,這個月這些領域有近2000篇論文提交。這一峰值很可能是某些會議的截稿日期(例如NIPS/ICML)造成的。由於並不是所有人都會將他們的論文上傳至arxiv,而且上傳比例也在隨時間變化而變化,所提交的論文數量並不能完全體現機器學習這一領域的研究規模。不過可以看到,有大量的論文為人所注意、瀏覽或者閱讀。
接下來,我們用這一數字作為分母,看看多少文章包含我們感興趣的關鍵詞。
首先,我們關心的是深度學習框架的使用情況。如果在文中任何地方有提到深度學習框架,包括參考書目,都會被記錄在案。下圖是在2017年3月提交的論文中提到深度學習框架的情況:
可見2017年3月提交的論文中有約10%提到了TensorFlow。當然不是每篇文章都會寫出他們所用的框架,不過如果我們假定提及與否和框架類型無關(即說明框架的文章有相對確定的使用比例)的話,可以推斷出該社區大約有40%的用戶正在使用TensorFlow(如果算上帶TensorFlow後端的Keras框架,數量會更多)。下圖是一些常用框架隨時間變化的趨勢圖:
我們可以看到,Theano在很長時間佔據主流,後來不再流行;2014年Caffe的發展勢頭強勁,不過在最近幾個月內被TensorFlow取代;Torch(和最近的PyTorch)同樣在緩慢穩步發展。它們未來發展的狀況會是怎樣呢?這是一個有趣的話題,個人認為Caffe和Theano會繼續下降,TensorFlow的發展速度則會因為PyTorch的競爭而放緩。
常用的ConvNet模型的使用情況又是怎樣呢?我們可以在下圖看到,ResNets模型異軍突起,該模型出現在去年3月發表的9%的論文中。
另外,我很好奇在InceptionNet出現之前有誰在討論inception呢?
優化算法方面,Adam一枝獨秀,在所有論文中的出現率高達23%!其真正的使用率很難統計,估計會比23%更高,因為很多論文並沒有寫出他們所使用的優化算法,況且很多關於神經網絡的研究並不使用任何此類算法。然而也有可能要下調5%,因為這個詞也非常可能是指代作者的名字,而Adam優化算法在2014年12月才被提出。
我關注的另一指標是論文中提及深度學習領域的研究專家的次數(這與引用次數有些類似,但是前者能更好的用0/1指標表達,且能根據文章總數進行標準化):
需要注意的是:35%的文章提到了「bengio」,但是學界有兩個叫Bengio的專家,分別是Samy Bengio和Yoshua Bengio,圖中顯示的是兩者總和。特別地,Geoff Hinton在30%的最新論文中也被提到,這是一個很高的比例。
最後,本文沒有針對關鍵詞進行手動分類,而是關注了論文中最熱門和最不熱門的關鍵詞 。
最熱門關鍵詞
定義最熱關鍵詞的方法有很多,本文使用的方法如下:對於在所有論文中出現的一元分詞和二元分詞,分別計算出去年和去年以前該詞的使用次數,並用二者相除得到的比例做排名。排名靠前的關鍵詞是那些一年前影響有限、但是最近一年出現頻率極高的詞彙,如下表所示(該表是刪除重複詞以後的結果):
舉例來說,ResNet的比例是8.17,該詞在一年之前(2016年3月)只在1.044%的論文中出現,但上個月8.53%的論文中都有這個關鍵詞,所以我們有8.53 / 1.044 ~= 8.17的比例。
所以可以看到,在過去一年流行起來的核心技術有:1) ResNets, 2) GANs, 3) Adam, 4) 批規範化(BatchNorm)。
關於研究方向,最火的關鍵詞分別是1)風格轉換(Style Transfer), 2) 深度強化學習, 3) 神經網絡機器翻譯(「nmt」),或許還有 4)圖像生成。
整體構架方面,最流行的是1) 全卷積網絡(FCN), 2) LSTMs/GRUs, 3) Siamese網絡, 和4) 編碼-解碼器網絡。
最「過時」關鍵詞
相反的,過去一年不再流行的關鍵詞有哪些呢?如下表所示:
我並不確定「fractal」的含義,不過大體上看,貝葉斯非參數統計似乎不那麼流行了。
所以,是時候提交應用全卷積網絡、編碼-解碼器、批規範化、ResNet、Gan來做風格轉換,用Adam來優化你的論文了。嘿,這聽起來也不是很離譜嘛:)
原文連結:
https://medium.com/@karpathy/a-peek-at-trends-in-machine-learning-ab8a1085a106
(感謝數據派THU 授權轉載!)