大數據文摘出品
來源:Medium
編譯:木槿
國際機器學習大會是機器學習領域最重要的會議之一,因此觀察誰在該會議上發表了文章是一件有趣的事情,所以我看了看2020國際機器學習大會接收的文章,並且分析了參會的作者、機構和國家/地區。
今年從4990篇投稿中接收了1088篇,接收率為21.8%。
在深入研究之前,你可以在GitHub存儲庫中找到代碼,並且可以利用Colab notebook任意繪製圖表。
作者讓我們先看看排名靠前的一些作者。
在國際機器學習大會上發表文章是非常困難的,因此更引人注目的是這幾位作者在會議上發表了多篇文章。Masashi Sugiyama來自理化學研究所和東京大學,他有高達11篇文章被會議接收。排在他後面的有來自DeepMind的Michal Valko和加州大學伯克利分校的Michael Jordan以及谷歌/阿爾伯塔大學的Dale Schuurmans。
通過把機構參與的文章數量加在一起,可以看到的根據組織發表的文章數量的排序結果。下面節選的是排名前30的機構。
谷歌在該榜單中佔據主導地位,大約參與國際機器學習大會發表文章的1/10。
排在谷歌后面的是3家機構:麻省理工大學、史丹福大學和伯克利大學。Alphabet的DeepMind排名第五。需要注意的是,說Google和DeepMind共發表了114+51篇文章是不正確的,因為其中很多文章是合作完成的,下文還會討論這個點。
國家/地區這是很有趣的部分,通過分析作者所在機構和地區的映射關係,我們可以了解哪個地區發表的文章最多。
讓我們來看看按國家/地區劃分的情況。
美國發表了728篇文章,約佔總數的3/4,這是一個巨大的領先優勢。
這裡還有一個提醒:國家/地區的歸屬是基於組織的總部,而不是基於作者的位置。因此,如果作者在谷歌蘇黎世工作,發表的文章將被計入美國,而不是瑞士。
另一個有趣的現象是,英國和中國發表了差不多相同數量的文章。我們接下來會看到,英國的DeepMind公司發表的文章數量大概佔了整個國家的40%。
讓我們逐一看一下每個國家/地區的情況,下面圖片列出了排名前15位國家/地區的前10名組織(3篇以上文章)。
美國無論是工業界還是學術界,都有大量的機構,並且發表文章數量可觀。英國正好相反,以DeepMind公司為首,其次是大學。
中國有強大的機構,華為、阿里巴巴和百度等公司還需努力。在加拿大,幾乎所有的大學都發表了文章。
Criteo(法國)是歐洲發表文章數量排名第二的公司。
洛桑聯邦理工學院和蘇黎世聯邦理工學院是瑞士表現最好的學校。
除了美國和中國,大多數頂級文章發表的機構都是大學。全球範圍內大學的發表數量是公司的3倍。
在非美國公司中,只有英國(DeepMind)、法國(Criteo)、中國(華為、百度、阿里巴巴)、俄羅斯(Yandex)和韓國(三星)的公司發表了5篇及其以上文章。
合作
通過查看不同組織之間的合作情況,我建立了一個組織之間的合作圖,這個圖總共有426個節點,1206條邊。如果把它繪製出來,我們可以看到這些節點通過邊相互連接了起來,你可以在colab notebook中編輯操作。
每一個節點代表著一個組織,節點與節點的連接代表合作的數量。每個節點的大小和顏色取決於發表文章的數量,連線的粗細取決於合作的數量。
如果我們取一個子圖,該子圖的結點至少有30個合作組織,那麼就可以得到一個更吸引人的圖。
該圖是擁有30個以上合作組織的合作網絡子圖,其中節點的大小和顏色取決於發表文章的數量,連線的粗細取決於合作的數量。
我還看了一下各個公司的情況。例如,谷歌和麻省理工大學看起來是這樣的。
一個很有趣的事情是,谷歌比較感興趣和大學合作,而不是公司。麻省理工大學則正好相反,有著大量來自業界的合作夥伴。
最後看看每篇文章的作者數量。
大多數文章都是3到4個作者,但一些罕見的情況會有多達15位作者。
兩篇文章都有15位作者,比如說文章Stochastic Flows and Geometric Optimization on the Orthogonal Group由谷歌大學、牛津大學、劍橋大學、哥倫比亞大學和伯克利大學的15名研究人員撰寫;文章Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising由天津大學、阿里巴巴、清華大學和上海交通大學的15名研究人員撰寫。
通過統計每篇文章參與的機構數量,可以得到下圖:
最常見的是一篇文章由一個或者兩個機構合作完成,但是有些文章卻由7個機構合力完成。
有兩篇文章來自7個不同組織的作者,第一篇是How Good is the Bayes Posterior in Deep Neural Networks Really?,由Google、微軟、華沙大學、阿姆斯特丹大學、加州大學歐文分校、蘇黎世聯邦理工學院和倫敦帝國理工學院合作完成;第二篇是Learning to Navigate in Synthetically Accessible Chemical Space Using Reinforcement Learning,由99andBeyond、蒙特婁大學、IIIT Hyderabad,麻省理工大學,Mila,德拉瓦大學和LinkedIn合作的項目。
想說的都說完了,我想你們應該對發表最多文章的作者,組織和國家/地區有了很多的了解,但是我敢打賭,你肯定還有很多的想法和問題,評論區一起聊聊。
相關報導:
https://medium.com/criteo-labs/icml-2020-comprehensive-analysis-of-authors-organizations-and-countries-c4d1bb847fde
原標題:《美國霸榜ICML!佔據3/4被接收論文,中國論文數不到美國兩成》
閱讀原文