KDnuggets:2018年數據科學和機器學習工具排名 Python排名第一

2020-12-05 199IT

近日,著名數據科學網站 KDnuggets 發布了 2018 年數據科學和機器學習工具調查結果。超過 2000 人對自己「過去 12 個月內在項目開發中使用過的數據挖掘/機器學習工具和程式語言」進行了投票。該統計還對過去三年來的排名進行了對比分析。

這份投票結果既有預料之內,也有預料之外的部分。數據顯示,Python 作為機器學習常用的程式語言正在不斷擴大領先優勢,R 語言的使用率第一次降到了 50% 以下。在深度學習框架上,最近呼聲很高的深度學習框架 PyTorch 僅僅佔據了 6.4% 的使用率,遠遠落後於 TensorFlow 的 29.9% 和 Keras 的 22.2%。

 

Python 繼續侵蝕著 R 的用戶領域,RapidMiner 熱門度增加,SQL 保持穩定,TensorFlow 和 Keras 引領前進,Hadoop 衰落,數據科學平臺整合等等。

第 19 次年度 KDnuggets 軟體調查有超過 2300 人參與投票,略微少於 2017 年,可能是因為僅有一個供應商 RapidMiner 積極地參與 KDnuggests 調查的投票。平均來說,每個參與者選擇 7 個使用過的不同工具,因此僅投票一個工具會帶來偏差。KDnuggets 排除了大約 260 個這樣的「獨好」投票(主要來自 RapidMiner),因為即使他們代表了該工具的合法用戶,他們的行為也是非典型的,並且會歪曲結果。

以下是基於 2052 個參與者的初始結果分析,其中「獨好」投票者已被排除。更多詳細分析和匿名數據將在大約兩周內公布。

最受歡迎的分析、數據科學、機器學習工具

圖 1:KDnuggests 分析/數據科學 2018 年軟體調查:2018 年最受歡迎工具,以及它們相對於 2016-2017 年的排名變化。(為了更有效的比較,KDnuggests 排除了「獨好」投票者並重新計算了 2016 年、2017 年的調查結果。)

上圖顯示了排名前 11 的工具,每個工具的使用率至少為 20%。

表 1:KDnuggests 2018 年軟體調查最受歡迎的分析/數據科學/機器學習軟體

在這裡,「2018 % share」一欄是指使用該工具的用戶百分比,「% change」是指和 2017 年軟體調查相比的變化比例,綠色和紅色標記表示比例的變化幅度達到了 10% 或更多。

每個投票人的平均使用工具數量是 7 個,略微高於 2017 年調查的 6.75 個(也排除了「獨好」投票人)。

和 2017 年的軟體調查相比,進入前 11 名的新工具是 Keras。Knime 從第 11 名下跌,可能是因為今年他們並沒有積極調動其用戶參與投票。

以下是一些觀察結果。

Python 正在吞噬 R 的用戶領域

2017 年 Python 的使用率超過 50%,今年它的使用率上升至 66%,而 R 的使用率首次下跌,跌破 50%。

RapidMiner 

在之前的幾次問卷中,RapidMiner 這一頂級數據科學平臺正快速傳播,它的用戶使用率由 2017 年的 33% 增長到了今年的 52.7%。根據 RapidMiner 的創始人和董事長 Ingo Mierswa,他們採取了一些措施鼓勵用戶參與該調查。

對於 KDnuggets 的問卷調查,Ingo Mierswa 說:「近兩年我們都向用戶發送郵件推廣該問卷調查,但今年有超過 400 多位用戶回郵件表示很高興能幫助 RapidMiner 的傳播。而且今年 RapidMiner 月度活躍用戶增長率超出去年 300%,因此我們向更多用戶發送了關於 KDnuggets 問卷調查的郵件。我很高興看到如此活躍的社區。」

SQL 保持穩定

作為數據管理系統的程序語言,SQL(包括 Spark SQL 和 SQL to Hadoop 工具)繼續保持著約 40% 的使用率,和之前 3 次調查結果一樣。因此,如果你是一位有雄心壯志的數據科學家,學習 SQL 吧,它在很長一段時間裡都會很有用!

趨勢

該調查唯一使用率超過 2% 的新工具是 Spark SQL,使用率達到 11.7%。下表列舉了使用率增幅達到 20% 及以上、2018 年使用率為 3% 以上的工具。

表 2:使用率增幅最大的主要分析/數據科學/機器學習工具。

整合

2017 年使用率達到 2% 及以上的 56 個工具中,有 19 個(僅 1/3)工具在 2018 年使用率有所上升,其餘 37 個均下降。這和近期的收購案(Datawatch 收購 Angoss、Minitab 收購 Salford)一道表明數據科學平臺的整合正在進行過程中。

2017 年使用率至少 3% 的工具,今年下降了 25% 甚至更多,詳見下表。

表 3:使用率跌幅最大的主要分析/數據科學工具。

深度學習工具

近兩年,該調查中使用深度學習工具的投票者所佔份額保持穩定。2018 年有 33% 的投票者使用深度學習工具,2017 年和 2016 年分別有 32% 和 18%。谷歌維護的 TensorFlow 仍然佔主導地位,而發展迅速的 Keras 可作為構建在 TensorFlow 和 MXNet 等框架上的高級 API。

另一方面,主要由 Facebook 推動,推出已過一年的 PyTorch 吸引了一批研究者和工程人員,使用率達到 6.4%,排名第三。由於這款深度學習框架已和 Caffe2 合併,在未來我們肯定將會看到 PyTorch 佔據更大的份額。

不過 KDnuggets 更關注數據科學,也更常使用淺層的機器學習算法。我們可能更希望了解機器學習及深度學習社區在框架上的選擇,因此讀者可以在文末對常用的深度學習框架進行投票。

深度學習工具排名:

  • Tensorflow, 29.9%
  • Keras, 22.2%
  • PyTorch, 6.4%
  • Theano, 4.9%
  • Other Deep Learning Tools, 4.9%
  • DeepLearning4J, 3.4%
  • Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%
  • Apache MXnet, 1.5%
  • Caffe, 1.5%
  • Caffe2, 1.2%
  • TFLearn, 1.1%
  • Torch, 1.0%
  • Lasagne, 0.3%

大數據工具:Hadoop 使用率下降

2018 年,大約 33% 的用戶使用大數據工具,要麼是 Hadoop,要麼是 Spark,和 2017 年一樣。但 Hadoop 的使用率顯著下降,跌幅超過 30%。

以下是相關細節:

程式語言

Python 似乎不僅正在取代 R,還包括除了 SQL、Java、C/C++ 之外的大多數其它語言,這三者與 Python 大致處於同一個級別。自 KDnuggets 開始做這項調查以來,R 使用率首次出現下跌。其它語言也出現了衰落的趨勢。

以下是按熱門度排序的主要程式語言:

  • Python, 65.6% (was 59.0% in 2017), 11% up
  • R, 48.5% (was 56.6%), 14% down
  • SQL, 39.6% (was 39.2%), 1% up
  • Java, 15.1% (was 15.5%), 3% down
  • Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down
  • Other programming and data languages, 6.9%, (was 7.6%), -9% down
  • C/C++, 6.8%, (was 7.1%), 3% down
  • Scala, 5.9%, (was 8.3%), 29% down
  • Perl, 1.0% (was 1.9%), 46% down
  • Julia, 0.7% (was 1.2%), 45% down
  • Lisp, 0.3% (was 0.4%), -25% down
  • Clojure, 0.2% (was 0.3%), -38% down
  • F, # 0.1% (was 0.5%), -73% down

地區參與度

本次調查中不同地區的參與比例是:

  • 歐洲,37.5%
  • 美國/加拿大,36.6%
  • 亞洲,11.7%
  • 拉丁美洲,6.6%
  • 非洲/中東,4.5%
  • 澳大利亞/紐西蘭,3.1%

和 2017 年相比,主要的變化是歐洲的參與比例變高了(之前為 35.5%),而美國/加拿大的參與比例變低了(之前為 41.5%)。

完整結果和 3 年來的趨勢

以下表格展示了調查結果的細節(由於篇幅限制,此處僅列出排名前 12 的工具):

相關焦點

  • kdnuggets:2017年Python打敗R成數據科學、機器學習中最熱門語言
    近日,kdnuggets做了一個關於數據科學、機器學習語言使用情況的問卷調查,他們分析了954個回答,得出結論——Python已經打敗R語言,成為分析、數據科學和機器學習平臺中使用頻率最高的語言。有關此次問卷更具體的情況如何?
  • 2020年六大機器學習Python庫!
    外頭有許多類型的python庫可用,本文介紹了一些流行的機器學習庫。1. NumPy:NumPy是一種通用的數組處理軟體包。它提供高性能的多維數組對象和用於處理這些數組的工具。它是用於科學計算的基本Python軟體包。NumPy針對Python的CPython參考實現,這是一種非優化的字節碼解釋器。
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。這個領域也正在以前所未有的速度進化。在今年秋季開始準備博士項目的時候,我已經精選了一些有關機器學習和NLP的優質網絡資源。一般我會找一個有意思的教程或者視頻,再由此找到三四個,甚至更多的教程或者視頻。猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。在今年秋季開始準備博士項目的時候,我已經精選了一些有關機器學習和NLP的優質網絡資源。一般我會找一個有意思的教程或者視頻,再由此找到三四個,甚至更多的教程或者視頻。猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    1959年,有著豐富的歷史。 在今年秋季開始準備博士項目的時候,我已經精選了一些有關機器學習和NLP的優質網絡資源。一般我會找一個有意思的教程或者視頻,再由此找到三四個,甚至更多的教程或者視頻。猛回頭,發現標收藏夾又多了20個資源待我學習(推薦提升效率工具Tab Bundler)。
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。數據科學是從數據中提取有用信息以解決實際問題的過程。機器學習是使機器學習如何通過提供大量數據來解決問題的過程。這兩個域是高度互連的。機器學習是數據科學的一部分,它利用ML算法和其他統計技術來了解數據如何影響和發展業務。
  • 數據科學的Python軟體包
    儘管標準Python並沒有提供太多功能,但其數量眾多的開放原始碼和第三方庫在開發人員中頗受歡迎。您只需命名域,Python就會為您提供最佳的軟體包和庫。數據科學和機器學習是這個時代的兩項苛刻技術,而Python在這兩個領域的表現要好於優。除Python之外,R是數據科學項目中經常使用的另一種程式語言。
  • 2017年中美數據科學對比報告,Python排名第一,年薪中位數高達11萬...
    以下為AI科技大本營對其進行的數據整理,並從中美數據科學和機器學習對比的角度呈現如下:中美數據工作者概況對比年齡從世界範圍來看,本次調查對象的平均年齡大約 30 歲,當然,這個值在各個國家之間有變動。以下為中美調查對象的年齡對比:
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 開發者必看:8月 Python 熱門開放源碼
    在這段時間裡,我們比較了新版本和主要發布版本的項目。我們的Mybridge AI 根據各種因素對項目進行排名,來衡量專業人員的質量。utm_source=mybridge&utm_medium=blog&utm_campaign=read_moreTermgraph: python命令行工具,它能夠在終端中繪製基本圖形。
  • 數學學科,2018年QS全球排名和教育部排名比較,山大跌出前十
    近日,QS公布了2018年世界大學學科排名,作為全球四大大學排行榜之一的QS,排名具有一定的權威性。由於學科較多,小編今天給大家解讀的是基礎學科數學學科,而且僅限大陸的大學。2018年,依據QS2108年世界大學學科排名,進入榜單的大陸大學數學學科排名如下:為了更直觀的比較,我們把2017年12月28日教育部公布的數學學科排名也貼出來:兩次學科排名,有沒有發現什麼明顯的變化呢?1 山大數學退到全國第11位我的第一感覺就是全球排名中,作為國內數學強校的山大呢?哪去了?
  • 2018全球大學CSRanking出爐,美國CMU排名第一!
    不同於 US News 和 World Report 的方法(僅僅基於調查),該排名完全基於研究指標,其度量了絕大多數院校教員在計算機科學領域的各大頂會所發布的論文數量。全球高校排行中,前三名分別是:卡內基梅隆大學(CMU),麻省理工學院、史丹福大學。
  • 2018年遊戲公司收入排名公布 騰訊再次奪得第一
    據數據分析網站Newzoo公布的信息,2018年全球遊戲公司收入排名出爐,騰訊再次奪得了第一的寶座,這也是騰訊遊戲連續六年獲得全球遊戲公司收入第一。
  • 軟科發布2018年ARWU排名,看你心儀的日本大學排名如何!
    下面跟蔚藍留學小編一起看一下2018ARWU軟科世界大學學術排名之日本大學排名:ARWU世界大學學術排名的參考依據是:1. 曾經有教師或校友獲得過諾貝爾獎或菲爾茲獎的大學;2. 有高被引科學家的大學;3. 過去10年中所有在《自然》 (Nature) 或《科學》 (Science) 雜誌上作為通訊作者單位發表過論文的大學;4.
  • US News全美人工智慧研究生院排名:CMU第一,MIT第二
    3月20日,US News發布2019美國最佳研究生院排名(2019 Best Grad Schools Rankings),跟往年一樣,今年的研究院排名依然分商科、教育、法律、工程、醫學和護理六大類,每個大類下細分為多個專業排名。本文重點介紹該排名的計算機科學部門,以及其中「人工智慧」這一分支的排名。
  • Python成程式語言首選,人工智慧是其最大推力
    2018年,python程式語言榮獲「年度程式語言」稱號!在2018年獲得了最多的排行積分,贏得了3.62%佔比,其次是VisualBasic .NET和Java。Python如今確實已經成為大型程式語言的一部分。
  • 2018QS世界大學學科排名出爐 哈佛14個專業排名第一
    圖/視覺中國  羊城晚報記者 付怡  近日,QS世界大學排名公布了2018年學科排名。哈佛大學在人文、生命科學的14個學科上全球排名第一,麻省理工學院在工程技術和自然科學的12個專業上奪冠。英國大學的實力也不俗,10個專業全球第一。
  • 一文總結數據科學家常用的Python庫(下)
    這就是我們大多數人首先進入數據科學領域的原因,不是嗎?讓我們通過這三個Python庫探索模型構建。/* Scikit-learn */就像用於數據操作的Pandas和用於可視化的matplotlib一樣,scikit-learn是構建模型的Python庫領導者。沒有什麼比得上它了。
  • KDnuggets:2013年數據分析/數據挖掘/數據科學使用語言排行榜
    同時我們發現,R與python用戶存在一定的重疊。之前的KDnuggets的調查主要是關注:統計與分析軟體,但有時候一個全面與強大的程式語言是需要的。這也是最近一次的KDnuggets調查關注的重點,我們諮詢:在2013年中,什麼樣的程序或者統計語言你是在做分析、挖掘、科學計算的時候所需要的?
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    ,對數據科學和機器學習有較深入的研究和簡介,致力於為使用機器學習和人工智慧推動人類進步找到新途徑。同時,針對編碼者和開發者的熱門開源項目也很多——包括備忘單、視頻連結、電子書、研究論文連結以及其他等資源。無論你在你的專業領域處於哪個等級(初學者、中級以及高級),你總可以在 GitHub 上找到可以學習的新東西。對於數據科學的很多子領域來說,2018 年是不同凡響的一年,這個我下面馬上就會講到。