kdnuggets:2017年Python打敗R成數據科學、機器學習中最熱門語言

2020-12-05 199IT

近日,kdnuggets做了一個關於數據科學、機器學習語言使用情況的問卷調查,他們分析了954個回答,得出結論——Python已經打敗R語言,成為分析、數據科學和機器學習平臺中使用頻率最高的語言。有關此次問卷更具體的情況如何?雷鋒網 AI科技評論將kdnuggets上發表的總結文編譯整理如下:

之前我們在kdnuggets上做了這樣一個問卷調查,2016、2017兩年,在分析、數據科學和機器學習的工作中,你用R語言,還是Python,或兩者都用,或選擇其他的語言?

通過分析954個回答,我們得出了這樣的結論:雖然Python並沒有完全取代R語言,但在2017年,Python已經成功打敗R語言,成為分析、數據科學和機器學習平臺中使用頻率最高的語言。

在2016年Python還是第二位(主要用Python的人佔34%,主要用R語言的人佔42%),在2017年Python就以5%的優勢領先於R語言(主要用Python的人佔41%,主要用R語言的人佔36%)。同時用Python和R兩種語言的人也從2016年的8.5%增長到12%了,而用其他語言的人則從16%降到11%。

圖1:2016-2017年,在分析、數據科學和機器學習中使用Python、R語言、Python和R語言、其他語言的佔比

之後,我們分析了大家在不同語言之間的轉換情況。

圖2:2016-2017年,分析、數據科學以及機器學習平臺中各種語言的轉換情況

這張圖看起來很複雜,不過從中可以很容易地看出Python在忠誠度和轉換率兩個關鍵層面都領先於其他語言。

  • 忠誠度:使用Python的用戶對它的忠誠度要高於使用其他語言的用戶。2016年使用Python的用戶中,有91%的人2017年還在繼續使用它,而R語言的用戶留存率為74%,其他語言的用戶留存率則為60%。
  • 轉換率:從2016年到2017年,只有5%的Python用戶轉向R語言,而R語言用戶轉向Python的則是10%,這是前者的兩倍。另外,2016年同時使用兩種語言的人中,只有49%的人還在繼續使用這兩種語言,38%的人轉向Python,11%的人轉向R語言。

接下來我們看一下2014-2017年這幾種語言的使用趨勢。

因為我們2015年【R vs Python】的問卷調查中沒有提供【同時使用兩種語言】這個選項,因此下面2014-2016這四年的對比趨勢圖中,2016、2017年的Python、R語言使用趨勢我們是這樣計算的:

Python*= (Python的比例) + 50% * (同時使用Python和R語言的比例)

R* = (R的比例) + 50% * (同時使用Python和R語言的比例)

可以看到,R語言的使用率在逐年緩慢下降(從2015年的50%降到2017年的36%),而Python的使用率則從2014年的23%增長到2017年的47%。另外,其他語言的使用率也在逐年下降。

圖3:2014-2017年,Python、R語言及其他語言在分析、數據科學和機器學習的使用情況對比

最後,我們也按地區分析了幾種語言的使用趨勢,地區分布情況如下:

  • 美國/加拿大,40%
  • 歐洲,35%
  • 亞洲,12.5%
  • 拉美,6.2%
  • 非洲/中東,3.6%
  • 澳洲/紐西蘭,3.1%

為了簡化對比圖,我們將同時使用R語言和Python的比例也按照上面的計算方法折算到單獨使用R語言和Python的比例中,並把亞洲、澳洲/紐西蘭、拉美、非洲/中東這四個佔比較少的地區合併為一個區域。

圖4:2016-2017年,不同地區使用Python、R語言和其他語言的情況

我們注意到不同區域的語言變化情況:

  • Python的使用率增長了8-10%
  • R語言的使用率降低了大約2-4%
  • 其他語言的使用率降低了5-7%

上面的數據表明了Python的使用前景很好,我們也預測R語言和其他語言的使用率還是會有相當的佔比,因為它們已經有很深的用戶基礎。

相關焦點

  • KDnuggets:2018年數據科學和機器學習工具排名 Python排名第一
    近日,著名數據科學網站 KDnuggets 發布了 2018 年數據科學和機器學習工具調查結果。超過 2000 人對自己「過去 12 個月內在項目開發中使用過的數據挖掘/機器學習工具和程式語言」進行了投票。該統計還對過去三年來的排名進行了對比分析。這份投票結果既有預料之內,也有預料之外的部分。
  • 業界| 四大機器學習程式語言對比:R、Python、MATLAB、Octave
    MJ Bahmani 參與:張倩、路 本文作者是一位機器學習工程師,他比較了四種機器學習程式語言(工具):R、Python、MATLAB 和 OCTAVE。 可連接 R、C++ 和其他語言的「膠水」語言 總體速度最快,尤其是在迭代循環中 缺點: 有一些不成熟的包,尤其是交易包 有些包與其他包不兼容或包含重疊 在金融領域的社區比 R 小 與
  • KDnuggets:2013年數據分析/數據挖掘/數據科學使用語言排行榜
    最受歡迎的語言仍然是R( KDnuggets 讀者中有61%用戶在用),python(39%),SQL(37%).SAS仍然穩定在20%之間。
  • 用R也可以跑Python了
    如果你主要從事數據分析、統計建模和可視化,R大概是你的不二之選。但如果你還想來搞點深度學習,整個自然語言處理,那你可還真得用Python。如果你處於交叉領域,很可能就需要兩種語言切換。最近的KDnuggets Analytics的軟體調查中,Python和R位居數據科學和機器學習軟體的前兩名。如果你真的想提高你在數據科學領域的能力,這兩種語言你確實都應該學習。
  • 乾貨| 請收下這份2018學習清單:150個最好的機器學習,NLP和Python...
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。這個領域也正在以前所未有的速度進化。當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • ...請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    本文英文出處:Robbie Allen翻譯/雷鋒網字幕組 吳楚校對/ 雷鋒網 田晉陽機器學習的發展可以追溯到1959年,有著豐富的歷史。當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    我們這一期小白學數據專欄篩選了28份小抄,根據覆蓋面、清晰度和內容實用性,分別涵蓋了機器學習、數據科學、概率、SQL和大數據的領域。裡面包括了你所需要的工具、流程、各種包和語言。 第一部分 數據科學專場:Python小抄表 小白:我們先來回顧一下之前聊過的Python。
  • 乾貨 | 請收下這份2018學習清單:150個最好的機器學習,NLP和Python教程
    1959年,有著豐富的歷史。當然這不是網絡上有關ML的最全集合,而且其中有一部分內容很普通。我的目標是要找到最好的有關機器學習子方向和NLP的教程。 我引用了能簡潔介紹概念的基礎內容。我已經迴避包含一些大部頭書的章節,和對理解概念沒有幫助的科研論文。那為什麼不買一本書呢? 因為教程能更好地幫助你學一技之長或者打開新視野。
  • 放棄PK,擁抱合作——R和 Python 能做出什麼新花樣?
    兩大陣營的成員都堅信他們對語言的選擇優於對方。所以,在某種程度上,分歧不在於工具,而在於使用這些工具的人。在數據科學領域中有一些人同時使用Python和R,但是他們的比例很小。另一方面,有很多人只致力於一種程式語言,但他們希望能夠使用對手的一些功能。例如,R用戶有時渴望Python固有的面向對象能力,同樣地,一些Python用戶渴望R中可用的統計分布的廣泛範圍。
  • 數據科學的Python軟體包
    Python是使用最廣泛的程式語言之一。儘管標準Python並沒有提供太多功能,但其數量眾多的開放原始碼和第三方庫在開發人員中頗受歡迎。您只需命名域,Python就會為您提供最佳的軟體包和庫。數據科學和機器學習是這個時代的兩項苛刻技術,而Python在這兩個領域的表現要好於優。除Python之外,R是數據科學項目中經常使用的另一種程式語言。
  • 2020年 Top 20 機器學習和數據科學網站
    最進步、最前沿、最激動人心的……數據科學和機器學習是當今極具吸引力和熱門、熱門、超熱門話題的領域。但要跟上這些領域的所有進展和動向,你需要付出很多努力——研究、閱讀、檢查所有信息、新聞、指南和其他東西。這項任務遠不是一個簡單的解決辦法。現在,你可以偶然發現一些地方有生動的標題和有前途的標題,但它們足夠有用嗎?
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    我們這一期小白學數據專欄篩選了28份小抄,根據覆蓋面、清晰度和內容實用性,分別涵蓋了機器學習、數據科學、概率、SQL和大數據的領域。裡面包括了你所需要的工具、流程、各種包和語言。 數據科學專場:Python小抄表 小白:我們先來回顧一下之前聊過的Python。幫我們這樣的小白介紹一下有什麼Python方面的小抄吧?
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    共4天8節,講解機器學習和深度學習的模型理論和代碼實踐,梳理機器學習、深度學習、計算機視覺的技術框架,從根本上解決如何使用模型、優化模型的問題;每次課中,首先闡述算法理論和少量公式推導,然後使用真實數據做數據挖掘、機器學習、深度學習的數據分析、特徵選擇、調參和結果比較。
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。是什麼導致圍繞這兩個話題的熱門話題?嗡嗡聲與我們生成的數據量有很大關係。數據是驅動ML模型所需的燃料,並且由於我們處在大數據時代,因此很清楚為什麼將數據科學視為該時代最有希望的工作角色!我會說數據科學和機器學習是技能,而不僅僅是技術。它們是從數據中獲得有用的見解並通過建立預測模型解決問題所需的技能。
  • 2017年最流行的15個數據科學Python庫
    選自Medium作者:Igor Bobriakov機器之心編譯參與:朱朝陽、吳攀Python 近幾年在數據科學行業獲得了人們的極大青睞,各種資源也層出不窮。數據科學解決方案公司 ActiveWizards 近日根據他們自己的應用開發經驗,總結了數據科學家和工程師將在 2017 年最常使用的 Python 庫。
  • 一文總結數據科學家常用的Python庫(下)
    用於建模的Python庫我們已經到達了本文最受期待的部分 - 構建模型!這就是我們大多數人首先進入數據科學領域的原因,不是嗎?讓我們通過這三個Python庫探索模型構建。以下是安裝scikit-learn的代碼:pip install scikit-learnScikit-learn支持在機器學習中執行的不同操作,如分類,回歸,聚類,模型選擇等。我還建議您瀏覽以下連結以了解有關scikit-learn的更多信息:Scikit-Python in Python - 我去年學到的最重要的機器學習工具!
  • R、SQL、Python,看數據科學家最喜歡的程式語言
    但是,一個合格的數據科學家必須具備哪些技能,擁有什麼樣的教育背景呢?數據科學家在團隊中的角色是什麼?數據科學家大多使用什麼工具和程式語言呢?這些就是米蘭理工大學的大數據分析觀測臺通過一項針對數據科學家的國際調查正在研究的部分問題。如果你的工作與數據有關,也可以支持一下這個完全匿名的調查( survey)。
  • 2020年六大機器學習Python庫!
    外頭有許多類型的python庫可用,本文介紹了一些流行的機器學習庫。1. NumPy:NumPy是一種通用的數組處理軟體包。它提供高性能的多維數組對象和用於處理這些數組的工具。它是用於科學計算的基本Python軟體包。NumPy針對Python的CPython參考實現,這是一種非優化的字節碼解釋器。
  • Python成程式語言首選,人工智慧是其最大推力
    2018年,python程式語言榮獲「年度程式語言」稱號!在2018年獲得了最多的排行積分,贏得了3.62%佔比,其次是VisualBasic .NET和Java。Python如今確實已經成為大型程式語言的一部分。
  • 中科大統計學python_python 中科大 - CSDN
    強調在知識的廣度、深度和趣味性之間尋找最佳平衡點,在生動幽默中講述數據挖掘的核心思想、關鍵技術以及一些在其它相關課程和教科書中少有涉及的重要知識點,適合對大數據和數據科學感興趣的各專業學生以及工程技術人員學習。