KDnuggets:2013年數據分析/數據挖掘/數據科學使用語言排行榜

2020-12-05 199IT

最受歡迎的語言仍然是R( KDnuggets 讀者中有61%用戶在用),python(39%),SQL(37%).SAS仍然穩定在20%之間。增長最快是:Pig/Hive/Hadoop為基礎的語言、R、SQL,同時perl, C/C++, 與Unix 在下降。同時我們發現,R與python用戶存在一定的重疊

之前的KDnuggets的調查主要是關注:統計與分析軟體,但有時候一個全面與強大的程式語言是需要的。這也是最近一次的KDnuggets調查關注的重點,我們諮詢:
在2013年中,什麼樣的程序或者統計語言你是在做分析、挖掘、科學計算的時候所需要的?
基於超過對700名會員的調查,最受歡迎的仍然是R語言(61%的調研會員在用),python(39%),SQL(37%),平均每個調研對象使用2.3種語言
趨勢對比過去二年的調查結果,發現2013的趨勢是一樣的:

  • 2012年調查:什麼樣的語言可用於數據分析與數據挖掘。
  • 2011年調查:什麼樣的語言可用於數據分析與數據挖掘。

· 增長率最高的語言,對比2013 vs 2012是Julia,使用人員增加超過2倍。但仍然是一門小眾語言,在2013年也僅有0,7%的用戶使用。
· 在比較普通的使用語言中:增加相對較大的語言,對比 2013 vs 2012:
· 以hadoop為基礎的語言:Pig Latin/Hive/other,19%的環比增長,從2012年的6.7%增加到2013。
· R,16%的環比增長。
· SQL,14%的增長(SQL的增長是的來源於Hadoop和其它的大數據系統中的SQL接口增長)。

語言的使用份額下降最大的是:

  • Lisp/Clojure, 77% 下降
  • Perl, 50%  下降
  • Ruby, 41%  下降
  • C/C++, 35%  下降
  • Unix shell/awk/sed, 25%  下降
  • Java, 22%  下降

R與PYTHON的使用者是否有重合呢?是的。在使用R語言的13%的用戶中,更可能使用python與總體相比要高出13%。下面是哪些語言更可能被R語言用戶使用(與總體相比)。

評論:

有一些評論說,比如:指出SPSS也是自己的語法和SAS一樣–在下次的調研中,我們將會包括進來。
樣本的區域分布為:

  • US/Canada, 50.8%,
  • Europe: 25.7%,
  • Asia: 11.8%,
  • Latin America: 6.7%,
  • AU/NZ: 3.2%,
  • Africa/Middle East: 1.5%

註:本文來自中國統計網翻譯小組——@數據海洋 編譯

英文原文:

Top Languages for analytics, data mining, data science

自:中國統計網

 

相關焦點

  • kdnuggets:2017年Python打敗R成數據科學、機器學習中最熱門語言
    近日,kdnuggets做了一個關於數據科學、機器學習語言使用情況的問卷調查,他們分析了954個回答,得出結論——Python已經打敗R語言,成為分析、數據科學和機器學習平臺中使用頻率最高的語言。有關此次問卷更具體的情況如何?
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據科學和數據挖掘在許多人看來很相似,因此必須了解它們之間的一些主要的區別。如今,數據科學家通常被認為是最有前途和最有利可圖的工作之一。美國勞工統計局預計,到2029年,美國對於數據科學家的市場需求將增加到37700人。
  • KDNuggets:數據科學家使用工具調查
    工具/產品/解決方案是數據科學家洞察數據的利器。KDNuggets網站對此觀點進行了年度調查,來分析數據科學家在用哪些類型的工具,並提供了調查的匿名原始數據。
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。其中,作為數據產品經理必備的專業知識之一的數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,人們常常提到的數據分析是指狹義的數據分析,數據挖掘和數據分析都是從數據中提取一些有價值的信息,但互相的側重點又有所不同。
  • R語言及數據挖掘應用培訓 8月15-17日北京開班
    R語言基礎及數據挖掘應用培訓 8月15-17日?北京 R是一套完整的數據處理、計算和製圖軟體系統,R是一種數學計算的環境,它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。
  • KDnuggets:2018年數據科學和機器學習工具排名 Python排名第一
    近日,著名數據科學網站 KDnuggets 發布了 2018 年數據科學和機器學習工具調查結果。超過 2000 人對自己「過去 12 個月內在項目開發中使用過的數據挖掘/機器學習工具和程式語言」進行了投票。該統計還對過去三年來的排名進行了對比分析。這份投票結果既有預料之內,也有預料之外的部分。
  • 大數據_數據挖掘技術分類及應用
    為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,並進行信用評估。Mellon銀行使用數據挖掘軟體提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環者),另一類能夠保持較高的未清餘額(高循環者)。每一類都代表著銷售的挑戰。低循環者代表預設和支出註銷費用的危險性較低,但會帶來極少的淨收入或負收入,因為他們的服務費用幾乎與高循環者的相同。
  • 12款實用的數據挖掘工具
    毫無疑問,這是世界領先的數據挖掘開源系統。該工具以Java程式語言編寫,通過基於模板的框架提供高級分析。它使得實驗可以由大量的可任意嵌套的操作符組成,這些操作符在XML文件中是詳細的,並且是由快速的Miner的圖形用戶界面完成的。最好的是用戶不需要編寫代碼。它已經有許多模板和其他工具,讓我們可以輕鬆地分析數據。2.
  • 什麼叫數據挖掘_數據挖掘技術解析
    數據挖掘(data mining)是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性的信息的過程。在全世界的計算機存儲中,存在未使用的海量數據並且它們還在快速增長,這些數據就像待挖掘的金礦,而進行數據分析的科學家、工程師、分析員的數量變化一直相對較小,這種差距稱為數據挖掘產生的主要原因。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    明確了業務分析場景和數據挖掘的方法,接下來就要思考如何完成數據挖掘分析的目標。一般情況下,基於一定的業務場景和挖掘分析目標,數據挖掘的基本流程可以總結為以下幾個階段:數據探索、數據預處理、數據建模、模型評估和模型部署應用。
  • 乾貨 面向大數據的時空數據挖掘
    案例一 - 時空數據分析預測  第一個案例是關於亞特蘭大某地區如何根據 1997 年到 2005 年的人口普查數據從而選擇 2006 年需要新建銀行分行的地點。  上述案例一中,該地區從 1997 年到 2005 年已有銀行分行的位置分布情況和人口統計信息就是時間序列數據,找出該地區銀行分行從 1997 年到 2005 年之間隨時間的發展趨勢,從而預測下一年的分布情況是時空數據分析預測的重點之一。
  • 華為雲獲DigSci科學數據挖掘大賽冠軍
    近日,華為雲在論文匹配檢索領域取得進展,基於自然語言處理領域的領先技術積累,華為雲語音語義創新Lab在DigSci科學數據挖掘大賽上奪冠,精準率超過第二名5個百分點。DigSci科學數據挖掘大賽比賽是清華AMiner、智源實驗室、微軟聯合舉辦的學術論文搜索匹配大賽,屬於語義匹配檢索領域,旨在從學術材料中挖掘知識。
  • 數據科學二三事
    同時,數據科學領域知名期刊《Data Science Journal》及《The Journal of DataScience》分別於2002年與2003年發行。2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數位化數據之力》報告,受到了廣泛關注。2012年,數據科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》後,數據科學開始走入大眾視野。
  • 喬治城大學數據科學與分析碩士項目介紹
    數據科學與分析碩士(Master of Science in Data Science and Analytics) 屬於專業碩士項目,課程包括大數據和雲計算,機器學習和深度學習,交互式和複雜可視化方法,高級資料庫,自然語言處理,高等數學和統計建模等。使用的語言包括R,Python和SQL。
  • Python與R、Matlab在數據分析的趨勢對比
    Python與R語言的對比 Python與R語言在數據分析領域的對比,DataCamp上有一篇引用率非常高的文章,數據分析選擇R還是Python,不過這篇文章是2015年寫的,我們先大致總結一下文章內容: R主要用於學術與研究,也開始迅速進入企業市場,越是接近統計學、研究、數據科學,你就會越偏愛
  • 數據挖掘常用的算法
    很多人對大數據的基本概念和特點已經有所了解,那麼我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎麼樣才能在大數據中找出未知的且有價值的信息和知識呢?  知識發現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。  數據挖掘是大數據知識發現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。
  • 大數據中數據挖掘的基本步驟
    導讀 數據挖掘基本步驟,數據挖掘過程定義問題、建立數據挖掘庫、分析數據、準備數據、建立模型、評價模型和實施。
  • Python數據實戰分析之定量和定性數據分析
    也就是說,部署過程基本上就是把數據分析得到的結果應用到實踐中去。數據分析或挖掘的結果有多種部署方式。通常,數據分析師會在這個階段為管理層或是客戶撰寫報告,從概念上描述數據分析結果。報告應上呈經理,以便他們讀後好作出相應的決策,真正用分析結構指導實踐。
  • 深入淺出:如何從0開始學習大數據挖掘分析?
    最近有很多人諮詢,想學習大數據,但不知道怎麼入手,從哪裡開始學習,需要學習哪些東西?對於一個初學者,學習大數據挖掘分析的思路邏輯是什麼?本文就梳理了如何從0開始學習大數據挖掘分析,學習的步驟思路,可以給大家一個學習的建議。
  • 數據挖掘與統計分析的區別
    另一種觀點,早在1962年就由John Tukey[Tukey (1962)]提出來了,他認為統計應該關注數據分析。這個領域應該依據問題而不是工具定義,也就是那些和數據有關的問題。如果這種觀點成為一種主流觀點,那就要求對我們的實踐和學術課題作較大的改變。首先(最重要的),我們應該跟上計算的步伐。哪裡有數據,哪裡就有計算。