KDNuggets:數據科學家使用工具調查

2020-12-05 199IT

工具/產品/解決方案是數據科學家洞察數據的利器。KDNuggets網站對此觀點進行了年度調查,來分析數據科學家在用哪些類型的工具,並提供了調查的匿名原始數據。

通過主成分析(PCA)法進行降維分析

對所有的工具同時進行關係分析,常規來說,PCA通過對大樣本數據統計性質(eg, 協方差)的分析,試圖用主要特徵來解釋關係。

分析結果:

當前分析的目標:通過一些主成分來分析95種工具之間的關係。最終決定以PCA的特徵值來決定主成分的數目,這裡選用了兩種規則:一種是以特徵值大於1的特徵值數量來選擇主成分數量;一種是畫陡坡圖(scree plot),通過95個特徵值你會發現一個拐點的特徵值。

特徵點點陡坡圖顯示在第13和第14特徵點時出現拐點,因此,這裡選擇的13個主成分來解釋它們之間的關係,見下圖。

點擊上圖可放大

 

工具分類

下面列出根據主成分析得出的13類工具(投票數大於20):

  1. 大數據生態(Hadoop、Spark)和開源項目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools
  2. 微軟數據科學家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics
  3. 基於Python的機器學習:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit
  4. SAS公司產品:JMP, SAS Base, SAS Enterprise Miner
  5. MATLAB、R語言等統計工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka
  6. IBM公司產品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics
  7. Linux工具和SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk
  8. 深度學習:Caffe, Pylearn2
  9. 商務智能軟體:Pentaho and QlikView
  10. 數據分析平臺:Datameer and Zementis
  11. Excel和Word統計工具:XLSTAT for Excel
  12. 其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages
  13. 數據可視化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

總結

數據科學家在選擇大數據、數據挖掘和數據分析工具時,更傾向於有一定生態基礎的工具,這樣各個工具間可以相互支持。

為了提高在大數據項目中成功的機會,選擇正確的工具是非常重要的。沒有一個孤立的工具能夠做所有的數據分析,職業的數據專家趨向於使用不止一種相關的工具(分析中發現,數據專家平均使用5種數據分析工具)。你可以根據使用相關工具的數據專家來決定自己的選擇。

另外一個觀點是,要選擇大廠的產品,比如,IBM、微軟和SAS,大品牌的產品更豐富,可以使得你的產品更容易擴展。

作者:杜小芳

199IT大數據導航,匯集1000多款與數據相關的工具(http://hao.199it.com/ ),歡迎分享收藏!

相關焦點

  • KDnuggets:2018年數據科學和機器學習工具排名 Python排名第一
    近日,著名數據科學網站 KDnuggets 發布了 2018 年數據科學和機器學習工具調查結果。超過 2000 人對自己「過去 12 個月內在項目開發中使用過的數據挖掘/機器學習工具和程式語言」進行了投票。該統計還對過去三年來的排名進行了對比分析。這份投票結果既有預料之內,也有預料之外的部分。
  • kdnuggets:2017年Python打敗R成數據科學、機器學習中最熱門語言
    近日,kdnuggets做了一個關於數據科學、機器學習語言使用情況的問卷調查,他們分析了954個回答,得出結論——Python已經打敗R語言,成為分析、數據科學和機器學習平臺中使用頻率最高的語言。有關此次問卷更具體的情況如何?
  • 數據科學家常用的10種程式語言和工具
    【IT168 翻譯】SAP大中華區副總裁劉偉曾經在DTCC大會上說過:「數據科學家是21世紀最性感的職業」。那麼要進入數據科學領域應該掌握哪些技能?如何從一個數據分析師轉變角色成為一個數據科學家?首先你要對數據科學家這份工作做一個研究,例如數據科學家需要掌握哪些數據科學工具和程式語言?一般來說,R和Python是需要重點掌握的。
  • KDnuggets:2013年數據分析/數據挖掘/數據科學使用語言排行榜
    之前的KDnuggets的調查主要是關注:統計與分析軟體,但有時候一個全面與強大的程式語言是需要的。這也是最近一次的KDnuggets調查關注的重點,我們諮詢:在2013年中,什麼樣的程序或者統計語言你是在做分析、挖掘、科學計算的時候所需要的?
  • KDnuggets:未來4至10年內對數據科學家的需求將開始減少
    的讀者認為對數據科學家/機器學習專家的需求將在未來4至10年內開始減少。KDnuggets問卷:對數據科學家/機器學習專家的需求何時會開始衰減?在2012年被譽為「21世紀最性感的工作」之後,市場對於數據科學家的需求開始迅速增長。
  • KDnuggets熱門深度學習工具排行:Pylearn2 居首,Caffe第三
    2015 KDnuggets Software Poll中添加了一個深度學習工具的新類別,民意調查最流行的工具的結果顯示如下。Caffe (29)Torch (27)Cuda-convnet(17)Deeplearning4j(12)Other DeepLearning Tools (106)我沒有使用過所有的工具
  • 最新出爐——數據科學家最常使用的十大算法
    基於調查,KDnuggets總結出了數據科學家最常使用的十大算法,它們分別是:Text Mining 文本挖掘其中,受訪者表示平均使用了8.1個算法,相比2011年類似的調查大幅提高了。政府和工業界數據科學家比學生或者學術研究院使用更多不同的算法,而且工業界數據科學家更傾向於使用元算法。下面,我們繼續通過僱員的類型來分析最流行的10個算法和深度學習。
  • 數據統計分析軟體的理想工具:Stata
    Stata數據集,程序和其他的數據能夠跨平臺共享,而不需要轉換。  廣泛使用  行為科學  定量行為科學家依賴於Stata的準確性、可擴展性、再現性和易用性。無論您是研究認知發展、研究人格特徵,還是開發測量工具,Stata都提供了所有的統計數據、圖形和數據管理工具,這些工具都是研究廣泛的行為科學問題所必需的。
  • 橫評:五款免費開源的語音識別工具
    ,數據科學諮詢公司矽谷數據科學(Silicon Valley Data Science,SVDS)首席科學家,在機器學習、自然語言處理等領域具有豐富的學術研究和產業界從業經驗。而且這篇文章也並非一個覆蓋所有語音識別開源工具的匯總類文章,我們只是對比了其中五款相對更主流的產品。另外,HTK 並不是嚴格開源的,它的代碼並不能重新組織發布,也不能用於商業用途。想知道更多語音識別工具的用戶請點擊以下連結,其中列出了幾乎所有開源/非開源的語音識別工具,非常全面。
  • 南非調查媒體 Oxpeckers:用地理數據給環境調查賦能
    這起礦業汙染調查是 Oxpeckers 團隊的一個典型報導:作為門面, Oxpeckers 的網站著重於結合數據分析及協作,並使用動態及互動式的可視化工具,如動畫地圖及信息圖表,來講述有關土地及其破壞者的可靠報導。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果;一部分差異在分析的自動化上,數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。
  • 科學家呼籲認真研究「不明空中現象」,偵察UFO最佳工具是衛星
    阿勒裡斯說,給科學家提供客觀和高質量的數據是必要的。「沒有人知道UAP可能在何時何地出現,因此這一領域的科學研究很困難。」 這些工具為科學家收集、存儲、操作和傳輸數據提供了新的可能性。 阿勒裡斯指出了另一個有力的工具。他說:「我們衛星的位置是潛在探測到某些東西的絕佳機會。」在航天領域工作時,一個科學家想到可以用民用地球觀測衛星來搜索UAP。一個途徑是利用由歐盟哥白尼衛星收集的免費圖像,這是一個由歐洲委員會與歐空局合作協調和管理的地球觀測項目。
  • R、SQL、Python,看數據科學家最喜歡的程式語言
    數據的爆炸增長以及公司將數據轉化為商業價值的巨大可能性,不斷增加著市場對數據科學家的需求。
  • MATLAB數據擬合工具在數學建模中的簡單應用
    2.2 符號說明從表中,我們不難發現,國家統計局會在一個月裡對50個城市主要食品平均價格變動情況進行三次調查統計,分別是1-10日,11-20日和21-30日三個時間區間。因此,描述物價水平的周期函數的自變量是月份。為了方便處理,我們再做一次抽象處理,將時間抽象為整數N,其中0<=N<=36。那麼如何使用N來表示某一個月呢?
  • 12款實用的數據挖掘工具
    免費的數據挖掘工具包括從完整的模型開發環境如Knime和Orange,到各種用Java、c++編寫的庫,最常見的是Python。數據挖掘中通常涉及到四種任務:分類:將熟悉的結構概括為新數據的任務聚類:在數據中以某種方式查找組和結構的任務,而不需要在數據中使用已注意的結構。
  • 大數據信息分析的方法與工具
    那麼大數據給我們帶來了什麼好處呢?大數據最大的好處在於能夠讓我們從這些數據中分析出很多智能的、深入的、有價值的信息。因此,信息分析以事物、現象、數據、信息之間存在的因果關係或相關關係為基礎。半定量方法主要有內容分析法、層次分析法、德爾菲法等   信息分析的工具主要有四大類:   一是社會調查和專家調查工具;
  • 數據科學家和工程師的「五誡」
    在實際的工作中,數據科學家們不僅要學會如何實用工具,還要懂得如何與同事合作。The Yhat Blog這篇文章探討了在實際的數據建模和數據處理的過程中數據科學家和數據工程師應該如何處理好關係順利地完成項目的問題。
  • 10大採樣工具全方位採樣跟蹤調查
    10大採樣工具全方位採樣跟蹤調查  新華社記者 劉詩平  多金屬結核是深海蘊藏的一種重要礦產資源,開採它會帶來哪些環境影響?連日來,中國大洋38航次科考隊員在南海進行1000米級多金屬結核採礦試驗區的選址與環境背景調查。  繼「蛟龍」號載人潛水器5月10日完成中國大洋38航次第二航段最後一次下潛,常規調查11日也隨著長期錨定觀測系統的布放而正式結束。
  • 由陶澍院士關於國內PM2.5室內外數據調查論文想到的
    首先,陶澍院士的調查研究是他學術範圍內的工作,這樣的調查研究有他的科學依據與理論支撐,本身並無對錯之分。同樣,這樣的調查研究,也給我們的生活提出了參考意見,具有指導意義。我不是科學家,無法反駁院士調查數據的真實性與健康的關聯度。老祖先早就告訴我們「吃五穀雜糧,沒有不生病的」,那是不是為了我們的健康,調查一組數據,吃飯的人100%都死亡,而建議大家不吃飯呢?
  • 史上最全的大數據分析和新媒體製作工具
    「人和動物的區別是人類會使用工具」,這句話對於生活在信息爆炸時代的人尤為適用。這篇文章整理了部分當代職場人必備的新媒體工具和大數據分析與製作工具,這些「必備神器」,其中很多工具是親測過,非常強大,希望大家能從中找到對自己有幫助的工具。