數據科學家常用的10種程式語言和工具

2021-01-13 IT168

  【IT168 翻譯】SAP大中華區副總裁劉偉曾經在DTCC大會上說過:「數據科學家是21世紀最性感的職業」。那麼要進入數據科學領域應該掌握哪些技能?如何從一個數據分析師轉變角色成為一個數據科學家?首先你要對數據科學家這份工作做一個研究,例如數據科學家需要掌握哪些數據科學工具和程式語言?一般來說,R和Python是需要重點掌握的。如果你已經掌握了一些程式語言,那麼你就應該關注一些流行的工具。

  數據分析和數據科學家是一個很好的職業發展方向。職業網站Glassdoor將數據科學家評為2016美國最好的工作。據悉,數據科學家的平均年薪為116840美元,目前有很大的市場需求。同時,數據科學家也榮登Glassdoor的best Work-Life Balance 名單。

  我們採訪了當前的數據分析師和數據科學家,總結了他們認為從事數據科學必備的技能、語言和工具。接下來,我們就來看一下到底有哪些工具和程式語言受到了數據科學家的青睞。

  R

  數據科學家和分析人員有兩大神器,其中之一就是R。R是由Ross Ihaka 和Robert Gentleman創建的開源語言,主要用於數據分析和數據可視化。 R有非常活躍的用戶社區,社區提供R安裝包,也會對R的相關問題進行解答。R語言已經引起了很多企業的重視。微軟旗下的企業平臺支持R語言。

  Python

  數據科學家的另一個神器就是Python。Python最早出現在1990年,是由Guido van Rossem創建的。如果你準備從事數據科學家和分析師的工作,那麼你首要掌握的技能就是R或Python。Python是一款較為通用的語言,被Datacamp網站評為最適合編程初學者的語言。相對來說,R的學習曲線較為陡峭。

  Scala

  Scala集成了面向對象編程和函數式編程的各種特性。它是實時數據處理最流行的語言。它是很多流數據技術的實現語言,例如Apache Spark和Apache Kafka。 O'Reilly的2015年數據科學薪酬調查指出,Scala工程師的薪資在2015年上漲了10%。

  SQL

  SQL雖然不應用於大數據,但仍然是數據分析中非常受歡迎的工具。 O'Reilly的調查指出,68%的受訪者表示他們在使用SQL。SQL是關係資料庫管理系統的標準語言,現在仍有很多的傳統企業在使用RDBMS。因此,SQL仍然是企業組織的重要工具。

  Excel

  即使是在高級工具層出不窮的時代,Excel仍然是一個很流行的工具。 據O'Reilly的調查,59%的數據科學家和分析師在使用Excel,而且和去年同期相比,Excel的使用率沒有下降。Excel是數據分析的主力,因為它的普遍性和易用性,成為了非程式設計師和分析師的首選工具。

  SAS

  SAS進入了Gartner高級分析平臺魔力象限的領導者象限,無論是在前瞻性還是執行力都表現出色。SAS是由美國NORTH CAROLINA州立大學1966年開發的統計分析軟體,直到現在,仍然煥發著勃勃生機,是現下流行的數據分析工具。數據科學家使用Crowdflower對LinkedIn上數以千計的招聘信息進行了分析,發現SAS的需求量大概在15%~20%之間。

  Java

  據Crowdflower分析顯示,數據科學家這項工作對Java的要求提高了,LinkedIn上大約有35%~40%的數據科學家招聘廣告中都明確要求有Java工作經驗。O'Reilly的調查顯示Java的使用率從2014年的32%下降至2015年23%,但是有25%的受訪數據科學家表示Java是他們的常用語言。

  MatLab

  MatLab是MathWorks公司1984年開發的商業數學軟體,在學術界的影響力很大,主要用於數據採集和數學建模。 O'Reilly的調查顯示,MatLab的使用率出現了下降,但是Crowdflower分析則表示,目前MatLab的市場空缺達到了85%-90%。

  SPSS

  SPSS讓IBM進入了Gartner高級分析平臺魔力象限的領導者象限。現在,許多大學都採用SPSS技術來進行他們的學位工作。SPSS於2009年被IBM收購,現在旗下已經有一系列的子產品。

  Julia

  Julia相比於其他工具是一個比較新的工具,知名度不是很廣。Julia的主要應用場景是培訓諮詢和商業支持。VentureBeat認為Julia是一款可以替代數據科學專有工具的免費工具,相比於Python和R語言更為現代。

  原文出處:

  http://www.informationweek.com/devops/programming-languages/10-programming-languages-and-tools-data-scientists-use-now

相關焦點

  • R、SQL、Python,看數據科學家最喜歡的程式語言
    但是,一個合格的數據科學家必須具備哪些技能,擁有什麼樣的教育背景呢?數據科學家在團隊中的角色是什麼?數據科學家大多使用什麼工具和程式語言呢?這些就是米蘭理工大學的大數據分析觀測臺通過一項針對數據科學家的國際調查正在研究的部分問題。如果你的工作與數據有關,也可以支持一下這個完全匿名的調查( survey)。
  • 10 種最具影響力的程式語言
    不過,那是在 1990 年,要普及一種完全不同的編程風格還是為時已晚了。更微妙的問題在於,APL 和 J 僅適用於同構數據的處理。不能將字符串和數字都存儲在同一個數據結構中(除非你使用 box,這是一個完整的「蠕蟲罐頭」),並且處理字符串通常是一場噩夢。因此沒有數據幀,這就將許多現代數據科學排除在外了。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果;一部分差異在分析的自動化上,數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。
  • 業界| 四大機器學習程式語言對比:R、Python、MATLAB、Octave
    MJ Bahmani 參與:張倩、路 本文作者是一位機器學習工程師,他比較了四種機器學習程式語言(工具):R、Python、MATLAB 和 OCTAVE。作者列出了這些語言(工具)的優缺點,希望對想開始學習它們的人有用。
  • 最適合兒童的程式語言 - Python
    所以採用圖形動畫和聲音的互動方式的教授學習效果最為合適。Scratch圖形編程體現在簡單的編程邏輯體驗和入門,針對的一般是小學及以下階段的學生。針對小學高年級,初高中階段,這個時候學生的數理邏輯基礎相對紮實,有了基礎的思維邏輯,這個時候Scratch圖形編程已經不太適合進階,也不能實現較複雜的邏輯運算程序,所以是時候引入一門真正的程式語言。
  • 哪門程式語言更賺錢?看看 Stack Overflow 的最新調查
    最新的計算器除了增加新的國家和地區之外,還更新了數字數據。更新後的薪資計算器新增了 8 個國家和地區的數據,以及更能反映開發者收入的最新數據。所以,想知道自己的技術能力值多少錢?不妨試用一下 Stack Overflow 2018 年最新的薪資計算器(https://stackoverflow.com/jobs/salary)。
  • 十大流行程式語言和它們的創造者
    到目前為止,它已經成為了最流行的一門應用程式程式語言。2)C和Dennis Ritchie1967年到1973年之間,美國計算機科學家Dennis MacAlistair Ritchie在AT&T貝爾實驗室創造了C語言。到目前為止,C語言仍然非常受歡迎,它被廣泛地運用於系統編程。
  • 計算機程式語言的發展簡史,人工智慧與雲計算程式語言!
    學習一兩門計算機程式語言也如當初學習英文一樣的火熱,隨著人工智慧AI和雲計算的不斷發展,Python語言和Scala語言已經成為這兩個領域裡面最為火熱的程式語言了,可以預知未來學習計算機程式語言的人也一樣會如同學習英文一樣的成為一種新常態,並且成為一種穩定的常態。以下筆者將以自己的學習認知,簡單的闡述一下計算機程式語言的發展。
  • 最適合人工智慧開發的程式語言優缺點對比
    迄今為止,人工智慧已經實現了生物識別智能、自動駕駛汽車和人臉識別等等項目。就像大多數軟體應用程式的開發一樣,開發人員也在使用多種語言來編寫人工智慧項目,但是現在還沒有任何一種完美的程式語言是可以完全速配人工智慧項目的。程式語言的選擇往往取決於對人工智慧應用程式的期望功能。關於最佳人工智慧程式語言的爭論從未停止,所以本文就來比較5種人工智慧項目最常用的程式語言,並列出它們的優缺點。
  • Go 語言獲得 IEEE Spectrum 2019 年度程式語言 Top 10
    但我們的基本思想和方法仍然相同:將來自多個來源的數據結合起來,對於您感興趣的編碼類型的程式語言的流行程度進行排名。我們採用這種方法來解決所有確定程式語言普及程度的兩個基本障礙:(1)當他們敲擊鍵盤時,沒有人能真正看到世界上每個編碼器的肩膀,(2)一種語言是一個編程領域的基石,在另一個編程領域可能完全無關緊要。
  • 下一代生物信息學工具無需編程專業知識即可進行大數據分析
    休斯頓-由德克薩斯大學MD安德森癌症中心的研究人員開發的一種新的數據分析工具,結合了用戶友好的自然語言界面,使沒有專門從事生物信息學或程式語言專業知識的生物醫學研究人員可以對大型數據集進行直觀分析。「我們認為,我們可以通過創建一種任何研究人員都可以使用的工具,來改進當前進行常規生物信息學分析的模型,並大大縮短周轉時間,」生物信息學和計算生物學教授韓亮博士說。「我們對DrBioRight的長期目標是成為每個研究人員的明智合作者。」現代生物醫學研究中使用的高通量技術會生成大型,複雜的數據集,這些數據集可提供有關正在研究的患者,動物模型或細胞系的全面信息。
  • 開發人員生態系統現狀,首選的程式語言有哪些?
    作為程式設計師們的看家利器之程式語言,倘若開發者們對其掌握得越深那麼對自己的職業發展越有益。但是由於每一年不同行業的技術發展各有偏重,導致數百種程式語言的流行度也會受到影響。 那麼在過去一年中,開發者主要使用的程式語言有哪些? 對此,JetBrains 根據最新的數據報告結果得出,最受歡迎的程式語言是 Java 和 Python。
  • KDnuggets:2018年數據科學和機器學習工具排名 Python排名第一
    近日,著名數據科學網站 KDnuggets 發布了 2018 年數據科學和機器學習工具調查結果。超過 2000 人對自己「過去 12 個月內在項目開發中使用過的數據挖掘/機器學習工具和程式語言」進行了投票。該統計還對過去三年來的排名進行了對比分析。這份投票結果既有預料之內,也有預料之外的部分。
  • GitHub數據告訴你:最幸福的碼農在用什麼程式語言?
    GitHub數據告訴你:最幸福的碼農在用什麼程式語言?幸運的是,我們可以使用github和來自開發人員調查的數據找到真相。數據採集Github是所有開發人員都熟悉的平臺。它不僅可以用作版本控制工具,還可以收集存儲庫和項目統計信息,用戶配置文件數據和注釋。這樣,我們就可以訪問有關年齡,性別和個人資料照片的信息。Microsoft Face API正是完成此任務的正確工具。
  • 常用的十大 python 圖像處理工具
    Python成為這種圖像處理任務是一個恰當選擇,這是因為它作為一種科學程式語言正在日益普及,並且在其生態系統中免費提供許多最先進的圖像處理工具供大家使用。讓我們看一下可以用於圖像處理任務中的常用 Python 庫有哪些吧。
  • IEEE2019程式語言排行榜:趨勢、開源、職位需求,Python都是第一
    名列後幾位的分別是 Java、C 語言、C++和 R 語言。這是 IEEE Spectrum 的第六次年度程式語言排行統計。今年的統計進行了重大改革,一些基礎指標進行了重構,而最終的排行榜也進一步得到了簡化。但其基本理念讓仍然相同:將多個數據源的程式語言流行度排名結合起來,得出目前業內人們關注度最高的語言。
  • 最美程式語言Pascal,經典學院派語言,成就了Delphi的傳奇
    這些特點與當時陽春白雪的其他程式語言形成了極大反差,一出世就受到廣泛歡迎,促使其被廣泛用於各種軟體的編寫,同時也降低了軟體程式語言的學習曲線,為軟體領域的大發展打下了堅實的基礎。Pascal語言作為一門軟體程式語言,基於ALGOL的Pascal語言是最早出現的結構化程式語言,具有豐富的數據類型和簡潔靈活的操作語句。
  • 量子編程取得突破:量子計算機的第一種直觀語言
    目前,蘇黎世聯邦理工學院的計算機科學家已經在程式語言領域取得了重要突破:他們的量子語言是此類語言中的第一種,它與古典計算機語言一樣優雅,簡單且安全。#量子計算機對人類發展的影響#量子計算機的編程變得越來越容易:蘇黎世聯邦理工學院的計算機科學家設計了第一種程式語言,可以像傳統計算機一樣簡單、可靠、安全地對量子計算機進行編程。
  • 戲說程式語言發展史
    從1951年2014年,人類一共發明了幾百種程式語言,每一種語言的出現都帶有某些新特徵。1801年,Jacquard織布機是第一臺可進行程序控制的織布機。它是早期計算機的輸入設備,程序和數據轉換為二進位數碼,帶孔為1,無孔為0,經過光電掃描輸入電腦。
  • 12 種自然語言處理的開源工具
    儘管我並不熟悉所有工具,但我將從我所熟悉的程式語言出發來介紹這些工具(對於我不熟悉的語言,我無法找到大量的工具)。也就是說,出於各種原因,我排除了三種我熟悉的語言之外的工具。R 語言可能是沒有被包含在內的最重要的語言,因為我發現的大多數庫都有一年多沒有更新了。這並不一定意味著它們沒有得到很好的維護,但我認為它們應該得到更多的更新,以便和同一領域的其他工具競爭。