【IT168 翻譯】SAP大中華區副總裁劉偉曾經在DTCC大會上說過:「數據科學家是21世紀最性感的職業」。那麼要進入數據科學領域應該掌握哪些技能?如何從一個數據分析師轉變角色成為一個數據科學家?首先你要對數據科學家這份工作做一個研究,例如數據科學家需要掌握哪些數據科學工具和程式語言?一般來說,R和Python是需要重點掌握的。如果你已經掌握了一些程式語言,那麼你就應該關注一些流行的工具。
數據分析和數據科學家是一個很好的職業發展方向。職業網站Glassdoor將數據科學家評為2016美國最好的工作。據悉,數據科學家的平均年薪為116840美元,目前有很大的市場需求。同時,數據科學家也榮登Glassdoor的best Work-Life Balance 名單。
我們採訪了當前的數據分析師和數據科學家,總結了他們認為從事數據科學必備的技能、語言和工具。接下來,我們就來看一下到底有哪些工具和程式語言受到了數據科學家的青睞。
R
數據科學家和分析人員有兩大神器,其中之一就是R。R是由Ross Ihaka 和Robert Gentleman創建的開源語言,主要用於數據分析和數據可視化。 R有非常活躍的用戶社區,社區提供R安裝包,也會對R的相關問題進行解答。R語言已經引起了很多企業的重視。微軟旗下的企業平臺支持R語言。
Python
數據科學家的另一個神器就是Python。Python最早出現在1990年,是由Guido van Rossem創建的。如果你準備從事數據科學家和分析師的工作,那麼你首要掌握的技能就是R或Python。Python是一款較為通用的語言,被Datacamp網站評為最適合編程初學者的語言。相對來說,R的學習曲線較為陡峭。
Scala
Scala集成了面向對象編程和函數式編程的各種特性。它是實時數據處理最流行的語言。它是很多流數據技術的實現語言,例如Apache Spark和Apache Kafka。 O'Reilly的2015年數據科學薪酬調查指出,Scala工程師的薪資在2015年上漲了10%。
SQL
SQL雖然不應用於大數據,但仍然是數據分析中非常受歡迎的工具。 O'Reilly的調查指出,68%的受訪者表示他們在使用SQL。SQL是關係資料庫管理系統的標準語言,現在仍有很多的傳統企業在使用RDBMS。因此,SQL仍然是企業組織的重要工具。
Excel
即使是在高級工具層出不窮的時代,Excel仍然是一個很流行的工具。 據O'Reilly的調查,59%的數據科學家和分析師在使用Excel,而且和去年同期相比,Excel的使用率沒有下降。Excel是數據分析的主力,因為它的普遍性和易用性,成為了非程式設計師和分析師的首選工具。
SAS
SAS進入了Gartner高級分析平臺魔力象限的領導者象限,無論是在前瞻性還是執行力都表現出色。SAS是由美國NORTH CAROLINA州立大學1966年開發的統計分析軟體,直到現在,仍然煥發著勃勃生機,是現下流行的數據分析工具。數據科學家使用Crowdflower對LinkedIn上數以千計的招聘信息進行了分析,發現SAS的需求量大概在15%~20%之間。
Java
據Crowdflower分析顯示,數據科學家這項工作對Java的要求提高了,LinkedIn上大約有35%~40%的數據科學家招聘廣告中都明確要求有Java工作經驗。O'Reilly的調查顯示Java的使用率從2014年的32%下降至2015年23%,但是有25%的受訪數據科學家表示Java是他們的常用語言。
MatLab
MatLab是MathWorks公司1984年開發的商業數學軟體,在學術界的影響力很大,主要用於數據採集和數學建模。 O'Reilly的調查顯示,MatLab的使用率出現了下降,但是Crowdflower分析則表示,目前MatLab的市場空缺達到了85%-90%。
SPSS
SPSS讓IBM進入了Gartner高級分析平臺魔力象限的領導者象限。現在,許多大學都採用SPSS技術來進行他們的學位工作。SPSS於2009年被IBM收購,現在旗下已經有一系列的子產品。
Julia
Julia相比於其他工具是一個比較新的工具,知名度不是很廣。Julia的主要應用場景是培訓諮詢和商業支持。VentureBeat認為Julia是一款可以替代數據科學專有工具的免費工具,相比於Python和R語言更為現代。
原文出處:
http://www.informationweek.com/devops/programming-languages/10-programming-languages-and-tools-data-scientists-use-now