作者:Emmett Boudreau
翻譯:朱啟軒
校對:和中華
本文主要介紹數據科學的發展趨勢以及當今工作崗位所需要的數據分析技能。
Image by author
業界最需要的是什麼技能?新的一年裡您應該從哪裡開始學習?
導論
對於像數據科學這種飛速發展的領域,很容易理解為何在給定時間內難以掌握一些熱門技能。成為一名數據科學家的關鍵是研究並且熟練掌握那些任意時刻出現的先進技術。您永遠不知道什麼時候可能需要一個以前從未使用過的工具、函數或模塊,因而需要首先學習如何使用它們。這就是為什麼我們大多數人喜歡閱讀「走向數據科學」(Towards Data Science)可考慮加一句譯者注,說明這是一個數據科學門戶網站!
數據科學最大的障礙是過去幾年來其突飛猛進般的演變。近年來,數據科學已經從一個相對鮮為人知的領域轉變為後十年裡最熱門的工作方向。所以,其概念體系/生態體系也在快速發展。這也意味著:如果您停滯不前,則很容易在數據科學的大潮之中落後。
對於數據科學家而言,有一些關鍵屬性是僱主所看重並且追尋的,但最重要的屬性是您所熟悉的技術。就現在情況看來,熟悉從動畫片摩登原始人(Flintstones)中模仿的腳車技術可能並不像熟悉TensorFlow這樣有價值。
由於數據科學市場和其概念體系在不斷發展,因此很難確定僱主實際想在自己的解決方案中使用的最新技術到底是什麼。幸運的是,由於我們是數據科學家,因此我們可以通過瀏覽網際網路以查找更多數據科學崗位所需的技能,例如程式語言,包,和軟體。
要想找到一份完美的數據集,來回答該選擇什麼「數據科學技術」(體系)並不完全可行,因此以下概述來自於我的個人經驗。雖然如此,這些概述也都來源於數據科學崗列出的工作要求,比較全面,並且與數據科學的內在聯繫很緊密。此外,數據科學領域也在迅速發展。這意味著儘管某些技術在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我謹就此方面的技術提出自己的見解。
行業需求
任何有遠大理想的數據科學家都一定會熟悉許多業界常用的技能。有這些技能的使用經驗一直都是很多工作崗位要求的一部分,因為它們很可能是您入職以後所使用的那些技能。至少,熟悉這些技能的基本概念能夠確保您在使用他們之時更容易上手。
Python
首先,如果您還不了解Python,建議您學習Python。儘管在數據分析中還會用到R,SAS甚至是Julia,大多數工作崗位尋求的還是精通Python的人。這並不是說其他語言是沒用的,因為能夠適用於不同目的的程式語言技能組合往往是最佳的。比如說,如果要建造花園,我想使用的不僅是鏟子,儘管我可能要做更多的工作,我最終還是能夠把花園建好的。
Python是當前科學計算領域的行業標準。這是有充分理由的,因為Python生態系統是其他任何語言都無法比擬的。另一個很棒的事情是,Python的設計使得它很容易使用。對於那些初學者,我會推薦Python,因為它會對您很有幫助!
分析
至於分析方面,通常都不直接列出技術。這僅是因為,取決於您想做什麼,在進行具體的可視化時,任何軟體包都可以勝任。因此,考慮到這一點,最好掌握多種庫以進行數據可視化。此外,分析過程中的另一個重要的要素是統計學知識。
我要說的是,熟悉Python的SciPy會使您更容易被公司錄用。在分析方面,僱主尋找的是真實的量化結果。統計測試是獲得真實量化結果的最簡單方法。此外,這些統計技能將逐步演化為您的機器學習技能。
數據
對於數據,重要的是無論使用什麼程式語言,都能對數據有深刻的理解。就是說:雖然大多數語言都具有相似的數據類型,但是用您首選的語言可能最終會完全不同。擁有一定的處理數據能力將會使數據清洗和建立有效的處理管道更加容易。
對於Python來說,像NumPy和Pandas這樣的軟體包對於處理數據絕對是必不可少的。如果您想使用複雜的數據集並訓練大型模型,那麼先學好如何用自己喜歡的程式語言來操作/加工數據可能更為重要。儘管數據科學的重要組成部分是機器學習,但很多職位頭銜一般不包含機器學習。原因是,首先,數據科學家會先預處理數據,然後用科學的方法進行實踐。考慮到這一點,如果沒有對數據操作的正確理解,甚至都很難建立模型並運行它。簡單來說,處理數據是最重要的一步,也是精通機器學習前的第一步。
數據方面的另一重要事項是了解如何處理和存儲數據。從數據湖,資料庫和表的知識出發,您還應該知道如何查詢數據並將其帶入代碼中以進行測試。能夠對數據進行算術運算是非常棒的,但是當您沒有數據時,它將變得毫無用處。
此外,數據聚合算法很重要,無論是來自日誌數據,生成的數據還是最常用的數據。使用API服務並能夠以許多非傳統方式檢索數據對於任何數據科學家來說無疑都是必不可少的。
機器學習
在機器學習方面,雖然一些更高級的概念(例如,構建神經網絡)可能很酷,但在許多情況下,使用典型的黑盒模型可能是最佳選擇。我認為這意味著數據科學家應該至少對兩者都有一定的了解。儘管我認為這些技能沒有什麼價值,因為大多數時候這些知識框架都是由其他人(尤其是在行業中)預先構建好了的,(譯者補充:大多數時候只要調包就行了)所以大多數工作要求Python開發人員至少具有類似使用Sklearn庫的經驗。
開發運維
開發運維是一個經常被忽視的數據科學技能。所有模型都有一個目的,通常該目的是為了部署各個模型。因此,虛擬環境管理通常會有一段時間成為數據科學團隊的重要工作內容。這些至關重要的基礎技能也可能有助於編程,但主要是在構建更複雜的數據解決方案時會有所幫助。
如果您不知道如何將開發運維組合在一起,那運用現行的開發運維技術是很困難的。至少,對於許多數據科學家而言,了解如何使用終端並熟悉命令行(CLI)絕對是必不可少的。一年多以前,我寫了一篇關於為什麼開發運維會如此重要的文章,實際上,您可以在這裡查看:
The benefits of devlops skills in data science:
https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85
構建您自己生態系統
想吸引大批的數據科學家往往是很困難的,因為他們經常使用不同的語言。話雖這麼說,對於您偏好的語言,可能還有一些軟體包,可能在2021年還需要您去掌握。根據我在職位列表上看到的內容,我列出了幾個熱門語言中比較重要且值得學習的軟體包。
Python
NumPy
Math
Scipy(Scipy.stats)
Pandas
TensorFlow
Sklearn
Matplotlib/Seaborn
Plot.ly
Keras
Pytorch
PySpark
Plots
Makie
DataFrames
GadFly
MLJ
Lathe
GLM
Flux
Knet
Shiny
ggplot2
data.table
dplyr
tidyr
knitr
Xtensor
OpenCV
Shogun
Tensorflow
當然,不是說就一定要按照上面的列表來學習,而是給人們提供了不同生態圈的輪廓。例如,Seaborn和Matplotlib具有許多相同的功能,因此您可能不需要兩者都知道,但是絕對需要了解如何繪製統計圖表。
未來
數據科學領域發展迅速,預測其未來相當困難。但是,我們可以看到有關技術發展的趨勢。對於TensorFlow,Python,Pandas等行業標準軟體包,它們可能會存在很長時間。我懷疑對於整個生態系統而言,它的發展方向是不定的,但不會突變。
話雖如此,新的程式語言Julia擁有許多有趣的前景,可能暗示著數據科學的未來。需要明確的是,這對於Python的地位沒有任何意義,但對於和Python一起的其他語言角色可能會有一些意義。
我認為,數據科學世界每天都有很多有趣的事情在發生。對於像我這樣喜歡不斷學習新事物的人來說,這是一件很棒的事情,但是這也會給人以警醒,因為很難知道在任何給定時間點您應該與什麼樣的技能打交道才能跟上行業發展。
原文標題:
Which Data-Science Skills Are the Most Vital in2021?
原文連結:
https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560
朱啟軒,康奈爾大學研究生在讀,專業領域是應用統計,方向是數據科學。本科畢業於加州大學洛杉磯分校。熱愛數據科學,對處理數據,分析數據有自己的獨特見解。對新知識充滿了渴望,目前正在學習自然語言處理和深度學習方面的知識,希望能認識更多志同道合的人,一起努力,一起進步。
工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。
你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於數據科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯繫,THU數據派產學研的背景為志願者帶來好的發展機遇。
其他福利:來自於名企的數據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。
點擊文末「閱讀原文」加入數據派團隊~
轉載須知
如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:DatapiTHU),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。
發布後請將連結反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。