獨家 | 2021,什麼數據分析技能最重要?

2021-02-18 數據派THU

作者:Emmett Boudreau

翻譯:朱啟軒

校對:和中華

本文主要介紹數據科學的發展趨勢以及當今工作崗位所需要的數據分析技能。

 Image by author

 

業界最需要的是什麼技能?新的一年裡您應該從哪裡開始學習?

 

導論

對於像數據科學這種飛速發展的領域,很容易理解為何在給定時間內難以掌握一些熱門技能。成為一名數據科學家的關鍵是研究並且熟練掌握那些任意時刻出現的先進技術。您永遠不知道什麼時候可能需要一個以前從未使用過的工具、函數或模塊,因而需要首先學習如何使用它們。這就是為什麼我們大多數人喜歡閱讀「走向數據科學」(Towards Data Science)可考慮加一句譯者注,說明這是一個數據科學門戶網站!

 

數據科學最大的障礙是過去幾年來其突飛猛進般的演變。近年來,數據科學已經從一個相對鮮為人知的領域轉變為後十年裡最熱門的工作方向。所以,其概念體系/生態體系也在快速發展。這也意味著:如果您停滯不前,則很容易在數據科學的大潮之中落後。

 

對於數據科學家而言,有一些關鍵屬性是僱主所看重並且追尋的,但最重要的屬性是您所熟悉的技術。就現在情況看來,熟悉從動畫片摩登原始人(Flintstones)中模仿的腳車技術可能並不像熟悉TensorFlow這樣有價值。

 

由於數據科學市場和其概念體系在不斷發展,因此很難確定僱主實際想在自己的解決方案中使用的最新技術到底是什麼。幸運的是,由於我們是數據科學家,因此我們可以通過瀏覽網際網路以查找更多數據科學崗位所需的技能,例如程式語言,包,和軟體。

 

要想找到一份完美的數據集,來回答該選擇什麼「數據科學技術」(體系)並不完全可行,因此以下概述來自於我的個人經驗。雖然如此,這些概述也都來源於數據科學崗列出的工作要求,比較全面,並且與數據科學的內在聯繫很緊密。此外,數據科學領域也在迅速發展。這意味著儘管某些技術在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我謹就此方面的技術提出自己的見解。

 

行業需求

 

任何有遠大理想的數據科學家都一定會熟悉許多業界常用的技能。有這些技能的使用經驗一直都是很多工作崗位要求的一部分,因為它們很可能是您入職以後所使用的那些技能。至少,熟悉這些技能的基本概念能夠確保您在使用他們之時更容易上手。

 

Python

 

首先,如果您還不了解Python,建議您學習Python。儘管在數據分析中還會用到R,SAS甚至是Julia,大多數工作崗位尋求的還是精通Python的人。這並不是說其他語言是沒用的,因為能夠適用於不同目的的程式語言技能組合往往是最佳的。比如說,如果要建造花園,我想使用的不僅是鏟子,儘管我可能要做更多的工作,我最終還是能夠把花園建好的。

 

Python是當前科學計算領域的行業標準。這是有充分理由的,因為Python生態系統是其他任何語言都無法比擬的。另一個很棒的事情是,Python的設計使得它很容易使用。對於那些初學者,我會推薦Python,因為它會對您很有幫助!

 

分析

 

至於分析方面,通常都不直接列出技術。這僅是因為,取決於您想做什麼,在進行具體的可視化時,任何軟體包都可以勝任。因此,考慮到這一點,最好掌握多種庫以進行數據可視化。此外,分析過程中的另一個重要的要素是統計學知識。

 

我要說的是,熟悉Python的SciPy會使您更容易被公司錄用。在分析方面,僱主尋找的是真實的量化結果。統計測試是獲得真實量化結果的最簡單方法。此外,這些統計技能將逐步演化為您的機器學習技能。

 

數據


對於數據,重要的是無論使用什麼程式語言,都能對數據有深刻的理解。就是說:雖然大多數語言都具有相似的數據類型,但是用您首選的語言可能最終會完全不同。擁有一定的處理數據能力將會使數據清洗和建立有效的處理管道更加容易。

 

對於Python來說,像NumPy和Pandas這樣的軟體包對於處理數據絕對是必不可少的。如果您想使用複雜的數據集並訓練大型模型,那麼先學好如何用自己喜歡的程式語言來操作/加工數據可能更為重要。儘管數據科學的重要組成部分是機器學習,但很多職位頭銜一般不包含機器學習。原因是,首先,數據科學家會先預處理數據,然後用科學的方法進行實踐。考慮到這一點,如果沒有對數據操作的正確理解,甚至都很難建立模型並運行它。簡單來說,處理數據是最重要的一步,也是精通機器學習前的第一步。

 

數據方面的另一重要事項是了解如何處理和存儲數據。從數據湖,資料庫和表的知識出發,您還應該知道如何查詢數據並將其帶入代碼中以進行測試。能夠對數據進行算術運算是非常棒的,但是當您沒有數據時,它將變得毫無用處。

 

此外,數據聚合算法很重要,無論是來自日誌數據,生成的數據還是最常用的數據。使用API服務並能夠以許多非傳統方式檢索數據對於任何數據科學家來說無疑都是必不可少的。

 

機器學習

 

在機器學習方面,雖然一些更高級的概念(例如,構建神經網絡)可能很酷,但在許多情況下,使用典型的黑盒模型可能是最佳選擇。我認為這意味著數據科學家應該至少對兩者都有一定的了解。儘管我認為這些技能沒有什麼價值,因為大多數時候這些知識框架都是由其他人(尤其是在行業中)預先構建好了的,(譯者補充:大多數時候只要調包就行了)所以大多數工作要求Python開發人員至少具有類似使用Sklearn庫的經驗。

 

開發運維

 

開發運維是一個經常被忽視的數據科學技能。所有模型都有一個目的,通常該目的是為了部署各個模型。因此,虛擬環境管理通常會有一段時間成為數據科學團隊的重要工作內容。這些至關重要的基礎技能也可能有助於編程,但主要是在構建更複雜的數據解決方案時會有所幫助。

 

如果您不知道如何將開發運維組合在一起,那運用現行的開發運維技術是很困難的。至少,對於許多數據科學家而言,了解如何使用終端並熟悉命令行(CLI)絕對是必不可少的。一年多以前,我寫了一篇關於為什麼開發運維會如此重要的文章,實際上,您可以在這裡查看:

 

The benefits of devlops skills in data science:

https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85

 

構建您自己生態系統

 

想吸引大批的數據科學家往往是很困難的,因為他們經常使用不同的語言。話雖這麼說,對於您偏好的語言,可能還有一些軟體包,可能在2021年還需要您去掌握。根據我在職位列表上看到的內容,我列出了幾個熱門語言中比較重要且值得學習的軟體包。

 

Python


NumPy

Math

Scipy(Scipy.stats)

Pandas

TensorFlow

Sklearn

Matplotlib/Seaborn

Plot.ly

Keras

Pytorch

PySpark


Julia


Plots

Makie

DataFrames

GadFly

MLJ

Lathe

GLM

Flux

Knet


R


Shiny

ggplot2

data.table

dplyr

tidyr

knitr


C++


Xtensor

OpenCV

Shogun

Tensorflow

 

當然,不是說就一定要按照上面的列表來學習,而是給人們提供了不同生態圈的輪廓。例如,Seaborn和Matplotlib具有許多相同的功能,因此您可能不需要兩者都知道,但是絕對需要了解如何繪製統計圖表。

 

未來

 

數據科學領域發展迅速,預測其未來相當困難。但是,我們可以看到有關技術發展的趨勢。對於TensorFlow,Python,Pandas等行業標準軟體包,它們可能會存在很長時間。我懷疑對於整個生態系統而言,它的發展方向是不定的,但不會突變。

 

話雖如此,新的程式語言Julia擁有許多有趣的前景,可能暗示著數據科學的未來。需要明確的是,這對於Python的地位沒有任何意義,但對於和Python一起的其他語言角色可能會有一些意義。

 

我認為,數據科學世界每天都有很多有趣的事情在發生。對於像我這樣喜歡不斷學習新事物的人來說,這是一件很棒的事情,但是這也會給人以警醒,因為很難知道在任何給定時間點您應該與什麼樣的技能打交道才能跟上行業發展。

 

原文標題:

Which Data-Science Skills Are the Most Vital in2021?

原文連結:

https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560

朱啟軒,康奈爾大學研究生在讀,專業領域是應用統計,方向是數據科學。本科畢業於加州大學洛杉磯分校。熱愛數據科學,對處理數據,分析數據有自己的獨特見解。對新知識充滿了渴望,目前正在學習自然語言處理和深度學習方面的知識,希望能認識更多志同道合的人,一起努力,一起進步。

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於數據科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯繫,THU數據派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的數據科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點擊文末「閱讀原文」加入數據派團隊~

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:DatapiTHU),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。

發布後請將連結反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。

相關焦點

  • 掌握數據分析最重要的軟實力:數據感知能力
    Python的功能強大,相信會點開這篇文章的人早就明了於心python有強大的三方庫,功能齊全,且python
  • 獨家分析 | 2021年西財會是大年還是小年?
    那麼,到底什麼是大小年?就西財而言,2021是大年還是小年?今年我們就大家關心的這個問題來做簡單分析:什麼是大小年?比較典型的例子就是金融中心,金融中心是西財的王牌專業,無論是名氣、平臺、師資、就業還是發展機會等方面都是數一數二的,可以看看我們之前的一篇文章:獨家 | 從初試到複試,對西財各學院金融學深入比較分析,以前也有很多年份分數線非常高,但從2014、2015年以來,分數線就持續保持低位,並不是說這個專業本身就不好了,出現這種情況的很重要的原因就是,大家都怕這樣一個不錯專業因為上一年分數線低,會吸引大量的考生報考
  • 業界| 數據科學家最需要什麼技能?
    我搜索了招聘網站,想找到數據科學家最需要的技能。我分別研究了通用的數據科學技能和特定的語言、工具。最終使用 LinkedIn 上的 400 多個職位信息用於對通用技能的分析,200 多個職位信息用於對特定技能的分析。當然有一些職位可能重複用於兩種分析。
  • 獨家解讀 | 新聞分析數據哪家強?
    我們先給新聞分析數據下個定義:新聞分析是指基於非結構化的新聞文本,運用機器學習相關算法對新聞文本進行標籤提取、事件識別及情感分析等,轉換為結構化數據的處理方法。新聞分析數據使得新聞等文本類數據應用於量化投資及風險管理等場景成為可能。
  • 商業分析OR 數據分析?你想清楚了麼?
    但是很多同學在求職初期,都會遇到這樣一個問題:商業分析和數據分析究竟該選哪個?不同崗位需要什麼技能?具體該如何準備呢?如果你對以上問題依舊覺得很迷茫,別擔心,我們請到了,清北學霸,紐約頂級基金數據分析師為你帶來2021最新數據求職趨勢與攻略。
  • 分析了1000多個崗位,2020年公司最希望數據科學家掌握的技能是?
    除了必須掌握數據分析、機器學習和深度學習這些技能之外,一些ETL工具和大數據技術也成了必備技能。這未嘗不可,現在每個公司都有自己對數據科學家的獨特定義,並會根據這一定義招聘人員。想要勝任這一工作崗位,也需掌握一些其他技術,如AWS、Azure和Power BI等。
  • 數據分析類課程的技能培養方法探討
    深入分析兩種角度的數據分析人員的職位需求,可以倒推出企業對數據分析人才的能力要求。數據分析理論知識是數據分析人員從事分析工作的基礎,但這不足以在競爭中脫穎而出。企業對數據分析的技能有更高的要求。數據分析的技能包括業務理解能力、數據探索能力、數據建模能力以及項目管理能力等。
  • 2018年僱主最青睞哪些數據科學技能
    編者按:Jeff Hale搜集了各大招聘網站的信息,分析了最搶手的數據科學家該具備哪些技能。
  • 「女孩子學什麼數據分析」,「呵呵」!
    比如你的老闆需要你選擇一個公司最匹配的明星代言人,這位代言人需要具備的特質是身高180+,粉絲量2000萬以上,一年至少登過20次熱搜,粉絲中女粉絲數量居多,你就可以通過對一些平臺的明星數據進行分析,找到最合適的idol成為品牌大使。
  • 數據產品經理必備技能之分析方法
    很多人覺得,做數據產品經理就沒有必要掌握數據分析相關技能了,終於可以遠離了枯燥的數據分析工作。如果真這麼覺得,那麼就大錯特錯了,一個好的數據產品經理,不僅要有產品sense,還要有好的分析思路,因為一個數據產品需求大部分都是由分析需求固化而來的。
  • 5項最重要的物聯網技能
    了解有助於您職業生涯的UX,BI,安全性和移動應用開發技能。物聯網指的是彼此連接的全球設備系統。這些設備改變了我們搜索信息的方式,我們的工作方式以及我們自娛自樂的方式。希望建立穩固的物聯網職業生涯的開發人員和技術專業人員需要關注一些重要技能。
  • 數據分析這個技能,到底能不能速成?
    沒有任何牛逼的事情是能夠速成的,越是像數據分析這種收益周期長的技能,越是這樣。
  • 四川省2021年美術聯考成績分段表可視化數據分析
    (圖2)1.2021年聯考成績250-280以上分段考生數高於2020與2019年。(圖3)1.2021年聯考成績280以上分段考生數較2020年增幅最明顯,增長比為1514.3%(15倍有餘)。2.2021年聯考成績230-234分段考生數較2020年跌幅最明顯,增長比為-19.3%。
  • 2021年大數據分析的5大挑戰
    2021年已經到來,現在是深入研究大數據分析面臨的挑戰的時候了,需要調查其根本原因,本文重點介紹了解決這些問題的潛在解決方案。2021年已經到來,現在是深入研究大數據分析面臨的挑戰的時候了,需要調查其根本原因,本文重點介紹了解決這些問題的潛在解決方案。在開始使用大數據分析系統時,組織最好考慮周全。因為一旦大數據分析已經啟動運行,任何修復都可能成本高昂。
  • 數據技能從哪學起?看看這張矩陣分析圖
    撒網式招聘對於很多初創公司過於昂貴,本文提供了一個分析矩陣,幫你正確評估對針對你投入產出比最高的數據技能。數據技能(Data skills)——將數據轉化為洞察力和行動的能力——成為現代經濟的驅動力。還是索性放棄回到那些正逐漸萎縮的領域,把數據相關的技能留給那些專家們去研究?我們藉助過去用過的一種分析方法來回答這個問題,曾經我們用它分析過如何從收益和成本的角度來確定優先學習哪種Microsoft Excel技能。這次我們將「時間效用分析法」用於數據技能。
  • 2020年最重要的10項工作技能
    我不知道,但是根據鳳凰城大學研究中心未來學會的研究,到 2020 年的時候,最需要的工作技能並不是挖掘機技術。研究人員分析了未來的 6 大變革驅動力,並在基礎上分析出屆時最重要的 10 項工作技能。隨著傳感器、通信及計算能力滲透到日常物體和環境中,現實世界將逐步數位化,人類將有機會獲得海量的數據以及對模式的洞察,人類的決策將越來越多地依賴於對數據的分析,我們對這個世界的思考將會以可計算、可編程、可設計的方式進行。4、新媒介生態新的溝通工具要求具備的媒體素養不僅僅是文字而已。新的多媒體技術的出現將會導致溝通方式的變革。
  • 什麼是數據與數據分析
    需要指出的是,QuestionPro是一個幫助企業進行數據分析和研究的在線調查平臺,因此,該文的針對數據的一些描述僅以調查問卷獲取的數據作為例子,但相關知識可以用於面對其它研究數據時參考。——譯者注目錄一、什麼是研究中的數據分析?1.1 為什麼要在研究中分析數據?
  • 數據分析師必須具備的10項基本技能
    數據分析是一個廣闊的領域,包括幾個細分領域,例如數據準備和探索,數據表示和轉換,數據可視化和表示,預測分析和機器學習等。對於初學者而言,自然會提出以下問題:什麼技能是我成為一名數據分析家所需要的呢?
  • 想從事數據行業?你必須掌握這個最核心的技能
    我到求職網站去尋找對數據科學家最迫切的技能需求是什麼。我看了一般的數據科學技能,也分別看了對語言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求職列表。下面這張圖列出了每個網站對數據科學家的需求數量。
  • 大數據分析與機器學習有什麼區別
    打開APP 大數據分析與機器學習有什麼區別 52sissi 發表於 2020-03-28 16:51:04 大數據分析領域所需的技能 為了探索大數據分析的職業前景,這裡有一些必需的技能: 數學專長 數據有多個方面,包括相關性,紋理和維度,需要以數學或統計方式表示。