想從事數據行業?你必須掌握這個最核心的技能

2021-01-08 網際網路數據資訊網
 大家對數據科學家的預期是應該懂很多——機器學習、計算機科學、統計、數學、數據可視化、溝通,以及深度學習。這些領域牽涉到很多的語言、框架以及技術的學習。數據科學家要想成為僱主想要的那種人才的話,應該把學習的精力放在哪些地方呢?

我到求職網站去尋找對數據科學家最迫切的技能需求是什麼。我看了一般的數據科學技能,也分別看了對語言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求職列表。下面這張圖列出了每個網站對數據科學家的需求數量。

我看了很多求職列表和調查以找出最常見的技能。像管理這類的術語就不進行比較了,因為可以用到的場合太多了。

所有的搜索都是針對美國,使用了「data scientist(數據科學家)」、「[keyword]」作為搜索關鍵字。採用精確匹配以減少搜索結果數。然而,這個方法確保了結果對數據科學家職位是相關的,並且對所有搜索術語都產生類似的作用。

AngelList提供的是列出數據科學家崗位的公司數而不是崗位數。我把AngelList從所有分析裡面排除掉了,因為其搜索算法似乎按照OR型的邏輯搜索進行,沒有辦法改成AND。如果你尋找的是「數據科學家」「TensorFlow」的話,AngelList也沒問題,因為這只能在數據科學家崗位裡面找到,但如果你的關鍵字是「數據科學家」「react.js」的話,它返回的結果就太多了,其中會包括一大堆非數據科學家的崗位列表。

Glassdoor也被排除在我的分析之外。該網站聲稱在美國有26263個「數據科學家」職位,但是顯示出來的卻不超過900個。此外,它上面的數據科學家崗位數超過任何其他主流平臺3倍以上似乎極不可能。

LinkedIn上超過400個崗位列表都提到的通用技能以及超過200個崗位列表都提到的特別技術被納入到最終分析裡面。當然,這兩者之間會有一些交叉。結果已經被記錄進這張Google Sheet 裡面。

我下載了.csv文件並且導入到JupyterLab。然後我計算了出現比例並求出求職網站之間的平均數。

我還將軟體結果跟GlassDoor的一項研究(2017年上半年,針對數據科學家崗位列表)進行了對比。再結合KDNuggets使用情況調查的信息,似乎一些技能正在變得越來月重要,而其他一些的相關性則在下降。後面我們會細談。

互動式圖表可以到我的Kaggle Kernel上面去看,額外分析可參見此處。可視化我用的是Plotly。為了本文結合使用Plotly和JupyterLab可費了一點功夫——相關指令可到我的Kaggle Kernel找,另外這裡也有Plotly的腳本。

通用技能

下面這張圖反映的是僱主尋找最頻繁的數據科學家通用技能。

結果表明,分析和機器學習是數據科學家崗位的核心技能。從數據中發現洞察是數據科學的主要職能。機器學習則是要創建系統來預測表現,這是非常亟需的技能。

數據科學需要統計和計算機科學技能——這一點並不出奇。統計分析、計算機科學以及數學也是大學的專業,這大概對其出現頻率有幫助。

有趣的是溝通在將近一半的崗位列表中被提到。數據科學家需要將洞察與工作與他人進行溝通。

AI和深度學習的出現頻率沒有其他一些屬於那麼頻繁。然而,它們都屬於機器學習的子集。機器學習過去由其他算法執行的任務正在被越來越多的深度學習算法替代。比方說,大多數自然語言處理問題最好的機器學習算法現在都是深度學習算法。我預計深度學習技能在未來的需求會更加迫切,而機器學習也將日益變成深度學習的同義詞。

此外,哪些數據科學家的軟體工具是僱主想要尋求的呢?下面我們就來看看這個問題的答案。

技術技能

以下是僱主希望數據科學家掌握的排名靠前的20種語言、庫以及技術工具。

我們大概看一下其中最常見的技術技能。

Python

Python是需求最旺盛的語言。這門開源語言的流行度已經被很多人注意到。它對初學者很友好,有許多支持資源。絕大部分新的數據科學工具都兼容它。

Python是數據科學家的主要語言。

R

R語言並不比Python落後多少。它一度是數據科學的主要語言。我反而對它的需求依然如此旺盛感到吃驚。這門開源語言的根在統計,至今在統計學家那裡仍非常流行。

Python或者R幾乎是每一個數據科學家崗位的必須。

SQL

SQL的需求也很高。SQL即結構化查詢語言(Structured Query Language),是與關係式資料庫的主要交互方式。SQL有時候會被數據科學界忽視,但這是一門值得掌握的技能,如果你打算切入求職市場的話。

Hadoop、Spark

接下來是Hadoop和Spark,這兩個都是出自Apache的大數據開源工具。

Apache Hadoop是一個利用商品化硬體搭建的計算機集群對超大規模數據集進行分布式存儲和分布式處理的開源軟體平臺。

Apache Spark是一個有著優雅的、富有表現力的API,可讓數據工作者高效執行需要對數據集進行快速迭代存取的流處理、機器學習或者SQL負載的快速內存數據處理引擎。

相對於其他,這些工具在Medium和教程中被提及的次數少了點。我猜具備這些技能的求職者要比具備Python、R和SQL技能的求職者少得多。如果你掌握了一定Hadoop和Spark經驗的話,應該可以在競爭中獲得優勢。

Java、SAS

然後是Java和SAS。這兩門語言地位這麼高倒是出乎我的意料。其背後都有大公司的支持,支持至少都提供了一些免費的產品。不過Java和SAS在數據科學社區受到的關注都很少。

Tableau

對Tableau的需求次之。這個分析平臺和可視化工具非常強大,易用,而且越來越流行。它有一個免費的公共版本,但是如果你想數據保持私有的話得花錢。

如果你對Tableau不熟悉的話,到Udemy上一門Tableau 10 A-Z快速了解一下絕對是值得的。聲明一下啊,我這麼建議可不是拿了佣金的——那是因為我上過這門課之後發現它的確有用。

下面這張表反映的是更大範圍內的語言、框架等數據科學軟體工具的需求情況。

歷史對比

GlassDoor對2017年1月到7月間數據科學家10大最常見的軟體技能進行了分析。以下是那些術語出現的頻度相對2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出現頻度平均數的對比。

結果相當類似。我的分析和GlassDoor的分析都發現Python、R及SQL都是需求最旺盛的技能。兩份分析發現的需求前9大技術技能都是一樣的,儘管順序方面略有不同。

結果表明,相對於2017年上半年,R、Hadoop、Java、SAS及MatLab現在的需求略微下降,而對Tableau的需求則在上升。加上KDnuggets開發者調查這類的輔助性結果,我想這就是我預期的結論。R、Hadoop、Java和SAS均呈現出多年的下降趨勢,而對Tableau則顯示出明顯的上升勢頭。

建議

基於這些分析的結果,以下是對當前和想要成為數據科學家的人提供的提升自我價值的建議。

證明你可以進行數據分析並且專注機器學習,要變得非常擅長。對你的溝通技能進行投資。我建議去讀讀《Made to Stick(讓創意更有粘性)》這本書來讓你的想法產生更大影響。此外還可以用Hemmingway Editor這款app改進寫作的清晰性。掌握一種深度學習框架。精通一種深度學習框架在精通機器學習中佔據了越來越大的部分。深度學習框架在使用情況、流行度等方面的對比情況可以看我的這篇文章。如果你要走學習Python和R語言之間做選擇的話,選Python。如果你對Python不感冒,那就選擇R。如果你也懂R的話在市場上一定會更加搶手。

當僱主尋找懂Python技能的數據科學家時,他們可能也會預期應徵者了解常見的python資料庫庫:numpy、pandas、scikit-learn以及matplotlib等。如果你想學習這裡提到的工具的話,我建議你看看以下這些資源:

DataCamp 及 DataQuest——均為定價合理的在線SaaS數據科學教育產品,可以一邊編碼一邊學習。這兩個都教若干的技術工具。Data School上面有各種資源,其中就包括了一套很好的YouTube視頻,裡面解釋了數據科學的概念。McKinney的《Python for Data Analysis》。這本書是pandas庫的主要作者寫的,聚焦的是pandas,同時也討論了python基礎、numpy以及scikit-learn的數據科學功能。Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要維護者之一。這本書非常優秀,是學習用scikit-learn做機器學習的好讀物。如果你尋求去學習深度學習的話,我建議先從Keras 或者 FastAI 開始,然後再轉到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是學習Keras的好資源。

除了這些推薦以外,我還建議你學習自己感興趣的東西,儘管在決定如何分配學習時間方面顯然有很多考慮因素。

LinkedIn

如果你要通過在線門戶找數據科學家崗位的話,我建議你從LinkedIn開始——這個地方總是有最多的結果。

如果你在求職網站上尋找工作或者職位的話,關鍵字很重要。每個網站搜「數據科學」返回的結果數幾乎是「數據科學家」的3倍。但如果你要找的就是數據科學家的工作的話,最好還是搜索「數據科學家」。

無論你去哪裡找,我建議你要製作一份在線作品集來證明你擅長許多亟需的技能。我也建議你在LinkedIn檔案上展示你的技能。

原文來自:towardsdatascience.com  編譯自:36Kr

相關焦點

  • 油墨調配,是印刷行業新手必須掌握的一項技能!
    印刷對於我們的生活來說非常重要,雖說隨著電子產品的普及,紙質印刷受到來了一定衝擊,但是印花業的重要位置依然是無法替代的,很多人也願意加入到印刷行業,對於初入印刷行業的職場小白來說,有意向非常重要的技能必須掌握——油墨調配知識。
  • 從事IT行業需要哪些職業技能?
    如今,IT行業正在蓬勃發展,許多朋友都想轉向IT行業,因此,最近很多人問我:從事IT行業需要哪些職業技能?IT行業一直都是一個較熱門的一個行業,因為它的薪資高,發展好,不像很多職業可能一輩子都沒有太多的升職加薪的空間,IT行業的薪酬雖然高,但不是什麼人都可以拿到的,你需要具備一些專業技能,才能在IT行業持續發展,下面編輯來帶大家一起認識一下,從事IT行業需要哪些專業技能?
  • 想華麗轉行數據分析師?這些你必須知道
    ,你是否會有這些疑問:「非本專業想轉型做數據分析,有救嗎?」數據分析師在百度百科裡的定義是指,在不同的行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。數據分析師這個職位,不同的公司,不同的行業,對於它的理解和工作內容都有所不同,比如:傳統行業,數據分析師的工作重點是做行業報告;小型企業由於人少,數據分析師做的工作比較繁雜,可能從數據採集和處理到數據產品搭建都屬於數據分析師的工作;
  • 數據科學技能中,哪些是核心技能,哪些是熱門/新興技能?
    我們確定了兩類主要的數據科學技能:一類是大多數受訪者所擁有的穩定技能,這一類有 13 項核心技能;另一類是大多數受訪者尚未擁有但想掌握的熱門 / 新興技能。請參閱我們詳細的分析。最新的 KDnuggets 投票調查問了如下兩個問題: 你目前擁有哪些技能 / 知識領域(在工作或研究中可以使用的水平)?你想增加或提高哪些技能?我們根據 KDnuggets 之前的一些文章和投票調查,選出了 30 項技能。
  • 想從事數據分析師行業,應該學習哪些技能?
    如果您想成為一名數據分析師,或者某個業務中的高級數據分析師,從技術上講,您需要了解成為數據分析師的路徑。有6個步驟:一、數據分析師的學習路徑有哪些——統計,數據,機器學習關於數學知識,大學課堂上會學到一部分,如果是數學科學類的專業會學到更深刻。
  • 分析了1000多個崗位,2020年公司最希望數據科學家掌握的技能是?
    然而在印度最大的招聘網站上很少有我想找的工作——點開其中一個招聘崗位,他們的招聘要求我聞所未聞,這讓我感到非常驚訝。除了必須掌握數據分析、機器學習和深度學習這些技能之外,一些ETL工具和大數據技術也成了必備技能。這未嘗不可,現在每個公司都有自己對數據科學家的獨特定義,並會根據這一定義招聘人員。
  • 網頁設計師必須掌握的7項技能
    下面是作為優秀的網頁設計師所必需掌握並且能夠幫助他們達到超群水平的一些必要基礎能力。這些基礎能力不一定都是技術和計算機技巧層面的。 1. 熟悉整體設計流程注意「整體」這個詞。網頁設計有時會與圖形設計重疊,所以說不同種類的設計學校有時候是非常相似的。
  • 想從事外貿行業不會外語,全語通翻譯機解決問題
    我朋友今年過年的時候給我說,他要轉向外貿行業了。結果過完年來深圳後,真的找了一份和外貿相關的工作。五一的時候和朋友吃飯,他愁眉苦臉的對我說,外貿這個行業可能需要強大的外語技能,可惜他就連英語都不是很好。
  • 想從事大數據行業,報什麼專業比較好
    文章來源:接地氣學堂微信公眾號作者: 陳老師又到一年高考時,又要填志願,很多人問:「想從事大數據行業的話如果是985的應用數學,那哥們,就你了。於是各種數據相關的事都會優先拉上你幹。明明我研究生是學管理學的。可who care!
  • 2021年數據科學家求職必須掌握的五大新概念
    作為未來的數據科學家,你需要掌握多種技能,才能在數據科學和分析領域有所成就。雖然在完成大學課程時你已經掌握了許多數據科學技能,但還有些技能只有在實際工作中才能學到。這些是最近興起的一些現代數據科學概念,只有踏入工作領域的數據科學家才知道的高級技能。
  • 想要從事電競行業,究竟該如何選擇專業?
    很多學子也表達了對未來從事電競行業的熱情,而問到最多的問題就是如何選擇學校和專業。想要從事電競行業,究竟該如何選擇專業?專業到底該怎樣選?選擇之前先要了解核心的點:專業技能永遠比電競技能更重要,除非你是職業選手或教練。電競發展到今時今日,已經是一個日漸龐大的產業了。
  • 語言學博士、Kaggle數據分析師:這4項數據科學技能,讀研學不到
    >首先要說明一點:想成為一名數據科學家,並不意味著你必須擁有一個研究生學位。一個教你如何做研究的學位並不是必須的,除非你在做尖端的機器學習研究(老實說,包括我在內的99.9%的數據科學家並不是在做這件事!)。任何一個企圖神話這份工作的人都可能只是想讓你花錢讀一個學位。讀研期間,我確實學到了許多有價值的技能。
  • 做電商必須掌握的四大技能,能力越高走得越遠!
    現在開店,如果沒有深入的思考和必備的專業技能,想隨隨便便就輕鬆賺錢幾乎不可能。在這樣的環境下,個人賣家要想開店,突出重圍,那以下這幾個技能必須具備。技能一:開店首先當然是註冊開店 。這方面大家可以去百度看看具體的流程,我們來說一下其他需要注意的細節。
  • 掌握SPSS和Excel的市場營銷專業學生可以從事哪些工作崗位
    在大數據時代背景下,市場營銷專業的學生掌握SPSS和Excel會明顯提升自身的就業競爭力,因為數據分析對於市場營銷相關工作具有重要的實際意義。所以,對於掌握數據分析技術的市場營銷專業的學生來說,最適合從事的工作還是本專業的對口崗位。
  • 無經驗想從事新媒體工作該怎麼做
    新媒體運營崗位看起來門檻很低,似乎是個什麼都能裝的口袋,可是網際網路行業發展至今,行業蓬勃發展,一大批人湧入了這個行業,專業的人也越來越多,帶動著這個行業發展,行業的發展又培養出了很多優秀的新媒體運營人才……二者相互推動,讓新媒體這個行業越來越完善越來越壯大了,也讓沒有相關工作經驗的新媒體小白很難找到理想的運營工作
  • 告別刻板印象:SQL是你必須掌握的技能
    筆者認為這是限制人們更深入地學習SQL的原因:很多人是這樣想的,SQL是別人使用的工具。軟體開發人員的工具夠多了。但這個行業技多不壓身,你永遠不知道接下來遇到什麼狀況。我們每天都與SQL進行交互,因此,儲備更多的知識有備無患。此外,如果所在的公司規模小、沒有足夠的資料庫團隊資源,那麼你的責任將更大。在面試中展現出你對資料庫使用技巧很自信,會帶你通往許多有趣的職業方向。
  • 從事建築行業,這些證書你值得擁有
    建築行業作為技術性比較強的行業,有證才能代表你擁有操作這項工作的權利,你擁有操作這項事情的能力與從業資格,從業資質。所以,想要在建築行業立足,與自己專業相關的證書一定要早點拿到手才好。那麼,建築行業有哪些含金量比較高的證書呢?
  • 瞬息萬變的未來,你必須要掌握的5種技能
    考慮到社會對技能需求的變化如此之快,你必須通過對自己和對你來說重要的事情進行投資,以便為未來的工作做好準備。成長的心態會讓你為未來做好準備沒有持續的成長和進步,成就、成功這些詞就沒有意義。——Benjamin Franklin具有靈活思維和快速學習能力的人將增加他們成功的機率。
  • 獨家 | 2021,什麼數據分析技能最重要?
    Image by author 業界最需要的是什麼技能?新的一年裡您應該從哪裡開始學習? 導論對於像數據科學這種飛速發展的領域,很容易理解為何在給定時間內難以掌握一些熱門技能。成為一名數據科學家的關鍵是研究並且熟練掌握那些任意時刻出現的先進技術。
  • 掌握電子行業這6個技能,月薪10K+
    許多剛入行電子行業的工程師和應屆畢業生,還有工作了幾年的工程師但是不知道自己需要提高那些方面知識給小編留言,希望小編能給些工程師的必備技能和知識。最近與一位資深工程師交流中深有感觸,他談到作為一個電子工程師需要的必備技能:抄板、焊板、畫板、仿真、編程、調試。掌握以上6個主流技術,達到月薪10K真不是問題。