全文共2367字,預計學習時長6分鐘
在數據科學領域找到一份好工作是項艱巨任務,挑戰重重。儘管數據科學正在迅速發展,但是對這一領域感興趣或由於高薪而加入的人數正在成倍增加。因此,儘管對優秀數據科學家的需求很大,但是找到相關工作卻非常困難。為了找到工作,你需要在數百名(甚至數千名)應聘者中脫穎而出。
一名優秀的數據科學家有很多方面的標準,有些涉及技術,有些則不是。作為數據科學家,需要擁有優秀的作品集,才能清楚地展示其技術技能及軟技能。最重要的是,作品集需要證明你渴望學習。
數據科學是一個非常廣闊的領域,「數據科學」作為統稱涵蓋許多主題,包括機器學習、計算機版本、人工智慧和自然語言處理的所有子領域。儘管主題眾多,但要證明作為數據科學家的價值,只需要展示自己具備數據科學核心概念中的能力即可。
本文討論了4種類型的數據科學項目,有了這些項目可以在求職者的作品集脫穎而出,豐富技能,並增加獲得理想工作的機會。
數據清洗
數據科學家可能將花費近80%的時間來清洗數據,在不乾淨且混亂的數據集上無法建立可靠有效的模型。
清洗數據時,可能需要花費大量時間才能弄清楚數據集中各列的用途。有時,在經過數小時甚至數天的清洗之後,會發現所分析的數據集並不真正適合要實現的目標!然後需要重新開始該過程。
清洗數據是一個令人沮喪和艱巨的任務。但是,它是每份數據科學工作中非常重要的組成部分,為了使其不那麼艱巨,需要不斷進行練習。有專門用於練習數據清洗的數據集。在為數據清洗項目尋找合適的候選數據集時,需要確保:
· 數據集分布在多個文件中。
· 有很多細微差別、空值和許多可能的清洗方法。
· 需要大量研究才能完全理解。
· 最重要的是,它需要儘可能接近實際應用程式。
收集和匯總數據集的網站上經常可以找到優質的數據集用於清洗(或者筆者稱之為非常混亂的數據集)。這些網站從各種來源收集數據而不會吞掉它們,這使得這些數據集成為數據清洗項目的首選。
此類網站包括:
· Data.world.
· Data.gov.
· Reddit datasets.
探索性數據分析
數據清洗和整理後,將需要進行探索性數據分析(EDA)。EDA是每個數據科學項目中的重要步驟之一。執行EDA有很多好處,例如:
· 最大化數據集見解。
· 揭示基本模式和結構。
· 提取重要信息。
· 檢測異常。
可以遵循許多技術來執行有效的EDA,其中大多數技術本質上都是圖形化的。其背後的原因是,最好以視覺方式顯示數據中的模式和異常。EDA任務中特定圖形技術用途非常簡單,例如:
· 繪製原始數據以獲得初步見解。
· 在原始數據上繪製簡單統計數據,例如均值圖和標準偏差圖。
· 將分析集中於數據的特定部分,以獲得更好的結果。
可以從許多資源中學習EDA的基礎知識,並培養出一種探索數據模式的直覺。最喜歡的一大主題課是約翰霍普金斯大學在Coursera上開設的課程。
數據可視化
數據科學家創建任何一種數據科學項目通常是為了揭露秘密或獲取信息,它們以某種方式幫助改進或理解數據。在大多數情況下,這是以學術或商業為導向的。每個數據科學家必須開發的技能之一就是能夠用其數據講述一個引人入勝的故事。
講故事的最好方法是可視化。可以使用許多公開可用的數據集來進行數據可視化,創建儀錶板並使用數據講述故事。筆者最喜歡的一些數據集包括:FiveThirtyEight、Google的Dataset Search、Data is Plural,當然,談論數據集時還不能不提及Kaggle。
為了脫穎而出,需要成為一個會講故事的人。數據需要進行有效的可視化。幸運的是,有許多資源可以學習和練習數據可視化技能。可以閱讀有關可視化的文章,或參加好的可視化課程。
機器學習
機器學習的流暢性決定從事數據科學工作的成敗。有時,當新手加入該領域時,往往會跳過基礎知識而直接學習該領域更高大上的知識。
但在深入探討此類進階知識之前,需要確保已建立機器學習基礎知識的堅實基礎。掌握基礎知識不僅會夯實技能基礎,還提供必要的知識,使你可以更快、更輕鬆地掌握任何新概念和高階知識。
確保參與過涵蓋所有機器學習基礎知識的項目,例如回歸(線性回歸、邏輯回歸等),分類算法和聚類算法。筆者最喜歡的有關機器學習基礎的資源包括《The Deep Learning Book》的機器學習基礎章節和CodeAcademy的機器學習課程。以下是一些簡單但功能強大的機器學習項目:
· 使用貸款預測數據集進行貸款預測。
· 使用房價預測數據集進行房價預測。
· 音樂體裁分類。
· 使用個性預測數據集進行人的個性預測。
· 手寫字符識別。
· 語音轉文本或者文本轉語音。
在數據科學領域找到好工作可能會非常具有挑戰性。為了在眾人中脫穎而出,求職者的作品集需要體現本人具備數據科學基本概念的堅實基礎。強大的基礎意味著遊刃有餘的學習狀態、輕鬆實施和適應新的模型和算法。
本文列舉的項目可證明紮實的數據科學基礎。但是,做過這些項目不足以找到工作。求職者還需要提高自己的軟技能,例如溝通能力、敘事能力和基本的業務模型理解能力。一些高水平項目也可顯示具體知識掌握情況。祝你順利得到心動的offer!
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範