找工作如虎添翼!數據科學作品集中必須具備的4類項目

2020-12-24 讀芯術

全文共2367字,預計學習時長6分鐘

圖源:unsplash

在數據科學領域找到一份好工作是項艱巨任務,挑戰重重。儘管數據科學正在迅速發展,但是對這一領域感興趣或由於高薪而加入的人數正在成倍增加。因此,儘管對優秀數據科學家的需求很大,但是找到相關工作卻非常困難。為了找到工作,你需要在數百名(甚至數千名)應聘者中脫穎而出。

一名優秀的數據科學家有很多方面的標準,有些涉及技術,有些則不是。作為數據科學家,需要擁有優秀的作品集,才能清楚地展示其技術技能及軟技能。最重要的是,作品集需要證明你渴望學習。

數據科學是一個非常廣闊的領域,「數據科學」作為統稱涵蓋許多主題,包括機器學習、計算機版本、人工智慧和自然語言處理的所有子領域。儘管主題眾多,但要證明作為數據科學家的價值,只需要展示自己具備數據科學核心概念中的能力即可。

本文討論了4種類型的數據科學項目,有了這些項目可以在求職者的作品集脫穎而出,豐富技能,並增加獲得理想工作的機會。

數據清洗

數據科學家可能將花費近80%的時間來清洗數據,在不乾淨且混亂的數據集上無法建立可靠有效的模型。

清洗數據時,可能需要花費大量時間才能弄清楚數據集中各列的用途。有時,在經過數小時甚至數天的清洗之後,會發現所分析的數據集並不真正適合要實現的目標!然後需要重新開始該過程。

清洗數據是一個令人沮喪和艱巨的任務。但是,它是每份數據科學工作中非常重要的組成部分,為了使其不那麼艱巨,需要不斷進行練習。有專門用於練習數據清洗的數據集。在為數據清洗項目尋找合適的候選數據集時,需要確保:

· 數據集分布在多個文件中。

· 有很多細微差別、空值和許多可能的清洗方法。

· 需要大量研究才能完全理解。

· 最重要的是,它需要儘可能接近實際應用程式。

收集和匯總數據集的網站上經常可以找到優質的數據集用於清洗(或者筆者稱之為非常混亂的數據集)。這些網站從各種來源收集數據而不會吞掉它們,這使得這些數據集成為數據清洗項目的首選。

此類網站包括:

· Data.world.

· Data.gov.

· Reddit datasets.

探索性數據分析

數據清洗和整理後,將需要進行探索性數據分析(EDA)。EDA是每個數據科學項目中的重要步驟之一。執行EDA有很多好處,例如:

· 最大化數據集見解。

· 揭示基本模式和結構。

· 提取重要信息。

· 檢測異常。

可以遵循許多技術來執行有效的EDA,其中大多數技術本質上都是圖形化的。其背後的原因是,最好以視覺方式顯示數據中的模式和異常。EDA任務中特定圖形技術用途非常簡單,例如:

· 繪製原始數據以獲得初步見解。

· 在原始數據上繪製簡單統計數據,例如均值圖和標準偏差圖。

· 將分析集中於數據的特定部分,以獲得更好的結果。

可以從許多資源中學習EDA的基礎知識,並培養出一種探索數據模式的直覺。最喜歡的一大主題課是約翰霍普金斯大學在Coursera上開設的課程。

數據可視化

數據科學家創建任何一種數據科學項目通常是為了揭露秘密或獲取信息,它們以某種方式幫助改進或理解數據。在大多數情況下,這是以學術或商業為導向的。每個數據科學家必須開發的技能之一就是能夠用其數據講述一個引人入勝的故事。

講故事的最好方法是可視化。可以使用許多公開可用的數據集來進行數據可視化,創建儀錶板並使用數據講述故事。筆者最喜歡的一些數據集包括:FiveThirtyEight、Google的Dataset Search、Data is Plural,當然,談論數據集時還不能不提及Kaggle。

為了脫穎而出,需要成為一個會講故事的人。數據需要進行有效的可視化。幸運的是,有許多資源可以學習和練習數據可視化技能。可以閱讀有關可視化的文章,或參加好的可視化課程。

機器學習

機器學習的流暢性決定從事數據科學工作的成敗。有時,當新手加入該領域時,往往會跳過基礎知識而直接學習該領域更高大上的知識。

但在深入探討此類進階知識之前,需要確保已建立機器學習基礎知識的堅實基礎。掌握基礎知識不僅會夯實技能基礎,還提供必要的知識,使你可以更快、更輕鬆地掌握任何新概念和高階知識。

確保參與過涵蓋所有機器學習基礎知識的項目,例如回歸(線性回歸、邏輯回歸等),分類算法和聚類算法。筆者最喜歡的有關機器學習基礎的資源包括《The Deep Learning Book》的機器學習基礎章節和CodeAcademy的機器學習課程。以下是一些簡單但功能強大的機器學習項目:

· 使用貸款預測數據集進行貸款預測。

· 使用房價預測數據集進行房價預測。

· 音樂體裁分類。

· 使用個性預測數據集進行人的個性預測。

· 手寫字符識別。

· 語音轉文本或者文本轉語音。

在數據科學領域找到好工作可能會非常具有挑戰性。為了在眾人中脫穎而出,求職者的作品集需要體現本人具備數據科學基本概念的堅實基礎。強大的基礎意味著遊刃有餘的學習狀態、輕鬆實施和適應新的模型和算法。

本文列舉的項目可證明紮實的數據科學基礎。但是,做過這些項目不足以找到工作。求職者還需要提高自己的軟技能,例如溝通能力、敘事能力和基本的業務模型理解能力。一些高水平項目也可顯示具體知識掌握情況。祝你順利得到心動的offer!

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 明日開課:《數據科學業界實戰導覽》
    這個作品集網站幫助我拿到了很多的informational interview、內推、面試,我現在這份工作的offer也是通過展示作品集拿到第一輪面試的。表現的最好的環節應該是on-site面試,因為我比較擅長與人面對面的交流,不管是white board,還是考察項目,或者behavioral interview,在交互的狀態下我能更好的結合對方的反饋進行問題的解答或者演示。
  • 數據工程師必須掌握的7個大數據實戰項目
    此時有個工程師,僅憑一人之力完成了這項工作,整個過程,他只做了 4 件事情:1) 首先他是資深編程愛好者。平常閱讀技術Blog,知道 AWS, S3,EC2 等雲計算概念,還熟悉 Google 的 MapReduce 論文,並且知道 Hadoop 的功能。
  • 復聯4來襲!4AFree幫你找工作,還請你看電影!(147期)
    ;4.最好具備家電類客戶服務經驗,有策略撰寫相關經驗和案例。有一定的文字撰寫能力,且對數據敏感,對廣告創意進行優化;3.具備較強的執行力,能承受較強的工作壓力; 職位:FB/谷歌優化師職位要求:1.本科以上學歷,英語六級;有一定的文字撰寫能力,能夠配合設計創作優秀的廣告創意2.對數據敏感,關於分析數據並根據數據對廣告創意進行優化3.具備較強的執行力,能承受較強的工作壓力
  • 資料|數據挖掘:概念、模型、方法和算法(第2版)/ 國外計算機科學...
    from=leiphonecolumn_res0602以下書籍介紹來自圖書商城內容簡介 · · · · · ·隨著數據規模和複雜度的持續上升,分析員必須利用更高級的軟體工具來執行間接的、自動的智能化數據分析。
  • 新手大闖關:本科畢業生如何跨專業殺進數據科學行業?
    機緣巧合,你開始重新思考自己的職業發展道路,而數據科學這個前景廣闊的行業進入你的視野。你打算參加一個新手訓練營或是自學課程,然後去工作。這樣的情況,可以找到數據相關的工作(數據分析師/數據科學家/機器學習工程師)嗎?答案是肯定的,而且我覺著這很值,你可能有不同體驗。但這肯定不是容易的事情,既然做出了選擇,艱苦奮鬥的覺悟還是要有的。
  • 這五個數據科學家和機器學習工程師油管博主,你必須關注
    2.肯恩·傑他是最有趣的數據科學油管人物之一,有五年數據科學領域工作經驗。大多數數據科學家可能已經很熟悉肯恩·傑了,也許你看過他簡歷和作品集中的一個視頻,也許你看過他的「從零開始的數據科學項目」系列視頻。
  • 100天學習計劃 | 一份詳實的數據科學指南
    如果您從事任何數據科學項目,它們總是從探索性數據分析開始,以便更好地理解數據,而您在 Pandas 中介紹的這些主題將會派上用場。另外,因為Pandas有助於從不同的來源和格式讀取數據,所以它們速度快、效率高,還提供了對數據集執行各種操作的簡單功能。
  • 南京召開「四新」項目集中觀摩和工作部署會:奮力交出二季度優異答卷
    4月26日下午,市委市政府召開「四新」行動項目觀摩暨二季度工作部署會,動員全市上下深入貫徹習近平總書記關於統籌推進疫情防控和經濟社會發展的重要講話指示精神,落實省委省政府部署要求,全力以赴抓好「六穩」、抓牢「六保」、抓實「四新」,確保交出二季度經濟社會發展克難奮進的優異答卷。
  • 關於平方公裡陣列射電望遠鏡第一階段科學數據處理工作包建設信息...
    根據國際組織工作安排,SKA項目擬於2021年中開始第一階段的工程採購和建設工作,並於近日開始面向成員徵集第一階段科學數據處理工作包(SDHP)建設的信息。根據相關要求,現將有關情況通知如下,請各意向單位按通知申報信息:  一、項目背景介紹  自2012年起,科技部代表中國加入SKA建設準備階段。
  • ...實施2020年度推動實施全民科學素質行動第四批項目申報評審的通知
    經費額度:10萬元項目周期:2020年9月20日前完成申報要求:項目負責人和主要參與人員應擁有相關活動組織經驗,具備較強的科普工作基礎和組織管理經驗,且具備一定的農村科普工作經歷,在提高農民科學素質工作方面擁有成熟的經驗和做法。項目單位擁有一批相關的專業技術人才和組織管理人才隊伍。
  • @正在找工作的你,又一波崗位來襲!
    一周招聘又來啦,要找工作的小夥伴看過來!任職要求:1、大學專科以上學歷,社會學、社會工作、市場營銷、公共關係、統計學等相關專業尤佳;2、普通話標準,具備良好的陌拜技巧及溝通能力;3、對社會調查工作具有濃厚工作熱情,能獨立完成調查任務;4、具備良好的安全責任意識,能夠適應戶外工作和偶爾出差;
  • 14個超有趣的數據科學項目,數據集都準備好了!
    對於對數據,數據分析或數據科學感興趣的人,我們提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個! 項目分為三種類型: 可視化項目 探索性數據分析(EDA)項目 預測建模 可視化項目 最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中
  • 城南熱源廠集中供熱項目一期工程圓滿竣工
    作為全市重點民生工程的錦州市城南熱源廠集中供熱項目一期工程於9月30日圓滿竣工。 這一項目2016年開工建設,由於資金困難等原因,於2017年9月暫停。2018年,為了堅決落實好國務院提出的「打贏藍天保衛戰三年行動計劃」,我市一方面重拳出擊,大力開展城區燃煤小鍋爐拆除工作,一方面多方籌集建設資金,著手重啟城南熱源廠項目,逐步完善「一網多源」供暖格局。
  • 數據科學工具包:手把手用YOLO做目標檢測
    數據集 和深度學習一樣,創建模型的第一步是準備一個數據集。有監督的學習是查看標記的示例並在數據中發現不明顯的模式。我必須承認創建一個數據集是一個相當乏味的任務,因此我準備了一個腳本,允許你下載我的象棋數據集,並查看 YOLO 如何在這個例子中工作。
  • 我市舉行2020年四季度重點項目集中開工活動
    隨著市委書記王現坤宣布:「辛集市2020年四季度重點項目集中開工!」和中科技等14個重點項目正式開工建設,標誌著我市再次吹響疫情防控常態化下經濟高質量發展的「號角」。今年以來,我市堅決貫徹落實中央決策部署和省委、省政府工作要求,統籌推進常態化疫情防控和經濟社會發展,紮實做好「六穩」工作,全面落實「六保」任務,以投資促經濟穩定,以項目促經濟恢復,以紮實有效、擔當擔責的精神,為加快轉變發展方式、優化經濟結構、轉換增長動力提供有力支撐。
  • 物業項目經理應具備的十四個能力(精華)
    物業項目經理應具備的十四個能力隨著時代的進步,科學的發展和人民生活水平的不斷提高,越來越多的市民對服務意識的需求不斷增強。尤其是物業管理,更與人民的日常生活水平息息相關,離開了物業的管理和服務,業態就會受到嚴重影響。為此,一個好的物業項目,如何實現社區和諧,如何讓業主感到物業的重要性,這就要靠物業項目經理的綜合操盤能力和運營能力。
  • 面試設計師要怎麼整理作品集?
    大家應該都知道設計師找工作需要有屬於自己的作品集,那麼大家有沒有想過每個公司的HR每天收到很多的簡歷和作品集,那麼當HR滿意你的作品集的時候怎麼立馬聯繫你呢?陝西優就業小編今天給大家分享一個簡歷發送技巧,就是在發送文件的時候主題裡加上你的姓名以及電話還有求職崗位就會給HR很好的印象,也方便聯繫到你,還有作品集裡的聯繫方式也要更新哦。
  • Metaflow:Netflix 的 Python / R數據科學框架
    圖源:Unsplash前不久,AWS re:Invent, Netflix 開源了一個自主開發的構建和管理數據科學項目的框架——Metaflow。在過去的兩年裡,他們內部數據科學團隊迅速地應用它,使得許多項目能夠縮短生產時間。
  • 理解數據類型:每個數據科學愛好者都應該知道的數據結構
    非結構化數據所需要處理的地方在於,需要通過預處理等方法轉化為結構化數據,以便對結構化數據應用統計方法獲取原始數據中的重要信息。論及結構數據,主要是指表格數據(矩形結構數據),即資料庫中的行和列。(1、2、3、4、5)。那麼問題來了,為什麼需要了解這些數據類型呢?因為不知道數據類型,將會不知道如何應用正確的統計方法處理這類數據。舉例來說,如果數據框中有一列有序號數據,就必須要進行預處理,在Python中,scikit-learn包提供了一個序號編碼器來處理序號數據。
  • 一文看懂:紅人營銷的本質、現狀、科學方法,及4大趨勢|Morketing...
    第一,明星、CEO紛紛入駐變身「主播」,在薇婭、李佳琦的示範效應下,原本明星就是天然具備流量屬性的,CEO企業家群體具備社會知名度的,直播帶貨等於是將這種影響力和知名度最大化變現。因此,我們看到陳赫、梁建章、董明珠紛紛下場參與直播帶貨。