7個秘訣,帶你由數據分析師成長為數據科學家

2021-01-08 讀芯術

全文共4047字,預計學習時長8分鐘

通往數據科學之路 (Aleksandr Barsukov

數據科學的熱浪席捲大多數行業,如《哈佛商業評論》所述,數據科學家已成為21世紀最性感的工作。

雖然市場對經驗豐富的數據科學家的需求越來越大,但對這份工作的描述大都很模糊。此外,很多招聘經理對數據科學和數據分析或數據工程的定義都很寬泛。行業標準的缺乏讓許多想要轉行至數據科學的專業人士十分困擾。

了解有關人工智慧和機器學習的信息非常關鍵,但是沒有任何指導,人們很難知道該從哪裡下手。

本文的作者是Zoopla的一名數據科學家,他將詳細分享自己從分析師到數據科學的職業生涯中學到的經驗。

分享就是關心!

打好紮實的數學基礎

大多數機器學習算法都是建立在多變量微積分、線性代數和非線性代數的基礎上的。熟練的數據科學家能夠從數學層面改變電腦程式,從而真正推動模型性能提高。掌握數學技能很重要,尤其是統計學和線性代數。具備學習和理解機器學習技術的能力是成為一名數據科學家的必要條件。無論讀的是心理學、數學、博士還是在線課程都不重要,學會數學就好。

目前有很多數據科學家擁有博士學位,但這並不是鐵律。

秘訣1:關注自身的能力而非背景

作為一名數據科學家,經常要將困難、開放、定義模糊的問題一步步分解。這是讀碩士的3到6年間不斷培養的技能。但這種技能也可以從工作中鍛鍊。

教機器前先自學

數據分析師報告、總結並解釋過去和現在的信息,以為業務服務。這與數據科學家截然不同。數據科學家負責總結數據,從而預測未來或作出決策。他們的核心任務是訓練、測試和優化機器學習算法,因此技能也集中在機器學習建模上。

初學者可以在各媒體平臺上瀏覽博客文章,找到可以指導解決特定問題的方法。以下是一些有用的文章:

· 模式識別與機器學習——Bishop(被稱為機器學習聖經)

· 機器學習課程——Hal Daumé III

· 神經網絡與深度學習——Michael Nielsen

理論和繁雜的方程式有時會讓人不知所措,但不應該是讓人離開這個領域的原因。你可以邊閱讀邊寫代碼。例如,試著從頭構建一個單層感知器(一種最簡單的一種神經網絡)來完全理解書中讀到的內容。

學習三連:讀書、上課、寫代碼

秘訣2:應用所學的科學方法

網上也有許多課程在理論和實踐上各有偏重,涵蓋了機器學習的基本原理。推薦一些實用的課程:

· Coursera 機器學習課程由該領域的領軍人物Andrew Ng講授,涵蓋一些基礎知識。用Python而不是Octave/Matlab來做作業會更好,因為如果有很強的Python技能,會在就業市場上處於更有利的位置。

· Fast.ai課程由機器學習名人傑裡米·霍華德(Jeremy Howard)和雷切爾·託馬斯(Rachel Thomas)博士創建。課程以啟發式教學為理念,更側重實際應用。

· 史丹福大學(Stanford university)分享了一系列人工智慧課程材料。

這些課程的目標既不是記住公式和推導,也不是逐頁閱讀書和講稿。學習的目標應該是掌握大多數模型和算法以不同方式處理的基本概念。比如,神經網絡中的drop-out層、消失梯度、信號/噪聲關係。獲得將問題與基本原理聯繫起來的能力,將使你成為一名優秀的應用數據科學家,而這正是許多僱主想要的。

科學研究

秘訣3:為業務設置和問題選擇正確方法

數據科學家的真正技能是,知道手頭的業務問題需要什麼樣的技術和機器學習方法。

這個領域過去的十年裡蓬勃發展。作為一名數據科學專業人士,不斷學習新知識是成功的必要條件。強烈建議閱讀已發表的學術論文,還有不同科技公司和該領域關鍵人物的機器學習/人工智慧方面的博客。需要解決沒有提供即時方案的抽象問題時,所學會派上用場。通過研究現有情況找到正確的解決方案,工作就完成了80%。

安德烈·卡帕西(Andrej Karpathy)在史丹福大學cs231n課程上說得很好,「不要逞英雄」。商業世界期望人們快速交付(失敗),因此,如果可能的話,不要重新發明輪子,而應該站在巨人的肩膀上。

「如果說我看得更遠,那是因為我站在巨人的肩膀上」——艾薩克·牛頓(1775)

提高編程技能

數據分析師用數據來幫助企業做出明智決策。他們精通SQL、Excel和Tableau或Power BI等可視化工具。而數據科學家需要構建強大的模型來推斷和解決大規模業務問題,因此需要提升編程技能。學習編程永遠不會太晚。

Python正成為世界上最流行的程式語言,並擁有無數經過良好測試且不斷更新的數據科學庫。所以大多數數據科學團隊都在尋找會Python的人。所以,如果不懂Python,那就報名參加網絡課程學習一些基礎知識。不要忽略PEP8之類的格式指南,耐心學習,因為多實踐才會有期望的成果。此外,學習如何使用Jupyter對加快工作流程和數據/模型探索十分關鍵。

秘訣4:一直持續不斷練習,讓編程技能更快更好更強

會編程有魔法

參加黑客馬拉松、kaggle競賽、進行個人編碼項目都是提高編程技能的方式。從分析中找到並把握住數據科學機會有助於在當前工作中獲得經驗。學習預測和異常檢測的算法也有助於推動從數據分析師發展為數據科學家。本文作者在這個行業的第一個數據科學項目是設計自動完成某電商網站搜索查詢的算法。這個項目的靈感就來自他還在做初級分析師時報告的關於搜索和購物車的一些有趣的分析。

掌握軟體工程技能

如果想讓自己的模型有生產的可能,軟體工程技能非常必要。出於方法和法律原因,培養一種旨在通過自動化重現項目和結果的編碼態度至關重要。在擁有成熟數據科學文化的公司中,有的人創建原型,有的人編寫生產代碼,還有的人負責部署。實際上,無論公司規模大小,都不太可能獲得所有需要的支持,僅僅知道統計數據不足以交付數據科學項目。

數據科學家程序列表

秘訣5:儘早將自己的項目步驟自動化

因此,初級數據科學願望清單可能是這樣的:

· 可重現數據管道(如在spark和python中):是否有必須重現以前做過的分析的經歷?創建邏輯數據流(如原始(不可變數據)->中間(正在進行的工作)->處理(最終特性))和使用Makefile將節省自己和同事的時間。我和我的團隊都是cookiecutter的忠實粉絲,它提供了像這樣的邏輯項目結構。

· 培訓和評分的端到端自動化:模型大多數時候是鮮活的有機體,需要新的預測,並且數據可能會發生變化,所以要再訓練、評分和完善。然後必須將模型參數、秘密和隨機種子放入配置文件中,將DS項目分解為不同的元素並應用modularity。如創建可在訓練和評分時使用的共享特性庫。

· 單位測試範圍:人人都想要無憂無慮的睡眠和不受打擾的假期。所以為了確保穩健性,為項目編寫測試是很重要的。

· 構建API提供預測:為了表達想法和模型需要證明概念,這時通常需要REST API。如果不想使用Python之外的其他語言,那麼可以使用帶有Swagger UI的Flask和Flasgger。Swagger對於記錄並可視化基於REST的網絡服務非常有用。

· ECS部署或生產環境的數據科學解決方案的容器化:Docker可以隔離項目及其依賴項,在環境之間移動模型,並且每次以完全相同的方式運行代碼以達到100%的可重現性。這將有助於與DevOps和工程師的協作,這樣他們就能使用打包好的容器作為黑盒,無需了解數據科學。

將科學翻譯成領域內語言

通過在數據中尋找代理或者讓它成為機器學習中的潛在因素,研究數據的主題專家可以克服如業務失蹤或定義KPI等障礙。數據科學通常會造成業務中斷,因此需要說服高層領導以獲得適當的支持和資源。

有人說,讓業務中的所有利益相關者都能理解算法是一種藝術。因而需要不斷學習如何闡釋建立的算法,並向他人展示其重要性。正如畢馬威(KPMG)現任數據科學與工程主管麗貝卡波普(Rebecca Pope)在「矽谷女性圓桌會議」(Women of Silicon Roundabout)上強調的,「永遠記住,你(而非你的代碼)是有影響力的。人們不買算法,他們相信你和你的能力。」因此,要關注並花時間培養將數學轉換成垂直行業的視覺敘事的能力。

秘訣6:用垂直行業術語來溝通工作

沒人懂我……一名數據科學家正在解釋深度學習

正是成長的時機

從事新興職業雖然艱難,但更令人興奮。找到一個有助於成長的團隊,擁有像海綿一樣的頭腦,將會加速通往成功的旅程。理想情況下,你的上級會理解你的日常工作和想要達到的目標。不然也可從團隊或公司之外尋找所需的額外指導,如求助大學校友或教授,或者網上友好的數據科學家。聚會和會議也可能很有啟發性,有助於找到良師益友。

秘訣7:記住,沒有教科書或課程比導師更重要

請用考利昂老頭子的聲音念

綜上所述,要想在數據科學領域開始職業生涯,應該關注的技能包括統計學、多變量微積分和線性代數、機器學習、編程技能、軟體工程和可視化技能。

數據科學維恩圖 繪製:Steven Geringer Raleigh, NC.

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 數據分析師的職業技能成長之路
    不光是文科生,我還見過許多不同職位,比如運營、產品、技術、市場、視覺設計師等等的小夥伴轉成了數據分析師,在這裡我很負責的告訴大家,你一定行的!解鎖數據分析師的成就,你也值得擁有!以往我都是以增長為主題,可能大家看得有些蒙圈,需要一定的門檻;同時2020年的開年就被暴擊了,大家都在開玩笑的說能否重啟2020年,這個肯定是沒戲了,但是我可以,對,數據分析師是可以重啟的。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。雖然職位描述裡可能會同時列出兩者;但是,我猜你身邊的大多數人——比如機器學習工程師、數據工程師和軟體工程師——都不怎麼熟悉R。因此,要想成為一名更全面的數據科學家,Python應該更有用。  2、SQL,SQL是你從事數據科學必備的技能。
  • 挫折中成長——數據分析師面經
    、「某大廠放出的這個崗位好心動啊」…… 在這個蠢蠢欲動的時候,一個從業 2400 天的分析師小前輩,來給大家介紹一下數據分析師崗位的面(cuo)試(zhe)經(gu)驗(shi)。
  • CPDA數據分析師:大數據科學家需要對各種觀點持開放態度
    開放性 大數據科學家需要對各種觀點持開放態度,與大多數專業一樣,我們所有人都可能具有從事高質量工作的核心知識,技能和能力,但是我們也傾向於使用我們所訓練的工具和技術(有時,幾年前),並且使用我們始終如一地取得成功,這可以工作一段時間,但是最成功的數據科學家是那些積極尋找新的和創新的框架和技術以隨著時間的推移提供更好的客戶服務的科學家。
  • 一個靠譜的數據分析師是怎樣煉成的?
    一個優秀的商務數據分析師應該以價值為導向,緊密結合產品、運營、銷售、客戶支持等實踐,支持各條業務線發現問題、解決問題並創造更多的價值。三、數據分析師必備的四大能力知道了產品經理的目的,我就可以針對性地進行數據提取和分析,分析的結果和建議也就更加具有可操作性。很多時候,數據分析師不能就數說數,陷入各種報表中不能自拔。一個優秀的數據分析師應該具有全局觀,碰到分析需求的時候退一步多問個為什麼,更好地了解問題背景和分析目標。2.專業度某企業的數據科學家針對用戶流失情形進行建模預測,最終得到的用戶流失模型預測準確率高達90%多。
  • 全棧數據科學:下一代數據科學家
    甚至我和你們都在同一條船上,但是我現在正在經歷當前對進入這一領域的下一代數據科學家的需求如何形成。 我不會教你如何進入數據科學領域,因為網際網路上已經有很多人這樣做了。"開個玩笑,這些是我認為數據科學接管所有炒作的原因:· 標題數據科學家背後的謎團· 高工作滿意度· 巨大的業務影響· 許多工作網站將其評為最熱門的工作(最近3年被Glassdoor評為美國最熱門的工作)· 前沿發展· 越來越多的數據生成· 感謝許多提供數據科學學位的優秀
  • 數據分析師的職業規劃之路
    不同層次的數據分析師,在力所能及的範圍內做到最好,即為優秀: 初級:提出一個業務問題,可以用數據進行回答,並能保證合理的數據結構、與業務的關聯度,以及,數據是對的。
  • 好的數據分析師月薪16k+,如何成為Python數據分析師?
    前段時間,獵聘發布的《2019上半年中高端人才就業現狀大數據報告》中提到,2020年到2025年間,中國的數據人才缺口將達到1400萬。除了網際網路和金融行業,未來製造行業也將轉型步入數位化企業,可以說數據分析師的就業前景十分廣闊了。
  • 九章雲極,永遠站在數據科學家身後
    DataCanvas希望為數據科學家這一新的職業人群提供機器學習分析和實時計算能力,實現快速協同開發,並提供模型管理和應用支持,讓企業在「數據畫布」之上展現業務變革的豐碩成果。讓方磊感到欣慰的是,當初設定的為數據科學家服務的目標從沒動搖。
  • CDA數據分析師認證3個級別對應的薪資標
    小編解讀:數據分析已成為一門通用的技能,除了專門的分析師崗位,還有許多相關崗位也需要具備數據分析能力為自己鍍金,如產品經理、市場營銷、運營人員、財務人員等等,LEVEL 1的知識偏基礎,但是對於零基礎的同學來講也有一定難度。考過LEVEL 1就相當於工作2年左右的業務數據分析師,與CDA就業班剛畢業的學員一樣,能拿到9k~20k左右的月薪。
  • Top30數據分析師常見面試題(附答案)!
    【IT168 評論】這是一個用數據說話的時代,也是一個依靠數據競爭的時代。各大網際網路公司都在不斷完善自己的數據分析團隊,數據分析師的薪酬也是水漲船高。業內人士透露,應屆畢業生的平均薪資大概在6K左右,1至3年經驗的大概在10K到20K之間,5至10年經驗的大概在25K以上。薪資還是十分誘人的,那麼,如何快速成長為一名年薪百萬的數據分析師呢?
  • 2021年成為數據科學家最需要學習的7項技能
    介紹 這七個最推薦的數據科學的技能是從許多業內從@谷歌主管工程@ NVIDIA的高級主管,和數據科學與工程的副總裁@ Wealthsimple等業內從業員討論,得出的結論,希望對你有幫助 雖然這篇文章可能更多的是軼事,但我覺得這篇文章分享了一個有價值的觀點
  • 第十二屆CDA數據分析師考試即將開始
    「CDA數據分析師認證」是一套科學化,專業化,國際化,系統化的人才考核標準,分為CDA LEVELⅠ,LEVEL Ⅱ,LEVEL Ⅲ,涉及金融、電商、醫療、網際網路、電信等行業大數據及數據分析從業者所需要具備的技能,符合當今全球大數據及數據分析技術潮流,為各界企業、機構提供數據分析人才參照標準。通過CDA數據分析師認證考試者可獲得CDA數據分析師認證證書。
  • 數據分析師如何入門、進階?
    之前一直沒來得及給大家一一做回復,今天就給大說說數據分析師如何入門、進階?。先來說說我對這些問題的看法吧。我個人認為,這些問題是由對數據分析行業知識掌握不充分造成的。對於數據分析行業的從業者來說,無論是入行、日常工作還是進階,都應該處於持續學習中,才能讓自己在遇問題時,能夠迎刃而解。我認為,讀書就是一件幫助大家持續提升的做法。
  • 淺談:數據分析師必備職業技能
    在大數據主導的世界中,對大數據分析師的需求持續增長。預測說,到2020年底,每個人每秒將產生1.7兆字節的信息。隨著組織成為數據驅動型企業,商業界的領導者們寄予了很高的期望,即所做的任何決策都應以數據為基礎。  當今每個組織之所以需要可以提供快速結果的大數據專業人員的原因。此類專業人員的主要職責之一是通過收集關鍵數據並在這些數據中提供重要模式來幫助決策者。
  • 數據科學家常用的10種程式語言和工具
    【IT168 翻譯】SAP大中華區副總裁劉偉曾經在DTCC大會上說過:「數據科學家是21世紀最性感的職業」。那麼要進入數據科學領域應該掌握哪些技能?如何從一個數據分析師轉變角色成為一個數據科學家?首先你要對數據科學家這份工作做一個研究,例如數據科學家需要掌握哪些數據科學工具和程式語言?一般來說,R和Python是需要重點掌握的。
  • IT人或程式設計師如何成為數據科學家?
    數據科學家被《財富》雜誌譽為21世紀最性感的職業,但遺憾的是大多數企業裡都沒有真正的數據科學家人才。根據麥肯錫報告,僅僅在美國市場,2018年大數據人才和高級分析專家的人才缺口將高達19萬。
  • 數據科學家和大數據技術人員工具包
    本文簡介:數據科學家的常用工具與基本思路,數據分析師和數據科學家使用的工具綜合概述,包括開源的技術平臺相關工具、挖掘分析處理工具、其它常見工具等幾百種,幾十個大類,部分網址。為數據科學教育和知識分享,提高數據科學人員素質。
  • 什麼是CDA數據分析師認證?有哪些報考條件?你一定要知道!
    嗨嘍,想要報考2020年CDA數據分析師的同學,你了解報名時間嗎?每年都在哪些地方報考?小編特地匯總了相關問題解答,希望能夠幫助到各位同學!案例數據將統一提供CSV文件)。考點請參考CDA Level Ⅱ建模分析師考試大綱。3.CDA Level II:大數據分析師前105分鐘(15分鐘閱讀考試指南+90分鐘正式答題),上機答題;後120分鐘,案例操作,自行攜帶電腦操作(具體準備工作參見考試大綱中的詳細說明)。
  • 數據科學家的神器:為什麼大家都用Kaggle?
    1.數據Kaggle上有一些可用的數據集。大多數數據集的文件格式是CSV,JSON、SQLite、archives和BigQuery格式的數據集不太普遍,但依舊用途頗廣。練習使用多種文件格式有所助益,你在工作中有可能遇到這些文件格式。下面是三個目前最熱門的數據集。