20200523古有曹子建七步成詩,今有DataCamp 8步成為數據科學家
這是國外一個非常厲害的數據科學學習平臺DataCamp數據科學大牛Karlijn Willems寫的一篇圖文《8步成為數據科學家》。
我看到之後感覺,哇,大牛就是大牛。
8步,就8步,而且是8 easy 步。
當然,這裡說的8步,不是說你用8天或者8周就可以完成,而是告訴你一個學習路徑。只要你按照這個學習路徑去學習,堅持學習,一定可以攀登到數據科學家的高峰的。
首先,什麼是大數據科學家?
這個問題讓我想起了,大學的系主任在給我們上的第一堂課時說的:
什麼是地球物理學系?
地球物理學系就是半個地質系、半個物理系、半個計算機系、半個數學系畢業的。說白了就是一個跨學科的專業。
同樣,數據科學家也是一個跨學科人才,是比軟體工程師更擅長統計學,比統計學家更擅長軟體工程的人。需要掌握的知識有數學統計,編程能力,機器學習,研究能力等。
最主要的是什麼呢?是將以上這些技能全部綜合運用起來,以解決實際的問題,促進業務的發展,提升生產力,為社會創造價值的。
從上圖來看,數據科學家大部分是本科或者碩士學歷(本科37%,碩士31%),當然,這個數據是幾年之前的。從調查數據來看,有5%高中畢業的人也成為了數據科學家。這足以說明,只要你肯努力,即便是文憑很一般,也是可能成為頂級大牛的。更何況,對於很多人來說,無需成為數據科學家,只要會一些常規的數據分析方法與技能,就能找到一個合適的工作。
第1步:學好統計、數學和機器學習
數學和統計學是數據分析的最基礎的內容,也是後續影響你發展路徑的決定因素,一定要打好基礎。但是機器學習這裡只要了解個大概就可以了。
以下給出了一些學習的書目與資料,如果覺得很難的話,可以參考這篇文章的幾本書:
【薦書】數據分析推薦書籍1——統計學
第2步:編程
編程能力早就已經作為大學生的基本能力之一,甚至現在的少兒編程也火速蔓延。
選擇一種數據分析的程式語言,例如開源軟體的R , Python語言等,或者商業軟體的SAS, SPSS等。
很多同學在學習程式語言的時候,經常是按照如下的路徑:從安裝到放棄……所以:
入門者的正確打開方式:使用Anaconda安裝Python
第3步:資料庫
少量的數據可以使用Excel文件來存放,但是數據量大時就不行了。大部分公司的大部分數據都存放在資料庫中,因此呢,資料庫的操作你需要熟悉的,如關係資料庫MySQL,非關係型資料庫MongoDB等。
想要玩轉Power BI,為什麼一定要學會資料庫?
7天學會SQL,樸實無華但並不枯燥
同樣,也不要從安裝到放棄啊:
手把手教你MySQL資料庫安裝-Windows版
第4步:學會數據清洗、可視化和報表製作
據統計,在大部分數據分析的工作中,有多達60%的時間都花在了數據清洗上了。所以數據清洗一定要選擇高效的工具,如Python的pandas包、R語言的data.table和dply包、PowerQuery等工具。
而可視化可以用Python的matplotlib包、R的各種包、PowerBI等。
報表製作上,PPT技能是最基礎的內容,PowerBI和Tableau等規模化報表工具,你值得擁有。
學習PowerBI內容,請關注本號,查看歷史文章,乾貨滿滿。
第5步:提升到大數據級別
當你開始處理海量規模的數據時,絕大多數的數據科學家要解決的問題,都無法在單機上完成,需要用分布式處理大數據集,使用的工具有Hadoop和Spark等。
第6步:多操作、多實踐,與數據科學家大牛多交流
實踐是檢驗真理的唯一標準。你學習了那麼多,一定要真正用在實踐中區創造價值,哪怕是學習了別人的知識,自己再輸出給其他人也行。
再就是遇到問題時,一定要請教大牛,其實他們都很樂於回答你的問題的。
第7步:實習、項目實戰、或者找一份工作
即便是學習了之後操練一下,你可能也就是有個大概的認識。但是一旦有項目或者工作需求,那麼你學習過程中的疏漏與不足全都會暴露出來,這時候別怕,一定要再查漏補缺,提升自己,你會發現自己進步非常快。
第8步:專業社區學習交流
數據分析的網站有:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers。
可以看這些數據科學大牛的博客:Hilary Mason, David Smith, Nate Silver, dj patil。
在這些專業社區,看看別人都是遇到什麼樣的問題,如何解決的,甚至你可以思考如何解決這些問題,去幫助別人,在社區內積攢口碑,你也會成為大牛的。