之前我是數據分析師的時候,我想繼續深造成為一名數據科學家,我意識到兩者有很大不同。並不是說數據科學與數據分析用完全不一樣的工具和程式語言,我甚至覺得數據科學是數據分析的一種形式,因為最終你是在與數據打交道——轉換格式,進行可視化,得出可用的結論。代碼示例,用於擬合數據科學中的模型並做預測。來源:作者的屏幕截圖。換一個角度看數據科學,這是一個實施自動化統計的行業,使用各種模型來進行分類和預測。下面是成為一名數據科學家必備的一些技能:
Python 或者 R
SQL
Jupyter Notebook
算法/建模
Python——根據我個人經驗,大部分公司傾向於用Python而不是R作為主要程式語言。雖然職位描述裡可能會同時列出兩者;但是,我猜你身邊的大多數人——比如機器學習工程師、數據工程師和軟體工程師——都不怎麼熟悉R。因此,要想成為一名更全面的數據科學家,Python應該更有用。SQL——乍看之下更像是數據分析師的技能,確實如此,但SQL仍是你從事數據科學必備的技能。工作中數據集往往不會直接發給你的,這跟學術界不同,你需要通過SQL獲得自己的數據集。現在有很多SQL的分支,比如PostgreSQL、MySQL、Microsoft SQL Server T-SQL,以及Oracle SQL。它們都屬於同一種查詢語言,形式接近,但平臺不同。因此,會其中任何一種就行,換到另一種SQL很容易。Jupyter Notebook——數據科學家的遊樂場,既可以用於編程也可以建模。你可以把Jupyter當作一個研究工具,你可以編程,寫代碼,注釋掉代碼,調用sklearn、pandas和numpy這些庫來建模和測試。算法——數據科學家的主要職責是用算法來快速準確地預測、分類,以及根據數據來給建議。每當你用新的數據來訓練模型,就會得到一些新的結果。關鍵的算法通常分成兩大類:無監督學習(如聚類)和有監督學習(如分類/回歸)。隨機森林(系綜分類)
Logistic回歸(分類——不是回歸)
K-Means(聚類)
K-最近鄰(分類/回歸)
想了解什麼是數據科學家、收入如何、這個領域的前景,以及更多有用的信息,可以參考加州大學伯克利分校的這個連結:https://datascience.berkeley.edu/about/what-is-data-science
數據分析師與業務分析師、商業情報分析師,甚至Tableau開發人員有著相似的頭銜。數據分析的重點是描述和可視化數據所包含的信息,然後向非技術用戶傳達並做進一步的解釋說明。做預測分析的數據分析師跟數據科學家的工作有很多重疊部分——與數據科學家有更多相似之處,但不是通過自動化、算法化的方法來輸出預測的。SQL——前文提到過數據科學家如何使用SQL,數據分析師也會進行類似的操作。但是,SQL對數據分析師更重要。數據科學家可能只是簡單地從表單中選擇列就可以了,而數據分析師卻要執行更為複雜的查詢操作(例如,常用的表單表達式,數據透視表,窗口函數,子查詢)。不同公司情況不同,有時候數據分析師更接近數據工程師,而非數據科學家。Excel——很老派,但依然很強大,你甚至可以用它做預測分析和趨勢分析。主要的坑爹之處是跟Python比速度太慢。Tableau——可視化工具,但根據我的經驗,大多數公司都把它明確列為數據分析師的必備技能。在Tableau中可以拖放數據到預設圖表,簡單強大;還有更多複雜的高級功能,比如計算欄位,連接到一個實時的SQL資料庫而非基於靜態的Excel表單進行分析。想了解什麼是數據分析師,收入如何,領域前景,以及更多有用信息,可以參考美國西北大學這個連結:https://www.northeastern.edu/graduate/blog/what-does-a-data-analyst-do
前面已經概述了一些相似點,總結一下,數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面,都有共同之處。這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果。一部分差異主要在分析的自動化上——數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。數據科學和數據分析的共同點很多,不僅僅是名稱裡都有「數據」而已;但同時它們也有重要的區別。無論你想成為數據科學家還是數據分析師,我希望這篇文章對你有用。如果你已經是這兩個角色當中的一員,那麼我希望你學到了一些新的東西。https://towardsdatascience.com/data-science-vs-data-analysis-heres-the-difference-4d3da0a90f4實習/全職編輯記者招聘ing
加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn