數據科學家vs數據分析師,到底有啥區別?

2021-02-23 大數據文摘
數據科學和機器學習兩個領域很容易混淆,從職責描述上還是大家的普遍印象裡,這兩個職位都差不多。相較之下,數據科學和數據分析這兩個職位更容易區分。它們雖有關鍵差別,但也有相似之處。有人會說,要成為一名數據科學家,要先從數據分析的工作做起。作者在兩個領域都待過,本文旨在闡明成為數據科學家和數據分析師到底意味著什麼。一起來看看~

 

之前我是數據分析師的時候,我想繼續深造成為一名數據科學家,我意識到兩者有很大不同。並不是說數據科學與數據分析用完全不一樣的工具和程式語言,我甚至覺得數據科學是數據分析的一種形式,因為最終你是在與數據打交道——轉換格式,進行可視化,得出可用的結論。

代碼示例,用於擬合數據科學中的模型並做預測。來源:作者的屏幕截圖。換一個角度看數據科學,這是一個實施自動化統計的行業,使用各種模型來進行分類和預測。下面是成為一名數據科學家必備的一些技能:

Python 或者 R

SQL

Jupyter Notebook

算法/建模

Python——根據我個人經驗,大部分公司傾向於用Python而不是R作為主要程式語言。雖然職位描述裡可能會同時列出兩者;但是,我猜你身邊的大多數人——比如機器學習工程師、數據工程師和軟體工程師——都不怎麼熟悉R。因此,要想成為一名更全面的數據科學家,Python應該更有用。SQL——乍看之下更像是數據分析師的技能,確實如此,但SQL仍是你從事數據科學必備的技能。工作中數據集往往不會直接發給你的,這跟學術界不同,你需要通過SQL獲得自己的數據集。現在有很多SQL的分支,比如PostgreSQL、MySQL、Microsoft SQL Server T-SQL,以及Oracle SQL。它們都屬於同一種查詢語言,形式接近,但平臺不同。因此,會其中任何一種就行,換到另一種SQL很容易。Jupyter Notebook——數據科學家的遊樂場,既可以用於編程也可以建模。你可以把Jupyter當作一個研究工具,你可以編程,寫代碼,注釋掉代碼,調用sklearn、pandas和numpy這些庫來建模和測試。算法——數據科學家的主要職責是用算法來快速準確地預測、分類,以及根據數據來給建議。每當你用新的數據來訓練模型,就會得到一些新的結果。關鍵的算法通常分成兩大類:無監督學習(如聚類)和有監督學習(如分類/回歸)。

隨機森林(系綜分類)

Logistic回歸(分類——不是回歸)

K-Means(聚類)

K-最近鄰(分類/回歸)

想了解什麼是數據科學家、收入如何、這個領域的前景,以及更多有用的信息,可以參考加州大學伯克利分校的這個連結:

https://datascience.berkeley.edu/about/what-is-data-science

數據分析師與業務分析師、商業情報分析師,甚至Tableau開發人員有著相似的頭銜。數據分析的重點是描述和可視化數據所包含的信息,然後向非技術用戶傳達並做進一步的解釋說明。做預測分析的數據分析師跟數據科學家的工作有很多重疊部分——與數據科學家有更多相似之處,但不是通過自動化、算法化的方法來輸出預測的。SQL——前文提到過數據科學家如何使用SQL,數據分析師也會進行類似的操作。但是,SQL對數據分析師更重要。數據科學家可能只是簡單地從表單中選擇列就可以了,而數據分析師卻要執行更為複雜的查詢操作(例如,常用的表單表達式,數據透視表,窗口函數,子查詢)。不同公司情況不同,有時候數據分析師更接近數據工程師,而非數據科學家。Excel——很老派,但依然很強大,你甚至可以用它做預測分析和趨勢分析。主要的坑爹之處是跟Python比速度太慢。Tableau——可視化工具,但根據我的經驗,大多數公司都把它明確列為數據分析師的必備技能。在Tableau中可以拖放數據到預設圖表,簡單強大;還有更多複雜的高級功能,比如計算欄位,連接到一個實時的SQL資料庫而非基於靜態的Excel表單進行分析。想了解什麼是數據分析師,收入如何,領域前景,以及更多有用信息,可以參考美國西北大學這個連結:

https://www.northeastern.edu/graduate/blog/what-does-a-data-analyst-do

前面已經概述了一些相似點,總結一下,數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面,都有共同之處。這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果。一部分差異主要在分析的自動化上——數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。

數據科學和數據分析的共同點很多,不僅僅是名稱裡都有「數據」而已;但同時它們也有重要的區別。無論你想成為數據科學家還是數據分析師,我希望這篇文章對你有用。如果你已經是這兩個角色當中的一員,那麼我希望你學到了一些新的東西。https://towardsdatascience.com/data-science-vs-data-analysis-heres-the-difference-4d3da0a90f4

實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn

相關焦點

  • 數據分析師和數據工程師的區別是什麼?
    ,面試官讓我說說數據工程師和數據分析師的區別在哪裡,怎麼回答? 千萬別用一句話就說完區別,而是通過多個維度比較來羅列出區別。這樣不僅能讓面試官看到你真的懂這兩個職位,還能讓面試官看出你具備多維度拆解分析方法、對比分析方法的思維能力。
  • 數據科學家VS數據工程師,真的是一山不容二虎?
    數據科學家、數據工程師等已經成為大數據行業最熱門的職位。今天讓我們先來看一下這兩種職業之間的區別,具體的工作,使用的語言、技能,發展前景等等問題。想獲得更多數據科學方面的前言動態,在此特別向大家介紹致力於數據領域教育的公眾號:CDA數據分析師
  • 數據科學家和數據工程師之間到底有什麼區別?
    人們提出的最常見問題是數據科學家和數據工程師之間到底有什麼差別。因此,有關這一問題,我們會在這篇文章中深入討論。更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front) 有很多數據專家的崗位,聽起來差不多,用的工具也差不多,很難搞清楚到底每個崗位需要做什麼工作。
  • 別被數據分析師騙了!用數據說謊的三種辦法
    從今兒起不再用它,並有意識地考慮數據分布,不要弄出來一個只對個別情形有參考意義的統計報告。第一步,可以從使用中位數開始,並且用 top 99%、bottom 1% 數值來對數據進行概括。平均數作為各門學科的權威參數已經太久,它有太多不加質疑的盲目追隨者,我們幾乎已經可以把它看做是宗教。這事兒到底是怎麼發生的呢?
  • 機器學習、數據科學、人工智慧、深度學習和統計學之間的區別!
    作者:Vincent Granville,來源:機器之心 在本文中,數據科學家與分析師 Vincent Granville 明晰了數據科學家所具有的不同角色,以及數據科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。
  • 數據分析師和數據工程師有什麼不一樣
    我們經常講數據分析或者大數據這個領域他的工作分兩個方向,數據分析方和數據工程方向。那麼這兩個方向從初級進入這個領域的時候區別並不是特別大,因為數據分析師和數據工程師都需要了解大數據的一些基本的知識和技能,包括資料庫、Hadoop包括一些編程的技能,包括一些機器學習和算法的技能,但是在進入到比較深的領域之後,大數據分析師和大數據工程師就走了兩個完全不同的方向。
  • 結構化數據 vs. 非結構化數據
    結構化數據 vs. 非結構化數據:結構化數據由明確定義的數據類型組成,其模式可以使其易於搜索。而非結構化數據通常由不容易搜索的數據組成,其中包括音頻、視頻和社交媒體發布等格式。    非結構化數據與結構化數據並不表示兩者之間存在真正的衝突。
  • 【數據可視化】數據科學工作的相關內容數據可視化
    ,因為來自不同領域的人們,如物理、生物學等,正都在從事數據方面的研究;右邊的圖表顯示了被調查者當前的工作情況,最多的人是數據科學家。計算機科學家(好歹也是科學家啊)和程式設計師(好吧,我墊底了)的報酬最低。
  • 如何成為一名合格的數據分析師,數據分析師需要哪些技能?
    隨著大數據時代的到來, 企業對數據分析師崗位的需求量也是越來越大。但是如何才能成為一名合格的數據分析師,為企業創造更好的價值,是一名數據分析師時刻反省的核心問題。當然還有部分即將就業、剛入行久、轉行加入數據分析領域的群體,對如何成為一名合格的數據分析師,數據分析師需要哪些技能還存在諸多疑惑,那麼今天們就一起探討一下。1、 理論基礎篇作為一名合格的數據分析師,你需要有應用數學、統計學、數量經濟學專業數學知識背景。
  • 大數據分析師就業前景及薪資待遇
    「大數據分析師就是一群玩數據的人,玩出數據的商業價值,讓數據變成生產力。」而大數據和傳統數據的最大區別在於,它是在線的、實時的、規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。c)行業未來發展的趨勢分析:這應該是數據分析師最高級別,有的公司叫做戰略分析師/商業分析師。這個層次的數據分析師站的更高,在行業、宏觀的層面進行業務分析,預測未來行業的發展,競爭對手的業務構成,幫助公司制定戰略發展計劃,並及時跟蹤、分析市場動態,從而及時對戰略進行不斷優化。
  • 數據分析師的職業技能成長之路
    想成為數據分析師的小夥伴可以做參考學習相關技能,已經是數據分析師的小夥伴呢,可以看一下成長路線與職場建議,希望大家看完文章各取所得,方法全知道,分析不吃灰。言歸正傳,在接下來的章節裡,我們一起來聊一聊數據分析師的常見種類、職責與晉升軌跡。最後我為大家總結了一下數據分析師需要的8種基礎能力和日常生活工作中的一些分析小案例,供大家參考。
  • 數據分析師的職業規劃之路
    不同層次的數據分析師,在力所能及的範圍內做到最好,即為優秀: 初級:提出一個業務問題,可以用數據進行回答,並能保證合理的數據結構、與業務的關聯度,以及,數據是對的。
  • 曝數據分析師真實薪資!人均百萬年薪是真的嗎?
    而最高薪的數據科學家,平均年薪為13.2萬美元,打敗一大票科技公司的高階工程師,而且這個差距還在繼續拉大中。以下根據Payscale所提供的職位基本年薪做參考,為大家整理了四個最常見的大數據人才工作內容以及薪資範圍。數據分析領域需求最多最基礎的崗位,基本可在不同行業中,從事數據收集、整理、分析,並依據分析報告做出研究、評估的技術類工作。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!
  • IBM 招聘數據科學家,看重的是哪些技能和特質?
    編者按:求職者有時會問 IBM 如何定義「數據科學家」這一職位。這是一個重要的問題,因為市場需要越來越多的數據科學家,IBM 分析師Seth Dobrin 在本文中詳細定義了 IBM 眼中的數據科學家。
  • 數據分析師的工作職責是什麼?
    文章來源: 接地氣學堂作者:接地氣的陳老師「我可能幹了個假的數據分析師!」經常有同學發出這種感慨,然後到處發《數據分析師是幹什麼的》《數據分析師、數據工程師、數據運營、數據挖掘工程師、商業數據分析師、我隨便寫個什麼分析師之間到底有什麼區別》一類的帖子。
  • 明知故問 | 2020熱門職業——數據分析師前景如何?
    關於數據分析師職業,從不同的視角切入,業界有各種分類和理解,但總的來說主要可以分為三類:數據分析師、數據科學家以及數據工程師。首先是數據分析師,這是數據分析職業的起點。有些企業則會根據自身所處行業特點,賦予數據分析師一些更具體的崗位名稱,例如業務分析師、運營分析師、資料庫分析師等等。
  • 如何從企業IT人員成長為優秀的數據分析師?
    全文共2632字,預計學習時長5分鐘數據科學社群流傳著一個傳說,如果技能齊全的數據科學家突然接手你的工作,他一夜之間便能奇蹟般地把小型數據科學公司轉虧為盈。該團隊主要由機器學習工程師、數據科學家、統計學家和軟體工程師組成,可能還需要一兩個數據分析師。大公司裡的IT技術人員以系統為中心來處理數據,他們一般都擁有許多技能,比如編程、系統開發、系統支持、商業支持以及跨職能團隊合作的能力,也正是這些技能使得他們能勝任數據分析師的工作。
  • 數據科學家的八大關鍵技能
    在過去幾年中,隨著大數據的崛起,出現了大批的新型分析師。所謂的「數據科學家」被許多人認為是唯一能夠充分利用大數據真正價值的人。雖然他們的職能已經非常清晰了,但是他們應該具有怎樣的品質卻還不清楚。人們最常見的偏見就是,認為統計學家就是數據科學家或者具有分析背景的商務智能專家會是一個好的數據科學家。也許在某些情況下這是正確的,但也有例外。
  • Top30數據分析師常見面試題(附答案)!
    【IT168 評論】這是一個用數據說話的時代,也是一個依靠數據競爭的時代。各大網際網路公司都在不斷完善自己的數據分析團隊,數據分析師的薪酬也是水漲船高。業內人士透露,應屆畢業生的平均薪資大概在6K左右,1至3年經驗的大概在10K到20K之間,5至10年經驗的大概在25K以上。薪資還是十分誘人的,那麼,如何快速成長為一名年薪百萬的數據分析師呢?