一文告訴你「數據科學家」和「數據工程師」的區別

2021-02-13 優達學城Udacity


DOMO最新報告顯示,世界上每天都會產生250萬TB數據。隨著商業對數據的日漸依賴,各大公司也逐漸向數據驅動型組織轉型。

隨著數據的爆炸式增長,對數據處理的專家技能需求也隨之井噴,企業除了開出了更高的薪資,也需要更精細的分工。雖然大家對數據相關的工作角色有一定的認知,但最常見的問題依舊是:數據科學家和數據工程師有什麼區別?

從技術需求的角度說,一張韋恩圖或許可以直觀解釋:

從工作職責的角度說:


數據科學家的工作基於數據分析。他們需要洞悉數據背後的價值,對數據進行更深度的清洗和處理,並用各種各樣的高級算法對數據進行深層分析。除此之外,他們還具有很強的敘事能力和數據可視化能力。

數據工程師需要開發能對數據進行整合、存儲和提取的系統,並從軟體工程師開發的應用和系統中獲取數據。

Indeed 和 Glassdoor 招聘網分析報告顯示,數據工程師相關崗位的平均年薪接近 10 萬美元,崗位空缺是數據科學家的 5 倍。很多公司都找不到足夠的數據工程師來處理與日俱增的數據。

但隨著時代的發展,各種新技術和產品的出現,數據工程師這個角色也發生了較大的變化。幾年前他們主要是管理數據進出資料庫,在SQL或Procedural SQL中創建管道,並在數據倉庫中加載數據,創建統一、標準化的數據集結構以供後期分析。但2018年以來,他們不再僅僅為數據的後期分析提供支持,還要負責整個數據流,保證任何數據都是可正常操作的,並且對於使用者來說是可獲取的。

所謂的新技術和新產品,主要包括:大數據及其相關技術、DOE、機器學習、Spark&Real-time、雲開發和無伺服器等。

大數據:2006年,Hadoop的開源大大改變了數據格局,存儲大量數據變得更容易,更便宜,Hadoop與傳統的RDBMS資料庫不同,在處理數據時並不需要太多結構化。最初,在Hadoop上進行開發非常複雜,需要用Java開發Map Reduce作業。直到2010年Hive開源,更多傳統數據工程師才能更容易進入這個大數據時代。

DOE:隨著大數據的發展,大型網際網路公司正面臨著缺少運行複雜數據流工具的挑戰。Spotify在2012年開源Luigi,在2015年開源Airbnb Airflow,這些編排引擎本質上是把數據流作為代碼。Python是大多數編排引擎的編譯語言。

機器學習:在Hadoop出現之前,我們通常在一臺機器上訓練機器學習模型,並且以非常特殊的方式進行應用。對於大型網際網路公司而言,需要利用先進的軟體開發技術以更好地訓練機器學習模型並應用到生產中,比如使用Mahout之類的框架。

Spark&Real-time:這是2014年Spark發布的用於python的MLlib,它將大數據上的機器學習計算民主化。Spark為數據工程師提供了一種輕鬆處理流數據的方法,為實時處理提供了一個窗口。

雲開發和無伺服器:遷移到雲對數據工程師而言有多重影響。「雲」打破了物理限制,對於大多數用戶而言,它意味著存儲和計算趨於無限化。這樣一來,就不再需要對伺服器進行不斷的優化。而且,通過允許擴展和減少資源來實現雲,使得處理數據工程中典型的高峰批處理作業變得更加容易。

所以,想要成為一名新時代下的數據工程師,就必須不斷學習新技術以適應這快速的變化。Udacity全新上線的數據工程師納米學位課程,將幫助想要進入該領域的人學到必備的專業技能,並在實際場景中進行應用,進而找到理想的工作。

這門納米學位和Insight Data Engineering,Slack,Stitch Fix,Uber共同合作開發。課程教授的技能都是企業實際場景中最需要的技能。此外,該課程的每位講師都具備豐富的數據工程工作經驗和教學經驗。

● Andrew Andreasen,Stitch Fix 分析工程師

● David Miller,芝加哥大學 物理學教授

● Diana Pojar,Slack 數據工程師

● Nathan Chan,Zymergen 數據科學家

● Neelesh Salian,Stitch Fix 數據平臺軟體工程師

● Reza Shiftehfar,Uber 工程經理

● Sanjay Krishnan,芝加哥大學 計算機科學教授

● Amanda Moran,Datastax 開發大使

● Ben Goldberg,SpotHero 工程師

● David Drummond & Judit Lantos,Insight 數據工程師

● Sameh El-Ansary,Novelari CEO

在這門課程中,你將學習4個部分的內容以及5個實戰項目。在實戰項目中,你將作為一家音樂流媒體公司的數據工程師,每個項目會使用相同類型的數據,但是數據量、速度和複雜性都會不斷提升。

在此門納米學位中你將學到:

Part 1-數據建模

本部分將學習如何創建關係數據模型和NoSQL數據模型,以滿足數據使用者的各種需求。項目將使用音樂流app的用戶數據構建SQL(Postgres)和NoSQL(Apache Cassandra)數據模型。

Part 2-雲數據倉庫

本部分將學習如何創建基於雲的數據倉庫。項目將構建一個ELT管道,從Amazon S3中提取數據,並放在Amazon Redshift中轉化成一組維度表。

Part 3-使用Apache Spark的數據湖

本部分將學習更多有關大數據生態系統知識,學習如何使用Apache Spark處理更多數據集,以及如何將大量數據集存儲在數據湖中。

Part 4-使用Apache Airflow的數據管道

本部分將學習如何使用Apache Airflow來安排數據管道、使其自動化並進行相應的監管。

畢業項目

每個人都可以從不同角度完成該項目,自己定義項目的範圍,從不同數據源收集數據,對這些數據進行轉換、組合併總結,然後創建一個資料庫供他人分析。

優達數據科學學院學習路徑

(點擊可查看大圖)

掃碼諮詢學習規劃師,獲取詳細課程大綱


數據工程師的崗位需求空前高漲,Udacity的數據工程師納米學位為你提供優質的課程和服務,幫助你系統化學習並快速進入這個領域,少走彎路、節省時間!點擊【閱讀原文】獲得更多課程諮詢吧!

相關焦點

  • 數據科學家和數據工程師之間到底有什麼區別?
    人們提出的最常見問題是數據科學家和數據工程師之間到底有什麼差別。因此,有關這一問題,我們會在這篇文章中深入討論。更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front) 有很多數據專家的崗位,聽起來差不多,用的工具也差不多,很難搞清楚到底每個崗位需要做什麼工作。
  • ACM 通訊:為什麼社會計算學並不等於「計算機科學+社會數據」
    比如社會科學的問題現在就可以把機器學習作為工具,從而衍生出「社會計算學」。那麼 社會計算學是否等於「計算機科學+社會數據」呢?這篇發表在 ACM 通訊 2018 年 3 月刊的文章就解析了其中的區別。本文作者 Hanna Wallach 是微軟研究院的高級研究員,麻薩諸塞大學阿姆赫斯特分校的副教授。雷鋒網 AI 科技評論全文編譯如下。
  • 9102年了,你還不知道怎麼做數據科學家嗎?
    在對話中,數據科學家向入門者提出了一大堆建議,然而入門者在聽取這些建議後最終得出的結論竟然是——「我還是把時間花在別的事情上吧」,諷刺意味顯而易見。而其中延展出了關於數據科學家的工作內容與其他數據相關職位的工作內容的區別等問題,更是折射出了大多數人都無法很好地將「數據科學」與其他學科區分開來——這種困惑感實質上也是入門者在整個對話過程中都呈現一種「霧裡看花」狀態的原因。
  • 「Why-What-How」數據分析方法
    統一認知後,才能保證不同層級,不同部門的人在平等話語權和同一個方向進行討論和協作,才能避免公司內的人以「我感覺」「我猜測」來猜測當前業務的情況。除了「量化」之外,另外一個重點詞語是「業務」。只有解決業務問題分析才能創造價值,價值包括個人價值和公司價值。對於公司來講,你提高了收入水平或者降低了業務成本,對於個人來講,你知道怎麼去利用數據解決業務問題,這對個人的能力成長和職業生涯都有非常大的幫助。
  • 高考日語丨「は」和「が」的區別
    各位同學在學習日語時,第一個接觸的助詞就是「は」。老師說它叫「提示助詞」,是日語當中最重要的助詞之一。所以許多同學自然而然就把は放在了主語的後面,欣欣然地造起了句子。——直到が的出現,打破了這種看似和諧的句態「平衡」。——老師又說,「は」提示主題,「が」提示主語。是不是感覺到非常的暈呢,畢竟在漢語當中,兩者並無太大的區別。
  • 什麼才是打開「數據分析」的正確姿勢?
    於是小王的領導老毛就和小王聊天了:「這是你的數據分析報告?你為什麼做這樣一個分析?」「要數據,但是要協助分析。」「如果要數據,你提供一張Excel表格就可以了,但如果要分析,這個PPT是不合格的。」「或許他們覺得你幫他們做了數據美化工作,而且他們自己對數據分析的目的性想得不夠多,所以才覺得挺好的,但在我這裡,是不過關的。」
  • 開發以中文「與數據對話」的AI決策系統,「訊能集思」要做人工智慧...
    IT調研和諮詢公司Gartner將「平民數據科學家(citizen data scientist)」定義為:「創建或生成具有預測性與說明性的數據模型的企業成員」,他們雖然不精於數據分析和編程,卻可以依託於完善的數據決策工具完成原本只能由高級數據分析科學家(Expert Data Science)完成的商業分析任務。
  • R 語言之數據分析高級方法「主成分分析」和「因子分析」
    本節主要總結「數據分析」的「主成分分析」和「因子分析」的思想。通過學習《 R 語言實戰 》關於這兩種方法的解釋,我們很容易理解這兩種方法其存在的意義。——降維。我們將要面對的數據實在是太大,變量實在太多,因此計算機所承受的壓力也會越來越大。信息過度複雜是多變量數據最大的挑戰之一,特別是在還要考慮變量間交互關係的時候,變量增加時交互關係的量是按階乘關係在往上漲的,所以降維在很多時候能夠起到減少大量工作量的作用,是數據分析很重要的一個思想。以上是「主成分分析」與「因子分析」聯繫,有共同的目的。
  • 擁有「數據分析」+「數據可視化」能力,更能受到社會偏愛?
    而數據分析的過程也是管理體系的過程,從產品出發,市場調研、產品設計、產品上架、售後服務等等;從運營出發,前期準備、制定活動方案、執行方案、復盤等等,無一不利用到數據分析的手段,來提升有效性和數據真實性。那麼在各大企業中,數據分析崗位招聘需要應聘者具備什麼樣的能力呢?
  • 日語初級當中助詞「は」和「が」的區別(*'▽'*)
    今天我要給小夥伴們講解一下日語初級當中遇到「は」和「が」的區別。初學者許多同學在學習日語的時候都會被「は」和「が」的用法所困擾,在這裡給大家簡單總結一下他們的用法。首先我們要知道兩者都屬於助詞,在句子中並不能直接翻譯。不管是「は」還是「が」都不要翻譯成「是」,這裡是初學者非常容易搞錯的地方。
  • 圖靈獎「擁抱」深度學習
    Pancake 說,「人工智慧的發展很大程度上歸功於由三位奠定基礎的深度學習領域內的最新成就。」「只要口袋裡有智慧型手機的人都可以切實體會到自然語言處理和計算機視覺方面的技術進步,這在十年前是無法想像的。除了我們每天使用的產品,深度學習的新進展為科學家們帶來強大的新工具—從醫學、天文學到材料科學。」神經網絡是一種運算模型,由大量簡單的神經元之間相互連接構成。
  • 一次搞懂「まで」和「までに」的用法與區別
    對於學日語的同學來講「まで」和「までに」的用法,是繞不開的難點,單看講解的時候很明白,用的時候就是一個字,暈。今天我們就給大家講一講兩者的區別。首先,「まで」和「までに」,表示「在~之前做某事」。1、「まで」:表示在之前的某段時間中持續發生的事情,後接持續性動作。一般翻譯為某動作或狀態,沒有中斷一直發生到某個時間為止比如:朝10時「まで」寢ました。一直睡到早上10點。睡覺這個動作一直持續到10點(如下圖)
  • 日語中的雞蛋,「玉子」和「卵」的區別
    「玉子」と「卵」「玉子」和「卵」都讀作「たまご」。你能正確理解「玉子」和「卵」的區別嗎?卵焼き還是玉子焼き,或者ゆで玉子還是ゆで卵,討論這些的人也有吧。無論哪一方都是平時不經意地使用的字,在什麼狀態的情況時使用「卵」,何時又稱為「玉子」其實是被明確的區分的。因為其中有認為是品牌差異的錯認情況,因此在這裡好好理解區別,正確的掌握使用吧。
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    [3] 這次講習班還邀請到了數據挖掘領域中的另一位巨擘:Philip S Yu。Philip 教授在報告中詳細講解了他多年來所倡導的「廣度學習」(Broad Learning)的概念和方法,並用三個相關的研究案例來說明如何將深度學習和廣度學習結合起來使用。(詳細內容可參考我們之前的報導內容《Philip S.
  • 谷歌,FB,亞馬遜,Twitter 四家已退出「數據黑洞」群
    和 Twitter 四大網際網路巨頭於今日聯合發布了「數據傳輸計劃」(Data Transfer Project),旨在讓不同平臺的數據可以無障礙傳輸。谷歌形容該項目為:用戶可以「直接將數據從一個服務遷移到另一個服務,無需下載和重新上傳。」
  • R 語言之數據分析「Resampling」
    本節主要總結「數據分析」的「Resampling」重抽樣思想,並通過 R 語言實現。有一種東西叫作「傳統」,它在很多時候很有用,但會讓你思維固化,在新的環境下讓你出錯。在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。
  • 「走過」微軟、優步,老工程師告訴你哪些數據結構和算法最重要
    一位在 Uber 等科技公司工作過的開發者分享了他的一手經驗,告訴你實際工作中會用到哪些數據結構和算法。日常工作中,你經常使用算法和數據結構嗎?曾就職於 Uber 等科技公司的工程師 Gergely Orosz 提出了這樣一個問題。此外,他也注意到,越來越多的人覺得算法是無用的,並認為它們只是科技公司提出的一種強制性措施罷了。
  • 「算法與數據結構」二叉樹之美
    前言這次梳理的內容是數據結構專題中的「樹」,如果你看到樹這類數據結構時,滿腦子頭疼,覺得它很難理解,如果是這樣子的話,那麼本文可能對你或許有點幫助。俗話說得好,要想掌握理解的話,我們得先了解它的概念,性質等內容。
  • 從童話【雪女】說說「に思う」和「と思う」的區別
    她每天都堅持朗讀,並且告訴我因為她現在和日本人士打交道,所以購買了我們的服務,天天朗讀和背,為的是能提高日語能力,而且她說最近天天朗讀,語感能品的更多了。這位男子感到她實在可憐,就決定讓雪女住一晚。問題就是這裡為何用に思って,而沒有用と思って呢,而且兩者有何區別呢?這名會員也告訴我她去查了這兩個的區別,她應該是一個好學的人。首先思って是思う的「て」形,因為後面還接有內容,用了一個中頓。
  • 重要語法「の」和「こと」的區別,你都掌握了嗎?
    今天老師將要帶領大家一起學習一下,初級階段最讓人糾結的語法知識點的區別,那就是形式名詞「の」和「こと」。形式名詞又叫作形式體言,是一種一般不具有實際意義的名詞,其主要作用是用在語法中。首先,區別講解之前,我們先看下面一組例句:①本を読むのが好きです。/我喜歡讀書。②本を読むことが好きです。/我喜歡讀書。這裡所出現的形式名詞「の」和「こと」起到了把前項「本を読む」這個動詞短語名詞化的作用,正如這一組例句所顯示,兩者在一般情況下都是可以互換使用的。