DOMO最新報告顯示,世界上每天都會產生250萬TB數據。隨著商業對數據的日漸依賴,各大公司也逐漸向數據驅動型組織轉型。
隨著數據的爆炸式增長,對數據處理的專家技能需求也隨之井噴,企業除了開出了更高的薪資,也需要更精細的分工。雖然大家對數據相關的工作角色有一定的認知,但最常見的問題依舊是:數據科學家和數據工程師有什麼區別?
從技術需求的角度說,一張韋恩圖或許可以直觀解釋:
從工作職責的角度說:
數據科學家的工作基於數據分析。他們需要洞悉數據背後的價值,對數據進行更深度的清洗和處理,並用各種各樣的高級算法對數據進行深層分析。除此之外,他們還具有很強的敘事能力和數據可視化能力。
數據工程師需要開發能對數據進行整合、存儲和提取的系統,並從軟體工程師開發的應用和系統中獲取數據。
Indeed 和 Glassdoor 招聘網分析報告顯示,數據工程師相關崗位的平均年薪接近 10 萬美元,崗位空缺是數據科學家的 5 倍。很多公司都找不到足夠的數據工程師來處理與日俱增的數據。
但隨著時代的發展,各種新技術和產品的出現,數據工程師這個角色也發生了較大的變化。幾年前他們主要是管理數據進出資料庫,在SQL或Procedural SQL中創建管道,並在數據倉庫中加載數據,創建統一、標準化的數據集結構以供後期分析。但2018年以來,他們不再僅僅為數據的後期分析提供支持,還要負責整個數據流,保證任何數據都是可正常操作的,並且對於使用者來說是可獲取的。
所謂的新技術和新產品,主要包括:大數據及其相關技術、DOE、機器學習、Spark&Real-time、雲開發和無伺服器等。
大數據:2006年,Hadoop的開源大大改變了數據格局,存儲大量數據變得更容易,更便宜,Hadoop與傳統的RDBMS資料庫不同,在處理數據時並不需要太多結構化。最初,在Hadoop上進行開發非常複雜,需要用Java開發Map Reduce作業。直到2010年Hive開源,更多傳統數據工程師才能更容易進入這個大數據時代。
DOE:隨著大數據的發展,大型網際網路公司正面臨著缺少運行複雜數據流工具的挑戰。Spotify在2012年開源Luigi,在2015年開源Airbnb Airflow,這些編排引擎本質上是把數據流作為代碼。Python是大多數編排引擎的編譯語言。
機器學習:在Hadoop出現之前,我們通常在一臺機器上訓練機器學習模型,並且以非常特殊的方式進行應用。對於大型網際網路公司而言,需要利用先進的軟體開發技術以更好地訓練機器學習模型並應用到生產中,比如使用Mahout之類的框架。
Spark&Real-time:這是2014年Spark發布的用於python的MLlib,它將大數據上的機器學習計算民主化。Spark為數據工程師提供了一種輕鬆處理流數據的方法,為實時處理提供了一個窗口。
雲開發和無伺服器:遷移到雲對數據工程師而言有多重影響。「雲」打破了物理限制,對於大多數用戶而言,它意味著存儲和計算趨於無限化。這樣一來,就不再需要對伺服器進行不斷的優化。而且,通過允許擴展和減少資源來實現雲,使得處理數據工程中典型的高峰批處理作業變得更加容易。
所以,想要成為一名新時代下的數據工程師,就必須不斷學習新技術以適應這快速的變化。Udacity全新上線的數據工程師納米學位課程,將幫助想要進入該領域的人學到必備的專業技能,並在實際場景中進行應用,進而找到理想的工作。
這門納米學位和Insight Data Engineering,Slack,Stitch Fix,Uber共同合作開發。課程教授的技能都是企業實際場景中最需要的技能。此外,該課程的每位講師都具備豐富的數據工程工作經驗和教學經驗。
● Andrew Andreasen,Stitch Fix 分析工程師
● David Miller,芝加哥大學 物理學教授
● Diana Pojar,Slack 數據工程師
● Nathan Chan,Zymergen 數據科學家
● Neelesh Salian,Stitch Fix 數據平臺軟體工程師
● Reza Shiftehfar,Uber 工程經理
● Sanjay Krishnan,芝加哥大學 計算機科學教授
● Amanda Moran,Datastax 開發大使
● Ben Goldberg,SpotHero 工程師
● David Drummond & Judit Lantos,Insight 數據工程師
● Sameh El-Ansary,Novelari CEO
在這門課程中,你將學習4個部分的內容以及5個實戰項目。在實戰項目中,你將作為一家音樂流媒體公司的數據工程師,每個項目會使用相同類型的數據,但是數據量、速度和複雜性都會不斷提升。
在此門納米學位中你將學到:
Part 1-數據建模
本部分將學習如何創建關係數據模型和NoSQL數據模型,以滿足數據使用者的各種需求。項目將使用音樂流app的用戶數據構建SQL(Postgres)和NoSQL(Apache Cassandra)數據模型。
Part 2-雲數據倉庫
本部分將學習如何創建基於雲的數據倉庫。項目將構建一個ELT管道,從Amazon S3中提取數據,並放在Amazon Redshift中轉化成一組維度表。
Part 3-使用Apache Spark的數據湖
本部分將學習更多有關大數據生態系統知識,學習如何使用Apache Spark處理更多數據集,以及如何將大量數據集存儲在數據湖中。
Part 4-使用Apache Airflow的數據管道
本部分將學習如何使用Apache Airflow來安排數據管道、使其自動化並進行相應的監管。
畢業項目
每個人都可以從不同角度完成該項目,自己定義項目的範圍,從不同數據源收集數據,對這些數據進行轉換、組合併總結,然後創建一個資料庫供他人分析。
優達數據科學學院學習路徑
(點擊可查看大圖)
掃碼諮詢學習規劃師,獲取詳細課程大綱
數據工程師的崗位需求空前高漲,Udacity的數據工程師納米學位為你提供優質的課程和服務,幫助你系統化學習並快速進入這個領域,少走彎路、節省時間!點擊【閱讀原文】獲得更多課程諮詢吧!