本文根據系統架構師IT老兵王保強在ITPUB技術棧系列線上沙龍活動演講整理而成。
前一段時間,一篇《「中臺」是怎麼臭了大街的》把「中臺」這個風口又推倒了浪尖,自2018年中臺火了以後,冰火兩重天,讚美和質疑之聲從未間斷。數據中臺是什麼?數據中臺和大數據平臺有啥不一樣?相信是很多人的困惑。
ITPUB技術棧在疫情期間推出一系列線上沙龍活動主題包含大數據應用架構、存儲與計算、數據治理與數據中臺的建設、雲計算的實踐與探索,本期邀請到了IT老兵王保強,結合自身經驗探討大數據平臺和數據中臺的建設之道。
目前在南方電網旗下某IT公司任職的王保強主要負責數據治理工作,擁有21年IT工作經驗,曾在海南移動負責數據倉庫、大數據平臺等項目,見證了從傳統數據倉庫轉型到大數據平臺的全歷程,見證了大數據平臺從0到1的全部過程,對數據中臺也有自己獨特的思考。
什麼是數據中臺?
現在各種新名詞層出不窮,頂層的有智慧地球、智慧城市、城市大腦;企業層面的有數位化轉型、網際網路經濟,數字經濟、數字平臺;平臺層面的有物聯網,雲計算,大數據,5G,人工智慧,機器智能,深度學習,知識圖譜;技術層面的有數據倉庫、數據集市、大數據平臺、數據湖、數據中臺、業務中臺、技術中臺等等,總之是你方唱罷他登場,各種概念滿天飛…
關於數據中臺,王保強總結了市場的幾個主要概念和描述:
1、數據中臺是聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念。
2、數據中臺是一套可持續「讓企業的數據用起來」的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續不斷把數據變成資產並服務於業務的機制。
3、數據中臺連接數據前臺和後臺,突破數據局限,為企業提供更靈活、高效、低成本的數據分析挖掘服務,避免企業為滿足具體某部門某種數據分析需求而投放大量高成本、重複性的數據開發成本。
4、數據中臺是指通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。數據中臺把數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而為客戶提供高效服務。
5、數據中臺,包括平臺、工具、數據、組織、流程、規範等一切與企業數據資產如何用起來所相關的。
「數據中臺就是數據服務化,服務化的核心是數據模型化和服務組件化,服務化的基礎是大數據平臺或數據倉庫。」王保強認為能夠提供高效的數據服務化,是數據中臺的特徵。
結合王保強的實踐經驗,從數據倉庫到大數據平臺再到大熱的數據中臺,是一脈相承的。
數據倉庫 VS 大數據平臺 VS 數據中臺
從傳統概念來看,數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策和全局信息共享。
王保強認為數據倉庫的主題建模思想是數據倉庫的核心。面向主題,採用範式模型理論中的主題劃分方法對業務數據進行分類。一致性保證方面,採用維度模型理論中的總線結構思想,建立統一的一致性維度表和一致性事實表來保證一致性。而無論範式建模還是維度建模都非常重視數據質量問題,綜合使用兩個理論中的方法保證數據質量。合理採取維度退化、變化維、增加冗餘等方法,則保證了數據的計算和查詢效率。
中國移動省級經營分析系統(以下簡稱:經營分析系統)的基礎數據主要包括參與人、事件、服務、資源、帳務、營銷和財務七大主題域,並依據實體-關係理論,遵照第三範式進行建模。
數據倉庫一般採用分層架構,最底層是來自各業務系統的基礎數據,上層是匯總數據,匯總數據來源於對基礎數據中的常用指標數據進行輕量匯總,並對關鍵業務實體進行標準化處理。匯總數據邏輯模型的設計採用自底而上和自頂向下兩種方法相結合,首先將清單等匯總形成清單匯總,然後對應信息子層的數據需求,設計個人客戶、集團客戶、他網客戶等主題的匯總。
王保強認為匯總表很關鍵,匯總數據服務於信息子層,用以減少數據轉換步驟,提高數據提供的效率。信息子層是經營分析系統加工後的結果數據,通過數據封裝服務,對外提供統一的信息視圖。
在中國移動,信息子層邏輯模型的設計採用自頂向下方法,通過分析數據封裝和業務規範的需求,形成基礎數據視圖(如KPI、報表)、個人客戶、集團客戶、家庭客戶、他網客戶、產品、渠道、終端、校園客戶、垃圾簡訊客戶、網絡和營銷資源統一視圖。這形成了企業數據模型的基礎,是數據倉庫的一個核心,後續所做的數據挖掘等很大程度上來源於該模型本身的數據質量和數據唯一性、全局性。
數據集市通常是數據倉庫的子集,將數據倉庫中的數據按照不同角度進行組織和存儲,主要面向地市分公司或者特定業務部門、特定需求的業務,建立相應的應用專題,例如財務分析。中國移動的數據集市細分為地市數據集市和專業數據集市,其中專業數據集市又分為增值業務數據集市、集團客戶數據集市和網際網路數據集市。
2012年中國移動的流量業務等增值業務飛速發展,其經營分析系統壓力較大,單獨構建了增值業務數據集市為經營分析系統減負。數據集市其數據粒度較粗,數據採取星型或雪花型結構,較少保留歷史數據,便於訪問分析和快速查詢。
2013年4G飛速發展,流量業務在中國移動佔比也水漲船高,為了爭奪用戶,需要加強對用戶使用流量和軌跡的分析,暴增的流量和分析需求使得原有數據倉庫不堪重負,在擴展性和計算能力方面都捉襟見肘,開始逐步構建大數據平臺,王保強強調大數據平臺是並非一步到位,而是一步一步構建和演進過來的。
隨著業務的發展需要,海南移動先後構建了Hadoop平臺和流處理平臺,為了避免形成數據煙囪和數據孤島,最終決定統一規劃構建一個大數據平臺。
2014年底海南移動搭建了12臺的Hadoop節點,集群較簡單,2015年海南移動每天接入5T上網信令,彼時傳統架構的弊端更為明顯,小機+資料庫計算存儲能力不足,擴容成本太高,單機文件採集吞吐量不足。為了解決以上弊端,海南移動構建了Hadoop管理和存儲集群,包括分布式文件採集集群、分布式ETL調度集群、應用伺服器、MySQL伺服器,第一個Hadoop平臺就此成型。
隨後整個通信行業對用戶的爭奪異常激烈,需要快速定位用戶進行精準營銷。彼時海南移動的系統每天接入7T上網信令和5T位置信令,需要對信令實時採集、實時計算、實時事件捕捉,於是搭建了第一個流處理平臺。
乍看Hadoop平臺和流處理平臺很相似,後者在前者基礎上加了Kafka消息集群、實時事件處理集群、實時服務集群,兩個系統在硬體層面整合到一起,但實際上各個系統獨自處理各自的事務。團隊認為如果繼續採用原有方式構建,會形成煙囪數據。考慮到幾個平臺的技術棧較為相似,決定統一構建一個大數據平臺。
王保強強調構建大數據平臺的核心關鍵在於規劃。在技術架構層面,包括硬體規劃、磁碟規劃、平臺軟體規劃、內存庫規劃、數據流向規劃、平臺監控規劃等都要做到位。當然除了規劃還要在探索中實踐,其最終的技術棧和功能視圖如下:
企業級大數據平臺實現結構化、半結構化和非結構化數據統一存儲計算功能,通過數據封裝提供服務功能,提供自助報表工具,面向市場、網絡以及企業外部提供服務。
大數據平臺構建好以後,為了實現數據價值,團隊以數據應用為中心構建企業數據模型,為實現內外部應用支撐,又建設了開放共享平臺,提供數據服務和Open API服務,為了支持多應用廠家協作開發,又提供了多租戶管理,安全管理、數據目錄管理。
王保強認為大數據平臺、經營分析、數據中臺的發展都是一脈相承,都是以企業數據模型的開發為基礎與核心,為數據中臺的數據服務化做好了準備。在他看來,當初大數據平臺的建設實際在向著數據中臺的方向構建。
王保強認為數據中臺是數據服務工廠,對於業務的價值是「加速數據到價值的過程,提高企業的響應能力。」是聚合和治理跨域數據,將數據封裝成服務,提供給前臺業務價值的一個邏輯概念。從這個角度上,與大數據平臺的發展一脈相承。
如今在瞬息萬變競爭更為激烈的市場,客戶需要更準確的觸達和更快速的響應,這一切都離不開數據的治理和應用,王保強認為建設數據中臺要考慮如何支持業務創新形成核心壁壘。同時也考慮其成本低、能力多、應用廣的技術價值,有豐富的標籤、支持跨主題域訪問數據,且數據可以復用。總結來看,數據中臺是把生產資料轉換成數據生產力的一個過程,讓數據驅動決策和運營。
王保強總結數據中臺需要必備匯聚整合、提純加工、服務可視化和價值變現四個能力,大數據平可以認為是數據原材料採集到加工和存儲的企業模型構建的地方,數據中臺是數據服務,更多提供服務化方面的能力,讓用戶快速發現企業現有的數據資產,然後快速開發訪問,實現數據資產的可視化,了解企業數據的來龍去脈,快速構建應用實現價值變現。
數據中臺自誕生以來便伴隨著讚美與爭議,上圖為王保強提出的數據中臺架構,令筆者印象深刻的是他在課程直播時比較謙虛地說這個中臺架構不一定對。總體來看在中國數據中臺還處在一個探索階段,希望企業能夠結合自身業務做更多有益的嘗試,多一些參考,也許就少一些試錯成本,讓中臺有價值地落地。
2020年10月22日~24日,由IT168旗下ITPUB企業社區平臺主辦的第十二屆中國系統架構師大會(SACC2020)將在雲端進行網絡直播。自2009年以來,SACC架構師大會已成功舉辦了十一屆,雲集了國內CTO、研發總監、高級系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。過去為期3天的議程,涉及20+專場,近120個主題,完整遷移到線上進行網絡直播對會議。整裝待發,奮起逆襲的SACC2020,期待您的報名參與,共襄盛舉!