數據中臺和大數據平臺有啥不一樣?| 我的數據中臺建設之思考

2021-02-13 ITPUB

本文根據系統架構師IT老兵王保強在ITPUB技術棧系列線上沙龍活動演講整理而成。


前一段時間,一篇《「中臺」是怎麼臭了大街的》把「中臺」這個風口又推倒了浪尖,自2018年中臺火了以後,冰火兩重天,讚美和質疑之聲從未間斷。數據中臺是什麼?數據中臺和大數據平臺有啥不一樣?相信是很多人的困惑。

ITPUB技術棧在疫情期間推出一系列線上沙龍活動主題包含大數據應用架構、存儲與計算、數據治理與數據中臺的建設、雲計算的實踐與探索,本期邀請到了IT老兵王保強,結合自身經驗探討大數據平臺和數據中臺的建設之道。

目前在南方電網旗下某IT公司任職的王保強主要負責數據治理工作,擁有21年IT工作經驗,曾在海南移動負責數據倉庫、大數據平臺等項目,見證了從傳統數據倉庫轉型到大數據平臺的全歷程,見證了大數據平臺從0到1的全部過程,對數據中臺也有自己獨特的思考。

什麼是數據中臺?


現在各種新名詞層出不窮,頂層的有智慧地球、智慧城市、城市大腦;企業層面的有數位化轉型、網際網路經濟,數字經濟、數字平臺;平臺層面的有物聯網,雲計算,大數據,5G,人工智慧,機器智能,深度學習,知識圖譜;技術層面的有數據倉庫、數據集市、大數據平臺、數據湖、數據中臺、業務中臺、技術中臺等等,總之是你方唱罷他登場,各種概念滿天飛…

關於數據中臺,王保強總結了市場的幾個主要概念和描述:

1、數據中臺是聚合和治理跨域數據,將數據抽象封裝成服務,提供給前臺以業務價值的邏輯概念。

2、數據中臺是一套可持續「讓企業的數據用起來」的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續不斷把數據變成資產並服務於業務的機制。

3、數據中臺連接數據前臺和後臺,突破數據局限,為企業提供更靈活、高效、低成本的數據分析挖掘服務,避免企業為滿足具體某部門某種數據分析需求而投放大量高成本、重複性的數據開發成本。

4、數據中臺是指通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。數據中臺把數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而為客戶提供高效服務。

5、數據中臺,包括平臺、工具、數據、組織、流程、規範等一切與企業數據資產如何用起來所相關的。


「數據中臺就是數據服務化,服務化的核心是數據模型化和服務組件化,服務化的基礎是大數據平臺或數據倉庫。」王保強認為能夠提供高效的數據服務化,是數據中臺的特徵。

結合王保強的實踐經驗,從數據倉庫到大數據平臺再到大熱的數據中臺,是一脈相承的。

數據倉庫 VS 大數據平臺 VS 數據中臺

從傳統概念來看,數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用於支持管理決策和全局信息共享。

王保強認為數據倉庫的主題建模思想是數據倉庫的核心。面向主題,採用範式模型理論中的主題劃分方法對業務數據進行分類。一致性保證方面,採用維度模型理論中的總線結構思想,建立統一的一致性維度表和一致性事實表來保證一致性。而無論範式建模還是維度建模都非常重視數據質量問題,綜合使用兩個理論中的方法保證數據質量。合理採取維度退化、變化維、增加冗餘等方法,則保證了數據的計算和查詢效率。

中國移動省級經營分析系統(以下簡稱:經營分析系統)的基礎數據主要包括參與人、事件、服務、資源、帳務、營銷和財務七大主題域,並依據實體-關係理論,遵照第三範式進行建模。

數據倉庫一般採用分層架構,最底層是來自各業務系統的基礎數據,上層是匯總數據,匯總數據來源於對基礎數據中的常用指標數據進行輕量匯總,並對關鍵業務實體進行標準化處理。匯總數據邏輯模型的設計採用自底而上和自頂向下兩種方法相結合,首先將清單等匯總形成清單匯總,然後對應信息子層的數據需求,設計個人客戶、集團客戶、他網客戶等主題的匯總。

王保強認為匯總表很關鍵,匯總數據服務於信息子層,用以減少數據轉換步驟,提高數據提供的效率。信息子層是經營分析系統加工後的結果數據,通過數據封裝服務,對外提供統一的信息視圖。


在中國移動,信息子層邏輯模型的設計採用自頂向下方法,通過分析數據封裝和業務規範的需求,形成基礎數據視圖(如KPI、報表)、個人客戶、集團客戶、家庭客戶、他網客戶、產品、渠道、終端、校園客戶、垃圾簡訊客戶、網絡和營銷資源統一視圖。這形成了企業數據模型的基礎,是數據倉庫的一個核心,後續所做的數據挖掘等很大程度上來源於該模型本身的數據質量和數據唯一性、全局性。


數據集市通常是數據倉庫的子集,將數據倉庫中的數據按照不同角度進行組織和存儲,主要面向地市分公司或者特定業務部門、特定需求的業務,建立相應的應用專題,例如財務分析。中國移動的數據集市細分為地市數據集市和專業數據集市,其中專業數據集市又分為增值業務數據集市、集團客戶數據集市和網際網路數據集市。

2012年中國移動的流量業務等增值業務飛速發展,其經營分析系統壓力較大,單獨構建了增值業務數據集市為經營分析系統減負。數據集市其數據粒度較粗,數據採取星型或雪花型結構,較少保留歷史數據,便於訪問分析和快速查詢。

2013年4G飛速發展,流量業務在中國移動佔比也水漲船高,為了爭奪用戶,需要加強對用戶使用流量和軌跡的分析,暴增的流量和分析需求使得原有數據倉庫不堪重負,在擴展性和計算能力方面都捉襟見肘,開始逐步構建大數據平臺,王保強強調大數據平臺是並非一步到位,而是一步一步構建和演進過來的。

隨著業務的發展需要,海南移動先後構建了Hadoop平臺和流處理平臺,為了避免形成數據煙囪和數據孤島,最終決定統一規劃構建一個大數據平臺。

2014年底海南移動搭建了12臺的Hadoop節點,集群較簡單,2015年海南移動每天接入5T上網信令,彼時傳統架構的弊端更為明顯,小機+資料庫計算存儲能力不足,擴容成本太高,單機文件採集吞吐量不足。為了解決以上弊端,海南移動構建了Hadoop管理和存儲集群,包括分布式文件採集集群、分布式ETL調度集群、應用伺服器、MySQL伺服器,第一個Hadoop平臺就此成型。

隨後整個通信行業對用戶的爭奪異常激烈,需要快速定位用戶進行精準營銷。彼時海南移動的系統每天接入7T上網信令和5T位置信令,需要對信令實時採集、實時計算、實時事件捕捉,於是搭建了第一個流處理平臺。

乍看Hadoop平臺和流處理平臺很相似,後者在前者基礎上加了Kafka消息集群、實時事件處理集群、實時服務集群,兩個系統在硬體層面整合到一起,但實際上各個系統獨自處理各自的事務。團隊認為如果繼續採用原有方式構建,會形成煙囪數據。考慮到幾個平臺的技術棧較為相似,決定統一構建一個大數據平臺。

王保強強調構建大數據平臺的核心關鍵在於規劃。在技術架構層面,包括硬體規劃、磁碟規劃、平臺軟體規劃、內存庫規劃、數據流向規劃、平臺監控規劃等都要做到位。當然除了規劃還要在探索中實踐,其最終的技術棧和功能視圖如下:

企業級大數據平臺實現結構化、半結構化和非結構化數據統一存儲計算功能,通過數據封裝提供服務功能,提供自助報表工具,面向市場、網絡以及企業外部提供服務。

大數據平臺構建好以後,為了實現數據價值,團隊以數據應用為中心構建企業數據模型,為實現內外部應用支撐,又建設了開放共享平臺,提供數據服務和Open API服務,為了支持多應用廠家協作開發,又提供了多租戶管理,安全管理、數據目錄管理。

王保強認為大數據平臺、經營分析、數據中臺的發展都是一脈相承,都是以企業數據模型的開發為基礎與核心,為數據中臺的數據服務化做好了準備。在他看來,當初大數據平臺的建設實際在向著數據中臺的方向構建。


王保強認為數據中臺是數據服務工廠,對於業務的價值是「加速數據到價值的過程,提高企業的響應能力。」是聚合和治理跨域數據,將數據封裝成服務,提供給前臺業務價值的一個邏輯概念。從這個角度上,與大數據平臺的發展一脈相承。

如今在瞬息萬變競爭更為激烈的市場,客戶需要更準確的觸達和更快速的響應,這一切都離不開數據的治理和應用,王保強認為建設數據中臺要考慮如何支持業務創新形成核心壁壘。同時也考慮其成本低、能力多、應用廣的技術價值,有豐富的標籤、支持跨主題域訪問數據,且數據可以復用。總結來看,數據中臺是把生產資料轉換成數據生產力的一個過程,讓數據驅動決策和運營。

王保強總結數據中臺需要必備匯聚整合、提純加工、服務可視化和價值變現四個能力,大數據平可以認為是數據原材料採集到加工和存儲的企業模型構建的地方,數據中臺是數據服務,更多提供服務化方面的能力,讓用戶快速發現企業現有的數據資產,然後快速開發訪問,實現數據資產的可視化,了解企業數據的來龍去脈,快速構建應用實現價值變現。

數據中臺自誕生以來便伴隨著讚美與爭議,上圖為王保強提出的數據中臺架構,令筆者印象深刻的是他在課程直播時比較謙虛地說這個中臺架構不一定對。總體來看在中國數據中臺還處在一個探索階段,希望企業能夠結合自身業務做更多有益的嘗試,多一些參考,也許就少一些試錯成本,讓中臺有價值地落地。


2020年10月22日~24日,由IT168旗下ITPUB企業社區平臺主辦的第十二屆中國系統架構師大會(SACC2020)將在雲端進行網絡直播。自2009年以來,SACC架構師大會已成功舉辦了十一屆,雲集了國內CTO、研發總監、高級系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。過去為期3天的議程,涉及20+專場,近120個主題,完整遷移到線上進行網絡直播對會議。整裝待發,奮起逆襲的SACC2020,期待您的報名參與,共襄盛舉!

相關焦點

  • 被稱為企業「變速齒輪」的數據中臺到底是什麼 | 推薦收藏
    今天我們就從以下幾個方面來說說數據中臺:1.數據中臺產生的歷史背景2.數據中臺對企業有什麼價值3.到底什麼是數據中臺4.數據中臺與資料庫、數據湖和BI有什麼區別5.企業搭建數據中臺需要注意什麼數據中臺跟之前大數據平臺最大的區別,在於數據中臺距離業務更近,能更快速地響應業務和應用開發的需求,可追溯,更精準。
  • 「數據中臺」到底是什麼?就是情報中心和作戰指揮部!
    在日常生活中,是不是經常有聽到人們討論「中臺」這個詞?而且好像非常牛。什麼是「中臺」?有什麼作用?不接觸企業工作的人往往聽的一頭霧水。
  • 【智庫】中評大數據:「臺多斷交」輿情分析
    中評智庫大數據中心密切跟蹤並全面採集了臺灣社交媒體的輿情數據,歸納與分析輿情特徵,並對當前蔡政府與民進黨面臨的輿論壓力與民意壓力進行評估。現將報告部分內容摘錄如下:   「臺多斷交」在臺灣社交媒體引發的輿情熱度,總體低於先前臺灣與聖普、巴拿馬「斷交」的輿情熱度。
  • 數智平臺 | DanaStudio V4.6,元數據驅動數據中臺化落地
    3.靈活的數據編目和標籤體系,增加數據管理靈活性;4.更貼合場景的面向項目、用戶組的用戶管理體系,以及更細粒度的數據權限管理體系;5.底層數倉場景支持Stork、Teryx,適配更多不同數據規模場景,同時對python3、hadoop3、php7等底層技術組件進行升級;在數據中臺的建設過程中,完整且規範的元數據可以給數據開發者提供更全面的基礎描述信息
  • 中臺團隊管理建設
    導語:自從15年阿里提出中臺戰略後,業內中臺建設異常火熱,各大廠都紛紛推出推出各自的中臺戰略,中臺建設如火如荼。對於中小型發展中的公司,要不要建設中臺,建設成什麼樣的中臺,中臺團隊如何組建和管理,都是擺在技術團隊面前的一個問題,結合在業務中臺建設的實踐經驗,和大家分享中小型技術團隊內中臺團隊的建設和管理的一些思考和實踐。中臺很香,但不一定適合所有公司。
  • 大數據平臺的落地關鍵——數據接入
    在大數據平臺落地的過程中,數據接入是必不可少的一個關鍵環節。面對各種來源、各種類型的數據,需要通過數據接入將這些零散的數據整合在一起,完成從數據採集、數據傳輸、數據處理、數據緩存到統一的數據平臺的過程。圖:數據接入在大數據平臺落地中所處位置,來源於網絡數據接入的意義在於,規範的數據接入能夠大大減少後續的維護及使用代價。
  • 中臺團隊管理實踐:經營高效的中臺技術團隊
    對於中小型發展中的公司,要不要建設中臺,建設成什麼樣的中臺,中臺團隊如何組建和管理,都是擺在技術團隊面前的一個問題,下面結合我們在業務中臺建設的實踐經驗,和大家分享中小型技術團隊內中臺團隊的建設和管理的一些思考和實踐,希望對大家有啟發。
  • 中臺架構的本質及落地
    即使你不需要在一線「擼」代碼,多了解一些架構原則和思想,感受經典架構背後的哲學與思想,也會對技術視野的提升大有益處。下面我們先來學習中臺架構。中臺架構,是阿里巴巴提出並且發揚光大的一種企業架構治理方法論。
  • 大數據應用|大數據時代新技術在智能交通中的應用
    2.1從單一散亂到資源整合單-散亂包括數據散亂、技術散亂、業務散亂及應用散亂。經過我國大規模的信息化建設,與交通運輸相關的絕大多數部門均已建成自有信息化系統,並積累了大量數據。但目前太多數據信息只存在於單個部門的垂直業務和單一應用中,部門之間缺乏開放互通,造成數據資源條塊化分割和信息碎片化,數據共享程度不高。
  • 大數據抓嫖?我看笑了
    這個案例一出來,很多人都在哀嚎大數據讓人無所遁形之類的云云,還有人在講嫖這個行業的種種。但是作為一個風控從業者,並且真的和多地公安合作過各種神奇項目(包括抓逃)的人,我看到這個新聞的第一反應是離譜。很多人對於大數據的理解是數據無所不能,沒錯,但是大數據發揮威力是有很多前提條件的。套用到這個場景裡面,大數據可以做到,但是實現不了。
  • 大數據模型迭代發展的歷程
    請教一個問題,推薦系統裡面粗排的訓練數據和精排的訓練數據應該是一樣的嗎?如果粗排模型的表達力不足,導致無法捕捉線上的正負差異,或者線上的item和recall側的item差異過大,你覺得訓練數據還應該一樣嗎?
  • 大數據,怎樣讓「計劃經濟」重生
    市場經濟中,每一套價格都有自己的運行規律,相互之間又彼此聯繫,互相影響;身處市場經濟活動中的每一個人,也都參與了信息的解讀和傳遞,在這套系統中,其運算中心和控制中心分散在各個節點,通過價格信息的傳遞而互相關聯,所以市場經濟的運行機制可以算是「網際網路+分布式雲計算」。 與之相區別的是計劃經濟。
  • VSAT+AUTONET船舶大數據平臺的船岸一體技術
    ,說明了大數據平臺的功能及需求,闡述了VANT的核心技術,以此船岸一體技術構成的船舶動態大數據平臺的結構與性能,介紹了雲現場總線晶片和構成船岸一體平臺的PCC200全功能PLC控制器,以及形成船舶動態大數據平臺的工程要求。
  • 大數據文摘 大數據,大智慧
    科學理解大數據的「複雜」。由於具有海量性、快變性、異構性和分布性等複雜特性,大數據技術是一項不斷發展的技術,並非已經成熟。這當然並不妨礙運用現有大數據技術從現實的各種大數據中獲得價值,但我們必須清楚:大數據的價值實現是無止境的,大數據理論、技術和產業將相伴而行。這是大數據發展的基本形態。
  • 終於有人把業務中臺、數據中臺、技術中臺都講明白了
    數據中臺除了擁有傳統數據平臺的統計分析和決策支持功能外,會更多聚焦於為前臺一線交易類業務提供智能化的數據服務,支持企業流程智能化、運營智能化和商業模式創新,實現「業務數據化和數據業務化」。最近幾年,數據應用領域出現了很多新的趨勢。數據中臺建設模式也隨著這些趨勢在發生變化,主要體現在以下幾點。第一,數據應用技術發展迅猛。
  • Google大數據處理系統介紹之BigTable淺析
    Google設計BigTable的動機主要有以下3個方面:1)需要存儲的數據種類繁多Google目前向公眾開放的服務很多,需要處理的數據類型也非常多,包括URL、網頁內容和用戶的個性化設置等數據。企通查-動態大數據資源中心基於網際網路+大數據+人工智慧技術構建,通過分布式數據採集集群、數據特徵提取、機器學習和深度學習算法模型、NLP文本分析等技術實現了數據的實時更新、高度關聯、動態下載、主動推送,提供了全面、權威、及時、準確的數據資源,涵蓋了宏觀、中觀、微觀層面的全維度數據體系。
  • 數據驅動安全之威脅情報論壇(ISC 2015)
    確實360也擁有國內最大的客戶端方面的樣本的數據防護的日誌,DNS解析的記錄,還有其他第三方來源的各種各樣的數據,我們搜集起來在雲端利用數據挖掘數據分析,跑重沙箱跑可視化分析,生成威脅情報,推到在本地的系統上。
  • 如何設計實時數據平臺(下篇)
    顏值最後十公裡 | Davinci導讀:實時數據平臺(RTDP,Real-time Data Platform)是一個重要且常見的大數據基礎設施平臺。可視應用平臺Davinci,作為統一數據可視化平臺,以配置化方式支持各種數據可視化和交互需求,並可以整合其他數據應用以提供數據可視化部分需求解決方案,另外還支持不同數據從業人員在平臺上協作完成各項日常數據應用。其他數據終端消費系統如數據開發平臺Zeppelin、數據算法平臺Jupyter等在本文不做介紹。
  • Java中的數據結構
    在Java中的數據結構主要包括以下幾種接口和類:枚舉(Enumeration)位集合(BitSet)向量(Vector)棧(Stack)字典(Dictionary)哈希表(Hashtable)屬性(Properties) 枚舉(Enumeration)
  • 大數據平臺的SQL查詢引擎有哪些(上)?
    」關注 大數據平臺中作為海量數據計算存儲平臺,特別容易提出的一個概念就是NoSQL,可是從上面的發展看,不像No SQL麼,感覺像是:這個世界沒法NoSQL,以前我有篇文章,深入分析了關係模型的真正價值。我把這篇文章中的一小段摘錄出來,回顧一下關係模型是什麼:關係型模型之父Edgar F.