《數據中臺實戰》:數據中臺的分層建模體系

2020-12-05 改變世界的產品經理

數據中臺數據模型的分層,業界比較通用的分層方式是將數據模型分為5層:①ODS(Operate Data Store,操作數據層)、②DIM(Dictionary Data Layer ,維度數據層)、③DWD(Data Warehouse Detail ,明細數據層)、④DWS(Data Warehouse Service,匯總數據層)、⑤ADS(Application Data Store,數據應用層)。

各層數據模型之間的關係如圖1-1所示。

圖1-1 分層模體系

第一層是ODS和DIM層。ODS層數據是數據倉庫的第一層數據,是業務資料庫的原始數據的複製,例如,每條產品線的用戶信息、訂單信息等數據一般都是原封不動地同步到數據中臺的ODS層中。ODS層的作用是在業務系統和數據倉庫之間形成一個隔離層,在數據中臺進行計算任務時,可以以ODS層的數據為基礎進行計算,從而不給業務資料庫增加負擔。DIM層存儲的是維度數據如城市、省份、客戶端等維度的數據。

第二層是DWD。DWD層數據是數據倉庫的第二層數據,一般是基於ODS和DIM層的數據做輕度匯總。DWD層儲存經過處理後的標準數據,需要對ODS層數據進行再次清洗(如去空/去髒數據、去超過極限的數據等操作)。DWD層的結構和粒度一般與ODS層保持一致,但是DWD匯總了DIM層的維度數據,比如在ODS層只能看到客戶端的ID欄位,但是在DWD不但能看到客戶端ID欄位,還能看到客戶端的名稱欄位。

第三層是DWS層。DWS層數據是數據倉庫的第三層數據,是以DWD層的數據為基礎進行匯總計算的數據。DWS層都是各個維度的匯總數據,比如某日某產品線的訪問用戶數、收藏用戶數、加購用戶數、下單用戶數、支付用戶數等。

第四層是ADS層。ADS層數據是數據倉庫的最後一層數據,以DWS層數據為基礎進行數據處理。設計ADS層的最主要目的就是給數據可視化應用提供最終的數據。後端開發工程師基於ADS層的數據將最終數據結果以接口的形式展示給數據中臺的應用層。

數據倉庫為什麼要分層建模呢?我們還是通過實際案例來理解。假設還是要統計某條產品線A當月的交易額,如果沒有採用分層建模,那麼數據統計就是以結果導向的,直接提取業務資料庫中的產品線A的訂單時間、訂單金額,然後篩選時間為當月的訂單,並基於訂單金額做匯總計算,最後通過接口的方式將數據輸出到應用層。

如果採用分層建模,第一步是將業務資料庫的數據同步到ODS層中,第二步是通過DWD豐富統計指標的維度,目前案例中的需求是時間維度,可以預先增加其他常用的維度如產品線、客戶端的維度,第三步是在DWD層匯總各個維度的交易額,第四步是基於現在的需求,計算出產品線A的當月交易額,在ADS層提供要顯示的數據。

在實際數據中臺項目中針對數據指標的開發,有以下2種情況比較常見。

(1)數據指標口徑發生變化。隨著業務的變化,數據指標的統計口徑不是一成不變的,數據指標經常會基於業務目標的變化而變化,相應的統計邏輯也會變化。

(2)增加數據指標的統計維度。單個維度的數據指標統計隨著業務的發展有可能不再滿足需求,此時很有可能遇到給數據指標增加統計維度的情況,數據指標的統計維度越豐富,就越有利於數據分析。

針對這兩種情況我們分別看一下沒有分層建模和分層建模的區別。

首先是第一種情況。

數據指標的統計口徑發生了變化,比如統計口徑由之前的統計產品線A的當月全部訂單的交易額變為統計產品線A當月的訂單狀態為「已支付」的訂單的交易額。此時其實數據指標並沒有發生變化,仍然叫「交易額」,但是統計口徑發生了變化。

如果沒有進行分層建模,那麼對外的接口要增加訂單狀態篩選的邏輯,再進行測試、核對數據、發布新版本接口才能完成針對交易額統計的優化。

如果進行了分層建模,ADS層、DWD層的數據是不用變化的,因為業務資料庫的原始數據沒有變化。此外,因為數據指標的顯示沒有變化,所以只需針對DWS層增加篩選訂單狀態為「已支付」的統計邏輯,然後由數據開發工程師、測試工程師測試DWS層並統計數據即可,不用發布新版本的對外接口,所以應用層並不用再針對接口做對接。

再看第二種情況。

給數據指標增加統計維度,比如不但要查看產品線A的當月交易額,還要查看產品線A的當月安卓端、iOS端的交易額。如果沒有進行分層建模,每增加一個維度就增加一倍的工作量,要重新修改計算邏輯、重新定義對外接口、重新測試、重新發布新的版本才能完成數據指標的新的維度統計。如果進行了分層建模,由於DWD層和DWS層已經豐富了交易額的維度如產品線、客戶端等,那麼只需後端開發工程師在通過接口提取ADS層數據時新增維度「安卓端」和「iOS端」的統計結果,然後重新發布對外的接口即可,由於新的數據指標統計不需要數據開發工程師的參與,所以大大減少了數據中臺開發的工作量。

-

----END-------

相關焦點

  • 數據中臺實戰(二):基於阿里OneData的數據指標管理體系
    本文將通過具體案例來介紹OneData的實施流程,繼而介紹阿里OneData數據體系中數據指標的管理和數據模型的設計,最後再為大家講數據看板的設計。上一篇文章講了《數據中臺實戰(一):以B2B點電商為例談談產品經理下的數據埋點》,本文我們先以一個例子實戰介紹OneData實施流程。接著再講阿里OneData數據體系中數據指標的管理、數據模型的設計。
  • 數據中臺建設四步方法論:採、存、通、用
    採集用戶的行為數據和業務數據。 存儲什麼?通過分層建模的方式將數據更加科學、有效的存儲起來,形成數據資產。 怎麼打通數據?一方面要打通用戶的行為數據以及業務數據形成更加立體的用戶畫像,另外一方面要打通產品線之間的數據。 怎麼應用?
  • 終於有人把數據中臺講明白了
    通過數據中臺提供的方法和運行機制,形成匯聚整合、提純加工、建模處理、算法學習,並以共享服務的方式將數據提供給業務使用,從而與業務聯動。 再者,結合業務中臺的數據生產能力,最終構建數據生產—消費—再生的閉環。為了更好地理解數據中臺,我們將其與數據倉庫、數據湖、BI、大數據等相關概念進行對比。
  • 數據中臺,將決定企業數位化轉型的深度與廣度
    全域數據採集與引入以需求為驅動,以數據多樣性的全域思想為指導,採集與引入全業務(電商、零售、生產等)、多終端(PC、H5、APP等)、多形態(自身業務系統、三方購買、網際網路採集抓取)的數據。標準規範數據架構與研發統一基礎層、公共中間層、百花齊放應用層的數據分層架構模式,通過數據指標結構化規範化的方式實現指標口徑統一。
  • 數據中臺的雲原生機會
    2018年阿里升級數據業務雙中臺戰略並對外輸出,再到2019年數據中臺全面爆發,數據中臺一直是一個爭議和熱度並存的創業風口。在矽谷,雖然沒有數據中臺的說法,但從2005年前後,Google、Facebook、Twitter等很多科技公司都開始構建自己的大數據平臺,這些大數據平臺都包含了類似現在數據中臺的功能,都是解決企業數據能力的抽象、共享與復用的難題。其中,今年9月登陸納斯達克的Snowflake,其實做的就是大數據平臺中的一個細分層:數據倉庫。
  • 馬蜂窩數據中臺起步建設:數倉的架構、模型與應用
    一、馬蜂窩數據倉庫與數據中臺最近幾年,數據中臺概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數據中臺探索之路。數據中臺到底是什麼?要不要建?和數據倉庫有什麼本質的區別?相信很多企業都在關注這些問題。我認為數據中臺的概念非常接近傳統數據倉庫+大數據平臺的結合體。
  • 數據中臺的雲原生機會 | 甲子光年
    作者 | 趙健 編輯 | 火柴Q 從2015年阿里提出中臺概念,到2018年阿里升級數據業務雙中臺戰略並對外輸出,再到2019年數據中臺全面爆發,數據中臺一直是一個爭議和熱度並存的創業風口。資金層面,雖然對於數據中臺的準確定義,業內仍然莫衷一是,甚至爆出茅臺(600519)這類客戶不滿意的負面新聞,但是資本還在源源不斷地向數據中臺賽道湧入。 一方面,投資機構在袋鼠雲、智領雲、奇點雲、滴普、數瀾等老玩家身上繼續加碼,另一方面,九章數據、元年科技、科傑大數據、創略科技等數據中臺賽道新面孔也紛紛湧現。
  • 中臺詳解(上)——什麼是中臺
    《中臺詳解系列》共分上下兩篇,本文為上篇,總計約8100字,因為文中涉及知識體系較為廣泛,建議預留20—25分鐘進行閱讀。有人說:現在大家爭論「中臺」樣子,跟當年爭論「雲」一模一樣;顯然什麼是「中臺」,市面上還沒有一個統一的說法,所以這裡我自己給「中臺」下了一個定義:「中臺」是對傳統「軟體平臺」的升級和加強,通過在企業層面引入新的專業化職能分工、數據唯一性建模等規則;在解決軟體行業「重複造輪子」問題的基礎上,進一步解決了傳統「軟體平臺」未能解決的「軟體平臺間職能邊界劃分問題
  • 從數據中臺到AI中臺,企業到底要建什麼中臺?
    比如,阿里還相繼拆分出移動中臺、風險能力中臺、研發效能中臺等;騰訊將數據中臺拆分為用戶中臺、內容中臺、應用中臺等,技術中臺拆分為通信中臺、AI中臺、安全中臺等;而百度先後拆分出搜索中臺、知識中臺、AI中臺、技術中臺等。
  • 直擊2019雲棲大會,袋鼠雲數據中臺為旅遊升級注入新動力
    在《數據中臺助力智慧旅遊業態布局》的主題演講中,袋鼠雲售前解決方案總監薩爾表示:隨著大數據時代的到來,數據開始驅動各業態變革,旅遊行業也正在面臨數位化轉型的問題。轉型不是靠拍腦袋,而是要深刻理解數據的價值,當今世界,萬物皆可數據化,誰掌握了數據,誰就擁有世界。
  • 數據中臺、數據湖到底是怎麼回事兒?
    鄭志升bilibili | 實時平臺負責人鄭志升,大數據實時體系負責人,加入B站前曾任職於阿里巴巴。主導涵蓋「數據埋點-實時傳輸接入-實時計算-開發應用」全鏈路的中臺建設,目前重點關注實時(含增量)的傳輸與計算,實時機器學習等方向。
  • 眾安保險智能中心孫谷飛:如何搭建一個「體系化」的數據中臺?
    數據開放和隱私安全並非悖論,運用聯邦學習技術的數據隔離特性和加密機制,能夠有效解決不同公司間數據共享和聯合建模問題,解決隱私洩露風險。」目前,為了實現數據價值,眾安在內部實行了包含數據管理體系、數據流通體系以及數據價值體系的數據中臺戰略。
  • EA、Twitter、Airbnb、Uber,都怎麼建數據中臺?
    ,而人們漸漸開始有這樣的疑問:中國的數據中臺市場如此火熱,而國外的數據中臺卻沒有什麼聲音。 事實並不是這樣,矽谷的公司其實已經早於中國建設了所謂的」數據中臺「。只不過,在國外,並沒有數據中臺這個稱謂,而是統一以數據平臺的名稱命名,但是這個數據平臺已經具備我們所說的數據中臺的全部功能。 那麼,作為全球技術風向標的矽谷企業的「數據中臺「到底什麼樣,他們的「數據中臺」是如何建設的?想必很多人對此多充滿著好奇和疑問。
  • 「營銷數位化10講」之7:數位化的心臟——數據中臺
    編輯導語:數據從軟體誕生的那一天開始就存在,但是,數據並不是第一天就被存儲和利用的。今年來,數據中臺的概念火熱了起來,建立數據中臺的目標是為了融合整個企業的全部數據,打通數據之間的隔閡,消除數據標準和口徑不一致的問題。而數位化的心臟,就是數據中臺。
  • 數據倉庫系統架構和數倉分層體系介紹
    一、數據倉庫體系架構 公司藉助的第三方數據平臺,在此平臺之上建設數據倉庫。因為第三方平臺集成了很多東西,所以省去了不少功夫。 數據倉庫的體系架構,無外乎就是數據源、數據採集方式、計算存儲系統、數據應用層,這幾個方面。
  • 被稱為企業「變速齒輪」的數據中臺到底是什麼 | 推薦收藏
    而美軍之所以能靈活作戰,敢放這麼小的團隊到前方,是因為有非常強的中臺能力,這些能力包括戰鬥直升機、艦炮遠程支援、戰術飛彈系統、戰鬥機支援體系等,這些能力能支持小團隊快速做判斷,並且引領整個炮火覆蓋和定點清除。而對比今天多變的市場競爭環境,企業也正在尋找像美軍一樣具備創新性、靈活性的中臺能力。
  • 淘寶雙十一的背後,是阿里強大的數據中臺
    其中就離不開阿里耗費多年精力構建的數據中臺,並且筆者認為,在數據大屏上,體現了阿里數據中臺以下的能力:數據存儲能力:在處理數據之前,首先是要收集用戶的數據並進行存儲,在淘寶這款億量級APP上,存儲的數據是海量的,體現了阿里中臺的數據存儲能力。
  • 經歷多個中臺項目後,我總結了一套中臺實戰框架
    大家看到這個圖的第一感受是什麼?那我們也能看到,其實在做這樣的操作的時候,我們同時幹了這樣的三件事情:去統一了各業務線的作業規範;讓擬規劃的中臺數據結構變成了各業務線都能接受的通用化數據(因為通過前面的梳理已經完成了業務的標準化);其實此時的中臺數據結構就是公司級的主數據。到這通過產業研究、IT架構梳理、節點牆拆解,SOP定義這4步工作的完成,我們就得到了A生鮮電商的標準化業務框架。
  • 如何深入淺出理解數據倉庫建模?
    下圖是個示例,通過統一數據模型,屏蔽數據源變化對業務的影響,保證業務的穩定,表述了數據倉庫模型的一種價值:二、數據倉庫分層的設計為了實現以上的目的,數據倉庫一般要進行分層的設計,其能帶來五大好處:清晰數據結構:每一個數據分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
  • 億信華辰入選IDC中國數據智能/ 數據中臺生態圖譜
    日前,國際知名市場研究公司IDC(國際數據公司)調研中國重點行業數據智能應用市場案例,分析各行業數據智能落地現狀以及面臨的挑戰,並發布《CIO視角:企業數據智能實施部署指南》報告。其中發布了中國數據智能/ 數據中臺生態圖譜,億信華辰在商業智能領域榜上有名。