相信在大數據行當裡闖的各位同仁對阿里雲並不陌生,而研究阿里大數據架構的技術專家們,顯然或多或少會知道阿里中臺系統,那今天咱就聊聊阿里中臺(OneData)的能力演進與整體優劣。
借別人之觀點:
廣義的數據中臺包括了數據技術,比如對海量數據進行採集、計算、存儲、加工的一系列技術集合,對於大多企業,這些能力是能夠買到的,因此無所謂積澱,要積澱大多也是別人的積澱,而不是企業的,當然自主研發的除外,比如阿里的ODPS等。
除此之外,數據中臺能力可能不僅於此,可能還包括數據模型、算法服務、數據產品、數據管理等,這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的。比如企業自建的2000個基礎模型,300個融合模型,5萬個標籤,這些就是數據中臺的延伸能力,它是企業業務和數據的沉澱,其不僅能降低重複建設,減少煙囪式協作的成本,也是差異化競爭優勢所在。
在以這些內容為背景的前提下,我們就知道了所謂中臺的核心能力,其實就是數據模型。數據模型是面向業務支撐的底座能力,模型的設計不僅是一門學問更是一門藝術,所以我們看阿里中臺系統的模型構架,它包括了ODS層、CDM層和ADS層。
ODS層是數據接入的同步層,它源於各個業務系統,同時面向後續的數據清洗和加工,提供了最初的數據統一接入(數據準備區),涉及到離線數據和(準)實時數據。阿里ODS層設計包含了三個特性:其一是數據同步功能,支持結構化數據增量或全量同步到ODPS;其二是實現全結構化數據轉換,能夠將非結構化數據(如日誌)進行結構化處理後再存儲;其三是支持歷史數據的積累和清洗,能根據數據業務需求及稽核審計要求保存信息。
CDM層算是中間層了,它包括DWD明細數據存儲和DWS公共匯總數據集合,並以維度模型方法為基礎,提升公共指標的復用性,減少重複的加工。包括事務型事實寬表、周期性事實寬表、累計快照事實寬表等,同時還支持面向主題域的公共匯總模型。CDM支持個性化分析與自助取數、支持面向應用的數據同步,可以說是數據倉庫核心之能力。
ADS層是面向應用和集市的上層能力,它支持個性化指標加工和基於應用的數據組裝。
阿里數據中臺之OneData也並非是「一次成型」的,它經歷了三個階段的能力演進。
第一階段:完全應用驅動的時代。這個時期主要將數據以與源結構相同的方式同步到Oracle,那時候的數據架構只有兩層ODS+DSS,嚴格說來基本只有一個ODS層,也基本沒有模型方法體系。在這個時期阿里遇到了嚴重挑戰,意識到需要科學規劃數據架構。具體包括:數據標準不統一、服務業務能力受限、計算存儲負擔嚴重、研發成本高且重複開發的問題;
第二階段:隨著阿里業務的快速發展,數據量也在飛速增長,性能已經是一個較大問題,希望通過一些模型技術改變煙囪式的開發模型,消除一些冗餘,提升數據的一致性,所以阿里引入了Greenplum。初步構建數據分層架構,改變煙囪式的開發模式,消除數據冗餘並提升數據一致性。在最核心的基礎數據層,希望採用工程領域主流的ER模型但遭遇到比較大的困難,主要體現在:網際網路業務的快速發展,人員的快速迭代變化,業務知識功底的不夠全面導致ER模型設計遲遲不能產出;
第三階段:引入以hadoop為代表的分布式存儲計算平臺,確立第三代模型架構(OneData),核心CDM層都採用多維模型。選擇了以Kimball維度建模為核心理念的模型方法論,同時對其進行了一定的升級和擴展,構建了阿里集團的數據架構體系。
讀到這裡,相信對阿里數據中臺已經有了一定深入的理解。自然而然的,我們就要說說其整體優劣。
優點:
伴隨著業務考驗, OneData並非一蹴而就,循序漸進是階段性演進成果;
既具備開源開放的體系架構,又參考數倉之父Kimball的理念精髓;
是大型企業數據架構的核心參考,因此具備成熟性、先進性和推廣性;
缺點:
OneData數據架構並非適用簡單業務或小型企業;
架構設計複雜,需要大量經驗積累,以堆疊、論證或迭代方式構建;
作為大型企業的架構級能力支撐,OnaData與數據質量、指標體系等其他因素關係密切,必須同步發展;
這是今天分享的主題。
分析世界講方案,為您帶來精彩的一頁。
感謝閱讀、感謝共鳴。