聽說過阿里雲的數據中臺系統嗎?大數據的核心精髓其實就在於此!

2021-01-07 分析世界講方案

相信在大數據行當裡闖的各位同仁對阿里雲並不陌生,而研究阿里大數據架構的技術專家們,顯然或多或少會知道阿里中臺系統,那今天咱就聊聊阿里中臺(OneData)的能力演進與整體優劣。

借別人之觀點:

廣義的數據中臺包括了數據技術,比如對海量數據進行採集、計算、存儲、加工的一系列技術集合,對於大多企業,這些能力是能夠買到的,因此無所謂積澱,要積澱大多也是別人的積澱,而不是企業的,當然自主研發的除外,比如阿里的ODPS等。

除此之外,數據中臺能力可能不僅於此,可能還包括數據模型、算法服務、數據產品、數據管理等,這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的。比如企業自建的2000個基礎模型,300個融合模型,5萬個標籤,這些就是數據中臺的延伸能力,它是企業業務和數據的沉澱,其不僅能降低重複建設,減少煙囪式協作的成本,也是差異化競爭優勢所在。

在以這些內容為背景的前提下,我們就知道了所謂中臺的核心能力,其實就是數據模型。數據模型是面向業務支撐的底座能力,模型的設計不僅是一門學問更是一門藝術,所以我們看阿里中臺系統的模型構架,它包括了ODS層、CDM層和ADS層。

ODS層是數據接入的同步層,它源於各個業務系統,同時面向後續的數據清洗和加工,提供了最初的數據統一接入(數據準備區),涉及到離線數據和(準)實時數據。阿里ODS層設計包含了三個特性:其一是數據同步功能,支持結構化數據增量或全量同步到ODPS;其二是實現全結構化數據轉換,能夠將非結構化數據(如日誌)進行結構化處理後再存儲;其三是支持歷史數據的積累和清洗,能根據數據業務需求及稽核審計要求保存信息。

CDM層算是中間層了,它包括DWD明細數據存儲和DWS公共匯總數據集合,並以維度模型方法為基礎,提升公共指標的復用性,減少重複的加工。包括事務型事實寬表、周期性事實寬表、累計快照事實寬表等,同時還支持面向主題域的公共匯總模型。CDM支持個性化分析與自助取數、支持面向應用的數據同步,可以說是數據倉庫核心之能力。

ADS層是面向應用和集市的上層能力,它支持個性化指標加工和基於應用的數據組裝。

阿里數據中臺之OneData也並非是「一次成型」的,它經歷了三個階段的能力演進。

第一階段:完全應用驅動的時代。這個時期主要將數據以與源結構相同的方式同步到Oracle,那時候的數據架構只有兩層ODS+DSS,嚴格說來基本只有一個ODS層,也基本沒有模型方法體系。在這個時期阿里遇到了嚴重挑戰,意識到需要科學規劃數據架構。具體包括:數據標準不統一、服務業務能力受限、計算存儲負擔嚴重、研發成本高且重複開發的問題;

第二階段:隨著阿里業務的快速發展,數據量也在飛速增長,性能已經是一個較大問題,希望通過一些模型技術改變煙囪式的開發模型,消除一些冗餘,提升數據的一致性,所以阿里引入了Greenplum。初步構建數據分層架構,改變煙囪式的開發模式,消除數據冗餘並提升數據一致性。在最核心的基礎數據層,希望採用工程領域主流的ER模型但遭遇到比較大的困難,主要體現在:網際網路業務的快速發展,人員的快速迭代變化,業務知識功底的不夠全面導致ER模型設計遲遲不能產出;

第三階段:引入以hadoop為代表的分布式存儲計算平臺,確立第三代模型架構(OneData),核心CDM層都採用多維模型。選擇了以Kimball維度建模為核心理念的模型方法論,同時對其進行了一定的升級和擴展,構建了阿里集團的數據架構體系。

讀到這裡,相信對阿里數據中臺已經有了一定深入的理解。自然而然的,我們就要說說其整體優劣。

優點:

伴隨著業務考驗, OneData並非一蹴而就,循序漸進是階段性演進成果;

既具備開源開放的體系架構,又參考數倉之父Kimball的理念精髓;

是大型企業數據架構的核心參考,因此具備成熟性、先進性和推廣性;

缺點:

OneData數據架構並非適用簡單業務或小型企業;

架構設計複雜,需要大量經驗積累,以堆疊、論證或迭代方式構建;

作為大型企業的架構級能力支撐,OnaData與數據質量、指標體系等其他因素關係密切,必須同步發展;

這是今天分享的主題。

分析世界講方案,為您帶來精彩的一頁。

感謝閱讀、感謝共鳴。

相關焦點

  • 卡西歐:阿里雲數據中臺是企業高效發展的基礎
    渡邊敦志介紹,通過阿里雲數據中臺核心產品之一的Quick Audience,卡西歐了解到其線上消費人群中有相當一部分對潮流、動漫有著非常強烈的感知和偏好。  據了解,從《哆啦A夢》劇集的受眾來看,其年齡最大的觀眾群體主要集中在20-29歲,這說明《哆啦A夢》的受眾並不低齡。
  • 100%售罄 卡西歐通過阿里雲數據中臺找準IP聯名制勝法寶
    渡邊敦志介紹,通過阿里雲數據中臺核心產品之一的Quick Audience,卡西歐了解到其線上消費人群中有相當一部分對潮流、動漫有著非常強烈的感知和偏好。據了解,從《哆啦A夢》劇集的受眾來看,其年齡最大的觀眾群體主要集中在20-29歲,這說明《哆啦A夢》的受眾並不低齡。
  • 阿里雲數據中臺:都在推IP聯名款 為什麼偏偏卡西歐的哆啦A夢新品破...
    渡邊敦志介紹,通過阿里雲數據中臺核心產品之一的Quick Audience,卡西歐了解到其線上消費人群中有相當一部分對潮流、動漫有著非常強烈的感知和偏好。   據了解,從《哆啦A夢》劇集的受眾來看,其年齡最大的觀眾群體主要集中在20-29歲,這說明《哆啦A夢》的受眾並不低齡。
  • 阿里雲數據中臺助力零售耐消品新客獲取與轉化
    將潛客使其轉化為新客由於耐用品客單價相對較高,而且具有排他性(通常只買一件),消費者決策時間更長,鏈路更複雜,因此就非常考驗品牌商對潛客池子中的人群(即A人群與I人群)進行轉化運營的能力。藉助阿里雲數據中臺產品和零售行業解決方案可以非常高效地進行新客獲取與持續運營,這裡的「效」即包括效率,也包括效果。
  • 通過阿里雲數據中臺找準IP合作 卡西歐要坐穩「IP聯名大戶」頭把交椅
    渡邊敦志介紹,通過阿里雲數據中臺核心產品之一的Quick Audience,卡西歐了解到其線上消費人群中有相當一部分對潮流、動漫有著非常強烈的感知和偏好。  據了解,從《哆啦A夢》劇集的受眾來看,其年齡最大的觀眾群體主要集中在20-29歲,這說明《哆啦A夢》的受眾並不低齡。
  • 50歲的哆啦A夢「撞」上74歲的卡西歐,阿里雲數據中臺告訴你火花能...
    渡邊敦志介紹,通過阿里雲數據中臺核心產品之一的Quick Audience,卡西歐了解到其線上消費人群中有相當一部分對潮流、動漫有著非常強烈的感知和偏好。  據了解,從《哆啦A夢》劇集的受眾來看,其年齡最大的觀眾群體主要集中在20-29歲,這說明《哆啦A夢》的受眾並不低齡。
  • 阿里雲數據中臺雲棲大會亮出關鍵詞:場景化、行業賦能、生態
    在對貨品全生命周期進行解構後,Quick Stock從企劃、生產、首鋪、試銷、補調、清尾6大核心環節切入,以數據算法為 核心,為企業實現高效的貨品全生命周期運營,提供針對性的科學決策建議。以嶄新定位亮相本次雲棲大會的Quick Audience2.0,聚焦消費者運營場景。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 保險公司為什麼要標配數據中臺?
    數據中臺,是阿里首創並實踐過的解決方案,被公認為數字時代讓企業數據資產化產生價值的關鍵要素架構。中國太平洋保險集這樣領頭型保險企業選擇上馬數據中臺,可能對於整個行業都有著極強的示範效應,未來各家保險公司數位化轉型過程中,數據中臺乃至數據資產化極有可能成為標配。
  • 新品ROI漲322%,阿里雲數據中臺成了品牌們的一把手工程
    品牌未來的核心資產在九陽之前,其實有不少品牌在數據中臺建設這條路上行走已久,同時基於不同零售品牌的不同特點,數據也在賦能著更多不同場景。知名乳製品企業飛鶴去年便在阿里雲的幫助下,建設數據中臺。跟九陽相似,多年的品牌積累之下,飛鶴並不缺數據,但是由於分散且不完整,數據很難達到驅動業務增長的效果。在阿里雲的幫助下,飛鶴以數據中臺為核心重塑了CRM系統,建立了新的以數據賦能的營銷平臺。通過對信息的整理、分析、加工,來不斷反哺前端業務。
  • 從幕後到前臺,網紅數據中臺往哪兒走?
    作者:中國軟體網趙滿滿 校對:中國軟體網海策 良品鋪子其實就是一家休閒零食企業,現在卻成為數據中臺領域的「網紅」。 良品鋪子以前的核心競爭優勢在於線下的高效運營,因此單店營收更高,坪效更高。
  • 什麼是數據中臺,為什麼數據中臺這麼火?
    數據中臺的作用數位化時代,所有的一切都被數位化的技術重構,而數據是構成數位化世界的基礎,成為企業的核心資產,所有的業務都被數據化,企業數據中臺的核心就是為了提高工作效率,讓數據用起來,發揮其在企業中最大的作用。
  • 數據中臺與大數據的關聯度
    近年,數據中臺在網際網路領域走紅,越來越多的人開始探索數據中臺相關的應用。儘管數據中臺人氣火爆,但是仍有很多人分不清「中臺」與平臺、前臺-後臺、大數據等概念之間的關係。中臺的產生是由於無法科學合理地設計後臺,因此許多業務並和數據之間的銜接關係處理的並不恰當,為了改變這一現狀中臺問世了。因此,所謂的中臺戰略,必須說清楚中臺是如何從後臺分離出來以及分離之後的中臺與後臺的聯繫和關係。此外,上述眾多中臺的定義與大數據關聯不夠。
  • 日播:借數據中臺 做更懂消費者的設計師服裝品牌
    同樣來自《2020年中國服裝行業數據中臺研究報告》顯示,CRM與ERP系統為代表的數位化客戶關係管理系統在服裝全行業實現普遍應用,要到2010年。起步早於同行多年的日播集團,很早就實現了企業數位化的1.0版本,因此在2010年就開啟了電子商務項目,開拓O2O市場。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    二者是水火不容還是其實可以和諧共存,甚至互為補充?本文作者來自阿里巴巴計算平臺部門,深度參與阿里巴巴大數據/數據中臺領域建設,將從歷史的角度對數據湖和數據倉庫的來龍去脈進行深入剖析,來闡述兩者融合演進的新方向——湖倉一體,並就基於阿里雲MaxCompute/EMR DataLake的湖倉一體方案做一介紹。
  • 阿里雲賈揚清:人工智慧是大數據業務發展的終極出口
    今年Flink在技術方面取得兩大新突破:一是Flink流批一體技術在阿里雙11核心數據業務場景規模化成功應用; 二是Flink實時計算峰值首次突破40億條/秒。同比去年,不增加集群規模情況下提升了一倍的計算性能。  ● 應用。Flink不再是一個居廟堂之高的技術,而是成為開源流式處理的事實標準,飛入「尋常百姓家」。
  • 阿里雲賈揚清:大數據和人工智慧一體化是必然趨勢
    今年Flink在技術方面取得兩大新突破:一是Flink流批一體技術在阿里雙11核心數據業務場景規模化成功應用; 二是Flink實時計算峰值首次突破40億條/秒。同比去年,不增加集群規模情況下提升了一倍的計算性能。● 應用。Flink不再是一個居廟堂之高的技術,而是成為開源流式處理的事實標準,飛入「尋常百姓家」。
  • 下一代智能數據工廠,阿里雲發布全新DataWorks
    大數據的開發能力已經成為企業的核心競爭力之一, 企業對數據資產的管理、加工、利用的訴求也越來越強烈。9月5日,阿里雲發布了DataWorks V2版本, 可提升數據開發的效率並簡化數據操作,為企業提供了安全可靠的一站式大數據智能雲研發平臺。
  • 阿里雲實時大數據解決方案,助力企業實時分析與決策
    在全增量實時同步解決方案系統中,可以從MySql、Oracle、IBMDB2、SQLserver、POLARDB等關係型資料庫中全量離線同步到MaxCompute、Hologres、Elasticsearch、Kafka、DataHub等大數據產品中,再實現實時抽取關係型資料庫的變更信息,同步到大數據產品中。
  • 數據中臺、數據倉庫、數據平臺的關係你明白了嗎?
    數據中臺是什麼 數據中臺是指通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。數據中臺把數據統一之後,會形成標準數據,再進行存儲,形成大數據資產層,進而為客戶提供高效服務。