深度好文|如何設計實時數據平臺 -- 上篇(ODF強烈推薦)

2021-02-20 創新資料庫

導讀:本文將會分上下兩篇對一個重要且常見的大數據基礎設施平臺展開討論,即「實時數據平臺」。在上篇設計篇中,我們首先從兩個維度介紹實時數據平臺:從現代數倉架構角度看待實時數據平臺,從典型數據處理角度看待實時數據處理;接著我們會探討實時數據平臺整體設計架構、對具體問題的考量以及解決思路。在下篇技術篇中,我們會進一步給出實時數據平臺的技術選型和相關組件介紹,並探討不同模式適用哪些應用場景。希望通過對本文的討論,讀者可以得到一個有章可循、可實際落地的實時數據平臺構建方案。

現代數倉由傳統數倉發展而來,對比傳統數倉,現代數倉既有與其相同之處,也有諸多發展點。首先我們看一下傳統數倉(圖1)和現代數倉(圖2)的模塊架構:

圖1 傳統數倉

圖2 現代數倉

傳統數倉大家都很熟悉,這裡不做過多介紹,一般來說,傳統數倉只能支持T+1天時效延遲的數據處理,數據處理過程以ETL為主,最終產出以報表為主。

現代數倉建立在傳統數倉之上,同時增加了更多樣化數據源的導入存儲,更多樣化數據處理方式和時效(支持T+0天時效),更多樣化數據使用方式和更多樣化數據終端服務。

現代數倉是個很大的話題,在此我們以概念模塊的方式來展現其新的特性能力。

首先我們先看一下圖3中Melissa Coates的整理總結:

圖3

在圖3 Melissa Coates的總結中我們可以得出,現代數倉之所以「現代」,是因為它有多平臺架構、數據虛擬化、數據的近實時分析、敏捷交付方式等等一系列特性。

在借鑑Melissa Coates關於現代數倉總結的基礎上,加以自己的理解,我們也在此總結提取了現代數倉的幾個重要能力,分別是:

數據實時化(實時同步和流式處理能力)

數據虛擬化(虛擬混算和統一服務能力)

數據平民化(可視化和自助配置能力)

數據協作化(多租戶和分工協作能力)

(1)數據實時化(實時同步和流式處理能力)

數據實時化,是指數據從產生(更新至業務資料庫或日誌)到最終消費(數據報表、儀錶板、分析、挖掘、數據應用等),支持毫秒級/秒級/分鐘級延遲(嚴格來說,秒級/分鐘級屬於準實時,這裡統一稱為實時)。這裡涉及到如何將數據實時的從數據源中抽取出來;如何實時流轉;為了提高時效性,降低端到端延遲,還需要有能力支持在流轉過程中進行計算處理;如何實時落庫;如何實時提供後續消費使用。實時同步是指多源到多目標的端到端同步,流式處理指在流上進行邏輯轉換處理。

但是我們要知道,不是所有數據處理計算都可以在流上進行,而我們的目的,是儘可能的降低端到端數據延遲,這裡就需要和其他數據流轉處理方式配合進行,後面我們會進一步討論。

(2)數據虛擬化(虛擬混算和統一服務能力)

數據虛擬化,是指對於用戶或用戶程序而言,面對的是統一的交互方式和查詢語言,而無需關注數據實際所在的物理庫和方言及交互方式(異構系統/異構查詢語言)的一種技術。用戶的使用體驗是面對一個單一資料庫進行操作,但其實這是一個虛擬化的資料庫,數據本身並不存放於虛擬資料庫中。

虛擬混算指的是虛擬化技術可以支持異構系統數據透明混算的能力,統一服務指對於用戶提供統一的服務接口和方式。

圖4 數據虛擬化

(圖1-4均選自「Designing a Modern Data Warehouse + Data Lake」 - Melissa Coates, Solution Architect, BlueGranite)

(3)數據平民化(可視化和自助配置能力)

普通用戶(無專業大數據技術背景的數據從業人員),可以通過可視化的用戶界面,自助的通過配置和SQL方式使用數據完成自己的工作和需求,並無需關注底層技術層面問題(通過計算資源雲化,數據虛擬化等技術)。以上是我們對數據平民化的解讀。

對於Data Democratization的解讀,還可以參見以下連結:

https://www.forbes.com/sites/bernardmarr/2017/07/24/what-is-data-democratization-a-super-simple-explanation-and-the-key-pros-and-cons

文中提到技術層面如何支持數據平民化,並給出了幾個例子:Data virtualization software,Data federation software,Cloud storage,Self-service BI applications等。其中數據虛擬化和數據聯邦本質上是類似技術方案,並且提到了自助BI這個概念。

(4)數據協作化(多租戶和分工協作能力)

技術人員應該多了解業務,還是業務人員應該多了解技術?這一直是企業內爭論不休的問題。而我們相信現代BI是一個可以深度協作的過程,技術人員和業務人員可以在同一個平臺上,發揮各自所長,分工協作完成日常BI活動。這就對平臺的多租戶能力和分工協作能力提出了較高要求,一個好的現代數據平臺是可以支持更好的數據協作化能力的。

我們希望可以設計出一個現代實時數據平臺,滿足以上提到的實時化、虛擬化、平民化、協作化等能力,成為現代數倉的一個非常重要且必不可少的組成部分。

典型的數據處理,可分為OLTP, OLAP, Streaming, Adhoc, Machine Learning等。這裡給出OLTP和OLAP的定義和對比:

圖5

(圖5選自文章「Relational Databases are not Designed for Mixed Workloads」-Matt Allen)

從某種角度來說,OLTP活動主要發生在業務交易庫端,OLAP活動主要發生在數據分析庫端。那麼,數據是如何從OLTP庫流轉到OLAP庫呢?如果這個數據流轉時效性要求很高,傳統的T+1批量ETL方式就無法滿足了。

我們將OLTP到OLAP的流轉過程叫Data Pipeline(數據處理管道),它是指數據的生產端到消費端之間的所有流轉和處理環節,包括了數據抽取、數據同步、流上處理、數據存儲、數據查詢等。這裡可能會發生很複雜的數據處理轉換(如重複語義多源異構數據源到統一Star Schema的轉換,明細表到匯總表的轉換,多實體表聯合成寬表等)。如何支持實時性很高的Pipeline處理能力,就成了一個有挑戰性的話題,我們將這個話題描述為「在線管道處理」(OLPP, Online Pipeline Processing)問題。

因此,本文所討論的實時數據平臺,希望可以從數據處理角度解決OLPP問題,成為OLTP到OLAP實時流轉缺失的課題的解決方案。下面,我們會探討從架構層面,如何設計這樣一個實時數據平臺。

實時數據平臺(Real-time Data Platform,以下簡稱RTDP),旨在提供數據端到端實時處理能力(毫秒級/秒級/分鐘級延遲),可以對接多數據源進行實時數據抽取,可以為多數據應用場景提供實時數據消費。作為現代數倉的一部分,RTDP可以支持實時化、虛擬化、平民化、協作化等能力,讓實時數據應用開發門檻更低、迭代更快、質量更好、運行更穩、運維更簡、能力更強。

概念模塊架構,是實時數據處理Pipeline的概念層的分層架構和能力梳理,本身是具備通用性和可參考性的,更像是需求模塊。圖6給出了RTDP的整體概念模塊架構,具體每個模塊含義都可自解釋,這裡不再詳述。

圖6 RTDP整體概念模塊架構

下面我們會根據上圖做進一步設計討論,給出從技術層面的高階設計思路。

圖7 整體設計思想

由圖7可以看出,我們針對概念模塊架構的四個層面進行了統一化抽象:

統一數據採集平臺

統一流式處理平臺

統一計算服務平臺

統一數據可視化平臺

同時,也對存儲層保持了開放的原則,意味著用戶可以選擇不同的存儲層以滿足具體項目的需要,而又不破壞整體架構設計,用戶甚至可以在Pipeline中同時選擇多個異構存儲提供支持。下面分別對四個抽象層進行解讀。

(1)統一數據採集平臺

統一數據採集平臺,既可以支持不同數據源的全量抽取,也可以支持增強抽取。其中對於業務資料庫的增量抽取會選擇讀取資料庫日誌,以減少對業務庫的讀取壓力。平臺還可以對抽取的數據進行統一處理,然後以統一格式發布到數據總線上。這裡我們選擇一種自定義的標準化統一消息格式UMS(Unified Message Schema)做為統一數據採集平臺和統一流式處理平臺之間的數據層面協議。

UMS自帶Namespace信息和Schema信息,這是一種自定位自解釋消息協議格式,這樣做的好處是:

平臺也支持多租戶體系,和配置化簡單處理清洗能力。

(2)統一流式處理平臺

統一流式處理平臺,會消費來自數據總線上的消息,可以支持UMS協議消息,也可以支持普通JSON格式消息。同時,平臺還支持以下能力:

支持可視化/配置化/SQL化方式降低流式邏輯開發/部署/管理門檻

支持配置化方式冪等落入多個異構目標庫以確保數據的最終一致性

支持多租戶體系,做到項目級的計算資源/表資源/用戶資源等隔離

(3)統一計算服務平臺

統一計算服務平臺,是一種數據虛擬化/數據聯邦的實現。平臺對內支持多異構數據源的下推計算和拉取混算,也支持對外的統一服務接口(JDBC/REST)和統一查詢語言(SQL)。由於平臺可以統一收口服務,因此可以基於平臺打造統一元數據管理/數據質量管理/數據安全審計/數據安全策略等模塊。平臺也支持多租戶體系。

(4)統一數據可視化平臺

統一數據可視化平臺,加上多租戶和完善的用戶體系/權限體系,可以支持跨部門數據從業人員的分工協作能力,讓用戶在可視化環境下,通過緊密合作的方式,更能發揮各自所長來完成數據平臺最後十公裡的應用。

以上是基於整體模塊架構之上,進行了統一抽象設計,並開放存儲選項以提高靈活性和需求適配性。這樣的RTDP平臺設計,體現了現代數倉的實時化/虛擬化/平民化/協作化等能力,並且覆蓋了端到端的OLPP數據流轉鏈路。

下面我們會基於RTDP的整體架構設計,分別從不同維度討論這個設計需要面對的問題考量和解決思路。

(1)功能考量

功能考量主要討論這樣一個問題:實時Pipeline能否處理所有ETL複雜邏輯?

我們知道,對於Storm/Flink這樣的流式計算引擎,是按每條處理的;對於Spark Streaming流式計算引擎,按每個mini-batch處理;而對於離線跑批任務來說,是按每天數據進行處理的。因此處理範圍是數據的一個維度(範圍維度)。

另外,流式處理面向的是增量數據,如果數據源來自關係型資料庫,那麼增量數據往往指的是增量變更數據(增刪改,revision);相對的批量處理面向的則是快照數據(snapshot)。因此展現形式是數據的另一個維度(變更維度)。

單條數據的變更維度,是可以投射收斂成單條快照的,因此變更維度可以收斂成範圍維度。所以流式處理和批量處理的本質區別在於,面對的數據範圍維度的不同,流式處理單位為「有限範圍」,批量處理單位為「全表範圍」。「全表範圍」數據是可以支持各種SQL算子的,而「有限範圍」數據只能支持部分SQL算子,具體支持情況如下:

join:

✔ left join:支持。「限制範圍」可以left join外部lookup表(通過下推,類似hashjoin效果)

✔ right join:不支持。每次從lookup拿回所有lookup表數據,這個計算是不可行的也是不合理的

✔ inter join:支持。可以轉化為left join +filter,可以支持

✔ outer join:不支持。存在right join,因此不合理

union:支持。可以應用在拉回局部範圍數據做窗口聚合操作。

agg:不支持。可以藉助union做局部窗口聚合,但無法支持全表聚合操作。

filter:支持。沒有shuffle,非常適合。

map:支持。沒有shuffle,非常適合。

project:支持。沒有shuffle,非常適合。

Join往往需要shuffle操作,是最費計算資源和時間的操作,而流上join(left join)將join操作轉化成hashjoin的隊列操作,將批量處理join的集中數據計算資源和時間平攤在數據流轉過程中,因此在流上做left join是最划算的計算方式。

複雜的ETL並不是單一算子,經常會是由多個算子組合而成,由上可以看出單純的流式處理並不能很好的支持所有ETL複雜邏輯。那麼如何在實時Pipeline中支持更多複雜的ETL算子,並且保持時效性?這就需要「有限範圍」和「全表範圍」處理的相互轉換能力。

設想一下:流式處理平臺可以支持流上適合的處理,然後實時落不同的異構庫,計算服務平臺可以定時批量混算多源異構庫(時間設定可以是每隔幾分鐘或更短),並將每批計算結果發送到數據總線上繼續流轉,這樣流式處理平臺和計算服務平臺就形成了計算閉環,各自做擅長的算子處理,數據在不同頻率觸發流轉過程中進行各種算子轉換,這樣的架構模式理論上即可支持所有ETL複雜邏輯。

圖8 數據處理架構演化

圖8給出了數據處理架構的演化,和OLPP的一種架構模式。其中wormhole和moonbox分別是我們開源的流式處理平臺和計算服務平臺,後面會具體介紹。

(2)質量考量

上面的圖也引出了兩個主流實時數據處理架構:Lambda架構和Kappa架構,具體兩個架構的介紹網上有很多資料,這裡不再贅述。Lambda架構和Kappa架構各有其優劣勢,但都支持數據的最終一致性,從某種程度上確保了數據質量,如何在Lambda架構和Kappa架構中取長補短,形成某種融合架構,這個話題會在新起文章中詳細探討。

當然數據質量也是個非常大的話題,只支持重跑和回灌並不能完全解決所有數據質量問題,只是從技術架構層面給出了補數據的工程方案。關於大數據數據質量問題,我們也會起一個新的話題討論。

(3)穩定考量

這個話題涉及但不限於以下幾點,這裡簡單給出應對的思路:

高可用HA

整個實時Pipeline鏈路都應該選取高可用組件,確保理論上整體高可用;在數據關鍵鏈路上支持數據備份和重演機制;在業務關鍵鏈路上支持雙跑融合機制

SLA保障

在確保集群和實時Pipeline高可用的前提下,支持動態擴容和數據處理流程自動漂移

彈性反脆弱

✔ 基於規則和算法的資源彈性伸縮

✔ 支持事件觸發動作引擎的失效處理

監控預警

集群設施層面,物理管道層面,數據邏輯層面的多方面監控預警能力

自動運維

能夠捕捉並存檔缺失數據和處理異常,並具備定期自動重試機制修復問題數據

上遊元數據變更抗性

✔上遊業務庫要求兼容性元數據變更

✔ 實時Pipeline處理顯式欄位

(4)成本考量

這個話題涉及但不限於以下幾點,這裡簡單給出應對的思路:

(5)敏捷考量

敏捷大數據是一整套理論體系和方法學,在前文已有所描述,從數據使用角度來看,敏捷考量意味著:配置化,SQL化,平民化。

(6)管理考量

數據管理也是一個非常大的話題,這裡我們會重點關注兩個方面:元數據管理和數據安全管理。如果在現代數倉多數據存儲選型的環境下統一管理元數據和數據安全,是一個非常有挑戰的話題,我們會在實時Pipeline上各個環節平臺分別考慮這兩個方面問題並給出內置支持,同時也可以支持對接外部統一的元數據管理平臺和統一數據安全策略。

本文我們探討了實時數據平臺RTDP的相關概念背景和架構設計方案。在架構設計方案中,我們尤其著重講了RTDP的定位和目標,整體設計架構,以及涉及到的具體問題和考量思路。有些話題很大,可以後續單獨形成文章進行專題討論,但整體上,我們給出了一整套RTDP的設計思路和規劃。在下篇技術篇中,我們會將RTDP架構設計具體化落地化,給出推薦的技術選型和我們的開源平臺方案,並會結合不同場景需求探討RTDP的不同模式應用。

1.到Github瀏覽更多平臺信息

DBus地址

https://github.com/BriData/DBus

Davinci地址

https://github.com/edp963/davinci

Wormhole地址

https://github.com/edp963/wormhole

Moonbox地址

https://github.com/edp963/moonbox

2.加入微信群,和技術大神們點對點交流

請先添加微信號:edpstack


9月8日,宜信大數據技術專家盧山巍將在「2018 ODF 開源資料庫論壇暨MariaDB中國用戶者大會」的大數據專場作主題演講,分享《敏捷大數據實踐與開源賦能》,主要介紹敏捷大數據思想、方法學、平臺,以及支撐的敏捷大數據實踐應用。主要圍繞實時數據平臺這個話題展開,從痛點到架構再到實踐應用,給出一個端到端的實時數據平臺解決方案。同時也會介紹架構中我們研發的開源平臺。

歡迎來現場與大咖交流。

相關焦點

  • 專訪騰訊蔣傑:深度揭秘騰訊大數據平臺
    CSDN: 能不能詳細介紹一下這個平臺架構的架構設計思路?蔣傑:其實這些你都可以從騰訊目前的發展看出來,主要考慮的是數據開放、專業化、成本三點。,使業務開發實時計算邏輯更加方便;目前TRC每天提供幾萬億次實時計算能力,在以效果廣告為代表的趨勢預測、交叉分析、實時統計等領域的應用上取得了非常好的效果。
  • 數據中臺到底包括什麼內容 一文詳解架構設計與組成
    01數據中臺功能架構數據中臺建設是一個宏大的工程,涉及整體規劃、組織搭建、中臺落地與運營等方方面面的工作,本節重點從物理形態上講述企業的數據中臺應該如何搭建。一般來講,企業的數據中臺在物理形態上分為三個大層:工具平臺層、數據資產層和數據應用層(見圖4-2)。
  • 網際網路電商平臺個性化智能推薦系統設計難在哪裡
    ,所以最終各條產品線和技術都歸集到大數據系統上,後續我會逐一對每個難點進行分析,本篇就針對用戶個性化推薦系統設計進行分享。通過對多個大型網際網路電商平臺的跟蹤研究,個性化智能推薦系統設計建設由三步構成:第一建立平臺用戶行為的召回模型,維度基於用戶歷史行為數據召回、用戶偏好召回和用戶地域召回來實現,用戶歷史行為數據召回基於用戶歷史瀏覽、點擊、購買、評論、分享、收藏、關注等觸點,分類推薦在線相關、在線相似、離線相關、離線相似行為;基於用戶偏好召回是基於用戶歸類畫像與平臺多屏互通融合
  • 大數據實時分析平臺應用在哪些場景
    大數據平臺主要是解決對海量多樣化的數據源進行數據採集、數據存儲,數據分析和數據處理,並提供滿足日漸增長的擴展性要求。大數據平臺既能滿足大數據量的水平可伸縮,又能滿足高性能的聚合運算。同時平臺提供高效的列式存儲,可以有效滿足商業問題分析需求。
  • Apache Doris 在 WeLab實時大數據平臺的應用實踐
    WeLab的實時大數據平臺是一套包含了數據實時採集、存儲、集成、挖掘、分析和可視化的綜合性大數據平臺。它具有管理自動化、流程化、規範化、智能化等特點,並能夠支撐更輕量、靈活、低門檻並快速迭代的大數據應用。在這個大數據平臺體系中,Apache Doris主要支撐了兩個重要的場景:實時自助BI報表和用戶運營分析。
  • 萬億數據下的多維實時分析系統,如何做到亞秒級響應
    本文將介紹一下信息流場景下,騰訊看點的實時數據倉庫和多維實時數據分析系統的技術架構。一、可解決的痛點可以先看一下,多維實時數據分析系統可以解決哪些痛點。比如:推薦同學10分鐘前上了一個推薦策略,想知道在不同人群的推薦效果怎麼樣?運營同學想知道,在廣東省的用戶中,最火的廣東地域內容是哪些,方便做地域Push。
  • 基於大數據技術的安管平臺架構與設計
    而大數據相關技術應用需解決兩大基本問題,第一是數據的存儲問題,如何存儲龐大的數據量的問題;第二是數據的計算問題,如何處理分析海量的數據。因此,從生命周期和技術應用角度出發,把大數據安全分析平臺整體架構分為五大層級,分別為數據源層、數據採集層、數據存儲層、數據計算引擎、數據分析層和應用層。
  • 強烈推薦!實用的數據可視化工具大集合!
    推薦一些簡單的,日常工作能實際應用,或者個人學習數據分析、可視化有必要的工具。希望大家能真的用起來!有別於Tableau的是,它更傾向於企業應用,從內置的ETL功能以及數據處理方式上看出,側重業務數據的快速分析以及可視化展現。可與大數據平臺,各類多維資料庫結合,所以在企業級BI應用上廣泛,個人使用免費。
  • 強烈推薦,B站最強學習資源匯總(數據科學,機器學習,python)
    強調在知識的廣度、深度和趣味性之間尋找最佳平衡點,在生動幽默中講述數據挖掘的核心思想、關鍵技術以及一些在其它相關課程和教科書中少有涉及的重要知識點,適合對大數據和數據科學感興趣的各專業學生以及工程技術人員學習。
  • SMT電子廠生產管理專業詞彙大全(深度好文 強烈推薦)
    >35.FQC:Final QualityControl 成品質量控制36.OQC:Out Quality Control 出貨質量控制37.4M1E:Man、Machine、Material、Method、Environment人、機、料、法、環38.5W1H:Why、What、Who、When、Where、How 為何/做什麼/誰做/時間/地點/如何做
  • 深度 | 大數據算法應用的測試發展之路
    如果把數據作為一種資源的話,網際網路公司與傳統公司有著本質的不同,它不是資源的消耗者,而是資源的生產者,在平臺運營的過程中不停地在創造新的數據資源,並且隨著平臺的使用時長和頻率的增加,這些資源也在指數級地增長。平臺通過使用這些數據和模型,又反過來帶來更好的用戶體驗和商業價值。2016 年,AlphaGo,一個基於深度神經網絡的圍棋人工智慧程序,第一次戰勝圍棋世界冠軍李世石。
  • 阿里雲實時大數據解決方案,助力企業實時分析與決策
    處理好的數據可以多路輸出到不同數據源,再配合上實時運維監控和告警系統,就形成了整庫全增量的解決方案,讓實時同步具備從整庫全量同步到整庫實時增量同步再到大數據自動增量融合這樣的完整鏈路。另外,實時同步的架構是高可用的,DataWorks數據集成在管控層和執行層都做了備用機器結構,如果調度或者數據傳輸鏈路斷了,可以緊急地切換到另一條鏈路,保證任務的穩定執行。
  • 基於Kafka+Flink平臺化設計,實時數倉還能這樣建
    本文由網易雲音樂實時計算平臺研發工程師嶽猛分享,主要從以下四個部分將為大家介紹 Flink + Kafka 在網易雲音樂的應用實戰:背景 Flink + Kafka 平臺化設計 Kafka 在實時數倉中的應用 問題 & 改進 一、背景介紹1、流平臺通用框架
  • 年終總結 & 算法數據的思考,豆瓣眾人推薦好文~
    例如Tinder,他們的產品形態是每次只出現一個人,讓你點擊喜歡還是不喜歡,那麼這種情況你必須需要一個算法的分類器來為每個用戶選擇一個合適的推薦算法,並且根據用戶的反饋來實時調整分類器,因為如果用戶連續Unlike了幾個用戶,他可能就流失掉了。
  • 強烈推薦!18個值得收藏的機器學習平臺
    機器學習平臺不是未來的潮流。開發人員需要知道如何以及何時利用他們的力量。
  • TUP再現激辯高潮 40億/天數據實時搜索解密
    繼成功舉辦首期TUP活動後,7月24日下午在北京麗亭華苑酒店鴻運二廳,由CSDN和《程式設計師》雜誌聯合策劃組織的TUP第二次活動如期而至,本次活動以Web 2.0技術為主題,聚焦當下火熱的社交網、微博架構與實時搜索領域。就相關領域及產品研發背後的技術、產品設計及用戶體驗話題為與會者提供全開放式的交流平臺。
  • 曙光為企業深度挖掘數據資產提供分析平臺
    這導致數據中心無法對海量非結構化數據進行有效存儲、處理及分析,以及提供大數據環境下全訪問、全類型的數據存儲及處理服務和為企業數據資產深度分析挖掘提供數據支撐。為解決以上問題,曙光開發了基於大數據技術的全業務統一數據中心數據分析平臺,以充分發揮大數據技術在數據存儲、並行計算、大規模數據分析挖掘、線性擴展、全類型數據支撐等方面的優勢。
  • 大數據時代,我們該如何教育「內向」的孩子(深度好文)
    經過了半年左右的時間的狀態糾正,每天記錄她們的變化,實時的調整教育方法和策略,總算到現在我寫這篇文章的時候,兩個小朋友正在討論如何玩老鷹捉小雞的遊戲,在玩的過程中兩個人還時不時的會抱在一起,時不時的會一起摔倒,然後哈哈大笑。想起半年前的狀態,依然覺得歷歷在目。
  • Flink 如何實時分析 Iceberg 數據湖的 CDC 數據
    文章主要分為 4 個部分內容:常見的 CDC 分析方案、為何選擇 Flink + Iceberg、如何實時寫入讀取、未來規劃。關鍵詞:數據湖  CDC Flink + Iceberg我們先看一下今天的 topic 需要設計的是什麼?
  • 一文讀懂數據平臺、大數據平臺、數據中臺
    5、大數據平臺:個性化、多樣化數據,以處理海量數據存儲、計算及流數據實時計算等場景為主的一套基礎設施,使用大數據平臺,企業可以比競爭對手更快地作出數據驅動的決策,更快地推出適應客戶需求的產品。常見混淆概念梳理:傳統大數據平臺、矽谷大數據平臺、數據中臺其實,數位化運營不同階段的運營手段相對來說是比較好理解的,但是我們常常能聽到一些字面意思相近的概念,尤其是當我們了解到原來在美國矽谷「中臺」其實早已有之,只不過這種方法論在被引入到國內之後,被冠以「中臺」之名時混淆的概念常常讓我們不知所措