一文讀懂數據架構的進化史

2021-01-15 數據分析不是個事兒

近期看到很多企業在設計自己的數據平臺,以及選型一些數據分析工具,正好拜讀了數據倉庫之父的《數據架構:大數據、數據倉庫以及Data Vault》一書,有些許感觸,就來聊一下個人思考吧。

首先從企業信息化發展階段時,數據平臺結構的程度來看。個人依照企業信息化,將數據平臺階段劃分為:只有業務資料庫——>中間庫——>完善數據倉庫(DW)——>數據集市(Data Mart),順序與階段並不絕對正確,可能有組合,可能所在階段不完全一致。以下先看各個數據平臺階段特點,再看對應階段數據分析工具選型的考慮吧。

1.業務資料庫

一個企業IT信息化建設最初的階段,業務庫中數據量不大,要分析展示下數據情況啦,不慌,問題不大,這時候OLTP結構下也可以寫寫SQL快速展現,隨便玩玩office工具也沒問題。

但是隨著時間的推移,各種問題開始出現:

(1)查詢和寫入頻率越來越高,高頻write和和長時間read衝突越來越嚴重。而數據分析要耗費大量計算資源,不能動不動掛業務系統吧。

(2)數據量越來越大,歷史業務數據啦,新業務數據激增啦,第一要務就是要解決業務應用效率問題了,誰管數據分析裡的問題呢。

(3)業務越來越多,表結構越來越複雜。業務系統數量的越來越多,導致數據孤島開始形成。

這種情況下,企業面臨數據展示與數據平臺建設的階段了要怎麼處理。這種情況下要做數據分析就麻煩了,要人為去各個系統取數,人力是一個方面。各個系統口徑命名啥都有差異,人為的處理出錯率高就是另一方面。

2.中間庫

由於上述問題,就要引入中間庫來處理。左圖結構解決了高頻write和read衝突問題,以及單資料庫伺服器性能問題,順手也搞定了數據備份。這種情況下呢簡單查詢還是可以的,但是在轉換聚合等需要多表關聯、以及大數據量等業務複雜度高的情況下,其處理性能就不容樂觀了。

此時就開始考慮可以利用空閒時間的伺服器性能來做預先處理呢。右圖這種T+n的預處理離線計算的架構就出現了,引入獨立的任務調度和計算引擎:計算壓力可以交給資料庫處理,也可交給ETL處理,展現性能初步解決。

但是這種情況下,資料庫表結構實在太過複雜,每做一個分析,就要理一次業務邏輯、寫一段sql,還沒法進行歷史追溯,以及數據整理成果的復用,so sad。

那有沒有理一次之後,後續能夠省點事的方式呢?這時候數倉的概念就可以使用上了。

3.完善數據倉庫(DW)

把業務庫數據整理成星型結構,保證了事實的積累和維度的追溯。自由選擇需要的維度和相關事實進行篩選計算,麻麻再也不用擔心每次寫sql都要去看「蜘蛛網」了。還有索引、結果表、分區分表等等黑科技來保證每次查旬需掃描的數據量最小,解決資料庫性能問題。

當然這種架構方式的缺點也很明顯,不是企業內一致的數據(多系統,多主題數據不一致),就會產生信息孤島。當然,如果客戶企業就是很小,就一個系統,不用整合,一個數據集市足以的情況下採用這種方式也可以。常見情況是會在各個獨立的DW間建立一些對照表,可實現數據交換。如果多個DW間沒有物理隔絕,也可以形成EDW。

4.完善數倉+數據集市(Data Mart)

為了實現各個業務系統取數分析,或者做更多操作,就實現中心數據倉庫EDW從各個源系統收集數據,再將數據提供給各個數據集市和挖掘倉庫使用。這也被稱為企業信息工廠架構(CIF),一般情況下,大型企業會花費許多精力實現這類架構。

業務複雜度的提高與數據量級的增大以及對這些數據的應用,促成了各個大數據平臺的繁榮,這個放到另一篇文章陳述。

無論是以什麼架構存在,數據展示的需求都必不可少。分析工具選擇必不可少,要在以上階段以一款工具涵蓋,那必然需要一款既可以做敏捷數據集市建模,又可以做數據展示分析的工具來處理。這種工具可對業務數據進行簡單、快速整合,實現敏捷建模節省時間,並且可以大幅度提升數據的展示速度,可對接前端的數據分析展示層,實現自由數據展示與OLAP分析,典型如各類BI分析工具。

數據分析也很考驗分析工具數據讀取、運算的性能,但擁有大數據量計算引擎的BI分析工具並不多。像FineBI與其高性能數據引擎在以上幾個階段均可在不同程度解決很多場景。

(1)業務資料庫階段,此階段已經陳述過,重點問題就是計算性能影響大,以及數據孤島問題。建立數倉的過程相對敏捷數據集市而言,時間還是久的。這個時候就看看建立個常規意義的數倉和數據展示需求誰更緊急啦,或者可能有的也沒建數據平臺的意識也說不準。此時快速的數據展示需求,就可以通過將數據放到FineBI的數據引擎中支撐實現。

(2)中間庫與完善數倉階段,此階段其實主要就是計算性能問題了,用戶的數據量級也一定挺大了。正好藉助於FineBI的分布式引擎,完成數據加速計算工作。此引擎屬hadoop生態,核心計算引擎利用的spark,藉助了alluxio作為內存加速計算,處理了大數據計算問題,也很好闡釋了「大數據」。這個在接下來的文章中也會說到,這裡先埋個伏筆,暫不贅述。

此階段呢,肯定有一些響應時間要求較高的展示需求,多次作業同步可能帶來延遲影響。而FineBI的引擎擴展了kettle的插件,實現數據可以直接load到引擎中,倒是將麻煩的作業處理工作解決了。

(3)完善數倉+數據集市階段,這種階段數據平臺建設已經很完善了,各業務部門數據量級,業務複雜度都很高。

底層技術上雖然數據集市是建立在集成的中心數據倉庫EDW上,但是這些數據集市之間還是不能進行數據交換的,大家建立的方法和ETL程序都會不同,各個數據集市之間的數據不見得的是一致,且平臺架構超級複雜,擴展以及再為各業務部門設計計算層結果表之類都相對麻煩。此時可考慮部分需整合數據放到敏捷數據集市處理,可直接對接的再直接對接處理。FineBI的引擎恰好都滿足這樣的場景需求,前端OLAP分析恰好也有,簡單處理整合展示一站式解決。

相關焦點

  • 一文讀懂人類信息存儲進化史
    而其也是隨機存取存儲器(RAM)的早期版本1956年世界上第一個硬碟驅動器出現也就是我們現在說的機械硬碟(HDD)該驅動器約有兩個冰箱大小,重達一噸包含約50個24英寸碟片但只能存儲5M的信息,數據傳輸速度也只有10K/S終於時間到了1980年,快閃記憶體在日本橫空出世其特點是斷電後數據不消失且容量較大
  • 一文讀懂電容傳感器
    藍色標題,獲取文章】 10、一文讀懂光纖傳感器 11、一文讀懂溫溼度傳感器 12
  • 一文讀懂磁傳感器(必須收藏)
    【點擊藍色標題,獲取文章】 >、一文讀懂接近傳感器 3、一文讀懂磁傳感器 4、一文讀懂流量傳感器
  • 一文讀懂MEMS傳感器(必須收藏)
    【點擊藍色標題,獲取文章】 1
  • 大數據篇:一文讀懂@數據倉庫
    防止煙囪式開發,減少重複開發,開發通用中間層數據,減少重複計算;將複雜問題簡單化,將複雜任務的多個步驟分解到各個層次中,每一層只處理較少的步驟,使單個任務更容易理解;可進行數據血緣追蹤,便於快速定位問題;整個數據層次清晰,每個層次的數據都有職責定位,便於使用和理解。
  • 一文帶你讀懂計算機視覺
    一個卷積層利用圖像的2D結構在神經網絡的下一層中生成有用信息。ResNet架構是迄今為止對目標進行分類的最好網絡架構。這些方法的問題是它們需要每個人的大量數據。實際上,數據並不總是可以得到的。這種方法是通過拍攝大量臉部的圖片數據集(例如 http://vis-www.cs.umass.edu/lfw/ )來有效工作的。然後採用現有的計算機視覺架構,例如inception(或resnet),再用計算臉部的嵌入層替換目標識別神經網絡的最後一層。
  • 一文讀懂,非洲為什麼這麼落後
    讀懂 非洲 全球最貧窮的35個國家中,有26個來自非洲; 人均GDP最低的10個國家中,有9個在非洲。
  • 一文讀懂RRU關鍵技術
    一文讀懂RRU關鍵技術 肖冰 發表於 2019-10-09 10:04:19 RRU單元作為無線通信的最後一環、最關鍵設備,猶如空中的一座橋,為用戶的信息交流提供穩定可靠的通道
  • 人類進化史好玩嗎 人類進化史玩法簡介
    人類進化史好玩嗎 人類進化史玩法簡介 作者:九遊 來源:九遊 發布時間:2019-11-03 19:14:14手機訂閱 期待已久的手遊人類進化史即將登陸九遊
  • 一文理解分布式架構
    本文轉載自【微信公眾號:手機電腦雙黑客,ID:heikestudio】經微信公眾號授權轉載,如需轉載與原文作者聯繫一、什麼是分布式架構分布式系統(distributed system) 是建立在網絡之上的軟體系統。內聚性:是指每一個資料庫分布節點高度自治,有本地的資料庫管理系統。
  • 人類進化史
    人類進化史?人類從類 人進化到人類的標準就是文 明的誕生,刨除神話故 事等不可考證的依據。原始 社會 奴隸社會 封建社會(遊牧民族封建化,參見查理曼大帝 ,遼國定都)現代社會之中發生變革、融合。說到底就是人類相對與大自然的認識自然與改變自然的能力,生產力與生產關係的變化,經濟基礎與上層建築之間的相輔相成。從技術進步的角度來講,人類社會發展是爆炸式的。
  • 一文讀懂 Hub 與 Zone 架構如何實現 Cosmos 互操作性
    為了更好地理解這一特性的運作原理,我們首先需要了解 Cosmos 中用於支撐其互操作性的基礎架構「 Hub 以及 Zone 」。原文標題:《How does Cosmos work? How does it compare to Bitcoin and Ethereum?
  • 《遊戲進化史》續作《遊戲進化史2(Evoland 2)》截圖首曝!
    Shiro Games放出了《遊戲進化史2(Evoland 2)》的最新截圖。從中可以看到,新作將繼續在貫穿歷史的冒險中體驗特別的「進化」歷程,並呈現別樣風格的畫面。
  • 顯卡帝教你讀懂GPU架構圖 輕鬆做達人
    大多數玩家在購買顯卡的時候其實想的是這款顯卡是否可以滿足我實際生活娛樂中的應用要求,而不大會很深入的關注GPU的架構設計。不過,如果你想成為一個資深DIY玩家,想與眾多DIY高手「高談闊論」GPU架構設計方面的話題的時候,那麼你首先且必須弄明白顯卡GPU架構設計的基本思想和基本原理,而讀懂GPU架構圖正是這萬裡長徵的第一步。
  • 一文讀懂三相電原理及其接法大全!
    打開APP 一文讀懂三相電原理及其接法大全!
  • 21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝
    機器之心報導參與:一鳴、思60+模型架構,歷年十幾個 SOTA 模型,這 21 秒帶你縱覽圖像識別的演進歷史。ImageNet 是計算機視覺領域常用的數據集之一。在圖像分類、目標分割和目標檢測中有著無法撼動的地位。
  • Airbnb 的數據基礎架構|數據|基礎架構|集群_網易科技
    (原標題:Airbnb 的數據基礎架構)
  • 一文看懂arm架構和x86架構有什麼區別
    本文主要介紹的是arm架構和x86架構的區別,首先介紹了ARM架構圖,其次介紹了x86架構圖,最後從性能、擴展能力、作業系統的兼容性、軟體開發的方便性及可使用工具的多樣性及功耗這五個方面詳細的對比了arm架構和x86架構的區別,具體的跟隨小編一起來了解一下。
  • 一文讀懂條件Logistic回歸
    配對編號ID:共有25對配對,編號從1~25,每個數字會重複3次(分別對應病例或對照組);Y是否患喉癌:數字1表示病例組即患喉癌,數字0表示對照組即沒有患喉癌;X1是否吸菸:數字1表示吸菸,數字0表示不吸菸;X2癌症家族史:數字1表示有家族患喉癌史,數字0表示沒有家族患喉癌史。
  • 一文解密!最近火爆的SEA浩瀚架構到底是什麼?
    當然是吉利控股發布的全新架構——SEA浩瀚架構。歷時4年,投資超過180億元,在電氣化成為汽車行業未來發展趨勢的當下,這款全新的智能純電架構從一開始,似乎就是衝著顛覆行業水平來的。全球主流媒體爭相報導,SEA浩瀚架構什麼來頭?SEA浩瀚架構一經發布,就引起了全球各大主流知名媒體的廣泛關注。