數據湖與數據倉庫兩者之間區別

2021-01-12 千家智客

  數據倉庫為組織了解其歷史業務表現和推動持續運營提供了一個接入窗口,為數據分析師和業務用戶提供了諸如客戶行為、業務趨勢、運營效率和銷售等方面的信息。儘管出現了基於Hadoop和其他一些大數據技術的數據湖這一概念,但隨著公司越來越需要從更多不同的源系統收集和分析業務數據,這使得數據倉庫仍然具有其實用價值,甚至比以前更加重要。

 

  但作為數據管理體系結構的一部分,在對數據倉庫平臺進行投資之前,首先還是要檢查您的組織是否真的需要一個數據倉庫平臺,以及通過實施部署,組織可以藉此獲取哪些業務收益。相關的,您必須考慮不同的數據倉庫部署情況——在企業範圍內還是部門範圍內,在本地還是在雲中。

 

  您還需要確定,通常存儲在大數據系統中的非結構化和半結構化數據,是否會成為數據倉庫環境的組成部分,並確定是否將用於BI、企業報告和在線分析處理(OLAP)等應用的傳統數據倉庫,與數據處理和大數據分析管理集成在一起。最後,您必須將您的數據倉庫用例與最合適類型的數據倉庫平臺相匹配。

 

  為什麼需要數據倉庫?

 

  數據倉庫的一般概念非常簡單:從支持業務流程的作業系統中定期提取數據副本,並將其加載到單獨的存儲庫中,在該存儲庫中,數據將被合併,然後可用於分析和報告。之後,業務用戶和分析師可以通過BI和分析工具、儀錶板、入口和準備好的報告來訪問數據。

 

  在下面這些情況下,數據倉庫可能更容易發揮其價值:

 

  ·公司在做出有效的商業活動報告方面遇到了難題,因為所需要的數據不容易獲得。

 

  ·不同部門和用戶組會將業務數據複製到電子表格中以進行分析,而這些電子表格並非總是相互一致的。

 

  ·數據質量和準確性的不確定性,導致企業高管和業務經理會質疑報告的準確性。

 

  ·針對生產資料庫的BI報告會每晚延遲,或在月底進行的交易數據處理,需要擴展處理窗口。

 

  ·在工作日對資料庫運行臨時查詢會降低作業系統的速度,從而影響內部用戶和客戶、供應商以及其他外部用戶。

 

  一個正確數據倉庫實施策略可以幫助您的組織準確地回答有關業務運營的問題,如發生了什麼、為什麼。數據倉庫可將來自不同位置和來源的數據組合到中央存儲庫中,從而提高數據的可訪問性。當數據移至數據倉庫時,通常還會對其進行清理和轉換,以使其與分析一致,這將有助於提高查詢結果和報告中信息的質量。

 

  此外,一旦數據倉庫部署完成並得到積極使用,由於BI、報告和分析活動已從生產資料庫中移出,運營工作流程可能會變得更有效率。

 

  數據倉庫的部署

 

  各個組織之間的數據倉庫環境可能會有很大差異。從體系結構的角度來看,部署可以遵循多個路徑——如一個企業數據倉庫(EDW),一組較小的數據集市,或這兩種方法的組合。

 

  EDW包含來自企業作業系統的所有相關數據,並且可能包含一些從外部數據源收集的數據。它是用於BI和分析數據的單個統一存儲庫,可以在所有部門和業務部門中使用。因此,建立EDW通常是一項艱巨的任務,尤其是在大型企業中。

 

  在EDW架構中,組織還可以在其作業系統和企業數據倉庫之間實施運營數據存儲(ODS)作為過渡步驟。將運營數據複製到ODS,然後提取並加載到數據倉庫中。ODS可以用作尚未經過轉換的、無法用於分析的數據的暫存區,同時可以用於運行近實時的查詢,這些查詢需要最新的業務運營的詳細相關數據,而不是數據倉庫中可用的數據。

 

  數據集市是小型化的數據倉庫,專注於各個業務部門和職能領域。當需要滿足部門對BI的特定需求時,組織通常會選擇建立數據集市,並且優先考慮報告功能。數據集市不需要涵蓋整個企業的龐大項目,而是更加集中,並且可以更快地提供業務收益。

 

  因此,數據集市的方法使組織可以通過一次處理一個業務的各個部分——而不是構建整體的EDW——以迭代方式開發數據倉庫體系架構。企業可以選擇部署一個或多個數據集市,具體取決於組織的規模和結構。

 

  然後,決定組合採用這兩種方法的組織,可以將不同的數據集市彼此集成以創建虛擬EDW,或以物理方式填充一個EDW。另一種方式是,以EDW開始的組織可以將倉庫數據的子集提供給後來建立的數據集市,以此分離業務運營。

 

  本地與雲數據倉庫

 

  每種可用的數據倉庫平臺類型都有不同的部署選項:資料庫管理系統(DBMS)軟體,通常基於關係資料庫技術;專門的分析型DBMS;數據倉庫設備將必要的硬體和DBMS軟體捆綁在一個包裝中;雲數據倉庫。

 

  將雲用於數據倉庫已成為更可行的選擇。有些供應商已經推出了特定於雲的數據倉庫平臺,而且有些最初設定為本地安裝的數據倉庫資料庫,其供應商現在也提供了基於雲的版本。此類產品包括組織自己在雲中運行的常規數據倉庫系統,以及供應商為用戶部署和管理的數據倉庫即服務(DWaaS)技術。

 

  與其他類型的雲系統一樣,與本地環境相比,雲數據倉庫可以減少部署時間,並提供更輕鬆的可伸縮性和更大的靈活性。還可以節省一定的成本——但這並不能保證,IT經理需要密切關注云中數據倉庫的使用,以確保成本最終不會高於預期。同樣,數據安全和隱私問題可能是決定是否在本地部署數據倉庫的考慮因素。

 

  數據湖與數據倉庫

 

  在Hadoop和其他大數據技術首次出現之後,關於它們是否會替代數據倉庫,市場上充滿了各種聲音。但是在大多數組織中,數據倉庫並沒有消失。相反,它們和大數據系統通常並存,每種系統都支持不同類型的分析用例。

 

  數據倉庫平臺通常基於關係DBMS,並包含源自組織的運營和交易處理系統的結構化數據。數據倉庫主要由希望運行基於SQL的、基本BI查詢的業務分析人員和執行人員,以及希望創建儀錶板和報告以向業務用戶提供分析信息的BI開發人員訪問。

 

  另一方面,大數據系統通常基於非關係技術,例如Hadoop、Spark和NoSQL資料庫。它們包含的數據可以是結構化、非結構化或半結構化的,並且可以源自所有類型的內部系統,以及社交網絡和其他外部數據源。大數據分析旨在發現模式、關聯和類似的見解——例如,根據過去的活動預測未來趨勢和客戶行為。通常是由數據科學家和統計人員使用Python、R和Scala等語言開發的複雜分析模型完成的。

 

  大數據技術還支持數據湖的概念,數據湖是來自各種來源的原始數據的存儲庫,可以按原樣存儲這些數據,然後根據需要對其進行過濾和分析準備。

 

  最後,大數據系統並不能直接替代數據倉庫和數據集市。實際上,數據倉庫和數據湖之間存在協同作用。例如,可以將在數據湖中收集的結構化數據集移動到數據倉庫中,以進行常規的OLAP存儲和分析。供應商也已開始將大數據訪問集成到數據倉庫平臺中,從而可以從一個位置訪問存儲在不同系統中的,不同格式的數據。

 

  數據倉庫用例和場景

 

  下面我們介紹一些用例和方案,這可能會影響組織的數據倉庫策略,以及決定為數據倉庫項目部署哪種類型的平臺。

 

  初次VS長期數據倉庫用戶。希望擴展現有數據倉庫的公司通常會很好地繼續使用他們已經建立的數據倉庫平臺。對於第一次實施數據倉庫的組織而言,數據倉庫設備可能是一個不錯的選擇。供應商可能會與您一起確定適合的設備規格和配置,而且這些設備的交付是非常簡易的。但是,所有數據倉庫平臺對於首次使用的用戶都是可行的選擇,您應該審查本部門中的其他用例,以開發您的特定要求和部署計劃。

 

  公司規模。大型公司可能會選擇主流的關係DBMS、分析資料庫或混合事務/分析處理(HTAP)系統。這些組織擁有成功使用此類技術的基礎架構和人員。在HTAP方法中,相同的DBMS既可以用於處理業務交易,也可以用於BI和分析建模。為了支持HTAP,關係資料庫引擎可以提供內置的列式訪問或用於分析處理的附加設備。

 

  另一方面,較小的組織應考慮使用數據倉庫設備或雲數據倉庫服務。這兩種選擇都可以最大程度地減少管理需求:設備已預先配置,並且DWaaS環境提供的雲中的數據倉庫一般由雲服務提供商進行設置和管理。

 

  IT部門的規模。IT部門相對較小的大型組織往往擁有較少的資料庫管理員和其他可以建設、調整和管理數據倉庫系統的IT專業人員。對於他們來說,考慮使用數據倉庫設備或DWaaS產品也很有意義。

 

  雲用例。如果您的組織在雲中運行大量應用程式,則DWaaS部署或自我管理的雲數據倉庫平臺可能是您的最佳選擇。將生成和存儲在雲中的業務數據保存在雲中以進行數據倉庫和分析是一種符合邏輯的方法。

 

  數據延遲要求。對於在分析應用程式中需要最小數據延遲的組織而言,優化的數據倉庫設備可能最有價值。使用其他方法也不是說無法實現近實時的延遲,但是您可能需要使用其他高速硬體和軟體來擴展數據倉庫環境,以滿足您的性能目標。

 

  數據湖與數據倉庫兩者之間區別.中琛魔方大數據(www.zcmorefun.com)溫馨提醒:一旦您的組織決定需要建設一個數據倉庫,並確定了最合理的部署方案,下一步就是研究購買數據倉庫平臺的可用技術選項。整個過程,往往需要經過萬全的考慮。


相關焦點

  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    有人說數據湖是下一代大數據平臺,各大雲廠商也在紛紛的提出自己的數據湖解決方案,一些雲數倉產品也增加了和數據湖聯動的特性。但是數據倉庫和數據湖的區別到底是什麼,是技術路線之爭?是數據管理方式之爭?二者是水火不容還是其實可以和諧共存,甚至互為補充?
  • 數據倉庫(OLAP)與資料庫(OLTP)的區別及數倉的分層結構
    數據倉庫(OLAP)與資料庫(OLTP)的區別OLAP(數據倉庫):分析型處理,聯機分析處理。OLTP(資料庫):操作型處理,聯機事務處理。注意:數據倉庫的出現不能取代資料庫的存在。區別:OLAP:A指的是分析聯機分析處理面向分析指的就是數據倉庫,例如Apache Hive Apche lmpala。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據科學和數據挖掘在許多人看來很相似,因此必須了解它們之間的一些主要的區別。如今,數據科學家通常被認為是最有前途和最有利可圖的工作之一。美國勞工統計局預計,到2029年,美國對於數據科學家的市場需求將增加到37700人。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    挑戰二:對資源的使用方式傳統的馮諾依曼架構下計算和存儲是緊密耦合的,可將多個伺服器通過分布式協議和處理的方式連成一個系統,但是伺服器和伺服器之間、節點和節點之間,分布式事務的協調、分布式查詢的優化,尤其要保證強一致性、強ACID的特性保證的時候,具有非常多的挑戰。
  • 傳統行業如何建立數據倉庫?
    為了提高企業的分析決策能力,可以利用當下的區域網技術和網際網路技術實現企業對各種信息的查詢和分析,通過建立企業業務數據模型,分析商業智能系統的系統架構、數據源之間的差異、對數據質量的評估和各種信息的處理方法,有效地提高企業商業智能系統的分析和決策能力。
  • Hive數據倉庫實戰
    Hive作為大數據平臺Hadoop之上的主流應用,公司一般都是用它作為公司的數據倉庫,分布式機器學習的訓練數據和數據處理也經常用它來處理,下面介紹下它的常用功能。Hive原理和功能介紹Hive是建立在 Hadoop 上的數據倉庫基礎構架。
  • 關於數據倉庫建設,了解這7點就夠了
    編輯導讀:在數據分析中,實時數據倉庫很重要,它決定了報表和BI到底能不能實時展現數據。但很多人可能都對它不夠了解,本文作者結合自己的工作實踐,從7個方面分享了數據倉庫建設的相關步驟和需要注意的問題,一起來看看~之前發了一篇數據倉庫的文章,發現大家對數據倉庫還是非常感興趣的。今天再和大家一起聊聊實時數倉吧!實時數倉可謂是決定性的東西,能決定什麼?
  • 大數據篇:一文讀懂@數據倉庫
    可以看出,數據中臺是解決如何用好數據的問題,目前還缺乏一個標準,而說到數據中臺一定會提及大數據,而大數據又是由數據倉庫發展起來的。1.1.1 數據倉庫(Data WareHouse)數據倉庫,按照傳統的定義,數據倉庫是一個面向主題的、集成的、非易失的、反映歷史變化(隨時間變化),用來支持管理人員決策的數據集合。
  • 量化倉庫運營狀況,從這些數據統計開始!
    通過倉庫數據分析可以精確掌握倉庫運行狀態,也可以為未來企業戰略提供有效依據。很多管理者對於具體化的一些細節有著很好的敏感度,能夠及時的對工作中出現的問題加以調整。但對於數據分析就不是那麼在行了。 數據分析首先最重要的第一步就是數據統計。
  • 【原創】-數據倉庫架構的設計
    數據倉庫架構 數據倉庫的核心功能從源系統抽取數據,通過清洗、轉換、標準化,將數據加載數據倉庫中,通過後續加工到BI平臺,進而滿足業務用戶的數據分析和決策支持
  • 如何深入淺出理解數據倉庫建模?
    作者 | 傅一平 來源 | 與數據同行 今天跟著我來學學數據倉庫的基礎知識,希望你結合案例可以把它吃透。Linux的創始人Torvalds有一段關於「什麼才是優秀程式設計師」的話:「爛程式設計師關心的是代碼,好程式設計師關心的是數據結構和它們之間的關係」,最能夠說明數據模型的重要性。只有數據模型將數據有序的組織和存儲起來之後,大數據才能得到高性能、低成本、高效率、高質量的使用。性能:幫助我們快速查詢所需要的數據,減少數據的I/O吞吐,提高使用數據的效率,如寬表。
  • 乾貨|你想知道的數據倉庫知識,這裡都有!
    數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支持管理決策。面向主題:數據倉庫側重於數據分析工作,所以數據倉庫中的數據是按照一定的主題進行組織和存儲。
  • 數據倉庫模型設計與工具
    一、基本概念維度建模,是數據倉庫大師Ralph Kimball提出的,是數據倉庫工程領域最流行的數倉建模經典。二、建模方法 —— 經典數據倉庫模型數據倉庫建模方法論可分為:維度建模、範式建模、Data Vault模型、Anchor模型。
  • 數據產品必備技術知識:數據倉庫入門,看這這一篇就夠了
    數據倉庫是存數據的,企業的各種數據往裡面塞,主要目的是為了有效分析數據,後續會基於它產出供分析挖掘的數據,或者數據應用需要的數據,如企業的分析性報告和各類報表,為企業的決策提供支持。數據倉庫可以算是數據產品必須要了解的技術知識了, 在一年前的數據產品求職分析中,其中技能要求這一項中,數據倉庫可是佔了一席之地的。
  • 「沉澱」全省數據 華錄數據湖落戶株洲
    湖南數據湖產業園項目是2018年湖南開放強省暨優勢產業鏈項目推介會重點招商引資項目,由中國華錄集團作為主要投資方投資建設。項目位於湖南雲龍大數據產業園內,項目總投資38.3億元,佔地200畝,項目主要分為城市數據湖基礎設施、藍光生產線、園區開發與運營三個部分。
  • 大數據分析與數據分析的根本區別在哪裡?
    如今大數據分析和數據分析火爆,要說時機,可謂處處都是時機,關鍵要明了的一點是,大數據分析和數據分析兩者的根本區別在哪裡,只有真正了解了,才會知曉更加適合自己的領域是大數據分析師還是數據分析師。畢竟職場如戰場,時間就是生活,不容兒戲,更不容怠慢。下面我來好好告訴大家兩者的本質區別到底是什麼!大數據分析:指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
  • CPDA數據分析師:揭秘數據完整性和數據質量之間的差異
    來源:CPDA數據分析師網 / 作者:數據君 儘管許多人可以互換使用數據完整性和數據質量這兩個術語 但必須牢記兩者之間的一些重要區別,真正強大的數據系統可確保數據解決這些區別,從而幫助企業最大程度地提高存儲信息的準確性,一致性和上下文
  • 數據倉庫建設基本思想
    一、數據倉庫的分層結構1)ods層:原始數據直接同步過來;ODS作為數據緩衝層,保留的是所有的數據,理論上粒度和源系統保持一致,同時不丟數據,業務DB基本上是直接同步過來,LOG主要是做結構化。2)維表和事實表層:該主要是將ods的數據經過規範化處理、業務邏輯處理等得到的。在該層以後使用的所有數據都必須且只能來自該層,不能再從ods層提取。3)主題層:主要將維表和事實層的數據按照相同的業務主題進行整合得到。
  • 倉庫ERP系統基礎數據包括哪些
    倉庫ERP系統基礎數據包括哪些?ERP項目實施成功的關鍵在於細節。ERP實施不難,繁瑣的是整理ERP基礎數據的過程。但是整個過程並不比ERP上線輕鬆,三分技術,七分管理,十二分數據。可見,ERP系統中基礎數據整理的重要性。那倉庫ERP系統基礎數據包括哪些呢?
  • 淺析聚氨酯和環氧樹脂兩者之間的區別
    但是,聚氨酯與環氧樹脂之間仍然存在一定的區別。聚氨酯(PU),是多苯二異氰酸酯、聚醚多元醇,在催化劑三乙烯二胺存在的情況下交聯固化,形成高聚物。聚氨酯具有較好的粘結性、絕緣性、耐候性等特點,硬度可以調整二異氰酸酯和聚醚多元醇的含量而改變,能夠運用到各種電子電器設備的封裝上。與環氧樹脂相比,毒性大。