高峽:數據倉庫下資料庫設計模式變遷

2020-12-07 IT168

  【IT168資料庫大會現場報導】2014年4月10日-12日,第五屆中國資料庫技術大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。今天是12日下午的專場8:數據倉庫設計和管理。對於聽了三天大會的朋友來說,真是辛苦了,短短三天,腦子塞了滿滿的資料庫、大數據、數據分析、資料庫設計模式等知識,我在這裡奉勸一下,走的時候留點神,避免情緒過於激動,動作過於猛烈,以防知識從腦子裡掉出來,哈哈!

  ▲點擊進入第五屆中國資料庫技術大會(DTCC 2014)報導專題

  筆者作為大會主辦方的報導編輯,也總算是熬出來了。相比每個技術愛好者、技術大牛們的收穫而言,小弟我收穫了一份大會5年親身經歷的情感。大會結束、明年再來,且行且珍惜吧。

  言歸正傳,在今天下午的內容專場,高峽老師重點的內容大致包括:1.OLAP產生的背景 2.範式設計 3.反範式 4.OODB 模式 5.EAV Entity Attribute Value 6.PIVOTING 7.XML 8.No-Schema 9.Relational Database 的發展。

  我在這裡作為偏離技術比較遠的記者來說,只能走馬觀花的介紹啦,請各位看官指導,批評。不過需要補充的是,看不太懂,或者不盡如意的時候,您可以稍晚在官方下載PPT,那樣的話會更全面。


▲高峽:重慶眾意網科技有限公司CTO

  開場,高峽老師說:「做大數據出什麼書好?出商業模式的書,比如《大數據在洗腳城的應用》,如果在大俗的情況下做到大雅,這樣的話國家對於數據治理的程度該有多高?因此,技術人才要錘鍊商業模式,單純的寫代碼不太高明。除了技術商,還要有財商。還是多看看商業場景吧。」

  技術男要看清商業場景和商業價值

  手中只有錘子,看到的都是釘子,這是一種工匠精神。現在是大數據的環境,先看在關係型資料庫裡沉澱了什麼東西。技術人要懂得挖掘技術背後的商業模式。本文主要介紹了其中的部分技術和商業模式,更多的請會後下載PPT。

  1、集合思維,沉澱的最深刻的思維。關係型資料庫中引入了序列表,非常有價值。把一段字符串按照分隔符分開,非常簡單,寫一個邏輯就OK了,但是在數據中不要這麼做,而是要引入序列表,有一個集合思維,也是關係型資料庫屹立不倒的原因。程式設計師的思維是引入光標,而資料庫的思維則是集合思維。

  2、範式設計,有幾個範式規範了關係型數據中有價值的東西。比如微博中的資料庫設計也是通過增加冗餘實現。還要保證完整性。微博中最重要的動作是看用戶的時間線,看一個帖子的時間線,這就是微博的商業場景,規範了整個微博動作的最重要的兩個動作。這就涉及到了分區。對於時間線的把握非常好,越近的越有價值,這就是Twitter的成功之處。

  大家碰到商業場景時,要看清楚行為分析模式分為哪幾類。

  3、KV存儲,最典型的是WordPrees。使用WordPress可以搭建功能強大的網絡信息發布平臺,但更多的是應用於個性化的博客。針對博客的應用,WordPress能讓您省卻對後臺技術的擔心,集中精力做好網站的內容。對用戶的需求進行描述,一張表在關係型資料庫中做不出來,在大數據的資料庫中可能做得出來。

  4. EAV(Entiry-Attribute-Value)

  案例:Magento

  Magento 是一款新的專業開源電子商務平臺,Magento電子商務平臺採用php進行開發,使用Zend Framwork框架。Magento設計得非常靈活,具有模塊化架構體系和豐富的功能。易於與第三方應用系統無縫集成。在設計上,包含相當全面,以模塊化架構體系,讓應用組合變得相當靈活,功能也相當豐富。

  功能:1.強大的商品屬性組合;2.購物車價格規則;3.靈活的模板系統;4.多網店系統

  ;5.完善的插件體系;6.安全加密;7.企業應用集成。

  架構

  5. FTS – Full Text Search

  索引都是建立在基礎的架構,比如Google和雅虎等等。倒排文件索引:行式資料庫中比較困難是因為倒排做得不好。

  案例:

  6、Pivoting 行列轉換

  資料庫論壇問得最多的問題、資料庫行列本身的限制。解決Pivoting問題:在二維資料庫裡面解決Pivoting

  7. XML

  Impendence Mismatch 阻抗失效、Multiple Result Set 多結果集的串接。

  案例:RightNow SAAS CRM

  頂級SAAS CRM供應商,目前有十幾萬的客戶,甲骨文15億美元收購雲客戶服務提供商RightNow。

  應用場景:支持自定義客戶屬性、快速查詢(屬性的組合查詢)

  8. 列式資料庫

  Sybase IQ 排名列式資料庫第一

  IQ通過列存儲、革命性的位圖索引方法以及智能的動態訪問技術實現了快速的查詢響應速度,比傳統的資料庫查詢速度提高10-1000倍。

  減少磁碟I/O IQ通過獨特的列存儲,索引與壓縮技術,大大減少了查詢中的磁碟I/O次數,其傑出的磁碟I/O效果帶來了更快速的查詢反應,更高的吞吐量和更低的成本。最後被SAP以58億美元收購。

  如何做到精準營銷

  必須做客戶分群:從動態的非結構化的數據形成結構數據,然後賣給客戶,這才是商業模式。微博為什麼不盈利?因為它缺乏結構化的人群標籤數據,無法做精準營銷。微軟用20億美金做市場調研,問用戶希望下一版Office希望增加哪些功能。

  應用場景:需要300萬行的客戶數據、幾千個客戶屬性、需要根據任何客戶屬性的組合進行查詢、行式資料庫的局限(索引的限制(256))。

  解決方案:從行式資料庫轉化為列式資料庫、查詢時間提高50倍、壓縮率高達1:30。

  9、數據倉庫

  定義:數據倉庫 ,由數據倉庫之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,並進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。

  特徵:面向主題、集成、時變、不可更新。

  案例:BOA 美洲銀行的數據倉庫

  美洲銀行就是使用NCR Teradata建立數據倉庫並獲得成功應用的一個例子。該銀行在幾年的時間內曾先後兼併過十幾家小銀行,由於擁有的30多個OLTP業務系統太多而且分散,管理十分不容易,要找到準確的業務數據也很難。舉例來說,它要準確地了解各個分行的客戶資料就要花很多的時間,最後的結果還不一定完全準確。為此,美洲銀行投資Teradata建立了一個中央的數據倉庫,把各個分行系統中的數據都集中到中央庫來,一些以前要幾個星期才能得到答案的業務問題現在只需要幾分鐘甚至更少,效果非常明顯。

  更多精彩能容歡迎關注:

  企業移動化公共帳號,請搜索:Emobility 或者掃描下面二維碼

  IT168 CIO俱樂部公共微信

 

 

相關焦點

  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    簡介: 資料庫將面臨怎樣的變革?雲原生資料庫與數據倉庫有哪些獨特優勢?在日前的 DTCC 2020大會上,阿里巴巴集團副總裁、阿里雲資料庫產品事業部總裁、ACM傑出科學家李飛飛就《雲原生分布式資料庫與數據倉庫系統點亮數據上雲之路》進行了精彩分享。
  • 【原創】-數據倉庫架構的設計
    數據倉庫架構 數據倉庫的核心功能從源系統抽取數據,通過清洗、轉換、標準化,將數據加載數據倉庫中,通過後續加工到BI平臺,進而滿足業務用戶的數據分析和決策支持
  • 大數據篇:一文讀懂@數據倉庫
    )ROLAP架構並不會生成實際的多維數據集,而是使用雪花模式以及多個關係表對數據立方體進行模擬,它的OLAP引擎就是將用戶的OLAP操作,如上鑽下鑽過濾合併等,轉換成SQL語句提交到資料庫中執行,並且提供聚集導航功能,根據用戶操作的維度和度量將SQL查詢定位到最粗粒度的事實表上去這種架構下的查詢沒有MOLAP快速。
  • 數據倉庫(OLAP)與資料庫(OLTP)的區別及數倉的分層結構
    數據倉庫(OLAP)與資料庫(OLTP)的區別OLAP(數據倉庫):分析型處理,聯機分析處理。OLTP(資料庫):操作型處理,聯機事務處理。注意:數據倉庫的出現不能取代資料庫的存在。區別:OLAP:A指的是分析聯機分析處理面向分析指的就是數據倉庫,例如Apache Hive Apche lmpala。
  • 華為雲GaussDB(DWS)數據倉庫滿分通過信通院最大規模分布式資料庫...
    華為雲GaussDB(DWS)數據倉庫以單集群2048節點的超大規模,滿分通過測試認證,是迄今為止信通院認證的最大規模分布式資料庫集群,刷新了歷史紀錄,樹立了業界新標杆。 ,數據倉庫作為核心查詢分析平臺,必須要具備大規模集群能力,也是資料庫廠商需要突破的核心技術點之一。
  • 你的數據倉庫既要有「維度模型設計」也要看「分層架構」
    維度模型設計和分層架構都是數據倉庫必不可缺的。維度建模以分析決策的需求出發構建模型,構建的數據模型為分析需求服務,因此它重點解決用戶如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應性能。而分層架構的設計的主要是為在管理數據的時候,能對數據有一個更加清晰的掌控。這篇乾貨將帶你認清數據倉庫「維度模型設計」與「分層架構」。
  • 傳統行業如何建立數據倉庫?
    如何實施數倉項目,本文先以傳統行業的數倉切入,從整體上講下數據倉庫的實施方法論!在理解建立商業智能系統目標的基礎上,建立有效的企業管理模式,制定出詳細的企業數據倉庫業務管理規範,設計出常用的ETL數據採集規範和工作流程,從而明確商業智能系統的實施範圍和目標。
  • 數據倉庫模型設計與工具
    一、基本概念維度建模,是數據倉庫大師Ralph Kimball提出的,是數據倉庫工程領域最流行的數倉建模經典。用來記錄有規律的、固定時間間隔的業務累計數據,通常粒度比較高,例如帳戶月平均餘額事實表。用來記錄具有時間跨度的業務處理過程的整個過程的信息,每個生命周期一行,通常這類事實表比較少見。注意:這裡需要值得注意的是,在事實表的設計時,一定要注意一個事實表只能有一個粒度,不能將不同粒度的事實建立在同一張事實表中。
  • 數據湖與數據倉庫兩者之間區別
    本地與雲數據倉庫   每種可用的數據倉庫平臺類型都有不同的部署選項:資料庫管理系統(DBMS)軟體,通常基於關係資料庫技術;專門的分析型DBMS;數據倉庫設備將必要的硬體和DBMS軟體捆綁在一個包裝中;雲數據倉庫。
  • Hive數據倉庫實戰
    Hive作為大數據平臺Hadoop之上的主流應用,公司一般都是用它作為公司的數據倉庫,分布式機器學習的訓練數據和數據處理也經常用它來處理,下面介紹下它的常用功能。Hive原理和功能介紹Hive是建立在 Hadoop 上的數據倉庫基礎構架。
  • 數據湖 VS 數據倉庫之爭?阿里提出大數據架構新概念:湖倉一體
    到 20 世紀 90 年代,數據倉庫的概念誕生。此時的數據倉庫概念更多表達的是如何管理企業中多個資料庫實例的方法論,但受限於單機資料庫的處理能力以及多機資料庫(分庫分表)長期以來的高昂價格,此時的數據倉庫距離普通企業和用戶都還很遙遠。人們甚至還在爭論數據倉庫(統一集中管理)和數據集市(按部門、領域的集中管理)哪個更具可行性。2. 階段二:大數據技術的「探索期」。
  • 如何深入淺出理解數據倉庫建模?
    下圖是個示例,通過統一數據模型,屏蔽數據源變化對業務的影響,保證業務的穩定,表述了數據倉庫模型的一種價值:二、數據倉庫分層的設計為了實現以上的目的,數據倉庫一般要進行分層的設計,其能帶來五大好處:清晰數據結構:每一個數據分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
  • 關於數據倉庫建設,了解這7點就夠了
    早期數據倉庫構建主要指的是把企業的業務資料庫如 ERP、CRM、SCM 等數據按照決策分析的要求建模並匯總到數據倉庫引擎中,其應用以報表為主,目的是支持管理層和業務人員決策(中長期策略性決策)。隨著業務和環境的發展,這兩方面都在發生著劇烈變化。
  • 數據產品必備技術知識:數據倉庫入門,看這這一篇就夠了
    但是,對於準備求職數據產品的童鞋來說,可能身邊沒有做數倉開發的朋友可以請教。自學吧,而那幾本經典書籍裡面又過於理論,看起真是生不如死,而且數據產品並不是數據開發,可能了解一些入門的常識,有個大概的概念就可以了。我也一直零零散散的積累這方面的知識,這兩天梳理了下,形成下文,希望對大家有所幫助,非專業數倉開發人員,如有不準確的地方,還望大家指正。
  • 資料庫設計基礎:資料庫物理設計工作過程和設計步驟
    1、數據流物理設計的工作過程在資料庫的物理結構中,數據的基本單位是數據記錄,記錄以文件的形式進行存儲,一條存儲記錄對應關係模式中的一條邏輯記錄,並且文件當中還需要記錄存儲記錄的結構信息,比如欄位長度、數據類型、欄位描述等信息。
  • 乾貨|你想知道的數據倉庫知識,這裡都有!
    集成:對原有分散的資料庫數據經過系統加工、整理,消除源數據中的不一致性。穩定:數據進入數據倉庫以後只需要定期的加載、刷新,不需要頻繁修改。反映歷史變化:出於決策的需要,數據倉庫中的數據都要標明時間屬性。通過這些數據信息,對企業的發展歷程和未來趨勢做出定量分析預測。——資料庫與數據倉庫的區別資料庫和數據倉庫其實很相似,都是通過資料庫管理系統,來組織、存儲和管理數據。
  • 理解資料庫與數據模型的概念
    2、理解資料庫資料庫可以理解為存儲數據的倉庫,每個數據項在數據倉庫中都有編號,通過編號就可以找到該數據項。例如,圖書館就是存儲圖書的倉庫,在圖書館存儲的每本圖書都有一個編號,編號表示了書的類別和順序號,同類別的書放在一個書架上,便於圖書管理員和讀者查找圖書。圖書館存儲的是圖書,資料庫存儲的是數據,每條數據稱為數據項。
  • 教你配置管理SQL Server 2008數據倉庫
    【IT168 技術文檔】在SQL Server 2008中有很多組件可以進行性能數據收集。為了設定收集數據的類型以及收集計劃,數據收集器需要使用管理數據倉庫。管理數據倉庫也是一個關係型資料庫,但在創建該資料庫時很多默認設置需要進行修改,在我們後面的實驗中將深入討論。
  • 大數據環境下該如何優雅地設計數據分層
    答:最近在搞數據倉庫。 問:哦,你是傳統行業的吧,我是搞大數據的。 答:……發個牢騷,搞大數據的也得建設數據倉庫吧。而且不管是傳統行業還是現在的網際網路公司,都需要對數據倉庫有一定的重視,而不是談一句自己是搞大數據的就很厲害了。數據倉庫更多代表的是一種對數據的管理和使用的方式,它是一整套包括了etl、調度、建模在內的完整的理論體系。
  • 微軟,賽貝斯和Vertica展開數據倉庫之爭
    軟體在線2月27日編譯 本周在美國拉斯維加斯舉行的TDWI大會上有三家重量級廠商分別發布了非常重要的數據倉庫產品公告。這些產品是資料庫創新道路上的進步,是為了以更快,更好,更經濟的數據處理來滿足永無止境的需求。