深入淺出多維數據分析(一)核心概念之Cube、Dimension、Measure

2020-12-14 百家號

多維數據分析的概念非常容易引起疑惑,它常常讓人聯想到超越三維的更高維空間中的一些幾何概念。其實這是完全沒有必要的,多維數據分析概念本質上是極為簡單和容易理解的,今天小編就用深入淺出的方式介紹這幾個概念。

多維數據結構

概念一:Cube(又稱多維數據集或數據立方體)

舉個例子,您在超市結帳後會得到一個小票,上面有時間、店鋪、商品類別、商品單價、購買數量、消費金額等信息,如果把某個地區全部消費者的小票收集到一起,那麼這些購物小票中的數據就形成了一個關於消費者超市購物行為的數據集,這就是一個Cube。

Cube就是面向同一業務主題的數據集合,同理,一個港口的進出口數據集合、一個貿易公司的渠道銷售數據集合、近幾年各省份戶籍變動數據都可以視為一個個Cube。

概念二:Dimension(又稱維度)

超市小票的Cube裡隱含著很多信息,如:

哪些商品呈現出季節性消費規律?不同區域店鋪的顧客購買力如何?哪幾個店鋪的顧客平均購買力最強?不同年齡段消費者最愛購買的商品有沒有差別?哪些商品由於不受年輕消費者歡迎可能會被漸漸淘汰?由上可見,這個超市小票Cube可以由商品、時間、區域、店鋪、顧客等業務角度來描述,這些業務角度就是維度。

同理,貿易公司的渠道銷售Cube可以由時間、渠道、產品、分公司、客戶等業務角度所描述,那麼它所關聯的維度就是時間、渠道、產品、分公司、客戶。

我們還可以看到,小票Cube和渠道銷售Cube都關聯了時間這個維度,那麼這兩個Cube是可以聯合起來進行跨行業、跨領域數據分析的。

概念三:Measure(又稱度量)

在Cube中,除了維度所代表的業務角度信息外,還有度量這個能夠被精確量化的數值信息。

小票Cube中的商品購買數量、商品單價、消費總額就是度量。

今天講解了Cube、Dimension、Measure這三個多維數據分析中的核心概念,其他概念將會在後續文章中講解。

關注小編可以獲得更多數據分析知識分享。

相關焦點

  • 深入淺出數據分析
    好久沒有更新讀書系列的文章了,今天推薦的這本《深入淺出數據分析》是一本非常適合數據分析行業入門的讀物
  • BI、OLAP、多維分析、CUBE 這幾個詞是什麼關係?
    BI 有廣義和狹義之分,廣義上的 BI 是指只要涉及利用數據及其分析結果進行商業決策的行為都屬於 BI 的範疇;而狹義上的 BI 則主要多維分析,在實際工作中,狹義 BI 也更流行一些。與 OLAP 相對的一個概念是 OLTP(On-Line Transaction Processing)在線事務處理,就是我們平常說的的交易系統,像 OA、ERP、CRM、銀行的核心交易系統都屬於 OLTP 的範疇。OLTP 和 OLAP 最大區別在於前者會產生數據,而後者只利用前者生產的數據進行數據分析為企業經營提供決策支持。
  • 每周一書《深入淺出數據分析》分享!
    《深入淺出數據分析》以類似「章回小說」的活潑形式,生動地向讀者展現優秀的數據分析人員應知應會的技術:數據分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、回歸法、誤差處理、相關資料庫、數據整理技巧;正文以後,意猶未盡地以三篇附錄介紹數據分析十大要務、R工具及ToolPak工具,在充分展現《深入淺出數據分析》目標知識以外,為讀者搭建了走向下一步深入研究的橋梁
  • 深入淺出數據分析書單
    趁著假期有時間,寫一下數據分析的書單,零基礎入門的同學可以對著看一看,推薦的都是不錯的書籍,也節省大家找書的時間。當然正如標題「深入淺出」,在考慮書單的時候儘量都是些淺顯易懂又不缺乏深度的書籍。統計學深入淺出統計學深入淺出系列書籍,使用大量圖片和對話,使得統計理論的學習既有趣又自然。
  • 圖書推薦:深入淺出數據分析
  • 國產多維資料庫Cyrex Cube如何駕馭百億量級的多維數據分析?
    Cyrex Cube是邦格科技自主研發的多維資料庫,與傳統的基於星型或雪花型結構的傳統OLAP架構相比,Cyrex Cube分析模型更加面向業務,同時也具備更強的多維數據分析能力。Cyrex Cube的邏輯與聚合分離、雙向可擴展分布式、簡單化處理以及常駐內存模型等特點使其可以在無緩存情況下實現百億級數據實時聚合運算的秒級響應。1、邏輯運算和聚合運算的分離先以關係型資料庫為例,模擬兩種數據分析情況。
  • 豪斯多夫測度 Hausdorff measure
    Applying its mathematical formalisms provides that the Hausdorff dimension of a single point is zero, of a line is 1, and of a square is 2, of a cube is 3.
  • 大數據OLAP系統(1)——概念篇
    OLAP(OnLine Analytical Processing),即聯機分析處理。OLAP對業務數據執行多維分析,並提供複雜計算,趨勢分析和複雜數據建模的能力。它主要用於支持企業決策管理分析,是許多商務智能(BI)應用程式背後的技術。OLAP使最終用戶可以對多個維度的數據進行即席分析,從而獲取他們所需知識,以便更好地制定決策。
  • 學員筆記||Python數據分析之:numpy入門(一)
    (點擊上方公眾號,快速關注一起學AI)這是我學<Python數據分析>時整理出來的numpy基礎速讀筆記,內容大致分為
  • 讀書筆記之《深入淺出數據分析》
    本文是她對《深入淺出數據分析》做的一個讀書筆記,也可以說是一個精彩點提示,她評價說這本書最精彩是通過案例引導分析思路,對數據分析有興趣的讀者可以學習一下。分解:分解問題和數據,讓他成為更小的組成部分。找出高效的比較因子。評估:根據了解到的情況,作出各種結論。數據分析的核心是有效的比較。決策:重新組合結論,作出決策建議。作出自己明確的假設和結論。2、統計模型取決於心智模型。心智模型一定要指出不確定因素。3、數據分析的根本在於密切關注需要了解的數據。
  • 大數據分析中OLAP的廣義與狹義概念
    報表系統確實是一種OLAP體系,之所以產生此種疑惑,是因為忽略了OLAP的另一層含義 -- MDD(Multi Dimensional Database,多維資料庫)。上篇中所述的OLAP可以稱為OLAP的廣義概念,而MDD則更為具體,可以視為OLAP的狹義概念。
  • 戳中大數據多維分析痛點,鏈家多維分析引擎實踐!
    大數據背景下,傳統關係型多維分析 ROLAP 引擎遇到極大挑戰,因而鏈家轉向基於 Hadoop 生態的 MOLAP(Kylin)及 HOLAP (多引擎)
  • 多維形態空間輔助物種劃分
    該方法使用測量的連續變量並基於多變量分析的思想輔助進行物種劃分。該方法有一定的實用意義。但是需要注意到這僅是一種輔助方法,可以幫我們進行初步的可能分類探索,但這並不會決定最終結論。####文獻:Ezard, T.H.G., P.N. Pearson and A.
  • 1000+位資深牛人推薦的數據分析書
    2、《深入淺出數據分析》416人推薦本書的核心在於大數據預測,並在書中展示了谷歌、微軟、亞馬遜、IBM、蘋果、facebook、twitter、VISA等大數據先鋒們最具價值的應用案例。5、《深入淺出SQL》      25人推薦
  • 多維數據可視化分析,看這幾點就夠了!
    多維數據可視化是指通過一些手段將高維的數據展示在二維的平面中,在進行探索性數據分析及對聚類或分類問題的驗證中有著重要的應用。本文將介紹一些常用的多維數據可視化的方法。它可以看到數據中的類別以及從視覺上估計其他的統計量。使用平行坐標時,每個點用線段聯接。每個垂直的線代表一個屬性。一組聯接的線段表示一個數據點。可能是一類的數據點會更加接近。
  • Python數據分析之NumPy庫
    NumPy庫簡介NumPy庫使用Python進行科學計算,尤其是數據分析時,所用到的一個基礎庫。它是大量Python數學和科學計算包的基礎,比如我們後面會講到的pandas庫就用到了NumPy。pandas庫專門用於數據分析,充分借鑑了Python標準庫NumPy的相關概念。
  • 【數據分析】R語言實現常用的5種數據分析(主成分+因子+多維標度+判別+聚類)
    正交旋轉的流行方法是方差最大化,需要在principal中增加rotate='varimax'參數加以實現。也有觀點認為主成分分析一般不需要進行旋轉。4 計算主成分得分主成分得分是各變量的線性組合,在計算出主成分得分之後,還可以將其進行回歸等做進一步分析處理。但注意如果輸入數據不是原始數據時,則無法計算主成分得分。
  • 萬億數據下的多維實時分析系統,如何做到亞秒級響應
    導語當業務發展到一定規模,實時數據倉庫是一個必要的基礎服務。從數據驅動方面考慮,多維實時數據分析系統的重要性也不言而喻。但是當數據量巨大的情況下,拿騰訊看點來說,一天上報的數據量達到萬億級的規模,要實現極低延遲的實時計算和亞秒級的多維實時查詢是有技術挑戰的。
  • 一篇文章帶你看完深入淺出數據分析
    看過深入淺出系列的人,應該知道這一系列的書通常趣味性挺強的,但乾貨不多。不過《深入淺出數據分析》還是可以讀一讀的,因為這是一本偏商業分析的書籍,每個章節都是一個商業分析案例,從拿到問題開始,一步步展示數據分析師是如何思考問題的,這是本書一大亮點,很值得學習。另外書中會零零散散的介紹一些excel函數和R語言的語法,我覺得這部分還是看專業書籍比較好,就不做詳述了。