hive中兩個數的和怎麼超市_hive中hive中月,天的數據導入兩級分區...

2020-11-23 CSDN技術社區

暑假實習使用了兩個月的odps ，回學校看了下hadoop 的hive ，讓我對資料庫與數據倉庫增進了一些理解，記錄下來。

簡而言之，資料庫是面向事務的設計，數據倉庫是面向主題設計的。

資料庫一般存儲在線交易數據，數據倉庫存儲的一般是歷史數據。

資料庫設計是儘量避免冗餘，一般採用符合範式的規則來設計，數據倉庫在設計是有意引入冗餘，採用反範式的方式來設計。

資料庫是為捕獲數據而設計，數據倉庫是為分析數據而設計，它的兩個基本的元素是維表和事實表。維是看問題的角度，比如時間，部門，維表放的就是這些東西的定義，事實表

裡放著要查詢的數據，同時有維的ID。

單從概念上講，有些晦澀。任何技術都是為應用服務的，結合應用可以很容易地理解。以銀行業務為例。資料庫是事務系統的數據平臺，客戶在銀行做的每筆交易都會寫入資料庫，被記錄下來，這裡，可以簡單地理解為用資料庫記帳。數據倉庫是分析系統的數據平臺，它從事務系統獲取數據，並做匯總、加工，為決策者提供決策的依據。比如，某銀行某分行一個月發生多少交易，該分行當前存款餘額是多少。如果存款又多，消費交易又多，那麼該地區就有必要設立ATM了。

　　顯然，銀行的交易量是巨大的，通常以百萬甚至千萬次來計算。事務系統是實時的，這就要求時效性，客戶存一筆錢需要幾十秒是無法忍受的，這就要求資料庫只能存儲很短一段時間的數據。而分析系統是事後的，它要提供關注時間段內所有的有效數據。這些數據是海量的，匯總計算起來也要慢一些，但是，只要能夠提供有效的分析數據就達到目的了。

　　數據倉庫，是在資料庫已經大量存在的情況下，為了進一步挖掘數據資源、為了決策需要而產生的，它決不是所謂的「大型資料庫」。那麼，數據倉庫與傳統資料庫比較，有哪些不同呢?讓我們先看看W.H.Inmon關於數據倉庫的定義:面向主題的、集成的、與時間相關且不可修改的數據集合。

　　「面向主題的」:傳統資料庫主要是為應用程式進行數據處理，未必按照同一主題存儲數據;數據倉庫側重於數據分析工作，是按照主題存儲的。這一點，類似於傳統農貿市場與超市的區別—市場裡面，白菜、蘿蔔、香菜會在一個攤位上，如果它們是一個小販賣的;而超市裡，白菜、蘿蔔、香菜則各自一塊。也就是說，市場裡的菜(數據)是按照小販(應用程式)歸堆(存儲)的，超市裡面則是按照菜的類型(同主題)歸堆的。

　　「與時間相關」:資料庫保存信息的時候，並不強調一定有時間信息。數據倉庫則不同，出於決策的需要，數據倉庫中的數據都要標明時間屬性。決策中，時間屬性很重要。同樣都是累計購買過九車產品的顧客，一位是最近三個月購買九車，一位是最近一年從未買過，這對於決策者意義是不同的。

　　「不可修改」:數據倉庫中的數據並不是最新的，而是來源於其它數據源。數據倉庫反映的是歷史信息，並不是很多資料庫處理的那種日常事務數據(有的資料庫例如電信計費資料庫甚至處理實時信息)。因此，數據倉庫中的數據是極少或根本不修改的;當然，向數據倉庫添加數據是允許的。

數據倉庫的出現，並不是要取代資料庫。目前，大部分數據倉庫還是用關係資料庫管理系統來管理的。可以說，資料庫、數據倉庫相輔相成、各有千秋。

　　補充一下，數據倉庫的方案建設的目的，是為前端查詢和分析作為基礎，由於有較大的冗餘，所以需要的存儲也較大。為了更好地為前端應用服務，數據倉庫必須有如下幾點優點，否則是失敗的數據倉庫方案。

　　1.效率足夠高。客戶要求的分析數據一般分為日、周、月、季、年等，可以看出，日為周期的數據要求的效率最高，要求24小時甚至12小時內，客戶能看到昨天的數據分析。由於有的企業每日的數據量很大，設計不好的數據倉庫經常會出問題，延遲1-3日才能給出數據，顯然不行的。

　　2.數據質量。客戶要看各種信息，肯定要準確的數據，但由於數據倉庫流程至少分為3步，2次ETL，複雜的架構會更多層次，那麼由於數據源有髒數據或者代碼不嚴謹，都可以導致數據失真，客戶看到錯誤的信息就可能導致分析出錯誤的決策，造成損失，而不是效益。

　　3.擴展性。之所以有的大型數據倉庫系統架構設計複雜，是因為考慮到了未來3-5年的擴展性，這樣的話，客戶不用太快花錢去重建數據倉庫系統，就能很穩定運行。主要體現在數據建模的合理性，數據倉庫方案中多出一些中間層，使海量數據流有足夠的緩衝，不至於數據量大很多，就運行不起來了。

有兩個層面/角度來回答這個有趣的問題：
1，邏輯層面/概念層面：資料庫和數據倉庫其實是一樣的或者及其相似的，都是通過某個資料庫軟體，基於某種數據模型來組織、管理數據。但是，資料庫通常更關注業務交易處理（OLTP），而數據倉庫更關注數據分析層面（OLAP），由此產生的資料庫模型上也會有很大的差異。
資料庫通常追求交易的速度，交易完整性，數據的一致性，等等，在資料庫模型上主要遵從範式模型（1NF，2NF，3NF，等等），從而儘可能減少數據冗餘，保證引用完整性；而數據倉庫強調數據分析的效率，複雜查詢的速度，數據之間的相關性分析，所以在資料庫模型上，數據倉庫喜歡使用多維模型，從而提高數據分析的效率。
2，產品實現層面：資料庫和數據倉庫軟體是有些不同的，資料庫通常使用行式存儲，如SAP ASE，Oracle, Microsoft SQL Server，而數據倉庫傾向使用列式存儲，如SAP IQ，SAP HANA。

odps 是阿里把hadoop hive進行修改的一個數據倉庫，每天比如淘寶的每一筆交易明細實時存在 ocean base資料庫（阿里改的一個資料庫，現在所有淘寶數據都在上面），一般是每天凌晨三點把每天交易數據同步到odps 相對應的交易離線數據表中特定時間分區中，數據技術產品部就是做這些表的分析處理和數據挖掘工作，odps是一個數據分析平臺凡是涉及到對數據處理都必須用到。真正當你在實際工作中要用到你才能對一些概念真正有理解體會。

參考網址：點擊打開連結點擊打開連結

hive中兩個數的和怎麼超市_hive中hive中月,天的數據導入兩級分區...

相關焦點

Hive數據倉庫實戰

Hive建表和內外部表的使用

大數據開發:Hive調優的幾種思路

HiveSql基礎函數使用(一)

大數據分析工程師入門9-Spark SQL

數據倉庫建設基本思想

大數據基礎知識:Hadoop分布式系統介紹

Spark在360商業數據部的應用實踐

HIVE 窗口函數詳解

大數據分析工程師面試集錦3-SQL/SparkSql/HiveQL

大數據BI系統實操總結:如何做數據採集?

群智和真實大數據面試相關提問

大數據分析與數據分析的根本區別在哪裡?

袋鼠雲大數據崗位面試題

大數據開發是做什麼的?需要具備什麼技能?

數據倉庫系統架構和數倉分層體系介紹