大數據處理架構系列一:關係型資料庫RDB

2020-12-15 白話大數據

寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@

前面文章介紹了什麼是大數據(還不懂什麼是大數據?大數據的生命周期告白),那麼怎麼處理大數據呢?大數據處理技術演進經歷了三個階段:RDB、MPP、Hadoop,本文先介紹RDB資料庫,MPP、Hadoop將在後續發文介紹。

數據處理技術演進

一、什麼是資料庫

所謂資料庫,簡而言之可視為電子化的文件櫃——存儲電子文件的處所,用戶可以對文件中的數據進行新增、截取、更新、刪除等操作。那麼什麼是關係型數據呢?

首先來看標準定義:RDB(Relational Database,RDB)就是基於關係模型的資料庫,也叫關係型資料庫。關係資料庫是由數據表和數據表之間的關係組成的。在關係型資料庫中,表的關聯是一個非常重要的組成部分。表的關聯是指資料庫中的數據表與數據表之間使用相應的欄位實現數據表的連接。使用這種連接,無須將相同的數據多次存儲,這種連接在進行多表查詢時非常重要。

舉個例子,學生的信息(姓名,姓名ID,性別,所在班級名稱,所在學校名稱,……)可以保存到資料庫中,班級的信息(班級名稱,班級ID,所在學校名稱,歸屬縣市……)也可以保存到資料庫中,這時,如果我們想知道某個縣市有多少學生,就可以用班級信息的「班級名稱」和學生信息的「所在班級名稱」進行關聯,就可以知道這每個班級有多少學生,通過班級歸屬縣市進一步統計出每個縣市有多少學生,像這種通過外鍵建立的對應關係,可以通過關係型資料庫進行存儲,而這種關係的實現,就是關係型資料庫。

二、關係型資料庫RDB的特點

1、行存儲:傳統的關係型資料庫其實就是行式資料庫,就是一行一行的方式來存儲信息的。

行存儲

2、關係型資料庫,需要預先定義其表結構,而且存儲前需要定義其對應的數據類型或者長度,一旦有新的屬性加入,就要修改其表的結構。

3、Scale Up(也就是Scale vertically):縱向擴展,比如服務區性能不足時,向原有的機器添加內存、CPU。

4、伺服器特點:單伺服器,小型機;

5、SMP處理架構:SMP的全稱是"對稱多處理"(Symmetrical Multi-Processing)技術,是指在一個計算機上匯集了一組處理器(多CPU),各CPU之間共享內存子系統以及總線結構。在這種架構中,一臺電腦不再由單個CPU組成,而同時由多個處理器運行作業系統的單一複本,並共享內存和一臺計算機的其他資源。雖然同時使用多個CPU,但是從管理的角度來看,它們的表現就像一臺單機一樣。系統將任務隊列對稱地分布於多個CPU之上,從而極大地提高了整個系統的數據處理能力。

關係模型最大的優點就是簡單,用戶容易理解和掌握,一個關係就是一張二維表格,用戶只需用簡單的查詢語言就能對資料庫進行操作。但是缺點也很明顯:

1、高並發讀寫需求

網站的用戶並發性非常高,往往達到每秒上萬次讀寫請求,對於傳統關係型資料庫來說,硬碟I/O是一個很大的瓶頸

2、海量數據的高效率讀寫

網站每天產生的數據量是巨大的,對於關係型資料庫來說,在一張包含海量數據的表中查詢,效率是非常低的

3、高擴展性和可用性

RDB資料庫是最難進行橫向擴展的,當一個應用系統的用戶量和訪問量與日俱增的時候,資料庫卻沒有辦法通過添加更多的硬體和服務節點來擴展性能和負載能力。對於很多需要提供24小時不間斷服務的網站來說,對資料庫系統進行升級和擴展是非常痛苦的事情,往往需要停機維護和數據遷移。

在目前數據量急劇爆發的時代,不能支撐海量數據查詢顯然是不能滿足需求的,而且單伺服器存儲和計算能力都非常有限,加上不能橫向擴展只能依靠增加CPU也不能滿足大數據計算的需要,在這種形勢下,MPP大數據處理架構應時而生,後續文章接著探討MPP處理架構。

相關焦點

  • 大數據處理架構系列二:大規模並行處理資料庫MPP
    寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@隨著網際網路的發展,面對日益增長的數據量,傳統資料庫RDB顯得有心無力
  • 一文搞定「關係型資料庫」與「非關係型資料庫」
    從技術的角度來看,彼時還處在Web應用發展的初期,網際網路技術架構還是最原始的單體架構,網民數量很少,一個伺服器完全足夠扛起用戶訪問的壓力。那個時期的關係型資料庫得到了較為廣泛的關注和應用,網站訪問量談不上什麼高並發、更別說什麼用戶體驗了,能玩得起就已經是完勝上億中國人了。
  • 2019大數據產業峰會|中國信通院馬鵬瑋:《關係型雲資料庫應用...
    為了深入落實國家大數據戰略,推動大數據產業交流與合作,展示我國大數據產業最新發展成果,2019年6月4日至5日,由中國信息通信研究院、中國通信標準化協會主辦,大數據技術標準推進委員會承辦的2019大數據產業峰會在北京國際會議中心隆重舉辦。
  • 2013年大數據系統與關係型數據的共存
    NoSQL和Hadoop的出現主要是為應對非結構化數據的,比如文本數據或者web日誌。就像Apache Hadoop一樣,這些技術通常是從開源起步,逐漸成為新的商業產品。  Judith Hurwitz是Hurwitz and Associates公司的總裁兼CEO,該公司位於美國麻薩諸塞州,她認為大數據架構和大規模並行處理大大改變了數據景象。
  • 大數據學習環境搭建系列(一)大數據集群平臺介紹
    作者 | CDA數據分析師掌握搭建大數據集群的方法是學習大數據技術的人需要具備的基礎技能,因此我會通過接下來的三十餘篇文章介紹大數據平臺的搭建方法。在本文中我將向小夥伴們介紹一下搭建大數據集群需要哪些知識以及我們接下來搭建的大數據集群平臺架構,讓大家對平臺有個總體的認識並普及一些概念。
  • 使用 redis-rdb-tools 解析 reids dump.rdb 文件及分析內存使用量
    - Redis-samplerRedis-sampler 是 Redis 作者開發的工具,它通過採用的方法,能夠讓你了解到當前 Redis 中的數據的大致類型,數據及分布狀況。- Redis-auditRedis-audit是一個腳本,通過它,我們可以知道每一類 key 對內存的使用量。
  • 電信行業大數據應用的後盾 MPP架構資料庫技術
    在大數據時代,數據呈爆炸式增長,單個SMP系統已經無法應付數據增長所帶來的巨大壓力。隨著網絡技術的發展,PC伺服器的「小型化」以及Linux系統的成熟,基於MPP架構的新一代資料庫技術成為各行業用戶的首選。
  • 新型MPP資料庫將支撐起大數據時代
    另外一個顯著的貢獻無疑是網際網路企業對於數據的巧妙使用和價值體現。  2. 數據處理技術的回顧  網際網路的數據「大」是不爭的事實,現在分析一下數據處理技術面臨的挑戰。目前除了網際網路企業外,數據處理領域還是傳統關係型資料庫(RDBMS)的天下。傳統RDBMS的核心設計思想基本上是30年前形成的。過去30年脫穎而出的無疑是Oracle公司。
  • 為何經歷數十年的發展,關係型資料庫依然是主流?
    來到70年代,關係模型早已問世。80年代關係資料庫慢慢成為整個社會的信息內容基礎設施建設。兩千年之際,伴隨著網際網路發展,高並發訪問量劇增,做到上百萬至幹萬的等級,而傳統式商業 愈來愈難容下和處理這樣大的數據量和訪問量。從二零零六年剛開始,許多新的非關係資料庫如不斷湧現冒出,在整個 領域颳起了一場前所未有大型的NoSQL改革。
  • 大數據時代資料庫-雲HBase架構&生態&實踐
    【IT168 評論】摘要:2018第九屆中國資料庫技術大會,阿里雲高級技術專家、架構師封神(曹龍)帶來題為大數據時代資料庫-雲HBase架構&生態&實踐的演講。主要內容有三個方面:首先介紹了業務挑戰帶來的架構演進,其次分析了ApsaraDB HBase及生態,最後分享了大數據資料庫的實際案例。
  • 一文讀懂數據倉庫、數據集市、資料庫的區別與關聯
    資料庫和數據倉庫有什麼區別? 2. 某大公司Hadoop Hive裡的關係表不完全滿足完整/參照性約束,也不完全滿足範式要求,甚至第一範式都不滿足,這種情況正常嗎? 如果您不能五秒內給出答案,那麼本文應該是對您有幫助的。
  • 物聯網大數據平臺:TIZA STAR架構/應用案例解析
    第三次浪潮是以信息感知為特徵的物聯網,實現了物與物、人與物的全面聯通,這次浪潮還沒有形成寡頭,但是隨著傳感技術、通信技術以及大數據處理技術的發展,物聯網已經在公共事務管理、公共社會服務和經濟發展建設等領域中遍地開花,涉及到的行業也越來越多,如交通管理、節能環保、物流零售等。
  • 從零開始學習大數據系列(六十五) Redis入門及基礎實踐
    關係型資料庫最典型的數據結構是表,由二維表及其之間的聯繫所組成的一個數據組織。缺點:1、讀寫性能比較差,尤其是海量數據的高效率讀寫;2、固定的表結構,靈活度稍欠;3、高並發讀寫需求,傳統關係型資料庫來說,硬碟I/O是一個很大的瓶頸。
  • 資料庫在數據分析中如何應用?
    在數據處理和數據分析過程中,某些數值需求通過查表來獲取,那在處理和分析數據量較大並且查表很頻頻的時分,為了能夠進步檢定成果的準確性和避免查取數據呈現過錯,許多可視化編程工具為快速處理和進行數據分析提供了十分強大的助力。
  • 大數據學習:大數據平臺架構的組成
    大數據平臺是什麼?有哪些組成?01、大數據平臺是指以處理海量數據存儲、計算及不間斷流數據實時計算等場景為主的一套基礎設施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。02典型大數據平臺架構由上到下,可分為三個部分:數據搜集、數據處理、數據輸出與展示。
  • DTCC2020阿里雲李飛飛:雲原生分布式資料庫與數據倉庫系統點亮數據...
    二、核心技術&產品介紹2.1企業級雲原生分布式資料庫1)雲原生關係型資料庫PolarDB阿里雲自研關係型資料庫的核心產品是雲原生關係型資料庫PolarDB,通過這下面張圖就可以理解PolarDB的思想,存儲和計算分離,通過RAFT來做高可用、高可靠的保障
  • 非關係型資料庫NoSQL的崛起
    他表示,即使是在那時,這個平臺也已經展示出一些特性,而正是這些特性讓今天的NoSQL資料庫取得了如此之大的成功。正如其他NoSQL後繼者一樣,Lotus Notes也同樣來自於關係資料庫的「領地」。關係資料庫是建立在關係資料庫模型基礎上的傳統資料庫,藉助於集合代數等概念和方法來處理資料庫中的數據。「那是一個複雜的系統,能通過關係資料庫讓原本難以做到的事情變得簡單。」卡茨說道。
  • 魚和熊掌可以兼得 雲原生開啟「資料庫大數據一體化」新時代
    而傳統商業化數據倉庫及大數據技術,因存在擴展性、建設維護成本、系統複雜讀等一系列挑戰,無法很好得滿足業務訴求。例如,大量企業需要對數據進行離線ETL計算、機器學習及多維度查詢分析等多種計算時,使用大數據技術或傳統數據倉庫,企業需要組合使用多種技術產品,通過複雜的數據集成、數據冗餘來滿足多樣的計算訴求,整個技術架構複雜且數據冗餘成本高。
  • 支撐行業大數據應用 MPP資料庫技術淺析
    【IT168 專稿】2014年4月10日-12日,第五屆中國資料庫技術大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。在為期三天的會議中,大會將圍繞大數據應用、數據架構、數據管理(數據治理)、傳統資料庫軟體等技術領域展開深入探討,並將邀請一批國內頂尖的技術專家來進行分享。
  • NoSQL資料庫漸入佳境 國內應用案例盤點
    雖然關係型資料庫已經在業界的數據存儲方面佔據不可動搖的地位,但是由於其天生的幾個限制,使其很難滿足上面這幾個需求:擴展困難、讀寫慢、成本高、有限的支撐容量。業界為了解決上面提到的幾個需求,推出了新類型的 「NoSQL」資料庫。總的來說,在設計上,它們非常關注對數據高並發地讀寫和對海量數據的存儲等,與關係型資料庫相比,它們在架構和數據模型方量面做了」減法」,而在擴展和並發等方面做了」加法」。