大數據處理架構系列二:大規模並行處理資料庫MPP

2020-12-15 白話大數據

寫在前面的話:不要被技術嚇到哦 ,本文儘量寫的白話,致力為從事大數據的運營、諮詢規劃、需求以及想學習大數據的入門者提供知識分享@……@

隨著網際網路的發展,面對日益增長的數據量,傳統資料庫RDB顯得有心無力(不了解RDB的,請參考我的文章大數據處理架構系列一:關係型資料庫RDB),且傳統RDB較高的維護遷移成本,迫使業界專家潛心鑽研出了MPP處理架構。

一、MPP架構定義

為了提高計算性能,MPP架構將RDB的單伺服器升級成為了多伺服器,在遇到性能瓶頸時,擴展伺服器也很容易實現,不需要花費太多的維護成本,首先看一下MPP架構的標準定義:

MPP(MassivelyParallelProcessing),即大規模並行處理,在資料庫非共享集群中,每個節點都有獨立的磁碟存儲系統和內存系統,業務數據根據資料庫模型和應用特點劃分到各個節點上,每臺數據節點通過專用網絡或者商業通用網絡互相連接,彼此協同計算,作為整體提供資料庫服務。

二、MPP架構定義特點

1、 Shared Nothing:Shared 一般指資源共享,動態在線擴容,每增加一個節點,查詢、加載性能都成線性增長並行處理由系統自動完成,沒有複雜的調優需求代表分布式資料庫:Vertica等,特點是:

(1)所有節點功能相同,無專用節點;

(2) 所有節點都是對等的;

(3) 可向任意節點發送請求,每個節點會通過相應的規則與其它節點進行交互。

Shared Nothing架構

2、多任務、多伺服器、多節點並行執行,性能好,比傳統資料庫倉庫解決方案快很多倍;

3、 數據分布式存儲(本地化)和計算;

4、Scale-out:橫向擴展,向外擴展,如:向原有的web、郵件系統添加一個新機器

5、數據採取列式數據存儲模式,更加適用於OLAP,也支持OLTP

三、適用場景

相比RBD架構TB級別數據處理能力,MPP支持處理的、高質量的結構化數據,適合多維度數據自助分析、數據集市等,同時為應用提供豐富的SQL和事物支持能力。

三、不足之處

不足之處是對半結構化數據(數據結構和內容參雜在一起,比如網頁)和非結構化數據(圖像、視頻等信息)數據無能為力,且多為商業軟體,擁有成本較高。

MPP資料庫較傳統資料庫的優點是顯而易見的,雖然有不足支出,但是在目前的大數據環境中的地位還是舉足輕重的,數據處理架構沒有好與不好之分,只有合適和不合適之分,最終的選擇還是要結合具體的應用場景而定,在後續文章將介紹Hadoop生態系統,屆時會比較三種架構的優缺點以及選擇要點。

相關焦點

  • 達夢資料庫:DM7大規模並行處理MPP框架
    【IT168 技術】為了支持海量數據存儲和處理、高並發處理、高性價比、高可用性等需求,提供高端數據倉庫解決方案,達夢資料庫7.0版本(DM7)提供了大規模並行處理MPP架構,以極低的成本代價,為客戶提供業界領先的計算性能。
  • 達夢資料庫_DM7.0-DM7大規模並行處理MPP框架
    1.綜述為了支持海量數據存儲和處理、高並發處理、高性價比、高可用性等需求,提供高端數據倉庫解決方案,達夢資料庫7.0版本(DM7)提供了大規模並行處理MPP架構,以極低的成本代價,為客戶提供業界領先的計算性能。DM7採用完全對等無共享(share-nothing)的MPP架構,支持SQL並行處理,可自動化分區數據和並行查詢,無I/O衝突。
  • 大規模異構數據並行處理系統的設計、實現與實踐
    夏正勳, 羅聖美,等.大規模異構數據並行處理系統的設計、實現與實踐[J].大數據, 2020, 6(4):18-29.典型的數據處理系統架構包括對稱多處理(symmetric multiprocessing, SMP)架構、大規模並行處理(massively parallel processing,MPP)架構以及MPP+Hadoop混合架構。
  • 電信行業大數據應用的後盾 MPP架構資料庫技術
    電信行業作為國家重點行業,引領著IT技術的發展方向和潮流,在高並發業務處理、海量數據分析等領域有著迫切需求,而MPP資料庫技術作為未來主流的資料庫技術,通過分布式並行計算、動態擴展等技術,能夠在大規模事務處理和大數據分析等多種場景,滿足電信業務需求,提升電信行業的服務支撐能力,真正實現低成本、大容量、高性能和高彈性。
  • 支撐行業大數據應用 MPP資料庫技術淺析
    【IT168 專稿】2014年4月10日-12日,第五屆中國資料庫技術大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。在為期三天的會議中,大會將圍繞大數據應用、數據架構、數據管理(數據治理)、傳統資料庫軟體等技術領域展開深入探討,並將邀請一批國內頂尖的技術專家來進行分享。
  • 大數據處理架構系列一:關係型資料庫RDB
    還不懂什麼是大數據?大數據的生命周期告白),那麼怎麼處理大數據呢?大數據處理技術演進經歷了三個階段:RDB、MPP、Hadoop,本文先介紹RDB資料庫,MPP、Hadoop將在後續發文介紹。4、伺服器特點:單伺服器,小型機;5、SMP處理架構:SMP的全稱是"對稱多處理"(Symmetrical Multi-Processing)技術,是指在一個計算機上匯集了一組處理器(多CPU),各CPU之間共享內存子系統以及總線結構。
  • 新型MPP資料庫將支撐起大數據時代
    新的數據處理技術、產品和創新  為了應對數據處理的壓力,過去十年間在數據處理技術領域有了很多的創新和發展。除了面向高並發、短事務的OLTP內存資料庫外(Altibase, Timesten),其他的技術創新和產品都是面向數據分析的,而且是大規模數據分析的,也可以說是大數據分析的。
  • MPP資料庫CirroData以計算存儲分離架構實現高擴展性與靈活調度
    分析型資料庫 (Analytic Database),也稱為數據倉庫 (Data Warehouse),支持分析型處理,也叫聯機分析處理OLAP (On-Line Analytical Processing),一般針對某些主題歷史數據進行分析,支持管理決策。這類處理的特點是數據量大、數據密集、計算密集、算法複雜。
  • 大數據平臺架構:數據平臺建設的幾種方案
    數據平臺其實在企業當中一直都是存在的,但是進入到數據爆發式增長的大數據時代,傳統的企業級資料庫,在滿足數據管理應用上,並不能完全滿足各項需求。 3、MPP(大規模並行處理)架構 進入大數據時代以來,傳統的主機計算模式已經不能滿足需求了,分布式存儲和分布式計算才是王道
  • GBase 8a MPP Cluster新品發布 支撐行業大數據
    這一思路造就了目前資料庫市場NewSQL、NoSQL、OldSQL三分天下的格局,其中NewSQL成為了行業大數據處理的理想資料庫架構。關鍵詞: 大數據 Hadoop         大數據時代,多種架構支持多類應用成為了數據處理技術發展的新思路。
  • 中國軟體評測中心發布大數據MPP資料庫測評指標體系
    目前,我國大數據系統陸續進入了需求分析階段和架構設計階段。面向行業的大數據系統為了從傳統的信息系統過渡到大數據系統,通常會選用一種混合模式,即事務性資料庫、MPP資料庫和基於Hadoop分析系統。事務性資料庫和MPP資料庫用於結構化數據處理領域,而基於Hadoop分析系統用於非結構化數據處理領域。
  • 武新:MPP NewSQL資料庫集群案例分享
    【IT168 現場報導】2013年4月18-20日,第四屆中國資料庫技術大會(DTCC 2013)在北京福朋喜來登酒店拉開序幕。在為期三天的會議中,大會將圍繞大數據應用、數據架構、數據管理(數據治理)、傳統資料庫軟體等技術領域展開深入探討,並將邀請一批國內頂尖的技術專家來進行分享。
  • Greenplum的資料庫使用無共享MPP體系結構
    近期涉及Greenplum的資料庫使用無共享MPP體系結構內容備受矚目,很多讀者對此也很有興趣,現在給大家羅列關於Greenplum的資料庫使用無共享MPP體系結構最新消息。分析人士說,EMC 計劃收購數據倉庫專家Greenplum 的計劃可能預示著數據倉庫領域將進行更多的收購。據EMC稱,該交易將為EMC的信息基礎架構業務中的新數據計算產品部門奠定基礎。
  • 大數據時代資料庫-雲HBase架構&生態&實踐
    【IT168 評論】摘要:2018第九屆中國資料庫技術大會,阿里雲高級技術專家、架構師封神(曹龍)帶來題為大數據時代資料庫-雲HBase架構&生態&實踐的演講。主要內容有三個方面:首先介紹了業務挑戰帶來的架構演進,其次分析了ApsaraDB HBase及生態,最後分享了大數據資料庫的實際案例。
  • 工商銀行MySQL資料庫架構解密
    一、資料庫轉型背景  1.1 傳統IT架構的挑戰  大型國有銀行,整體核心的系統都是大機+DB2這樣的傳統架構;針對現在的網際網路金融業務快速擴張的需求,傳統的架構面臨著比較大的挑戰,主要集中在四個方面:  l 處理能力;因為工行這麼大的體量,導致整體系統的規模比較龐大,這種垂直的單一的擴展模式,不具備橫向處理能力,處理能力受到限制;
  • 大數據核心技術介紹:大數據處理技術
    大數據之所以能夠從概念走向落地,說到底還是因為大數據處理技術的成熟,面對海量的數據,在有限的硬體條件下,以低成本滿足大數據處理的各種實際需求。那麼具體處理大數據需要哪些技術,今天我們來簡單介紹一下大數據核心技術。
  • 研究視點:大數據,資料庫創新的驅動力
    在過去的30年中,經典的資料庫管理系統(DBMS)在處理大規模數據方面與時俱進,在企業數據處理等方面得到廣泛應用。資料庫研究和技術進展主要集中在數據建模、描述性查詢語言、事務處理和資料庫可靠性等。在這個過程中,相關的數據倉庫和數據挖掘分析技術也成為一個熱點研究方向;人們認識到數據處理過程中的信息可以被有效整理和分析來支持以數據為中心的決策支持。
  • 孫元浩:Hadoop將取代MPP混合架構會消失
    【IT168 評論】在大數據基礎架構選型時,經常聽到的一個說法是——「如果數據規模在TB級可以選擇MPP架構的關係型資料庫,如果數據規模上升到PB級則應該選擇Hadoop」。但事實上MPP架構的關係型資料庫與Hadoop的理論基礎是極其相似的,都是將運算分布到節點中獨立運算後進行結果合併。
  • 美圖IT 老兵:關於大規模圖片處理和全球雲端處理架構思考
    在活動現場,美圖公司技術總監王靜波結合美圖公司現狀為大家分享了在大規模的場景及其需要支撐全球用戶的場景下,美圖如何運用面向未來的雲端流程處理系統,從根本上解決處理時長、可用性和成本等問題。6 月 14—15 日,由 TGO 鯤鵬會主辦的 GTLC 全球技術領導力峰會總站將在上海舉行。
  • 大數據入門:MapReduce核心架構
    在大數據處理上,MapReduce可以說是非常具備代表性的一代框架,尤其是在以Hadoop為首的離線批處理框架當中,MapReduce是核心的數據處理引擎,而隨後的Spark其實也是在MapReduce基礎之上發展而來的。