大數據概念解析:分布式存儲與資料庫

2021-01-11 騰訊網

大數據技術當中,在海量數據的存儲環節,涉及到兩個重要的概念,就是分布式數據存儲與資料庫,穩定高效安全的數據存儲,才能為後續的計算分析環節,提供穩固的支持。今天的大數據概念解析,我們來講講分布式存儲與資料庫。

進入大數據時代,數據特徵發生了明顯的變化,數據規模大、非結構化/半結構化的數據多,使得大數據存儲本身也需要克服很多的問題。

要實現大規模數據的計算分析加工等問題,對於企業而言,需要通過各種手段來解決相關的問題,比如說通過優化存儲基礎設施,或者搭建高性能的大數據存儲框架等等。

海量數據的存儲任務,針對於不同的應用場景,往往需要因地制宜地選擇存儲方案,因此有了對象存儲、塊存儲、文件系統存儲等。

分布式文件/對象存儲系統

分布式存儲系統面向海量數據的存儲訪問與共享需求,提供基於多存儲節點的高性能,高可靠和可伸縮性的數據存儲和訪問能力,實現分布式存儲節點上多用戶的訪問共享。

目前業界比較流行的分布式存儲系統包括:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS等。

分布式關係型資料庫

關係型資料庫是建立在關係模型基礎上的資料庫,藉助於集合代數等數學概念和方法來處理資料庫中的數據。

目前業界比較流行的分布式關係型資料庫包括:DRDS、TiDB、GreenPlum、Cobar、Aurora、Mycat等。

分析型資料庫

分析資料庫是面向分析應用的資料庫,與傳統的資料庫不同,它可以對數據進行在線統計、數據在線分析、隨即查詢等發掘信息數據價值的工作。

目前業界比較流行的分析型資料庫包括:Kylin、AnalyticDB、Druid、Clickhouse、Vertica、MonetDB、InfiniDB、LucidDB等。

圖資料庫

圖資料庫的基本含義是以「圖」這種數據結構存儲和查詢數據,而不是存儲圖片的資料庫。

目前業界比較流行的圖資料庫包括:Titan、Neo4J、ArangoDB、OrientDB、MapGraph、ALLEGROGRAPH等。

列存儲資料庫

列式資料庫是以列相關存儲架構進行數據存儲的資料庫,主要適合於批量數據處理和即時查詢。

目前業界比較流行的列存儲資料庫包括:Phoenix、Cassandra、Hbase、Kudu、Hypertable等。

文檔資料庫

文檔型資料庫是NoSQL中非常重要的一個分支,它主要用來存儲、索引並管理面向文檔的數據或者類似的半結構化數據。

目前業界比較流行的文檔型資料庫包括:MongoDb、CouchDB、OrientDB、MarkLogic等。

鍵值存儲資料庫

鍵值存儲(Key-Value)是NoSQL中,數據模型中比較簡單的一個了,主要就是用哈希表,通過對於鍵(Key)的查找來找到特定的數據。

目前業界比較流行的鍵值存儲資料庫包括:Redis、Memcached、Tair等。

關於大數據概念解析,分布式存儲與資料庫,以上就為大家做了一個簡單的介紹了。大數據存儲環節,涉及到分布式與資料庫,是需要重點去掌握的一部分,對於主流的技術架構也需要有相應程度的掌握。

相關焦點

  • 專訪巨杉資料庫王濤:企業級分布式資料庫如何快速落地大數據
    近年來,隨著數據量的高速增長,分布式資料庫技術得到了快速的發展,傳統的關係型資料庫開始從集中式模型向分布式架構發展,基於關係型的分布式資料庫在保留傳統資料庫的數據模型和基本特徵下,從集中式存儲走向分布式存儲,從集中式計算走向分布式計算。
  • 李明宇:大數據分布式存儲系統
    以下為分享實景全文: 大家好,咱們這個大數據分布式存儲系統的分享,是一個系列分享,前面曾經有過兩次分享,一次是概述,另一次是分布式對象存儲,並且介紹了OpenStack Swift,Swift是OpenStack的分布式對象存儲系統。
  • 思考:真正的分布式資料庫是否讓「數據湖」概念成為歷史?
    創造了中國自己的資料庫OceanBase》報導了OceanBase誕生的前因後果。內容非常詳實,值得分享。同時自己也分享幾點雜想:第一,殺熟不僅僅是大數據時代的產物之前從某網平臺爆出的訂購酒店或者是約車出行的殺熟案例。說明大數據時代我們每個人都處於一個小白,隨時宰割的狀態。其實這種現象在各個領域都存在。比如,技術壁壘也是殺熟的條件之一。
  • 分布式資料庫
    分布式資料庫的概念分布式資料庫系統是相對於集中式資料庫系統而言的,是將資料庫技術與網絡技術相結合的產物。這就是數據在邏輯上的統一性,因此,它不同於由網絡互聯的多個獨立資料庫。分布式資料庫是由分布式資料庫管理系統統一管理和維護的,這種管理上的統一性又使它不同於一般的分布式文件系統。透明性。用戶在使用分布式資料庫時,與使用集中式資料庫一樣,無須知道其所關心的數據存放在哪裡,存儲了幾次。用戶需要關心的僅僅是整個資料庫的邏輯結構。
  • 大數據概念解析:分布式計算與伺服器集群
    進入大數據學習當中,相關的專業詞彙很多,尤其是涉及到技術概念,對於概念詞彙的理解,對於後續的技術學習和掌握,也是有好處的。今天我們來著重講解大數據當中的兩個重要概念,分布式計算以及伺服器集群。大數據技術當中,分布式是非常核心的概念,從存儲到計算到分析,大數據處理的整個流程當中
  • 大數據運營技術與工具:大規模分布式存儲系統
    摘要:大數據時代,各種移動網際網路和物聯網應用,無時無刻都在產生數據,於是乎越積越多的數據讓數據存放成為頭疼的問題,這就要求有一個動態可擴展的、可靠的彈性存儲系統來支撐。傳統關係型資料庫更多地是為了滿足交易型應用而設計,事務一致性是第一位的,按行存取的架構無法滿足大數據時代的數據存儲要求。
  • 分布式存儲與大數據應用
    隨著網際網路的蓬勃興起,雲計算,大數據、人工智慧、物聯網這些專業名詞在大眾的視野內出現的越來越頻繁,很多人對於這些名詞都一知半解,所以筆者準備針對於這些熱門、前沿的技術出一個專題模塊,模塊總共分為三篇文章,本篇文章主要和大家聊一聊,分布式存儲與大數據應用。
  • 在未來大數據存儲時代,分布式存儲伺服器到底有多大影響力?
    雲中存儲伺服器東西聽起來可能很抽象,但這個概念很容易理解。使用雲存儲服務意味著您正在使用雲計算模型,該模型允許您在遠程伺服器上通過網絡存儲和訪問數據。組成雲的伺服器仍然只是一些伺服器硬體,分散在世界各地,通過網絡連接。
  • 華為CloudNative分布式資料庫技術解析
    摘要:在雲時代,企業IT業務走向跨地區、全球化部署,IT應用軟體逐漸雲化、分布式化,要求資料庫也要基於雲場景架構設計,具備跨地區分布式部署的能力。華為Cloud Native分布式資料庫正是這樣的一款新型資料庫。
  • 大數據概念解析之數據倉庫簡介
    在大數據系統平臺當中,數據存儲、資料庫、數據倉庫是非常重要的概念,共同支持大數據存儲的實際需求。在大數據處理當中,大數據存儲這個環節,數據倉庫技術起到重要的作用。今天我們來對數據倉庫做一個簡單的介紹。
  • 分布式存儲與資料庫選型問答整理分享
    文章內容來源大數據基礎設施微信群,參與討論的專家有中國科學院軟體研究所工程師,C3核心成員李明宇,國防科學技術大學教授,CCF大數據專家委員會委員李東升,雲人科技聯合創始人兼CEO吳朱華,Memblaze技術顧問劉愛貴等等。以下是問答實錄:Q:有一個場景:每天有近百GB數據增加,數據內容有WORD文檔和圖像等多種類型。
  • HDFS個人數據存儲的核心–分布式+共享存儲
    HDFS個人數據存儲的核心–分布式+共享存儲5G時代得到來,大數據存儲迅速暴漲,個人存儲市場的存量不斷擴大,同時增量也在快速增長,預計每年個人產生的數據會有20%的複合增長率,每年的會釋放數十億美元產值的數據存儲市場增量。
  • HBase——大數據平臺之分布式NoSQL資料庫
    #大數據#1 概述Apache HBase是一個開源的,分布式的,版本化的非關係、列式、多版本、可擴展資料庫,模仿Google的Bigtable。正如Bigtable利用Google文件系統提供的分布式數據存儲一樣,Apache HBase在Hadoop和HDFS之上提供類似Bigtable的功能。主要特點是可以對大數據進行隨機、實時讀/寫訪問(1s以內)。能夠託管非常大的表 - 數十億行X百萬列(傳統關係型資料庫列數一般不超過30個,單表不超過500萬)。
  • 大數據處理系統:分布式存儲系統和分布式計算主流框架的種類
    整個大數據處理的體系,按我的理解可以分為兩個部分,一個是分布式存儲系統、另一個是分布式計算框架。分布式存儲系統主流是HadoopDFS,其他還有Ceph和Swift。分布式計算框架主流是MapReduce,Storm和Spark。
  • NDN Protocol:為分布式存儲而生的資料庫
    資料庫,對於普通用戶來說會有一定迷惑。到底什麼是資料庫呢?我們可以從其名字來說,資料庫的意思是數據的集合,如果這樣來理解的話,在電腦上我們把照片放到同一個文件夾下,那麼這個文件夾就是一個照片資料庫;把文檔資料放到一個文件夾,那麼這個文件夾也是一個資料庫。
  • 解析大數據時代的資料庫集群技術
    而信息系統的背後用於保存和處理最終結果的地方就是資料庫。因此資料庫系統就變得尤為重要,這意味著如果資料庫如果面臨問題,則意味著整個應用系統也會面臨挑戰,從而帶來嚴重的損失和後果。如今「大數據」這個詞已經變得非常流行,雖然這個概念如何落地不得而知。
  • 分布式文件存儲資料庫MongoDB適用場景介紹
    MonogDB是一個基於分布式文件存儲的資料庫,由C++語言編寫,旨在為Web應用提供可擴展的高性能數據存儲解決方案。MongoDB是一個介於關係資料庫與非關係資料庫之間的產品,是非關係資料庫當中最像關係資料庫的。
  • 騰訊Tendis 正式開源:企業級分布式高性能 KV 存儲資料庫
    IT之家12月22日消息 近期,騰訊宣布企業級分布式高性能 KV 存儲資料庫 Tendis 正式開源。IT之家獲悉,Tendis 是騰訊互娛 CROS DBA 團隊 & 騰訊雲資料庫團隊自主設計和研發的分布式高性能 KV 存儲資料庫,兼容 Redis 核心數據結構與接口,可提供大容量、低成本、強持久化的資料庫能力,適用於兼容 Redis 協議、需要大容量且較高訪問性能的溫冷數據存儲場景。Tendis 目前已經被應用到騰訊內、外部大型項目中。
  • 企業級分布式高性能KV存儲資料庫,騰訊Tendis正式開源
    12月22日消息,騰訊宣布其企業級分布式高性能KV存儲資料庫Tendis開源。消息稱,Tendis是由騰訊互娛CROS DBA團隊和騰訊雲資料庫團隊自主設計和研發的分布式高性能KV存儲資料庫。
  • 分布式文件存儲資料庫 MongoDB
    MongoDB 是一個基於分布式文件存儲的 NoSQL 資料庫。由 C++ 語言編寫。旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關係型資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。