大數據概念解析:分布式存儲與資料庫

2020-10-16 加米谷大數據張衡

大數據技術當中,在海量數據的存儲環節,涉及到兩個重要的概念,就是分布式數據存儲與資料庫,穩定高效安全的數據存儲,才能為後續的計算分析環節,提供穩固的支持。今天的大數據概念解析,我們來講講分布式存儲與資料庫。

進入大數據時代,數據特徵發生了明顯的變化,數據規模大、非結構化/半結構化的數據多,使得大數據存儲本身也需要克服很多的問題。

要實現大規模數據的計算分析加工等問題,對於企業而言,需要通過各種手段來解決相關的問題,比如說通過優化存儲基礎設施,或者搭建高性能的大數據存儲框架等等。

海量數據的存儲任務,針對於不同的應用場景,往往需要因地制宜地選擇存儲方案,因此有了對象存儲、塊存儲、文件系統存儲等。

分布式文件/對象存儲系統

分布式存儲系統面向海量數據的存儲訪問與共享需求,提供基於多存儲節點的高性能,高可靠和可伸縮性的數據存儲和訪問能力,實現分布式存儲節點上多用戶的訪問共享。

目前業界比較流行的分布式存儲系統包括:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS等。

分布式關係型資料庫

關係型資料庫是建立在關係模型基礎上的資料庫,藉助於集合代數等數學概念和方法來處理資料庫中的數據。

目前業界比較流行的分布式關係型資料庫包括:DRDS、TiDB、GreenPlum、Cobar、Aurora、Mycat等。

分析型資料庫

分析資料庫是面向分析應用的資料庫,與傳統的資料庫不同,它可以對數據進行在線統計、數據在線分析、隨即查詢等發掘信息數據價值的工作。

目前業界比較流行的分析型資料庫包括:Kylin、AnalyticDB、Druid、Clickhouse、Vertica、MonetDB、InfiniDB、LucidDB等。

圖資料庫

圖資料庫的基本含義是以「圖」這種數據結構存儲和查詢數據,而不是存儲圖片的資料庫。

目前業界比較流行的圖資料庫包括:Titan、Neo4J、ArangoDB、OrientDB、MapGraph、ALLEGROGRAPH等。

列存儲資料庫

列式資料庫是以列相關存儲架構進行數據存儲的資料庫,主要適合於批量數據處理和即時查詢。

目前業界比較流行的列存儲資料庫包括:Phoenix、Cassandra、Hbase、Kudu、Hypertable等。

文檔資料庫

文檔型資料庫是NoSQL中非常重要的一個分支,它主要用來存儲、索引並管理面向文檔的數據或者類似的半結構化數據。

目前業界比較流行的文檔型資料庫包括:MongoDb、CouchDB、OrientDB、MarkLogic等。

鍵值存儲資料庫

鍵值存儲(Key-Value)是NoSQL中,數據模型中比較簡單的一個了,主要就是用哈希表,通過對於鍵(Key)的查找來找到特定的數據。

目前業界比較流行的鍵值存儲資料庫包括:Redis、Memcached、Tair等。

關於大數據概念解析,分布式存儲與資料庫,以上就為大家做了一個簡單的介紹了。大數據存儲環節,涉及到分布式與資料庫,是需要重點去掌握的一部分,對於主流的技術架構也需要有相應程度的掌握。

相關焦點

  • 大數據概念解析:分布式存儲與資料庫
    大數據技術當中,在海量數據的存儲環節,涉及到兩個重要的概念,就是分布式數據存儲與資料庫,穩定高效安全的數據存儲,才能為後續的計算分析環節,提供穩固的支持。今天的大數據概念解析,我們來講講分布式存儲與資料庫。
  • 大數據概念解析:分布式計算與伺服器集群
    進入大數據學習當中,相關的專業詞彙很多,尤其是涉及到技術概念,對於概念詞彙的理解,對於後續的技術學習和掌握,也是有好處的。今天我們來著重講解大數據當中的兩個重要概念,分布式計算以及伺服器集群。大數據技術當中,分布式是非常核心的概念,從存儲到計算到分析,大數據處理的整個流程當中,分布式不可或缺。關於分布式計算對於如何實現大數據處理,有集中式和分布式兩種思路。所謂集中式,就是通過不斷增加處理器的數量,來增加單個計算機的處理能力,從而實現處理大批量數據。但是集中式,需要昂貴的大型機,光是成本費用就不是一般的公司能夠承受得住的。
  • 大數據概念解析:分布式計算與伺服器集群
    進入大數據學習當中,相關的專業詞彙很多,尤其是涉及到技術概念,對於概念詞彙的理解,對於後續的技術學習和掌握,也是有好處的。今天我們來著重講解大數據當中的兩個重要概念,分布式計算以及伺服器集群。大數據技術當中,分布式是非常核心的概念,從存儲到計算到分析,大數據處理的整個流程當中
  • 思考:真正的分布式資料庫是否讓「數據湖」概念成為歷史?
    創造了中國自己的資料庫OceanBase》報導了OceanBase誕生的前因後果。內容非常詳實,值得分享。同時自己也分享幾點雜想:第一,殺熟不僅僅是大數據時代的產物之前從某網平臺爆出的訂購酒店或者是約車出行的殺熟案例。說明大數據時代我們每個人都處於一個小白,隨時宰割的狀態。其實這種現象在各個領域都存在。比如,技術壁壘也是殺熟的條件之一。
  • 大數據概念解析之數據倉庫簡介
    在大數據系統平臺當中,數據存儲、資料庫、數據倉庫是非常重要的概念,共同支持大數據存儲的實際需求。在大數據處理當中,大數據存儲這個環節,數據倉庫技術起到重要的作用。今天我們來對數據倉庫做一個簡單的介紹。
  • 分布式資料庫
    分布式資料庫的概念分布式資料庫系統是相對於集中式資料庫系統而言的,是將資料庫技術與網絡技術相結合的產物。這就是數據在邏輯上的統一性,因此,它不同於由網絡互聯的多個獨立資料庫。分布式資料庫是由分布式資料庫管理系統統一管理和維護的,這種管理上的統一性又使它不同於一般的分布式文件系統。透明性。用戶在使用分布式資料庫時,與使用集中式資料庫一樣,無須知道其所關心的數據存放在哪裡,存儲了幾次。用戶需要關心的僅僅是整個資料庫的邏輯結構。
  • 分布式存儲與大數據應用
    隨著網際網路的蓬勃興起,雲計算,大數據、人工智慧、物聯網這些專業名詞在大眾的視野內出現的越來越頻繁,很多人對於這些名詞都一知半解,所以筆者準備針對於這些熱門、前沿的技術出一個專題模塊,模塊總共分為三篇文章,本篇文章主要和大家聊一聊,分布式存儲與大數據應用。
  • 引領數據創新,星環分布式資料庫KunDB亮相數據技術嘉年華
    2020年11月20-21日,一年一度的數據技術嘉年華在北京順利召開,此次大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」為主題,打造 「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,設置1個主會場、12個分會場,匯聚學術精英、資料庫技術大咖、數據行業專家、網際網路卓越產品,帶來超過60場主題演講。
  • 解析大數據時代的資料庫集群技術
    而信息系統的背後用於保存和處理最終結果的地方就是資料庫。因此資料庫系統就變得尤為重要,這意味著如果資料庫如果面臨問題,則意味著整個應用系統也會面臨挑戰,從而帶來嚴重的損失和後果。如今「大數據」這個詞已經變得非常流行,雖然這個概念如何落地不得而知。
  • 引領數據創新,星環科技分布式資料庫KunDB亮相數據技術嘉年華
    2020年11月20-21日,一年一度的數據技術嘉年華在北京順利召開,此次大會以「自研·智能·新基建——雲和數據促創新 生態融合新十年」為主題,打造 「開源自研、智能運維、智能自治、新基建、用戶實踐」五大模塊,設置1個主會場、12個分會場,匯聚學術精英、資料庫技術大咖、數據行業專家、網際網路卓越產品,帶來超過60場主題演講。
  • 細說分布式資料庫的過去、現在與未來
    隨著大數據這個概念的興起以及真實需求在各個行業的落地,很多人都熱衷於討論分布式資料庫,今天就這個話題,主要分為三部分:第一部分講一下分布式資料庫的過去和現狀,希望大家能對這個領域有一個全面的了解
  • 大數據處理系統:分布式存儲系統和分布式計算主流框架的種類
    整個大數據處理的體系,按我的理解可以分為兩個部分,一個是分布式存儲系統、另一個是分布式計算框架。分布式存儲系統主流是HadoopDFS,其他還有Ceph和Swift。分布式計算框架主流是MapReduce,Storm和Spark。
  • HDFS個人數據存儲的核心–分布式+共享存儲
    HDFS個人數據存儲的核心–分布式+共享存儲5G時代得到來,大數據存儲迅速暴漲,個人存儲市場的存量不斷擴大,同時增量也在快速增長,預計每年個人產生的數據會有20%的複合增長率,每年的會釋放數十億美元產值的數據存儲市場增量。
  • NDN Protocol:為分布式存儲而生的資料庫
    資料庫,對於普通用戶來說會有一定迷惑。到底什麼是資料庫呢?我們可以從其名字來說,資料庫的意思是數據的集合,如果這樣來理解的話,在電腦上我們把照片放到同一個文件夾下,那麼這個文件夾就是一個照片資料庫;把文檔資料放到一個文件夾,那麼這個文件夾也是一個資料庫。
  • 分布式文件存儲資料庫MongoDB適用場景介紹
    MonogDB是一個基於分布式文件存儲的資料庫,由C++語言編寫,旨在為Web應用提供可擴展的高性能數據存儲解決方案。MongoDB是一個介於關係資料庫與非關係資料庫之間的產品,是非關係資料庫當中最像關係資料庫的。
  • 騰訊Tendis 正式開源:企業級分布式高性能 KV 存儲資料庫
    IT之家12月22日消息 近期,騰訊宣布企業級分布式高性能 KV 存儲資料庫 Tendis 正式開源。IT之家獲悉,Tendis 是騰訊互娛 CROS DBA 團隊 & 騰訊雲資料庫團隊自主設計和研發的分布式高性能 KV 存儲資料庫,兼容 Redis 核心數據結構與接口,可提供大容量、低成本、強持久化的資料庫能力,適用於兼容 Redis 協議、需要大容量且較高訪問性能的溫冷數據存儲場景。Tendis 目前已經被應用到騰訊內、外部大型項目中。
  • 騰訊宣布企業級分布式高性能KV存儲資料庫Tendis正式開源
    原標題:騰訊 Tendis 正式開源:企業級分布式高性能 KV 存儲資料庫   12月22日消息 近期,騰訊宣布企業級分布式高性能 KV 存儲資料庫 Tendis 正式開源。
  • 分布式資料庫比並行資料庫的優勢在哪裡?
    而在大數據時代,數據的使用者從戰略管理層轉向戰術執行層乃至一線人員,從孤立的分析場景轉向與業務交易場景的融合。對於聯機查詢的並發能力已經遠超MPP時代,成為OLAP場景分布式資料庫要考慮的一個重要問題。從整體架構來看,分布式更加看重大數據量批量處理的吞吐能力。
  • 大數據核心技術之分布式基礎入門
    大數據技術的核心,離不開分布式理論。大數據從概念走向落地,也是因為大數據技術的成熟,換句話說,就是大數據技術使得大規模數據處理成為可能,而大數據技術背後的核心,指向的是分布式理論。而有了分布式,多臺伺服器共同高效協作,去處理儘可能多的任務,系統的吞吐量得到極大的提升。以Hadoop為例,TB級及以上的數據存儲和計算任務,也能完全扛得住。
  • 為什麼雲原生+分布式是資料庫的未來?
    01 資料庫與大數據系統在雲原生背景下會怎樣結合?資料庫領域絕對不能僅僅只做 TP 資料庫(事務處理/在線交易),接下來的發展會越來越多看到像 HTAP 這種技術,將在線事務處理和在線分析與計算合二為一,將在線分析和離線計算合二為一,我們會看到越來越多資料庫和大數據系統的結合。從產品體系上,我們要為客戶提供端到端的數據能力,包括生產、處理、存儲、計算分析等。