大數據存儲平臺之異構存儲實踐深度解讀

2020-12-17 程式設計師世界

經常做數據處理的夥伴們肯定會有這樣一種體會:最近一周內的數據會被經常使用到,而比如最近幾周的數據使用率會有下降,每周僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑,存儲的數據可能一個月才被訪問幾次。

這就產生了一種熱和冷數據,對需要頻繁訪問的數據我們稱之為「熱」數據,反之我們稱之為」冷」數據,而處於中間的數據我們稱之為」溫」數據。

在數據被視為公司資產的時代,每個公司基本都會保存最近數年的數據,而這些數據尤其是冷數據的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些「負擔」。

首先如何定義數據為冷熱數據呢,eBay公司根據數據年齡和使用頻率來定義不失為一種辦法,下圖為eBay關於數據溫度的定義

從hadoop2.6開始,HDFS更好的支持了這種冷熱數據的分離存儲,我們可以按HDFS路徑指定其存儲策略,目前HDFS支持的存儲策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們著重介紹SSD相關的存儲策略,具體如下:

All_SSD - 用於將所有副本存儲在SSD中One_SSD - 用於將其中一個副本存儲在SSD中。剩餘的副本存儲在DISK中Lazy_Persist - 用於在內存中寫入單個副本的塊。該副本首先寫入RAM_DISK,然後在DISK中延續創建文件或目錄時,其存儲策略未指定。可以使用「hdfs dfsadmin -setStoragePolicy 」命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。

如果文件或目錄特定於存儲策略,則返回。對於未指定的文件或目錄,如果是根目錄,則返回默認存儲策略。否則,返回其父級的有效存儲策略。我們在實踐過程中,因為有一部分實時分析的需求,一部分是歷史數據的保存,歷史數據很少參與計算,只需偶爾查詢會用到。那麼對於歷史數據來說,我們可以使用一批計算能力較弱,而硬碟較多、容量較大的SATA盤,而實時分析的場景,需要高性能的計算力和硬碟吞吐能力,我們選用SSD硬碟來支撐,此外HDFS還提供了內存存儲類型,但我們的內存還是有限,暫未使用到。實際上,我們的每臺伺服器的12塊硬碟slot中有3個是SSD,其餘9個是SATA。我們實踐結果表明,使用這種策略的效果比以前好了4倍以上。

要使用存儲策略,我們需要在在每個數據節點上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如:

使用[DISK]file:///dfs/dn來標識這個存儲位置為普通硬碟使用[SSD]file:/// dfs/dn來標識這個存儲位置為SSD硬碟此外,默認情況下的存儲格式為DISK。

下面介紹設置存儲策略命令:

hdfsstoragepolicies -setStoragePolicy -path -policy 相應的獲取存儲策略命令為:

hdfs storagepolicies -getStoragePolicy -path 總結下:我們可以在一個限定的Hadoop集群中進行設置不同的磁碟使用不同的存儲策略,還可以利用API將數據存儲到不同的存儲層。HDFS設計的詳細存儲類型和存儲策略如下表,有興趣的同學可以看看:

註:HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的 計算能力,用於歸檔數據使用,從上圖可以看出冷數據適合使用archive存儲類型。

相關焦點

  • 河南移動的MPP大數據平臺對象存儲實踐
    而通過對海量數據資源的挖掘,可支撐運營商快速響應需求,實現敏捷運營,以及推動數位化轉型。例如,利用大數據對DPI(Deep Packet Inspection,基於數據包的深度檢測)等數據進行分析,可獲取客戶的行為偏好,實現客戶精準營銷。
  • 大規模異構數據並行處理系統的設計、實現與實踐
    夏正勳, 羅聖美,等.大規模異構數據並行處理系統的設計、實現與實踐[J].大數據, 2020, 6(4):18-29.國內廠商在應用創新上表現較為突出,如阿里雲結合大數據和雲計算技術,提供一站式數據服務的非結構化數據管理平臺,該平臺可以提供高效的數據存儲、數據挖掘、全文檢索、視頻轉碼、圖像識別等服務;星環信息科技(上海)有限公司致力於基礎軟體平臺的研發,實現了關係型數據、KV數據、圖數據、文檔數據等多種類型數據的存儲、分析和挖掘。
  • 基於新型存儲的大數據存儲管理
    現有的主流的NoSQL資料庫系統,例如文檔資料庫系統MongoDB、列存儲資料庫系統HBase[13,14]、內存資料庫系統Redis等,均採用了分布式集群架構實現大數據的存儲。也有一些分布式資料庫系統在存儲架構設計上考慮了異構存儲的特性,例如RAMCloud[15]和RethinkDB,從而有效提升了系統的存取性能。  但是,現有的大數據存儲技術還存在著以下的局限性[16]。
  • 異構存儲間的複製居然「很簡單」
    之前,我們在《數據遷移「妙招兒」》中討論了Dell Storage中Compellent存儲與Equallogic存儲之間的數據遷移功能。現在,我們討論一下兩種異構存儲之間的數據複製功能。這些特點能夠讓用戶對自己的數據使用起來更靈活,更高效。
  • 存儲專欄:深度解讀高端存儲的快照技術
    存儲在線專欄文章:之前,西瓜哥已經介紹了所有的高端存儲產品,包括EMC Symmetrix、HDS VSP、IBM DS8000、IBM XIV、HP 3PAR和富士通DS8700等。今天起我們發表西瓜哥寫的關於高端存儲的技術原理,首先介紹下《高端存儲快照實現原理解讀》。 我個人認為對於高端存儲來說,RIAD和快照是所有上層應用的基礎。
  • 深度解讀新一代高性能計算整體解決方案
    ,百行百業對於強大算力的需求與日俱增,大數據、雲計算、人工智慧及物聯網等技術的快速普及,以及不同類型業務數據量的劇增,都需要高性能計算提供有力支撐。近日,紫光股份旗下新華三集團在西安舉辦「2020智行中國智慧計算HPC客戶沙龍」,深度解讀新一代高性能計算整體解決方案、高算異構加速方案和高算存儲解決方案,為技術變革提供有效助力。
  • 大數據基礎設施論壇(下):存儲、計算、架構在大數據中的應用
    2014中國大數據技術大會14日下午大數據基礎設施論壇上,北京卓越訊通科技有限公司CEO賴兆紅,希捷資深架構師郝繼玖,Memblaze 技術顧問劉愛貴,DELL資深解決方案經理尹玉峰,阿里巴巴資深技術專家強琦,亞信大數據平臺研發部經理田毅,AMD中國研究院研究員谷俊麗分別從存儲、架構、計算等方面介紹了在大數據中的應用與實踐。
  • 騰訊存儲往事 - 騰訊,存儲 - IT之家
    當時,農場的訪問量巨大,在每秒數萬的並發訪問下,騰訊的底層存儲系統的延時和請求吞吐壓力非常大,伺服器數度崩潰。當時的騰訊,基本上把公司所有閒置伺服器都用在 QQ 農場上,但仍遠遠不夠,需要大量採購伺服器。存儲技術團隊一方面瘋狂擴容設備,另一方面基於數據規模不太大但是訪問量極高的業務特點,快速研發了全內存的分布式存儲系統。
  • 課程實錄:大規模高並發下的分布式存儲架構設計
    【IT168 資訊】雲計算、大數據、人工智慧等技術的廣泛應用,使數據開始呈指數級增長。在海量數據時代,傳統存儲系統已難以滿足業務運行需求,分布式存儲大放異彩,發展迅速。但對於許多企業來說,提高存儲系統的並發性能仍然是一大挑戰,此外系統穩定性、靈活擴展能力、整合異構存儲資源的能力、以及對資源進行智能化管理的需求也不斷增長。
  • 杉巖CTO邱尚高:AI+數據湖時代,對象存儲不止步於存儲
    從2006年亞馬遜推出公有雲存儲服務(Amazon S3),到2012年阿里雲存儲服務(OSS)的面世,再到2016年杉巖數據率先推出企業私有雲對象存儲產品(MOS),對象存儲因網際網路而生,面對海量數據場景具備天然優勢,逐漸成為大數據時代存儲界的後起之秀。
  • 多平臺無縫共享 聯想個人云存儲A1讓數據存儲更簡單
    如何保存手機、電腦中的數據成為一個非常棘手的問題,個人云存儲因此成為熱門產品。對於消費者來說,如何在琳琅滿目的雲存儲中尋找一款性價比高的產品,這同樣是一個挑戰。聯想個人云存儲A1上手一周多了,體驗還是不錯的,支持多個平臺數據備份,並且有公用空間和私有空間。具體來說,聯想個人云存儲A1內置一塊3TB硬碟,支持硬碟休眠。閒話不說,分享一下使用體驗。
  • 人工智慧搭配雲存儲 深度學習訓練的完美組合
    然而,不可忽視的是深度學習對於算力和存儲的渴求可謂是極其迫切,尤其是隨著模型規模不斷增大,數據量的不斷增加,深度學習用於訓練的神經網絡深度也不斷增加,傳統計算平臺的算力和存儲性能的瓶頸逐漸顯現。對於大部分人工智慧公司而言,計算和存儲性能的不足已經成為其人工智慧之路上的重要挑戰。
  • 深度好文|如何設計實時數據平臺 -- 上篇(ODF強烈推薦)
    以上是我們對數據平民化的解讀。>同時,也對存儲層保持了開放的原則,意味著用戶可以選擇不同的存儲層以滿足具體項目的需要,而又不破壞整體架構設計,用戶甚至可以在Pipeline中同時選擇多個異構存儲提供支持。
  • 紫晶存儲發布光存儲數據報告:一圖看懂光存儲介質的技術光環
    在資訊時代,數據呈現出爆炸增長的態勢,但海量數據的丟失也對存儲介質提出了更大的挑戰。近日,紫晶存儲發布了題為《解決大數據存儲,光存儲駕到》的光存儲數據報告,認為光存儲是大數據存儲的最優解,可以有效解決目前存儲行業中面臨的多種難題。但光存儲作為四大存儲介質之一,真的有如此巨大的優勢而成為未來存儲的趨勢嗎?
  • 計算存儲分離之「數據存儲高可用性設計」
    自然地,我們把目光聚焦到了分布式存儲系統上。  從目前行業發展趨勢來看,各大網際網路公司都設計或者維護了自己的分布式存儲系統。如Google的GFS(Colossus 為GFS第二代分布式存儲系統),Facebook和LinkedIn的HDFS等。由此可見,分布式存儲也是大勢所趨。
  • 大數據時代的存儲介質:鋇鐵氧體數據流磁帶
    另外,除了單盤存儲容量大,磁帶介質還具有諸多不同於主流在線存儲介質的特性:┃存儲密度:Q: 磁帶如何做到這樣高的單位存儲密度?A:首先,現在最新的數據流磁帶產品上塗布的是納米級磁性顆粒。其次,在前幾代的磁帶,如錄音帶、錄像帶中,磁帶本身包含兩根軸體,導致產品體積偏大;而現在的磁帶,只包含一根軸體,另外一根則被移至磁帶驅動器當中,因此產品尺寸顯著縮小,充分滿足了大數據存儲客戶對存儲介質和相應設備在節省使用空間成本方面的需求。
  • NAS數據遷移到對象存儲太麻煩?90分鐘納管1000萬文件了解一下
    對象存儲無疑是應對海量非結構化數據增長的最佳選項,從實際部署情況看,越來越多的企業開始將非結構化數據切換到對象存儲平臺。  二、技術演進帶來異構管理困境  IT建設是一個漸進的過程,技術在不斷發展,IT基礎設施也在不斷更新。最早的時候,企業的業務信息量比較小,只用一個文件伺服器就可以解決問題。
  • 華為FusionStorage 6.0新存儲特性解讀
    也正是看到了這種需求上的缺失,華為存儲融合資源池解決方案才從四個層面實現了對於存儲需求的深度支持:存儲基礎架構融合——如今,數據中心的發展正在從分散走向融合,特別是最近幾年對於虛擬化應用的展開,融合技術架構越來越受到行業的青睞。
  • 分布式存儲與離線混部彈性計算平臺實踐
    而隨著大數據應用、人工智慧、移動網際網路等技術的飛速發展,「智慧+」的概念正在深入到各行各業,提升企業效率,釋放商業潛能,創造全新機遇。作為國內頂級技術盛會之一,2017中國系統架構師大會(SACC2017)將於10月19-21日在北京新雲南皇冠假日酒店震撼來襲。
  • 天賦異稟,高存儲密度成為海量數據存儲首選
    古老的磁帶從誕生之日起就一直在持續進化,在企業存儲領域發揮著不可或缺的作用。 對磁帶存儲技術的不懈追求,確立了 IBM 在磁帶技術領域的領先地位。其他存儲技術無法比擬的成本優勢,以及不斷提升的存儲密度和容量,使得磁帶自然而然地成為滿足低成本、大容量數據存儲要求的最佳選擇。 軟硬兼濟,雲時代迎來新生 隨著大數據、雲計算和 AI技術的快速發展和應用,企業數據量與日俱增。