未來就緒,XSKY發布全新下一代分布式文件系統XGFS

2021-01-09 騰訊網

非結構化數據正以前所未有的速度增長。IDC的預測表明,到2025年,全球將有80%的數據是非結構化的。文件協議是存取非結構化數據最普遍的使用方式,根據IDC統計,2019年度,中國的軟體定義存儲市場約60%是文件存儲。

儘管非結構化數據並不是什麼新鮮事,但IT團隊承受著巨大壓力,他們希望以簡單和易於使用的方式快速、一致地存儲和管理非結構化數據,但傳統文件系統有很多的限制:

1

元數據和數據使用本地存儲,無法橫向擴展,不具備節點級高可用;

2

受限於元數據的存儲空間和性能,實際可保存的文件數有限,一般小於1億,存儲空間為TB級別;

3

非統一命名空間,多個掛載目錄之間無法互通,使用複雜;

4

文件存儲網關不可擴展,無法提升帶寬,造成訪問瓶頸;

5

不支持大數據和容器等新業務。

1

分布式文件架構,如何和硬體與時俱進?

數位化轉型下的軟體定義存儲架構,可以很好的滿足用戶各種需求,如在標準伺服器上的敏捷部署,可靈活擴展,性能和容量隨伺服器節點數增長而線性增長,硬體升級與更換無需跨存儲系統遷移數據,硬體升級換代紅利即時享用,業務層無感知、無影響等。

但是軟體定義,也需要充分利用最新的硬體技術,與時俱進。

分布式文件存儲,最複雜的就是元數據的保存和處理。根據統計,大部分的AI/ML分析應用,90%的I/O都是請求元數據操作。

上一代的分布式文件系統,由於當時的硬體限制,為了解決元數據的容量瓶頸,部分產品(如CephFS)將元數據保存在後端的RADOS集群裡,I/O路徑長,並且由於複雜的同步和互鎖機制,性能損耗較高,性價比並不理想;

部分產品(如HDFS)採用內存來保存所有的元數據,雖然元數據性能較好,但由於內存的容量有限,系統支持的文件數比較少,擴展能力有限。

有沒有一種架構,能夠以較低的成本,極簡的架構,滿足現代文件系統元數據處理的性能和容量要求?

現在,大容量高速SSD的普及,使得魚和熊掌兼得變成現實。NVMe協議的出現,大大降低接口協議的開銷,SCM(存儲級內存)的出現,大大提升介質的性能,加上顆粒成本的下降,使得5TB以上的大容量NVMe SSD較為普遍。

這些SSD新技術的發展,加上CPU的核數越來越多,使得全快閃記憶體元數據節點完全可以應對大規模文件系統的需求,比如,只需要5TB的NVMe SSD的元數據空間,就可以輕鬆保存和處理百億規模文件。

02

XGFS重新定義下一代分布式文件系統

XGFS(XSKY Global File System)是XSKY提供的新一代分布式文件存儲系統,具有單一全局的命名空間。

XGFS基於靈活的SDS架構,支持NFS、SMB、FTP、POSIX、HDFS、Kubernetes CSI(容器存儲接口)等豐富的協議,不僅可以用於企業的文件共享,備份歸檔通用場景,也可以應用於視頻監控、媒資管理、高性能計算等高性能、大帶寬、大容量的場景, 還支持最新的大數據和容器場景。

XGFS企業級分布式存儲系統架構圖

XGFS創新利用最新的多核CPU、大容量和高性能NVMe SSD,只需要3個全快閃記憶體元數據高可用節點(可以共用數據節點),就可以高效保存和處理100億數量文件規模的數據,同時提供每秒上百萬元數據讀寫請求處理能力,具有極高的性價比。

而XGFS的數據節點,則充分利用XSKY久經市場考驗的可靠自主分布式存儲集群,成熟穩定,可以輕鬆擴展到上千個節點。

XGFS企業級分布式存儲系統用戶界面

XGFS元數據服務的架構具有如下優勢:

基於最新一代NVMe/SCM存儲介質設計,充分發揮出新興介質近百萬級IOPS和數GB帶寬的性能優勢,輕鬆滿足對於文件系統的高頻率元數據訪問需求;

利用高性能LSM存儲引擎,結合XSKY獨有專利技術的鍵值設計,構建出完全自主的元數據服務;既兼容POSIX文件語義和S3對象語義,又支持用戶/用戶組、權限/ACL、擴展屬性等;

元數據在本節點的日誌保護和節點間的強一致性複製,使得元數據集群輕鬆應對慢盤、網絡異常、節點重啟/掉電等故障場景,提供RPO=0的元數據通路;

使用XSKY自研的高速網絡傳輸模塊,原生為RoCE/RDMA高性能網絡量身打造,大大降低節點間元數據複製包的傳輸時延,使得整個元數據集群擁有更高的IOPS性能。

XGFS分布式文件存儲系統由元數據服務集群和混合盤數據服務共同組成,使得該產品繼承了XSKY多年在分布式混合盤上的深厚積累以及大規模存儲運維能力:

多級緩存技術、支持副本與EC糾刪碼、支持延展集群雙活、硬碟和網絡亞健康處理等,成熟穩定,特性豐富且運維簡單。

03

產品特點

1、全局命名空間

單一命名空間:提供統一持續高性能的文件單一全局命名空間,使用簡單;

豐富的協議支持:支持NFS, SMB, POSIX, FTP, HDFS,Kubernetes CSI等協議, 簡化業務IT架構的同時解除對業務的鎖定;

新興業務場景支持:支持HPC、大數據和容器等新興負載。

2、靈活擴展

軟體定義,可自定義節點屬性,並支持各種品牌的通用x86伺服器和國產伺服器;

靈活部署,可從3個節點擴展到4096個節點,滿足不同業務需求;

按需擴展,性能和容量隨節點數增加而增長,滿足不斷增長的業務對性能和容量的需求。

3、豐富的企業級功能

數據冗餘:支持多副本和EC不同冗餘策略,提供基於伺服器、機架、數據中心的三個級別故障域管理。支持快照保護;

支持文件網關負載均衡和HA保護,支持AD域、LDAP域對接,本地認證等多種認證方式。支持配額管理;

通過內嵌X3DS可以實現文件和對象間的複製、遷移、備份、歸檔等豐富的數據管理功能,並且支持阿里雲和百度雲等公有雲平臺。

04

典型應用場景

XGFS可以作為企業級分布式文件系統,支持豐富的大容量非結構化數據保存和分析場景:

1、文件共享、企業辦公存儲

單一全局命名空間,使用簡單。支持文件共享、網盤、FTP等辦公場景。

2、視頻監控、流媒體、CDN存儲

橫向擴展,滾動升級,數據永久保存。

3、大數據、HPC後端存儲

兼容HDFS, 高效文件元數據處理機制,靈活應對AI/ML數據分析要求。

4、容器共享存儲

支持Kubernetes CSI接口,支持多個PODs共享數據。

5、集中災備資源池

6、企業數據湖底座

支持Hadoop存算分離部署,接口協議豐富,可以擴展到上千節點。

XSKY XGFS充分利用SDS優勢,適配最新的NVMe SSD新技術,支持最新的HDFS和Kubernetes CSI協議,性價比高,無需在性能和容量之間做出妥協,是企業的數據湖建設的理想底座。

END

相關焦點

  • 分布式文件系統 SeaweedFS 1.95 發布
    SeaweedFS 是一個簡單且高度可擴展的分布式文件系統,包含兩部分:存儲數十億的文件;快速為文件服務。SeaweedFS 作為支持全 POSIX 文件系統語義替代,Seaweed-FS 選擇僅實現 key-file 的映射,類似 "NoSQL",也可以說是 "NoFS"。
  • 分布式文件系統 SeaweedFS 2.00 發布
    SeaweedFS 是一個簡單且高度可擴展的分布式文件系統,包含兩部分:存儲數十億的文件;快速為文件服務。SeaweedFS 作為支持全 POSIX 文件系統語義替代,Seaweed-FS 選擇僅實現 key-file 的映射,類似 "NoSQL",也可以說是 "NoFS"。
  • XSKY SDS V4.2重磅發布,為數據基礎設施注入「免疫力」
    01抵抗不確定性的「免疫力」這次疫情「黑天鵝」,讓許多企業用戶開始意識到,系統的數位化能力是抵禦包括疫情在內的諸多不確定性風險以及未來就緒的最佳途徑。本次版本中,帶來了數據校驗增強,硬碟亞健康處理,網絡亞健康處理,閒時自動重平衡四大重磅功能,從數據端到端安全、硬體組件的亞健康管理和容量管理三大領域進行「免疫力」提升,同時還帶來了場景化進一步增強等九項新增與優化功能;並全新發布XSKY S3 Console對象接口產品,幫助客戶進一步降低使用對象產品的門檻。
  • CephFS:未來文件系統
    何為Ceph?Ceph誕生於2004年,是一個統一分布式存儲系統,具有優異的性能、可靠性和可擴展性。Ceph底層是RADOS,它是分布式對象存儲系統,由自修復、自管理、智能的存儲節點組成。除了分布式系統最基本的特性,Ceph還擁有大規模可擴展、基於CRUSH算法的自我管理和修復、靈活的架構等優點,並且支持OpenStack、OpenNebula、Hadoop等雲平臺。
  • HDF星盤文件系統 或將引領新一代大數據分布式雲存儲
    眾所周知,區塊鏈因其去中心化、信息不可篡改等的特徵及分布式存儲、非對稱加密算法、時間戳、共識機制等技術特點給數據賦予了真實、可信等的保障。星盤文件系統Hard disk Distribution File System(簡稱"HDF")則運用了區塊鏈技術,將文件存儲和安全相結合,讓存儲在HDF的文件得到合理有效的保護。
  • 中心化存儲與分布式存儲,未來在哪裡?
    這個時候很多朋友會迫不及待的問我,什麼是去中心化,眾所周知,我們存儲在錢包中的數字貨幣始終是要交易才能體現價值的,以前是需要把這些幣轉帳到交易所進行交易,但隨著區塊鏈技術的不斷發展,在自己錢包中的數字貨幣也可以進行交易, 即 "數字錢包+去中心化交易所"的交易形式,這種交易形式更加安全,因為錢包的私鑰是由自己保管的,自己負責自己資產,命運掌握在自己手中,這也更符合區塊鏈的底層精神,也將成為未來主流形式
  • Vsan分布式文件系統邏輯架構損壞恢復過程
    一、存儲故障情況介紹北京某公司一臺vSAN分布式文件系統的存儲設備出現未知原因的關機重啟,隨後發現邏輯架構出現嚴重故障,上層虛擬機癱瘓,存儲內的數據丟失。Vsan分布式文件系統邏輯架構損壞恢復二、vsan數據恢復鏡像備份由於數據恢復操作需要對存儲內的數據進行分析、重組、提取,因此在進行數據恢復操作前需要對客戶原始存儲設備上面的數據進行鏡像備份
  • 揭秘海象分布式存儲系統
    就如同我們的海象系統一樣,在承載了成千上萬的文件之後依然可以穩定,高效的運行。我們的目標是秒接入,秒傳!隨著我們部門系統不斷增加,對文件存儲的需求也越來越大。上傳完視頻和圖片之後我們還有實時預覽的需求,所以用傳統的ftp保存就不能滿足我們了。
  • 36氪首發|致力打造下一代雲原生分布式消息系統,「StreamNative...
    本輪融資將加速 StreamNative 在產品研發、開源社區和生態構建方向的推進,StreamNative 也將在未來數月發布基於 Apache Pulsar 的雲端產品。StreamNative (北京原流數據科技發展有限公司,簡稱為 StreamNative),成立於 2019 年初,是一家開源基礎軟體公司,由 Apache 軟體基金會頂級項目 Apache Pulsar、Apache BookKeeper核心開發者組建而成,圍繞Apache Pulsar 及 Apache BookKeeper 打造下一代流數據平臺,目前是全球唯一一家由
  • IPFS分布式存儲的落地應用
    IPFS作為下一代網際網路底層通信協議,自發布以來已經成功應用在數據存儲、文件傳輸、網絡視頻、社交媒體、去中心化交易等各個領域。基於IPFS搭建的APP、應用和平臺等,正在重構整個網際網路。ipfs基於p2p網絡並進行優化,迅雷適用的場景,ipfs同樣適用!
  • 八年鍛造,為雲而生,QingStor 分布式存儲全線升級
    深圳,2020年9月2日——  9月2日,青雲QingCloud (qingcloud.com) 「雲無界 數未來」2020 全國巡展深圳站開幕,QingStor企業級分布式存儲全線升級,並全新推出容器存儲一體機 KubeSphere KF3000 和分布式全快閃記憶體儲一體機 QingStor NF6000 兩大新品。
  • 「最強科普」什麼是文件系統,分布文件系統有哪幾類?
    上一期的文章我們講述了《什麼是分布式存儲》,接下來這期我們來學習下分布式文件系統。公司的技術大拿正在給新員工做技術培訓:"大家都用過電腦,相信都知道什麼是文件系統。""什麼是文件系統?" 新員工蛋蛋不合時宜的插嘴道。
  • 下一代Tor通信將用分布式隨機數生成器加密
    當前,由於TOR(洋蔥網絡)的通信安全性不斷受到挑戰,TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑,例如在隨機數字的生成方面。TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑  在通信安全領域,由於要生成隨機、不可預測的加密密鑰,因此對於隨機數的應用是必不可少的。
  • 36氪專訪|XSKY星辰天合CEO胥昕:軟體定義存儲整體市佔率第四,未來...
    自今年7月對外宣布獲得3.2億元D輪融資以來,軟體定義存儲(SDS)廠商XSKY星辰天合相繼發布全新一代SDS一體機「XSCALER EXPRESS 2100/3100」、立體數據管理系統「X3DS」、新一代分布式文件系統「 XGFS」、「 XSKY S3 Console」等產品。
  • 使用Pinpoint作分布式鏈路跟蹤系統
    Pinpoint是一個開源的 APM (Application Performance Management/應用性能管理)工具,適用於用Java / PHP編寫的大型分布式系統。受Dapper的啟發,Pinpoint提供了一種解決方案,通過跟蹤分布式應用程式之間的事務,幫助分析系統的整體結構以及它們中的組件如何相互連接。
  • 曲面屏達14.9英寸,支持幽默對話,寶馬發布下一代iDrive車機系統
    【曲面屏達14.9英寸,支持幽默對話,寶馬發布下一代iDrive車機系統】在最近的線上CES展中,寶馬發布了關於下一代iDrive車機系統的更多細節。全新的系統將首選搭載於寶馬iX,是一塊巨大的曲面屏,足足有14.9英寸。在操作方面,與當前寶馬搭載的iDrive系統相同,用戶可以使用一個支持轉動的旋鈕進行操作。
  • 大數據基礎知識:Hadoop分布式系統介紹
    Hadoop是Apache軟體基金會下一個開源分布式計算平臺,以hdfs(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是資源調度框架,能夠細粒度的管理和調度任務,還能夠支持其他的計算框架,比如spark)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。
  • 分布式系統事務一致性
    業界著名的CAP理論也告訴我們,在設計和實現一個分布式系統時,需要將數據一致性、系統可用性和分區容忍性放在一起考慮。1、CAP理論在分布式系統中,一致性(Consistency)、可用性(Availability)和分區容忍性(Partition Tolerance)3 個要素最多只能同時滿足兩個,不可兼得。
  • 央行發布《金融分布式帳本技術安全規範》BATJ網際網路巨頭均已參與
    每經記者:劉永生 每經編輯:易啟江近日,《金融分布式帳本技術安全規範》(JR/T 0184—2020)金融行業標準由中國人民銀行正式發布。本標準由全國金融標準化技術委員會歸口,由中國人民銀行數字貨幣研究所提出並負責起草。
  • 分布式光伏如何直面「平價」挑戰?
    來源:中國能源報核心閱讀截至目前,分布式光伏尚未脫離補貼依賴。2018年「5·31」政策發布後,我國光伏補貼開始下調。按照今年的最新文件,工商業分布式光伏和戶用分布式光伏補貼分別為每千瓦時0.05元和0.08元。雖然較上年下降超50%,但仍享受國家補貼。