杉巖CTO邱尚高:AI+數據湖時代,對象存儲不止步於存儲

2020-12-03 SandStone杉巖數據

11月18日,由百易傳媒(DOIT)主辦的2020中國數據與存儲峰會在北京盛大開幕。眾專家與行業代表同臺探討新數據時代存儲技術發展趨勢,分享數位化轉型成果,共話智慧未來。杉巖數據CTO邱尚高攜「AI+數據湖時代,對象存儲新未來」的主題演講出席峰會。

圖1.杉巖數據參展中國數據與存儲峰會

邱尚高在演講中提到,以5G、大數據、人工智慧為代表的新興技術深入行業應用,智能在「端、邊、雲」延伸,數據的種類和數量越來越多,企業對數據價值的訴求也更趨強烈,傳統基礎設施面臨著前所未有的挑戰。基於數據湖構建集數據匯聚、加工、分析、利用於一體的基礎架構成為企業市場的重要趨勢。

縱觀國內,不論是公有雲廠商還是私有雲廠商,紛紛基於對象存儲推出差異化的數據湖解決方案。對象存儲憑何優勢,能夠成為數據湖存儲底座的不二之選?在AI+數據湖時代,對象存儲又迎來哪些新的場景?針對上述問題,邱尚高作了系統地闡述與分享。

圖2.杉巖數據CTO邱尚高出席峰會並作主題演講

為什麼是對象存儲?

從2006年亞馬遜推出公有雲存儲服務(Amazon S3),到2012年阿里雲存儲服務(OSS)的面世,再到2016年杉巖數據率先推出企業私有雲對象存儲產品(MOS),對象存儲因網際網路而生,面對海量數據場景具備天然優勢,逐漸成為大數據時代存儲界的後起之秀。

隨著數據湖架構在企業市場中的需求越來越廣泛,存儲作為整個數據湖架構的核心要素,承載著企業近乎全部的數據資產。對象存儲究竟有何優勢,能夠贏得業界青睞,成為數據湖存儲底座的最佳之選?

01

存儲全類型數據

對象存儲採用彈性的分布式架構,靈活對接各類應用,可匯聚不同類型、不同大小的數據資源(包括結構化、半結構化、非結構化數據,大文件、小文件)。

02

支撐海量規模

傳統文件存儲採用樹形結構,文件增多,目錄層級多,訪問性能驟降。對象存儲採用「桶-對象」的扁平化結構,通過HASH計算檢索文件,海量場景仍然保證高性能,輕鬆支撐EB級容量空間、千億級文件規模。

03

多源數據統一接口

對象存儲基於標準的S3或OSS接口,實現私有雲與公有雲數據自由流動,以及異構存儲資源納管。

04

雲原生支持

文件存儲限於區域網訪問且需要OS掛載,對雲場景支撐乏力。對象存儲天然支持跨網際網路訪問,無需OS掛載更輕量,更適應雲原生應用。

05

混合雲架構

為了滿足業務合規與敏捷性需求,越來越多的企業選擇將網際網路應用部署在公有雲,以滿足彈性、敏捷的需求;將重要數據存放到私有雲,以滿足安全、合規的需求。對象存儲通過S3或OSS接口可無縫對接公有雲,快速構建混合雲基礎架構,在雲端與本地之間實現應用平滑遷移和數據自由流動。

通過以上維度對比,對象存儲的優勢顯而易見。

對象存儲將成為數據湖的數字底座

從國內外市場需求來看,國外的企業或組織更傾向於採用公有雲基礎設施,而國內企業則是更傾向於私有雲,也因此形成了公有雲數據湖和私有雲數據湖兩種方案,這裡選取3家代表廠商進行簡單介紹。

作為全球公有雲市場的領導者,亞馬遜以對象存儲(S3)作為數字底座,存儲來自不同數據源的結構化、半結構化和非結構化數據,通過安全策略和訪問控制保障數據安全,同時支撐數據檢索查詢、用戶界面訪問以及數據分析處理等能力。

阿里雲同樣是以對象存儲(OSS)作為數字底座,將阿里雲上的日誌服務、App/Web、數據集成等產生的超過10000種數據文件類型保存在OSS上,實現海量的數據匯聚,消除數據孤島;同時為MaxCompute、EMR、機器學習等平臺提供支撐,無縫對接超過100種計算引擎,賦能業務創新。

圖3.阿里雲基於對象存儲OSS構建數據湖方案

作為國內對象存儲市場的領導者,杉巖數據也推出了以企業存儲為基礎的智能數據湖解決方案。該方案基於MOS海量對象存儲構建海量空間,實現資料庫、非結構化文件、流數據等多源數據匯聚;通過納管異構存儲實現硬體利舊;通過高性能數據湖文件網關MosFS對接Hadoop、TensorFlow等分析處理平臺,深化價值利用;一體化方案賦能業務創新,為智慧金融、智能製造、智慧教育等行業變革提供基礎架構支撐。

圖4.杉巖數據基於MOS對象存儲的數據湖方案

AI+數據湖時代,對象存儲的新場景

對於企業客戶而言,貼合實際場景、解決當前痛點、滿足未來就緒的方案才是好方案。邱尚高結合一些新興的應用場景,向與會人士介紹了MOS對象存儲以及智能數據湖方案如何為客戶創造價值。

01

大數據存算分離

傳統大數據分析平臺存在諸多弊端:HDFS多採用三副本,空間利用率低;存儲與計算捆綁擴容,拉高成本;Hadoop升級不夠靈活,無法享受新版本計算特性。杉巖方案可提供存算分離架構,MOS支持糾刪碼和冷熱數據分層,使磁碟利用率提升80%;存儲與計算獨立擴容,有效降低成本;存儲與計算獨立升級,更加靈活。

02

數據智能處理

MOS依託智能數據處理引擎,將數據處理能力下沉到存儲系統內部。基於策略觸發,MOS海量對象存儲可以自動完成圖片轉碼、視頻抽幀、OCR識別等處理任務,簡化業務流程,提升處理效率。以智能製造為例,杉巖MOS已經幫助UTAC(聯測優特半導體)提升智能質檢效率,通過生命周期管理策略設定,在MOS內部完成質檢圖片的存儲、格式轉換、冷熱分層和過期自動刪除,節省80%存儲空間,大幅降低成本並簡化了業務流程。

03

機器學習

在MOS之上通過MosFS高性能數據湖文件網關,為TensorFlow等機器學習平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口,滿足AI算法的模型訓練和推理、數據歸檔的需求。以自動駕駛場景為例,車輛採集的視頻、雷達數據通過文件或對象接口導入MOS,然後通過HDFS接口對數據預處理,預處理結果再通過文件接口由計算伺服器進行AI訓練和高性能仿真,從而得到新的算法和模型進行下一輪測試。整個過程中,一套存儲同時在線、近線、離線使用,數據集中歸檔無須拷貝,空間利用率更高、數據更安全。

04

IPFS(Inter Planetary File System)

IPFS場景對底層存儲的需求可歸納為幾點:龐大的算力集群要求存儲吞吐量在100Gbps以上,以保證封裝數據的寫入效率;每天48次(30分鐘一次)的全量證明需要極高的隨機讀取效率;數據持續可讀(歷史數據不刪除)使得增量巨大(每周PB級),要求存儲提供EB級以上容量;超大容量必然由超大集群支撐,高效運維也是剛需。杉巖MOS除了提供EB級海量空間和300Gbps以上的超大吞吐量,還專門針對IPFS數據讀作性能優化,將數百次隨機讀請求合併為一個請求,極大提升效率;基於糾刪碼(22+2)技術,空間利用率超過91%,硬體成本縮減60%以上;通過多故障域隔離和智能DNS分配技術,輕鬆管控超大規模存儲集群,在提升數據可靠性的同時降低運維複雜度。

05

雲原生OLAP

對海量非結構化數據的分析需求催生了雲端數據湖的應用,杉巖針對雲原生OLAP場景同樣提供了解決之道,通過MOS無縫對接雲原生的數據湖,幫助企業快速構建高性能的OLAP服務。對「HDFS+傳統數據倉庫」而言,海量場景下的性能、並發性和易用性成為難以避免的災難。杉巖的「MOS+雲原生數據倉庫」方案,依託彈性架構提供更強的擴展性、高可用性和並發訪問能力,在EB級海量數據面前保證優異性能,利用糾刪策略、數據分層等特性儘可能降低成本,採用存算分離架構極大提升靈活性,幫助客戶對海量數據極速分析,輕鬆把握商業趨勢,及時應對各種變化。

不難看出,杉巖數據植根場景需求,已經圍繞MOS海量對象存儲構建起了相對完善的數據湖解決方案,為企業應對數據挑戰、推進業務創新提供了新的、極具競爭力的選項。

相關焦點

  • 杉巖CTO邱尚高:AI+數據湖時代,對象存儲不止步於存儲
    11月18日,由百易傳媒(DOIT)主辦的2020中國數據與存儲峰會在北京盛大開幕。眾專家與行業代表同臺探討新數據時代存儲技術發展趨勢,分享數位化轉型成果,共話智慧未來。杉巖數據CTO邱尚高攜「AI+數據湖時代,對象存儲新未來」的主題演講出席峰會。
  • 杉巖CTO邱尚高:對象存儲不止步於存儲
    11月18日,由百易傳媒(DOIT)主辦的2020中國數據與存儲峰會在北京盛大開幕。眾專家與行業代表同臺探討新數據時代存儲技術發展趨勢,分享數位化轉型成果,共話智慧未來。杉巖數據CTO邱尚高攜「AI+數據湖時代,對象存儲新未來」的主題演講出席峰會。
  • 杉巖數據:從數據到洞察,如何用對象存儲支撐新型數據湖
    數據湖架構使得企業可以在一份數據上拓展創新業務,而不必每發展一個新業務就做一次數據拷貝,但傳統數據湖方案在性能上仍然存在明顯的缺點,傳統數據湖依賴雲存儲,雖然降低了存儲成本,但在數據分析的過程中完全依靠雲存儲自身的吞吐能力進行數據掃描,這種方式只適用於ETL、批量計算等時延不敏感的應用,卻無法支撐秒級數據檢索、時序數據分析等低時延的分析場景。
  • 尖兵出鞘 智能存儲時代杉巖數據的最優解
    從技術創新到洞悉數據發展趨勢,在杉巖數據創始人、CEO陳堅看來,杉巖數據希望通過智能平臺幫助客戶獲取數據價值,縮短數據和決策之間的距離,讓客戶真正做到數據感知、應用感知,這也是杉巖數據面向雲、5G、AI時代的最佳解決方案。
  • 杉巖數據對象存儲替換IBM FileNet,突破性能瓶頸
    打開APP 杉巖數據對象存儲替換IBM FileNet,突破性能瓶頸 發表於 2020-03-26 15:12:24 近年來隨著非結構化數據的爆發性增長
  • 杉巖:雲原生時代,容器持久化存儲方案選對了嗎?
    作為容器持久化存儲的堅實底座,杉巖USP統一存儲平臺通過容器存儲接口(CSI)與Kubernetes等容器平臺交互,實現存儲資源的動態管理和自由調度。不論短期運行(秒級/分鐘級)還是長期不間斷運行,USP都能提供敏捷、穩定的持久化存儲服務。
  • 融中財經:軟體定義存儲方興未艾,杉巖進階賦能企業數位化轉型
    深圳市杉巖數據技術有限公司(以下簡稱「杉巖數據」或「杉巖」)是國內軟體定義存儲領域的領導者之一。IDC最新發布的《2019 Q4 中國SDS市場報告》中,杉巖數據在對象存儲市場份額第三,佔比16.3%;在塊存儲市場份額第四,佔比6.9%。
  • 互認證|杉巖存儲系統與寶德自強伺服器完成兼容性互認證測試
    近日,寶德自強系列伺服器與杉巖分布式存儲系統正式完成互認證測試。測試結果顯示,雙方產品兼容性良好、整體運行流暢且性能表現優異,可滿足用戶安全性、可靠性及關鍵性應用需求。隨著雲計算、大數據、物聯網、5G等新技術的落地及應用,眾多企業的傳統存儲系統已經難以滿足數據爆炸式增長所帶來的多元化存儲需求,作為數據中心建設的基石,存儲系統的升級改造勢在必行。為了打破傳統存儲系統軟硬體緊耦合所造成的割裂狀況,軟體定義存儲應運而生,為存儲行業的未來帶來了更多的可能。
  • 杉巖數據校園網盤存儲解決方案
    客戶需求數據分散存儲,安全性無法保證重要教學資料和科研成果,分散存儲在老師和科研人員的電腦裡,人為、誤操作、設備損壞等行為都可能會造成重要資料的丟失海量教學和科研資料需要可靠、安全、集中的存儲空間。傳統存儲設備多,運維管理複雜校園內各院系各自建設信息應用系統,底層存儲支撐大多採用傳統存儲,傳統存儲設備升級和日常維護複雜,且成本較高,隨著資料數據的不斷增長,系統無法便捷的在線擴容和運維,極大增加了管理員的負擔。
  • 2EB最大單一存儲集群之後,這家分布式存儲公司再也不能低調了
    杉巖數據是一家來自深圳的軟體定義存儲廠商,杉巖數據的名字音譯自SandStone(砂巖),砂巖是一種沉積巖,主要組成是地殼最常見的成分,而杉巖數據做的軟體定義存儲依靠的是最常見的通用伺服器,在此基礎上加入軟體存儲系統。
  • 數據存儲智能化,杉巖打造新基建數字底座
    因此,如何實現公共雲和私有雲之間數據的自由流動,如何做到業務無感知,用戶不需要關注數據的位置,實現數據的融合、自由遷移和安全合規非常重要。基礎技術的不同也導致存儲特性的較大差異,塊存儲如同跑車,容量有限但追求極致的速度、穩定性和可靠性;文件存儲如同大貨車,容量較大,兼容性好,如果不需要極限性能,可以適用於各種常規存儲需求;新興的對象存儲如同超大型貨櫃船舶,容量極大,支持海量並發訪問,內置的元數據結構可用於識別數據的多維度屬性,使得對象存儲可以實現應用感知(如某資料庫應用、某機器視覺的工業應用、某人工智慧應用的模型訓練)
  • 杉巖數據:解讀軟體定義存儲(SDS)及應用
    打開APP 杉巖數據:解讀軟體定義存儲(SDS)及應用 發表於 2020-03-17 11:24:59 不過IT專家們對SDS有一個基本共識:它是由軟體驅動的非專屬系統,可以靈活地配置存儲資源。   從本質上說,軟體定義存儲就如同一個生態系統,它將軟體從存儲系統中抽離出來,放至中心存儲控制器或虛擬機中。這種集中式軟體是一個不受物理系統限制的共享池,可管理所有的物理和虛擬資源,並按需進行自動配置。軟體可部署於伺服器或作為作業系統或虛機的一部分,但不再是硬體設備上的固件。
  • 2EB單一存儲集群,電費每年20億
    從IDC給出的市場數據來看,杉巖數據在中國對象存儲市場份額排在第二位,在塊存儲市場也排在第五位,整體軟體定義存儲市場份額能達到第六位,是一家主流的軟體定義存儲廠商,在市場上扮演重要角色。企業級存儲市場通常需要慢工出細活兒。
  • 杉巖MOS海量對象存儲中標福建移動
    近日,杉巖數據成功中標中國移動福建公司(以下簡稱福建移動)企業級IT雲四期對象存儲採購項目,將對接福建移動IT雲資源池,對外提供對象存儲服務。福建移動將分布式對象存儲引入本期項目,在保證可靠性和交付質量的前提下,大幅度壓降投資,支撐複雜業務場景,適應企業數位化轉型。杉巖依託軟體定義的技術優勢,可提供彈性、敏捷、安全、高效四位一體的混合雲解決方案。
  • 杉巖數據榮膺全球雲計算大會「雲鼎獎」
    本屆「雲鼎獎」,經過大會組委會與獨立第三方研究機構、產業聯盟、行業協會、專業媒體等評審委員會的嚴格審核,杉巖數據憑藉在軟體定義存儲領域的產品表現和抗擊疫情中的突出貢獻,在本屆「雲鼎獎」中榮膺「2020雲計算抗疫先鋒企業獎」。
  • 見過了這位存儲老兵,讓我對中國的軟體定義存儲有了新認識
    另一方面,軟體定義存儲屬於數據存儲領域重要的一支力量,並在雲計算與大數據風起雲湧的數字經濟時代,獲得了高速的發展。作為中國非常早期投入軟體定義存儲領域的廠商之一,杉巖數據積累了足夠深厚的技術、產品、服務與方案力量,從而也贏得了市場分析機構的肯定與行業用戶的認可。
  • 信創生態越做越大,杉巖數據又雙叒叕入選了……
    近日,杉巖數據成功入選上海信息技術應用創新聯盟會員單位。這意味著杉巖數據在推進全國信創生態布局、推動大數據存儲服務信創產業的進程中,又邁出了堅實一步。,進一步推動杉巖信創產業實踐在各省市落地生根。從飛騰生態夥伴大會,杉巖CEO陳堅與飛騰高層共話合作發展;到華為開發者大會,杉巖技術專家分享基於鯤鵬平臺的存儲性能優化;再到寶德鯤鵬生態夥伴大會,杉巖成為寶德鯤鵬生態研究院的首批合作企業。一直以來,杉巖數據與華為、飛騰、寶德等生態夥伴保持著良好的市場、研發層面合作以及高層互動,積極推動信創生態的落地建設。
  • 對象存儲有什麼用?優勢是什麼?
    打開APP 對象存儲的作用是什麼,它的優勢是什麼 杉巖老李 發表於 2020-07-20 16:32:40 對象存儲可以簡單理解為用來存儲圖片、音頻、視頻等非結構化數據的數據池。
  • 2020,中國的存儲市場經歷了什麼?
    一周來兩條數據讓存儲市場「炸開了鍋」全球權威諮詢機構IDC報告顯示2020Q1中國企業級外部存儲市場增長率下降7.8%軟體定義存儲市場增長率達25.9%特殊的時期,一負一正的數據中國的存儲市場經歷了什麼?
  • 2020年雲計算標準和應用大會,杉巖喜獲年度雲計算卓越產品獎
    近日,在北京舉辦的第十屆中國雲計算標準和應用大會上,杉巖數據海量智能存儲平臺榮獲「2020年雲計算卓越產品獎」,一同上榜的還有騰訊雲、螞蟻科技、中興通訊、浪潮等知名科技企業。多年來,杉巖數據一直積極參與國家信息技術相關標準的制定和實施落地工作。作為全國信息技術標準化委員會雲計算標準工作組成員單位,2019年杉巖參與編制了雲存儲系統服務接口功能國家標準GB/T 37732-2019 《信息技術 雲計算 雲存儲系統服務接口功能》,為國家雲計算行業標準化發展貢獻力量,助力國內雲計算產業規範、有序、健康發展。