騰訊雲賀永紅:混合雲存儲為大數據應用提供更強便利性

2020-12-22 IT168

  企業數位化轉型過程中,數據價值被顯著放大,大數據應用成為不少企業探索的重點。

  從技術上看,大數據業務由於數據體量大,且數據量很多時候呈急速膨脹狀態;在進行大數據計算分析時,對資源的需求呈現浪湧式特徵,又偶有突發性,因此通過上雲充分發揮資源按需使用按需付費的優勢,成為了不少企業在探索大數據應用時的常見模式。

  這其中,企業在綜合考量數據安全性、可擴展、可管理和成本效益等因素後,混合雲部署的方式就成為了企業的主流選擇。

  近日,騰訊雲存儲高級產品經理賀永紅在混合雲主題論壇上發表演講,詳解了大數據應用上雲的新思路。

  一、企業自建大數據的難點

  企業數據中心自建大數據業務,一般會遇到擴容的問題,隨著大數據分析在業務價值挖掘上的作用愈加重要,新增及突發的分析任務越來越多,此時,趨於飽和使用率的硬體資源便會成為瓶頸,從提交預算申領設備到新設備加入分析集群通常需要較長時間(有時會超過一個月),這樣會也導致大數據計算結果延期交付。隨著時間推移,大數據中存儲的數據越來越多,如何降低數據的存儲成本,在需要的時候又能快速分析。

  二、大數據混合雲存儲之道

  大數據混合雲存儲將IDC大數據和公有雲大數據連接為混合雲,通過存算分離(計算與存儲分離),實現計算彈性伸縮;通過數據全生命周期自動沉降實現存儲低成本。

  三、大數據混合雲存儲中的關鍵技術

  1. 存算分離

  存算分離,計算與存儲分離,計算基於標準HDFS協議訪問存儲,計算資源和存儲資源各自按需擴容;計算資源可以分鐘級按需創建及銷毀,數據存儲在COS(Cloud Object Storage)「https://cloud.tencent.com/product/cos」統一存儲層,集中存儲、統一管理。

  存算分離,讓數據存儲在雲中對象存儲COS上,計算集群直接分析COS中的數據,計算資源專注於計算,按需實現彈性伸縮,按需創建及銷毀,不用維持冗餘設備來保存數據;通過計算與存儲分離,實現計算彈性伸縮,按需創建及銷毀,可以節約大數據20-30%的成本。

  2. 高效存儲

  存儲資源COS(Cloud Object Storage)海量、無容量上限、無需擴容、按需供給,高效、平滑接入大數據生態、按需使用付費、通過生命周期策略自動沉降極致降低成本。

  COS中存儲類型分為標準存儲、低頻存儲和歸檔存儲,通過配置數據全生命周期策略實現自動沉降:經常訪問的數據放在標準存儲,較少訪問的數據放在低頻存儲,基本不訪問的數據放在歸檔存儲,以上三種存儲類型,價格不同,例如歸檔存儲刊例價就不到標準存儲刊例價的1/3,數據自動沉降後成本節約20-30%。數據沉降歸檔後,能及時回熱,需要用的時候能及時被計算集群訪問。

  3. 統一管理

  雲上雲下的統一管理,一致使用體驗;在數據面雲上COS與IDC中HDFS統一元數據管理,實現全量數據ETL(抽取、轉換、裝載)。在技術面,雲上和雲下均採用大數據開源組件,接入大數據開源生態,保持一致使用體驗。

  4. 數據高效流動

  雲下與雲上的數據流動,這裡主要包括兩種數據流動。

  其一、數據在IDC與雲上COS間快速水平流動;用戶每天可往雲上COS灌入200TB+數據,基於COS海量並發設計,可進一步加粗上傳管道,加速數據上雲。數據下雲,一般是結算結果返回到用戶IDC,這部分數據量比較小,是從海量沙子裡掏出的金子,不存在技術挑戰。

  其二、數據在EMR「https://cloud.tencent.com/product/emr」計算與COS存儲間快速垂直流動,在EMR進行大數據計算時,需要在瞬間從COS中讀取大量數據到EMR中進行計算,關鍵技術是COS的高性能,來滿足數據的快速讀寫。

  四、騰訊雲大數據混合雲存儲實踐

  騰訊雲大數據混合雲存儲方案,經歷騰訊內部業務(微信、QQ、騰訊視頻等)長期打磨而沉澱下來。

  騰訊雲大數據混合雲存儲,包括三層:混合大數據引擎、任務統一編排、數據開發平臺:數據開發平臺實現數據價值開發,包括用戶畫像、廣告推薦等;任務統一編排實現大數據任務在IDC及雲中全局調度及計算彈性伸縮;混合大數據引擎對IDC及雲中大數據進行管理。

  某頭部遊戲直播公司,大數據體量大,很早就成立了近百人的專業大數據團隊,以支撐近百P規模的離線、實時流式數據的高效存儲計算及數據科學探索。

  其大數據架構如圖,左邊本地IDC,右邊騰訊雲 EMR ON COS,通過專線打通,數據互通,優先上傳分析用到的數據,將數據導入到騰訊雲COS中;基於存算分離,通過騰訊雲EMR產品創建的Hadoop集群分析已導入到COS中數據。分析任務結束後,銷毀EMR集群,不再產生費用,COS數據自動沉降進一步降低成本。

  五、結語

  騰訊雲大數據混合雲,能夠實現大數據業務平滑上雲,並實現對已有IDC硬體資源的合理利用,實現業務彈性伸縮,實現存儲資源和計算資源的高效利用。

  未來,騰訊雲存儲還將以業務場景為指引,推出更多高效的雲存儲方案,並結合生態資源,為用戶提供更好的雲上存儲服務。

相關焦點

  • Scality:容器化和雲本地應用將定義2021年的數據存儲格局
    12月7日消息,外媒報導稱,根據Scality的研究,容器化和雲本地應用將定義2021年的數據存儲格局。根據IDC的數據,到2023年,將有超過5億的數字應用程式和服務將通過雲本地的方式被開發和部署。這相當於過去40年開發的應用程式總數。
  • 雲計算行業專題報告:混合雲市場藍海價值被逐步認知
    經測算,阿里、騰訊、華為在國內私有雲市場份額優勢明顯,剩餘市場格局分散。根據信通院數據,2019年國內私有雲市場空間為645億元,同比增長23%。根據我們 測算,主要雲服務商騰訊、華為、阿里佔據私有雲市場頭部份額。
  • CDCE2020:優刻得加速數據中心建設 推動新一代定製化混合雲
    公司自主研發IaaS、PaaS、大數據流通平臺、AI服務平臺等一系列雲計算產品,並深入了解網際網路、傳統企業在不同場景下的業務需求,提供公有雲、混合雲、私有雲、專有雲在內的綜合性行業解決方案。目前依託公司在莫斯科、聖保羅、拉各斯、雅加達等全球25個地域部署31大高效節能綠色數據中心,同時優刻得正在烏蘭察布、上海青浦等在進行自主數據中心的建設。
  • 如何構建面向雲原生應用的容器混合雲KubeSphere3.0給出答案!
    有調研數據顯示,93%的企業正在採用多雲策略,在多雲中的混合雲佔87%。混合雲已經成為了企業的大勢所趨。青雲QingCloud應用及容器平臺研發總監周小四告訴記者,混合多雲的話題其實業界早有討論,但是以前混合雲是面向資源,而現在是應用為主導。因為混合雲需求來源於業務,尤其是應用上的訴求,所以雲原生應用成為了必然。
  • 混合雲大勢所趨 青雲科技憑三大優勢亮劍未來
    工業網際網路時代產生的數據量比傳統的信息化要多數千倍甚至數萬倍,並且是實時採集、高頻度、高密度的,動態數據模型隨時可變,這麼大規模且複雜的數據上傳到公有雲,能夠給出恰當處理辦法和合理價格的雲服務商並不多。「IT的本質是支撐業務,同時需要有比較好的性價比,也就是用更低的成本完成更多的業務支撐和運行要求。我們認為混合雲兩大推手:一是業務壓力,二是財務驅動。」
  • 融合媒體平臺應用和數據的共融互通
    一是一致的基礎架構:避免應用程式返工負擔,並實現真正的應用程式部署靈活性;二是一致的運營:通過服務管理、治理、安全性、自動化和編排工具消除運營孤島,降低運營成本;三是一致的服務:在專家的幫助下統一規劃和執行一致的雲戰略。DELL科技基於旗下領先的雲計算提供商VMWARE,能夠為媒體客戶提供一致的雲架構、運營和服務,基於VMWARE平臺的應用系統,可以直接從私有雲遷移到這些公有雲平臺。
  • 騰訊大數據團隊主導開發,新一代分布式對象存儲Ozone從Apache基金...
    剛剛獲悉,Apache基金董事會通過一致表決,正式批准分布式文件對象存儲Ozone從Hadoop社區孵化成功,成為獨立的Apache頂級開源項目。這意味著,作為騰訊大數據團隊首個參與和主導的開源項目,Ozone已得到全球Apache技術專家的一致認可,成為世界頂級的存儲開源項目之一。
  • 騰訊開源分布式存儲系統 Tendis,可完全兼容 Redis
    據悉,Tendis 是騰訊互娛 CROS DBA 團隊 & 騰訊雲資料庫團隊自主設計和研發的分布式高性能 KV 存儲資料庫,兼容 Redis 核心數據結構與接口,可提供大容量、低成本、強持久化的資料庫能力,適用於兼容 Redis 協議、需要大容量且較高訪問性能的溫冷數據存儲場景。Tendis 目前已經被應用到騰訊內、外部大型項目中。
  • 騰訊Tendis 正式開源:企業級分布式高性能 KV 存儲資料庫
    IT之家12月22日消息 近期,騰訊宣布企業級分布式高性能 KV 存儲資料庫 Tendis 正式開源。IT之家獲悉,Tendis 是騰訊互娛 CROS DBA 團隊 & 騰訊雲資料庫團隊自主設計和研發的分布式高性能 KV 存儲資料庫,兼容 Redis 核心數據結構與接口,可提供大容量、低成本、強持久化的資料庫能力,適用於兼容 Redis 協議、需要大容量且較高訪問性能的溫冷數據存儲場景。Tendis 目前已經被應用到騰訊內、外部大型項目中。
  • 國內「公有雲」十大雲計算服務提供商排名,億速雲排在第幾位?
    目前,阿里雲提供的產品和服務涉及:雲計算基礎服務、域名與建站、企業應用、安全防護、網絡與存儲、大數據、人工智慧、物聯網和開發運維等諸多方面,產品線豐富,涉及領域較廣。在國內網際網路企業梯隊當中,阿里雲的先發優勢明顯,落地能力很強,已經在諸多應用場景中實現落地,而且在「人工智慧、物聯網、邊緣計算」等重要新興技術中均有布局。
  • IBM Z+Linux:開源創新20年,混合雲時代更關鍵
    進入混合雲時代,擁有開源和雲化能力的IBM Z將發揮關鍵作用,它們與容器和Kubernetes組成的敏捷雲原生世界相結合,幫助企業對系統上的雲原生應用進行現代化改造,以及構建、管理新應用,成為混合雲的核心。
  • 混合云為何備受青睞,從超融合就能一窺究竟
    在目前的超融合市場中,供應商主要有三類:一類是傳統數據中心基礎設施廠商,這部分廠商除了傳統的伺服器、存儲等產品之外,超融合產品也是其重要的產品線之一;第二類則是以超融合為主導的供應商,自一開始就推行超融合產品及理念;第三類則是以青雲QingCloud代表的雲服務提供商,它們為用戶提供基於雲交付的超融合產品及解決方案。
  • 騰訊雲聶晶:數據場景化應用創新與數據價值釋放才是數據倉庫的真正...
    「企業不再停留在數據集合的高效存儲和運算,越來越聚焦於數據的場景化應用創新和數據價值釋放的最終目的,這也是數據倉庫的真正目的所在」聶晶強調。隨著企業關注價值點的變化及構建主體趨向於一線業務團隊的趨勢,也帶來了企業數據倉庫構建敏捷度的更高要求。基於雲計算實現分鐘級構建和擴展的雲原生數據倉庫設施,因為其技術先進性和交付模式的先進性,成為了當前數據倉庫技術的技術核心。
  • 大數據關鍵技術淺談之大數據存儲及管理
    數據存儲作為大數據的核心環節之一,可以理解為方便對既定數據內容進行歸檔、整理和共享的過程。自磁碟系統問世以來,數據存儲已經走過了近百年的歷程。數據存儲和管理如今並不止被定義為接收、存儲、組織和維護組織創建的數據,更多時候它還意味著更多內容,包括但不限於:對數據進行分類; 聚合、收集和解析數據的元數據; 保護數據和元數據不受自然和人為中斷的影響; 在內部部署和地理上移動數據,以進行共享、歸檔、複製、數據保護、存儲系統技術更新和遷移,並訪問所需的分析引擎,從而對該數據進行更深入的研究; 在進行一次或多次移動後,保持用戶和應用程式對數據的透明訪問
  • 面向應用構建容器混合雲 KubeSphere幫助企業快速邁入雲原生
    雲原生的到來會促使混合雲容器化——基於容器標準化封裝解除應用運行環境與混合雲異構基礎設施的耦合,將使企業更易於實現敏捷開發和持續交付。然而,在企業生產中,這些是遠遠不夠的。而KubeSphere將為企業的數位化轉型提供更可靠的支撐,也將為企業生產帶來更高效的效能,讓企業將更多的精力從基礎設施中解放出來,投放在核心應用上。企業也將由此進入到發展快軌,平步青雲。
  • 集中、分布存儲的界限終於找到了!
    老人們不知道,健康碼是基於位置信息追蹤,由智慧型手機App應用判定提供的,並不是某個部門頒發的。顯然時代的發展要照顧到老年群體。同樣技術發展的步伐也需要照顧到多個方面。很長一段時間以來,都試圖在集中式存儲和分布式存儲技術之間劃上一個界限,什麼樣的應用場景適合採用傳統集中式存儲?哪些場景適合採用分布式存儲?依據是性能技術指標?還是應用的類型?
  • 大數據平臺「星環科技」擬科創板上市,騰訊為最大機構投資方
    成立於2013年的星環科技是一家大數據基礎軟體產品提供商,以企業級一站式大數據平臺為切入點,以分布式計算為基礎,旗下現擁有5大產品系列:基於容器的智能大數據云平臺Transwarp Data Cloud ( TDC )、一站式大數據平臺Transwarp Data Hub ( TDH )、智子人工智慧平臺Transwarp Sophon、分布式資料庫(快閃記憶體資料庫
  • 新基建加速信創生態體系建設,軟體定義存儲獨角獸XSKY獲巨額融資
    但隨著科技對國計民生的促進作用被更廣泛的普羅大眾看到,新的IT基礎設施建設不能再局限於當下,而應超越應用所需,進行飽和投入。落在存儲上,就是為5G時代的海量數據構建基於國產的,海量的、持續的、大規模吞吐的能力。這一點上,軟體定義存儲具有天生的優勢,也是XSKY星辰天合的核心能力。
  • ...受邀出席2020中國數據與存儲峰會:堅持自主創新 打造信創雲基座
    2020年11月18-19日,第16屆「2020中國數據與存儲峰會」在北京順利召開。本次峰會為期兩天,是國內最具影響力的產業峰會,以「新數智·新未來」為主題,匯聚專家學者、行業領先企業、典型用戶代表等,探討新數據時代存儲技術發展趨勢,分享數位化轉型成果,共話智慧未來。