騰訊雲文件存儲CFS如何以40GB/s高吞吐應對新基建挑戰?

2020-11-26 DOIT

 近日,騰訊雲存儲高級工程師陳宏亮在「2020中國數據與存儲峰會——新基建與數位化論壇」上發表主題演講,與英特爾、紫晶存儲、慧點科技以及InterSystems等演講嘉賓,從專業角度出發,共同探討新基建機遇下如何加速賦能產業應用,提升企業數位化能力。陳宏亮闡述了新基建背景下的新存儲需求,結合業務場景對騰訊雲多年打磨的CFS進行了介紹,並深入分析了CFS在新基建中的具體應用。

騰訊雲存儲高級工程師陳宏亮

什麼是新基建?

新基建也就是說新型基礎設施建設,相對於舊基建其主要包括5G計算建設、特高壓、城際高速鐵路、新能源汽車充電樁、大數據中心、人工智慧、工業網際網路等領域,涉及諸多的產業鏈,以新發展為引領,以技術創新為驅動,信息網絡為基礎,面向高質量發展需要提供技術轉型、職能升級、容量創新等服務的基礎設施體系。

新基建技術中最核心的資產就是數據,物聯網讓採集的數據種類和數量越來越多,5G讓數據傳輸的速率越來越快,雲計算在不斷地對數據進行計算處理,AI在不斷地挖掘數據的價值。這些技術連接的關鍵紐帶便是存儲,在新基建的推動下,存儲可以說是推動產業向高端化發展的一個剛需,為此新基建需要新的存儲。

新存儲有哪幾個重要特徵?

第一個是海量存儲的可持續高效存儲。第二是海量數據的高效管理。第三是海量數據的一個價值挖掘。面對如此龐大的信息存儲量和可預見性的數據增長量,新的存儲架構必須要考慮的第一個點就是如何以更高擴展性、更高的吞吐、更低的時延以及更低的性價比來實現容量的管理。

首先要有高擴展性,滿足因為業務量數據精細度提升導致的數據量增加以及隨時擴容的需求。其次要有高吞吐、低延時,可以快速讀取跟調用。當然,用戶也是很看重整體方案的性價比。今天解決了數據存儲的問題,對新基建用戶來說是遠遠不夠的,還要進一步解決數據存儲的管理問題。

數據跟人一樣也是有生命周期,從產生到消亡有很多階段。新基建所需要的存儲系統必須要具備生命周期管理的能力,數據最終的價值呈現一定是為應用服務的。人工智慧和大數據驅動的發展,驅動數據產生更多的應用價值,所以在數據的價值挖掘方面,其中終極需求必須更好地利用人工智慧,服務人工智慧,賦能大數據人工挖掘。

基於海量的價值挖掘分析基本上都要依賴於機器學習、深度學習的人工智慧技術。在人工智慧的場景中,數據要經歷採集、訓練、推理、歸檔等國家。人工智慧各個階段對存儲系統要求差異非常大,採集階段要支持網際網路原始訪問的協議,吞吐量非常大。要求系統有高並發、低時延的歸檔的能力,而在歸檔的階段則需要低成本的存儲系統。

業界關注度頗高的騰訊雲文件存儲CFS在關鍵業務應用場景中如何發揮能力?CFS如何以40GB/s高吞吐應對新建下的數據挑戰呢?騰訊雲主要有哪幾種存儲產品?

COS、CFS和CBS,騰訊推出這三款產品可以滿足各種不同的需要。其中CFS是一個縮寫,鏈存儲,主要是提供文件存儲服務。CBS即雲硬碟,主要提供的是快速的服務。而COS是雲對象存儲,主要提供雲對象存儲的服務。下面我們通過對比的形式介紹這三種產品,產品的規格、性能以及規模對比,主要是以CBS單刻盤、CBS單文件系統以及COS單存儲統一為單位進行對比。在存儲規模的方面,CFS大文件系統最大支持是20TB存儲上限,COS單盤支持16TB存儲上限,COS則能提供億B級存儲上限。延時方面,CFS是在0.3毫秒到20毫秒之間;CBS是在0.2毫秒至5毫秒之間,COS的延時是根據網絡情況而定的。在吞吐方面,CFS大文件系統最大能夠支持40GB/s的上限,SSD雲硬碟目前最大能夠支持260兆B的吞吐上限。而COS吞吐主要與用戶網際網路存儲的帶寬相關,支持海量並發。在IOPS方面,CFS單文件系統目前最大能夠支持60K的IOPS。而CBS在SSD目前最大能夠支持26K的IOPS。COS主要性能指標是QPS,最低目前能支持1.2K的QPS。在訪問量上COS可以達到數億的並發連接,而CFS可以支持數萬的客戶端並發的訪問。而CBS在並發訪問上比較受限,在業務的網絡上CFS和CBS主要用在了內網上,COS在內外網都可以使用。生態方面COS比較豐富,有數據萬象、大數據套件、無服務函數等。在價格方面的話,CFS和CBS差不多,CFS超高一些,而COS則比較低廉。

什麼是CFS?

CFS是公有雲上的NAS存儲,幫助用戶解決公有雲上的高性能共享存儲的需求,支持容量和性能的在線擴展,現有的應用無需修改即可直接掛載使用。CFS提供了可擴展共享的文件存儲服務,可以與騰訊云云伺服器容器批量計算等服務搭配使用。CFS提供了標準的NFS及SMB雲間訪問系統的訪問協議,為其他的計算服務提供共享的數據源,支持彈性的容量和性能的擴展。現有的應用就是無需修改就可以掛載使用,是一個高可靠的文件系統。

適用於大數據分析、媒體處理和內容管理等場景。文件存儲接入非常簡單,用戶無須調節自身的結構或者無需進行複雜的配置,需要三步就可以了。第一步創建系統,第二步啟動伺服器上的文件系統客戶端,第三掛載文件系統即可。

CFS產品優勢主要是四個:集成管理、自動擴展、安全可靠、成本低。在集中管理方面,CFS可以支持系統數據訪問,例如強數據一致性和文件鎖定,至於雲的計算資源可以通過NFSB3.0或者是B4.0的協議來掛載CFS的文件存儲。CFS可以提供控制臺界面,讓用戶可以創建文件系統,可以根據文件容量的大小,自動對文件系統的存儲容量進行拓展,同時不需要中斷請求和應用,確保獨享所需要的存儲資源的同時,降低管理工作的時間成本,減輕工作量。

在安全可靠性方面,CFS具有極高的可用性和可靠性,每一個CFS都有冗餘,CFS可以嚴密控制文件系統的訪問權限,通過基礎網絡或者是BPC網絡的安全組,並搭配權限組,實現訪問的權限控制。在成本低廉方面,CFS可以動態調節需求容量,而無需提前調配存儲,用戶只需要按照使用量來付費,不需要進行最低消費或者前期部署、後期運維的費用,動態計算節點可以通過NFC共享一個存儲空間,而無需購買其他的存儲服務,也不需要考慮緩存。

CFS的應用情況?

第一個實例是HPC計算下第三代大規模基因測序的應用,基因測序項目需要臨時的大量計算和存儲資源執行基因測序,而現行的方案是採用本地的計算節點,加上商用文件存儲形式。現行方案最大的特點,由於基因測序為項目的一個形式,項目的一個周期,大概是幾個月到半年不等。本地的資源無法滿足這種彈性的客戶要求,採用騰訊雲文件存儲CFS,它的優勢在於可以無縫對接測試程序,用戶無需額外修改這個程序。同時,用戶可以按照實際的使用量來付費,無需額外付費,同時CFS能夠提供超高的一個吞吐性能,也能夠提供彈性拓展的存儲空間。最終的方案是我們提供300臺計算型伺服器CDM的節點,配置32核120G的內存,再加上300T文件存儲,總計7個文件系統,每個文件系統提供500兆每秒的吞吐量。

第二個案例是廣電行業視頻處理。需求是視頻處理、分發、持久化存儲一站式解決方案。IDC機房計算節點+文件存儲設備。痛點視頻量激增,IDC計算節點不足,存儲容量不足,擴容運維非常複雜,客戶希望長期保留數據。

採用CFS優勢在於它可以提供高吞吐、低延時用於視頻渲染,同時可以將用戶希望長期保存的數據沉澱在COS中進行持久化存儲,降低成本。最終的方案在騰訊雲的雲總機上部署媒資管理系統,同時使用CFS作為渲染存儲庫,通過COS進行分發。

第三個案例,動畫電影製作。需要執行高吞吐、高並發計算任務,客戶現行的方案是使用IDC機房計算節點加上商用文件存儲形式,痛點是動畫後期渲染IDC計算節點不足、存儲性能不足,導致渲染耗時很長,無法滿足電影按時上線的需求。採用CFS的優勢,騰訊雲能夠提供彈性伸縮高吞吐的文件存儲,而且也支持標準的NFS協議,並且可以方便地協同低成本的計算實例。最終的方案,客戶原始素材通過專線上傳到CFS,同時超過1000+雲主機進行渲染作業,客戶峰值吞吐達到160Gbps,整體時長降低了28%,保證了電影按時上線。

第四個案例,教育行業AI訓練,教育場景是小文件、低延時。客戶現行方案是CVM+自建HDFS+COS。現行方案的一個痛點是轉碼平臺原對接雲上自建HDFS,其延時性能不佳、維護耗時。使用CFS的優勢在於CFS可以提供低延時、高吞吐的雲服務,同時可以很大程度上提升轉的碼平臺的效率。加速模型優化,最終的方案也是使用CFS,是無縫替換CFS的集群。

第五個案例,短視頻訓練和推理。該客戶直接採用CFS加COS文案,訓練的流程是COS讀取後,在TKE上訓練分析,並發掛載量是幾十個Node,單文件大小是幾百KB到2MB左右文件,數量百萬到千萬級。為了滿足寫吞吐的需求,採用異步操作的模型,從COS預拉取進行系統。讀吞吐峰值可以打滿10GB/s,因此訓練模型30分鐘,因此訓練過程+模型發布最短要求為30分鐘。客戶端是GPU,而發布的流程則是訓練完成後將最終的模型存儲到CFS上,業務的Pod就需要在最短的時間內完成,並發掛載量是100以內的Pod,文件大小是10GB到30GB之間,讀吞吐的分級是實際運營的,需要10分鐘以內做完,而數據的更新頻率是在最短30分鐘時間內發布模型。

CFS如何在新基建中發揮作用?

首先是客戶業務場景的分析。廣告推薦顧名思義,我們在使用期間會看到各種消費的小彈窗、小視頻等等,結合用戶模型為用戶提供最精準的廣告,從而提高營銷資金的利用率。CFS參與應用廣告推薦的具體業務流程主要分為三步。第一步模型發布,廣告客戶模型在訓練中心完成,訓練完成之後將模型文件發布到騰訊雲。第二部分是業務應用獲取模型,客戶在騰訊雲上使用了三個T的雲系集群,共計超過4000node,或者超過8000個,以分擔業務的壓力。這些Pod將幾十GB的數據模型全部加載後應用才能啟動。

第三步是廣告推薦,系統使用模型文件和用戶數據,為用戶定製廣告推送。這是客戶的一個廣告業務架構圖,左邊是廣告推薦訓練集群,當訓練集群推初模型後會掛載CFS,將模型拷貝到CFS中。上面是客戶在騰訊雲線上應用集群,大概是2000到8000個Pod組成不同的多個集群,分布在北京三個核心區,這些Pod通過掛載客戶端,從CFS中讀取虛擬集群,生成推理模型數據。在業務啟動時,運營程序需要讀取廣告推薦模型的文件。在運行的過程中,系統根據用戶使用數據進行廣告推薦。

騰訊雲通過對業務流程的摸底,了解業務的存儲場景、存儲留存以及集成規模。關鍵性的含量指標包括業務的性能需求,客戶容量的需求以及具體模型。CFS解決了特定場景下大文件、大吞吐的難題。

「總而言之,新基建為中國的產業升級清晰指明的方向,數位化技術廣泛的應用以及隨之產生的需求,將帶來數據爆發式增長,海量數據蘊含著巨大的價值,存儲作為新基建堅實的支柱。更多樣化的數據模式、日益複雜的數據管理,以及高效的數據利用對存儲提出更高的要求,無論對傳統的吞吐廠商還是創新的吞吐廠商來說,這既是挑戰更是機遇,」陳宏亮表示。

未經允許不得轉載:DOIT » 騰訊雲文件存儲CFS如何以40GB/s高吞吐應對新基建挑戰?

相關焦點

  • 逐漸發聲的騰訊雲 發布第三代雲伺服器矩陣與異構計算
    100MB/s提升到500MB/s,提升5倍,滿足大數據等業務對雲盤高吞吐和數據安全性的雙重要求。升級3:分布式塊存儲技術4.0 得益於25G網絡的大帶寬傳輸,採用基於25Gb的RDMA超高性能網絡框架的第四代分布式塊存儲技術帶來了存儲性能的全面提升。
  • 騰訊雲首次公布AI新基建布局,iPhone12發布會或推遲至11月
    騰訊雲AI計算機視覺產品中心總經理王磊透露騰訊雲AI公有雲日處理圖片超30億張,日處理語音250萬小時,自然語言處理超千億句,客戶數超過200萬,服務全球超過12億用戶,多項指標位居行業第一。騰訊雲已經成為中國最大的人工智慧服務提供商。
  • 電商行業開發者如何基於雲端構建業務?騰訊雲+未來峰會上這樣說
    作為騰訊雲開發者生態建設的一部分,在 9 月 21 日騰訊「雲+未來」上海峰會開發者專場上,騰訊雲邀請技術專家進行了一場圍繞電商行業的雲端架構與開發的主題分享,幫助開發者快速了解電商行業如何在雲端構建業務。同時,騰訊雲「雲+創業」計劃也在上海對開發者發起新一輪招募,激勵廣大開發者的創新思維落地。
  • 騰訊雲 CHDFS—雲端大數據存算分離的基石
    一、問題和挑戰 對象存儲是廣泛使用的雲端非結構化數據存儲解決方案,越來越多的非結構化數據聚集於對象存儲的數據湖中,隨之而來的是對這些海量數據的分析需求。 然而對大數據分析的存儲系統來說,HDFS 接口是事實標準,HDFS 是大數據生態的存儲基石。
  • 如何使用 JuiceFS 在雲上優化 Kylin 4.0 的存儲性能?
    Kylin on Parquet 在雲上面臨的挑戰相比以前,基於新一代的 Kylin 4,用戶可以在雲上更加快速簡單地部署高性能、低 TCO 的的數據分析服務。計算和存儲的分離,以及架構複雜性的降低,都使得 Kylin 成為雲上數據分析的最佳選擇之一。
  • IDC報告:聯想存儲銷售增長82.4% 以領先科技推動「新基建」加速落地
    作為全球領先的科技企業,聯想不斷豐富自身存儲產品線,並在該領域繼續保持增長態勢和領先優勢。如今,隨著我國「新基建」戰略部署的不斷深入,就猶如一場東風吹起,給聯想存儲產品、技術、解決方案帶來了新的挑戰和更高的要求,同時,也對其合作夥伴、生態系統帶來了新的機遇。
  • 騰訊雲資料庫品牌整合升級,三大產品線集中發力資料庫技術創新突破
    騰訊雲原生資料庫具有高性能和高度兼容的優勢,敏捷、靈活的部署能力,可以讓企業像使用水、電、煤一樣使用雲資料庫。從而降低企業上雲門檻、提升上雲進程,更好的應對智慧時代複雜的業務場景,將騰訊雲原生技術普惠用戶。融合、自治、效用是騰訊雲原生資料庫的三大特點,它具有資料庫引擎加雲存儲的計算與存儲分離架構,能對資料庫進行全生命周期智能自治管理的優化與調優,以及實現按真實使用量計費的商業模式。
  • 業務驅動創新,騰訊雲IDC產品族更懂用戶
    作為推動數字經濟發展的重要支撐,數據中心承擔了數據存儲和流通的關鍵職能。特別是在5G大規模部署之後,上自超大規模數據中心下至邊緣DC,將在擁有數位化賦能需求的千行百業中發揮巨大能量。在加快新型基礎設施建設(「新基建」)政策浪潮下,各行業巨頭布局數據中心的節奏加快,BAT更是豪擲千億建設大型數據中心。
  • 雲會議雲課堂爆紅背後:「新基建」火了,國產伺服器賺瘋
    在疫情「黑天鵝」的突襲下,「新基建」站上了風口,被各大機構一致看好。不同於修路修橋修鐵道的傳統基建,「新基建」是結合基建和科技所誕生的新概念,包括5G、人工智慧、工業網際網路、物聯網、新能源充電樁等代表未來轉型升級方向的新興科技基礎設施。
  • 「新基建」七大領域並不孤立,智能IP網絡扮演「大動脈」
    採用該方案後,招行依靠網絡iLossless智能無損交換算法實現了高吞吐、零丟包和低時延。經過實際的AI訓練測試,一臺25 G網卡的計算節點訪問存儲節點的吞吐量達2.8 GByte/s,整個存儲集群的吞吐性能比傳統網絡情況下至少提升20%,效果相當於增加4~5次迭代/秒。
  • 體驗聯想個人云存儲A1
    後者是將微信保存在手機中的文件進行自動備份,可以在圖片、視頻、文檔和其它文件類型中選擇需要自動備份的項目。由於騰訊並沒有開放相應接口,所以它並不會備份微信聊天記錄。 但管理員可以設置其他用戶的部分權限,包括允許他們使用公共空間和外部存儲。這樣如果不同用戶間需要分享圖片、視頻、音樂等文件,就可以將數據移動到公共空間,此時聯想個人云存儲A1上的所有用戶就能在公共空間看到不同用戶分享的文件。此外,如果你有某個文件只想分享給特定用戶,那麼則可以選定該文件並通過分享功能選擇相應用戶,該用戶就可以在「收到的分享」中看到這個文件了。
  • 騰訊雲深度歸檔讓數據從磁帶走向雲端
    在數位化轉型浪潮中,如何存儲和利用好數據,是企業面臨的首要問題。相比於傳統網際網路全面擁抱雲,產業網際網路在數位化轉型過程中,通常第一步是利用雲存儲來歸檔數據。
  • Riverbed推新Whitewater雲存儲網關設備
    【PConline 資訊】旨在提升IT架構性能的 Riverbed科技公司日前宣布,推出可處理更大備份數據量的新型Whitewater® 雲存儲網關設備和可用於所有Whitewater設備的新作業系統。新的Whitewater 3010型設備具有相當於以前產品四倍的本地存儲容量,可滿足更大規模的企業要求。
  • 全球頂級極客匯聚GeekPwn 2020 打響新基建安全前哨戰
    如何遠程劫持農業無人機?利用AI竟然能變臉蔣昌建?在GeekPwn 2020的舞臺上,極客們展示了奇思妙想。挖掘漏洞並預演安全威脅,打響新基建的安全前哨戰。  10月24日,以「極有擔當,無畏逆行」為主題的國際安全極客大賽(GeekPwn 2020)在上海開幕。本次大賽匯聚全球頂尖的白帽黑客和少年極客,聚焦雲、AI、5G等前沿技術。
  • 騰訊2020 Techo Park開發者大會召開 騰訊雲星星海發布新一代自研...
    此外,騰訊雲還分享了在雲計算、存儲、網絡、運維在軟硬一體化趨勢下的創新和實踐。星星海新一代自研雙路伺服器,雲上建設提前享受技術紅利隨著AI、5G、車聯網和物聯網等技術的大規模部署,企業對於算力、存儲等方面的要求也更加苛刻。
  • 如何通過網頁版騰訊微雲傳文件進去
    騰訊網頁微雲是一個強大的雲儲存工具。通過它我們能夠存儲更多的東西。比如視頻,Word文檔、圖片等等一系列文件。打開瀏覽器,輸入http//www.baidu.com 進入百度首頁。在輸入框內輸入「騰訊微雲」。打開網頁,點擊微雲官方網站的連接。
  • 華為、中通、騰訊雲等大咖PPT下載
    並且在此次國家為新基建定向的7大領域中,包括5G建設、大數據中心、人工智慧、工業網際網路等四大領域,皆直接與數位化供應鏈建設密切關聯。未來數字供應鏈趨勢會如何?接下來來看看各位嘉賓分享了哪些乾貨?騰訊雲高級解決方案架構師羅勇:物流數鏈時代下的行業小助手與工具箱接著,騰訊雲高級解決方案架構師羅勇表示,雲服務是數位化浪潮最重要的物流行業新基建。在智慧物流新時代,網際網路所帶來的技術手段和思維方式,正在深刻影響著社會經濟發展與產業格局重塑。
  • 如何把伺服器文件免費備份雲端
    很多運維伺服器的人員或網站站長都有一個需求,那就是把我的伺服器裡的文件或壓縮包怎麼直接備份到雲端,比如對象存儲oss,現在很多雲伺服器提供商都會提供免費的對象存儲空間,一般都是幾十個G,比如阿里雲、騰訊雲、七牛雲都有免費的對象存儲。
  • 2017年國內25家企業級雲存儲品牌推薦
    T客匯:  Seagate和IDC一項新研究表明,到2025年,全球數據量將會從2016年的16 ZB上升至163ZB,數據量相當於查看整個Netflix目錄4.89億次。當前數據呈現爆炸式增長的態勢,數據存儲面臨著新的挑戰。  企業級存儲的發展經歷了三個階段。
  • 騰訊安全雲訪問安全代理CASB亮相2020 Techo Park,開闢數據...
    為企業提供欄位級數據存儲加密防護服務,幫助企業在有效防護數據安全威脅的同時,兼顧商密及國密合規要求,為企業應對數據安全新挑戰提供有力支撐。(騰訊安全雲訪問安全代理CASB正式發布)雲數據安全面臨重大挑戰,加密應用成破題關鍵近年來,國內外多次爆發大規模的數據洩露事故。