一直以來,存儲和備份是兩個相近的概念,但是又有很大區別的。如果不是專業的技術專家,是比較難搞清楚這兩者之間區別,特別是雲的出現,這兩個概念往往容易混在一起看。本文從幾個方面快速對比下存儲和備份這兩個概念的區別和發展,以及演變趨勢。
存儲是數據保存容器的統稱,比如軟盤,光碟,磁碟,磁碟陣列,中小規模業務用的NAS,專業的磁帶庫,專業的光纖存儲網絡SAN。存儲容量從幾MB,到上100TB,甚至P級。最近幾年出現新的一種方案,雲存儲,其本身也分為個人用途和企業用途的。個人數據存儲用途比如百度網盤, 360網盤,DropBox等,通稱保存個人的一些資圖片,文檔等;企業用途的如AWS的S3, 阿里雲的OSS,以及七牛雲存儲,又拍雲,金山雲的雲存儲等,通常用於關鍵業務系統,比如用戶產生的文檔,圖片,視頻等數據存儲。雲存儲有個好處是可以動態擴展存儲空間,平臺提供商由於採用低成本硬碟等方案,採用分布式技術,把本身廉價的硬碟聚集起來,構建成1個具備較高可靠性的存儲方案; 一些大平臺,當具備規模效應後,平攤到用戶,TCO成本會低不少,這是傳統存儲方案比較軟肋的一個地方。
備份是一種數據保護的機制和方案,其實現必須依賴於具體的存儲容器。目前在備份這塊的市場有非常多的品牌,如Symantec 的NBU ,CommVault的備份產品,IBM的TSM,EMC的NetWorker,還有專注混合雲數據備份保護服務的多備份。備份通常用於保護業務系統產生的核心數據或個人重要的數據。一般的備份系統,通常會與硬體存儲設備搭配組合成備份方案。多備份目前是構建在阿里雲存儲,AWS的S3,七牛,以及金山雲,百度雲等雲存儲之上,所有備份的數據會存儲在這些大存儲平臺上。
我們工作用的WORD軟體,如果沒有數據存儲介質,編輯產生的文檔無法保存,配上IDE或SATA硬碟後,應用軟體產生的數據可以很快保存在硬碟上。這是一個簡單的硬碟存儲支持軟體工作的例子。一旦本地硬碟如果壞掉,努力工作一周的成功,可能得重新再來。
通常的重要業務系統架構設計的時候,會充分考慮存儲方案的構成,什麼樣的業務系統,在幾個位置,數據如何分布,需要的容量,擴展需求等進行規劃設計,重點解決業務系統不斷增長的數據存儲問題。一般會就近業務應用伺服器來部署存儲架構。不管是雲存儲,還是傳統的存儲架構,都有1個目標,讓業務系統,在不同的位置和存儲在空間上的訪問是穩定連續進行的。
數據在一個地方始終是不可靠,機房斷電,線路故障,硬體故障,火災等,特別對於重要業務系統,如支付系統,一旦業務系統為了保持業務連續訪問,考慮到了多個地點的數據鏡像,就有一點備份的味道。雲存儲目前在空間數據冗餘保存方面,一般也有做數據垮地區的冗餘保存,防止災難的發生。
備份在此基礎上,進一步封裝邏輯,對數據在不同的地方,可以訂製不同的複製策略。較重要的數據,通常可以在1個地方進行冗餘,比如用戶產生的日誌,圖片等可以冗餘1份;對於更關鍵的數據,如用戶註冊數據,數據存儲索引數據,交易數據,金融系統相關數據等,必要時得多地冗餘。雲存儲的出現,使得基於雲的備份方案,實現起來更加容易,輕易按需構建不同的地理位置的通道,只要你願意,數據備份到全球幾十個地區的雲存儲中心都可以。這一切可以用最簡單的手動複製方案,也可以用自動管理的方案,比如多備份等。
保存1個word文檔,上傳完一部電影,修改一個帖子,發送1條微信消息,這些要麼被順序寫入硬碟,要麼被寫入專業的資料庫或文件系統。這是存儲典型的一個應用場景,就是不斷響應從業務或軟體發送的數據保存需求,文檔,電影,帖子最後只會有最新的一個狀態,歷史的狀態一直被最新的狀態覆蓋。
既然有新增,那就也有刪除,也有修改,所以存儲並不識別上層軟體的意圖,可能是正常,也可能是惡意入侵,或誤操作,新增和刪除同樣在底層會進行操作。部分存儲設計,帶有一定的備份恢復能力,當然要想使用備份恢復能力,可能比部署一套備份方案,來的成本會更大。我們都知道恢復一個硬碟的數據,通常得數上千塊,硬碟不值錢,但裡面的數據值錢。
解決新增,刪除,修改等有意無意的行為對數據存儲系統帶來的影響,這時候得專業功能-備份上場。備份系統最主要考慮的一個功能就是時間線版本凍結和回溯。每次對存儲系統的備份,都會形成1個當前備份時刻的數據鏡像版本,恢復的時候就可以直接選擇對應的版本恢復,數據就回到從前那一時刻狀態。當然不同的產品實現備份方案不一樣,對於基於混合雲架構的多備份來說,版本理論上可以一直保持下來,想怎麼恢復,就怎麼恢復。另外,不同的實現,鏡像的一致性結果不盡相同。對於一致性要求高的場景,版本可能會凍結寫請求,如資料庫備份直接加寫鎖,這時候對業務會有短時間影響;如果你說自己是土豪出得起價,需要對業務系統幾乎無幹擾,幾十上百萬無所謂,則可以購買比較牛的連續數據保護方案(CDP),如國外的飛康CDP。
在我們日常概念中,存儲就等於安全,特別是雲計算概念出現後,包括周邊的一些技術高手也有類似看法,實際上這是一個誤區。
從最常用的機械硬碟開始,通常圍繞溫度,讀寫壽命,抗衝擊力等設計,一些硬碟在讀寫超過幾百TB後,就開始工作不正常,SSD硬碟在環境溫度變化,可能也會引起數據有效性變化。隨著存儲安全技術的加強,出現了冗餘整理的技術,把多塊硬碟進行聚合,數據寫入多塊硬碟;提高了單塊硬碟的可靠性。進入到NAS,SAN等專用存儲解決方案後,通過冗餘陣列,通道冗餘,快照鏡像等技術,進一步提高了存儲容量和整個讀寫環節的可靠性。但這些都是圍繞硬體故障或存儲區域故障進行設計。雲存儲,包括對象存儲和彈性塊存儲,核心設計目標依然是數據在硬體或存儲節點或區域系統出問題時候,有能力從其它節點恢復。
備份系統一個重要設計思想就是圍繞恢復設計。備份把數據從1個節點,一個系統複製到另外一個節點,一個系統,規避了硬體、軟體在同一時期發生問題的可能性;備份系統通常會在數據存儲這裡增加高級別的冗餘配置,或冗餘複製,或低成本的算術冗餘數據分布。備份系統通過時間版本化,空間冗餘分布進一步規避了因為各種有意,無意的數據讀寫動作,包括人為操作,系統故障,軟體缺陷,黑客入侵,病毒,自然災難等,引起的數據丟失,新增,修改等問題。一些設計得比較好的方案,會輕鬆還原數據。即時在備份系統軟體出現問題,也能把數據通過一定的流程還原回去。多備份在業務系統出現問題後,甚至可以在選定資料庫表或某1個文件獨立恢復;如果數據採用混合雲模式,數據再TB級別,也可以在極其短暫的情況下恢復到業務系統中。
電腦從IDE硬碟,升級到SSD硬碟,作業系統啟動速度,軟體運行的速度明顯不一樣。業務系統從普通的硬碟存儲,過度到專業級SAN全光纖存儲,甚至對數據進行上幾百GB的全內存加速,目的就是為了提高數據讀寫的速度,提升終端用戶的體驗。所以,存儲系統通常會圍繞IOPS指標來選型,場景不一樣IOPS的選擇也不一樣。當然價格也不一樣。雲存儲涉及到的彈性塊存儲,以及對象存儲都有同樣的考量指標 ,目標筆者了解到的是,彈性塊存儲通常在幾十MB左右,而結合SSD方案的,則可以到上百MB。雲存儲為了提高讀的能力,通常結合了CDN技術。部分廠家還提供了上傳加速,比如七牛。
備份系統,非常關注一次備份和恢復的時間窗口,主要原因在於大部分備份系統是構建在生產主系統之上。通常備份越快,對業務系統的影響越小。業務系統的場景非常複雜,有的是文件大,如視頻,圖片,系統壓縮文件,如多備份不少客戶是資料庫壓縮後的文件進行備份,但單個文件得幾百GB ;有的客戶是海量的文件,如郵件系統,規模上TB級,數量也在億級別。如何在最短之內把數據備份完成,通常是一個比較辣手的問題。在這塊包括先壓縮後備份,先歸檔再備份,或者直接快照後再備份等各種方案都有。基本上總結起來就包括文件系統級的,IO塊級別的,或者快照級別的備份。文件系統級實施簡單,價格低,性能受限文件系統IO能力;IO塊級別實施複雜,價格貴,通常需要變化存儲架構;快照級別可能對存儲架構會有調整,適合規模小一點的。傳統主流大廠的方案一般都會有以上幾個組合。多備份目前聚焦在文件系統對象級,IO塊和快照方案作為輔組;結合變掃描邊備份,實時發現,智能壓縮,自適應CPU硬體加密等方案,儘可能減低處理時間。依賴備份方案,恢復的機制相應也不一樣,恢復速度也不一樣; 對於純粹的備份來說,按照備份對象序列差異式的恢復變化的內容,依然是一個可靠與速度平衡的解決思路,且在目標系統可用的情況下,是非常合適的一個方案。如果對於做了異地備份的情況,災難式的恢復通常會受限於網絡通道。
這裡的變大,是指存儲解決的問題是如何存儲超大規模的數據。在我們日常話題中,通常溝通交流的是誰家的硬碟支持1TB,2TB,4TB等,業務系統支持多少用戶規模,產生了多少TB數據,資料庫存儲規模如何等, 衡量一個存儲系統設計的是否好,就是在大規模數據下,系統反應良好,用戶感覺流暢。而支持這一目標,通常會說存儲伺服器支持的硬碟塊數,單塊硬碟的容量,當然IO通道能力也是配套指標。
為了支持足夠的大,配上專門的存儲交換機,快速把大容量存儲陣列映射到不同的伺服器上;而數據集中存儲在SAN網絡中,有的高達幾百TB甚至PB級別。即使這樣,支持壓縮的特性也能派上用場,特別巨大的數據量,對存儲的數據默認進行壓縮或去重,降低數據佔用空間。雲存儲的出現,更是把容量推向了幾乎無限;單個雲平臺或者準確受限於存儲機房區域的容量和區域的數量。由於動態擴容特性,當存儲網絡不夠時,在IDC空間足夠的情況下,可以不斷增加節點完成存儲節點的增加。
通常當數據足夠大,數據足夠久的時候,數據就需要歸檔備份起來。而備份就是解決如何保持完整的數據同時,能更好的減低存儲開銷。所以,一般來說,由於備份會採取在原端去重,或存儲端全局去重等技術,保持最小的備份空間。同時包括壓縮等方案,也會自動在備份流程中引入。在傳統的實施方案中,由於要定期作全量,數據會變得很大,所以一般保留3個月,或半年,或按年做次全量等策略 ; 在快照模型下,由於產生的數據規模比較大,通常雲主機對雲磁碟採取的快照備份一般也保持幾個快照。傳統備份產品也有全增量策略,只是結合硬體存儲方案,使用和管理成本依然還是比較高; 多備份採取的全增量策略,優勢主要集中在混合雲索引增量模型,數據保持最小增長規模可靠存儲的同時,還可以保持更簡單的快速恢復體驗,大規模數據備份非常省空間。
存儲主要重點解決原始產生數據的正常存放和讀取問題,包括媒介,以及存放讀取方法,
比如數據通過文件系統或專門的訪問接口保存在U盤,硬碟,光碟,磁碟陣列,NAS,SAN存儲網絡,雲存儲等。一般個人存儲和企業存儲在讀寫性能,安全,可靠性,可管理性,服務質量承諾等方面存在本質區別。正如硬碟,網盤永遠是解決個人照片,非敏感資料等存儲需求,而SAN,NAS,企業級雲存儲服務則是企業重要資料存取方案。性能,容量,規避單節點,單區域依然是最求的最大設計目標,備份依然不是其重點解決點; 進一步,基於雲存儲的模型,產生了用於保存相對冷數據的服務,包括Google,AWS,還有阿里雲的歸檔服務。這為歷史累計不常用的數據歸檔備份打下了基礎,但普通個人或企業也難於直接使用。
備份則通過定期或實時複製技術,應對各類人為,軟體故障,系統故障,自然災難引起的數據丟失,損壞,出錯等問題
U盤備份,硬碟備份,磁帶備份,光碟備份,本地備份,異地備份,雲備份,本地與雲結合的混合雲模式備份等類型,以及CDP 實時備份保護等。手動複製到U盤,硬碟構成一個最簡單的備份方案。但涉及到大規模數據,保護服務或系統數量增加,以及資料的敏感控制,生產系統資源佔用控制管理等需求,只要用專業的保護方案才能解決。
最新的系統與數據備份保護趨勢將逐步超出備份範疇,智能化數據管理,數據保護虛擬化,以及和各種雲環境的融合,與數據安全的融合將是重要的發展方向 ;備份即是立即可用的服務,備份即是保護服務,備份即是數據虛擬化,備份即是數據服務,備份即是數據遷移服務等是重要的數據管理和數據應用發展方向。目前巨頭和多備份等一些創新類企業等已經在加快邁向這個趨勢。
作者簡介:
胡茂華:多備份聯合創始人& CEO ,曾就職於騰訊、盛大(旅遊)、1號店,歷任總監、CTO、技術副總裁;曾全面負責過騰訊網運維平臺建設、門戶產品的研發及管理,有豐富的海量服務系統建設、運維經驗以及產品管理經驗,曾任2008北京奧運會騰訊技術保障團隊副組長;在盛大集團全資子公司盛大旅遊公司全面負責其技術團隊組建以及旅遊社區遊玩網和LBS產品切客的研發管理工作;在1號店負責電商核心系統ERP的研發管理和公司運維部的管理工作。