災難恢復指標之RPO和RTO的技術實現

2021-02-13 中金數據業務連續性中心

現代企業中，數據是最重要的保護對象。大部分的中國企業，都遭受過計劃外宕機而導致數據的損壞或數據丟失，從而使企業蒙受了巨大的經濟損失。

可見，保證業務連續性至關重要。而傳統災備建設解決方案，難以構建靈活可靠的IT系統，來提升服務並降低風險。特別是隨著虛擬化數據中心和雲計算發展趨勢的到來，企業該如何保護爆發式的數據增長，在合適的成本下進一步縮短RTO和RTP指標。

傳統的基於業務的磁帶備份容災方式，在業務規模不大，或者對數據的RPO、RTO要求不高，比如在以天和小時為計量單位時，能夠較好的保護數據，並在發生數據丟失時，提供可操作的數據恢復方法。這裡面有很多成熟的產品和技術，比如IBM的TSM，Symantec的NBU，EMC的networker，可以搭配各種硬體備份設備，實現不同類型的備份。

但是隨著公司業務的發展和數據容量的增加，這種磁帶備份的容災方式在單個業務發生數據損失時，恢復方式尚可滿足要求，然而一旦多個業務同時出現數據問題，或者磁碟陣列本身發生故障造成多個或所有業務不可用時，幾十TB的大數據容量，採用這種恢復方式，數據恢復時間將成倍數級的延長，預計磁碟陣列數據的恢復時間需要以數天為單位，這將會超出很多業務的SLA要求。

為此，針對現代企業中，那些對災難發生時的RPO和RTO有較高要求的關鍵業務，需要考慮更為有效快捷的數據保護和恢復方式。如果有一種方式，可以將RPO從以天為單位控制到以小時為單位，甚至是故障發生前的幾分鐘到幾秒鐘，而RTO也控制在同樣數量級的話，對關鍵業務的持續可用性將有重大提升。

這裡引入CDP（Continuous Data Production）的概念。持續數據保護是一種連續捕獲和保存數據變化，並將變化後的數據獨立於初始數據進行保存的方法。CDP系統可以基於塊、文件或應用，並且為數量無限的可變恢復點提供精細的可恢復對象。在傳統數據保護技術中採用的是對「單時間點（SPIT，Single Point-In-Time）」的數據拷貝進行管理的模式，而持續數據保護可以實現對「任意時間點（APIT，Any Point-In-Time）」的數據訪問。

前面說的從傳統備份到基於CDP解決方案，基本實現了RPO從天到小時的轉換，但是一些核心業務系統，他們對RPO的要求更高，基本不允許有任何的數據丟失和業務中斷，也就是說要求RPO為0，對RTO的要求也接近於0，此時我們需要一種能夠在多個業務所在磁碟陣列發生故障時，

✦可以保障生產數據不丟失，並提供無中斷的數據恢復切換方式，自動的將數據掛載在無故障的盤陣上繼續運行，並且性能上不受影響，

✦它可以將不同品牌的存儲資源進行整合，形成存儲鏡像映射關係，將鏡像後的邏輯磁碟分配給前臺業務使用，業務在傳遞數據時，存儲在後臺自動同步備份，

✦在發生磁碟陣列故障時，同步備份數據能夠在不影響生產業務的情況下，無中斷的繼續使用。實現存儲系統零停機，同時對主機和業務系統完全透明。

此時我們考慮使用存儲虛擬化技術，這種數據保護和恢復方式，它的PRO就是0，RTO基本是接近於0，有一個存儲路徑切換的過程。市場上主流的存儲級別虛擬化產品，比如IBMSVC ,EMC VPLEX, NetApp V系列等,可以將我們的不同品牌系列的存儲進行多個層次的鏡像虛化。

經過上面的講述，對於數據中心的業務連續性保護，我們基本上形成了這樣一個金字塔形的結構，它們分別用於企業中普通IT系統，重要業務系統和核心業務系統。這樣針對企業內部各種應用業務，我們都有了對應的存儲連續性解決方案。但這裡需要提醒的是，並不是說RPO=0的技術方案就比RPO以天為單位的技術方案好，只是不同的業務應用有不同的需求，根據SLA服務協議，來判斷究竟使用何種方式。

未來，企業的數據中心工作都將轉向私有雲、公有雲或混合雲服務模式。我們的存儲也必須順應形勢，與新的數據中心操作和雲堆棧相協調，這樣它才能作為一種服務來使用。現階段已經有一些軟體定義的存儲來實現數據中心的轉型，使存儲走上一個簡單，可擴展和開放的體系。而未來，數據的連續性保護，也必然會變成一種服務的形式，獲得授權的用戶可以選擇滿足其應用的工作負載存儲，系統也將能自動為其分配對應的數據連續性保護方式。使我們的業務系統走上雲端。

相關焦點

談災難恢復指標:RTO與RPO什麼意思?

而天災和人禍是不可避免的，所以需要建立數據中心的災難恢復系統，來保證數據中心業務的安全性。建立災難恢復系統的目的，是為了在災難發生後能夠以最快速的恢復數據，保證企業業務的持續穩定運行，在數據中心災難恢復系統中，最常見的指標是恢復時間目標(RTO)和恢復點目標(RPO)。
認識數據中心兩個關鍵指標RTO和RPO

=======用來描述和評價數據中心有很多專有參數和指標，通過這些數據可以反映出數據中心的各種運行狀態，其中有兩個關鍵指標必須有所了解: RTO和RPO。RTO和RPO是數據中心災難恢復方面的重要參考指標。
RTO 與 RPO

一是恢復時間，企業能忍受多長時間沒有 IT，處於停業狀態；二是網絡多長時間能夠恢復；三是業務層面的恢復。整個恢復過程中，最關鍵的衡量指標有兩個：一個是 RTO，另一個是 RPO。所謂 RTO，Recovery Time Objective，它是指災難發生後，從 IT 系統當機導致業務停頓之時開始，到 IT 系統恢復至可以支持各部門運作、恢復運營之時，此兩點之間的時間段稱為 RTO。
恢復時間目標(RTO)和恢復點目標(RPO)的理解差異

企業可以立即切換故障應用程式，並連續複製其數據以實現接近零的損失。但是這些操作耗費資源並且很昂貴。實際上，IT部門需要根據預算、資源和應用優先級來設置不同的恢復時間和恢復點目標。如今，災難以多種形式出現。破壞、盜竊、遺失或自然災害都會使企業的應用程式崩潰並破壞其數據。在理想的情況下，企業的數據保護基礎設施可以立即在故障點時間恢復所有的應用程式和數據。
RPO RTO CDP 到底是些啥

指災難發生後，從系統停機導致業務停頓開始，到IT系統恢復，業務重新運營，中間所需要的時間。比如說災難發生後半天內便需要恢復，RTO值就是12小時。RTO是反映業務恢復及時性的指標，表示業務從中斷到恢復正常所需的時間。RTO值越小，代表容災系統的數據恢復能力越強。
雲祺輔導班∣RTO RPO你分清了嗎

根據國務院信息化工作辦公室領導編制的國家標準《信息系統災難恢復規範》(GB/T 20988-2007 )，有關於各個級別中RTO和RPO的要求指標如下：那RTO 、RPO分別指什麼呢？你分清它們了嗎？ RTO 、RPO是衡量災難恢復能力等級的兩個技術指標。
RTO/RPO與架構設計

可靠性的度量指標傳統上系統可靠性的度量指標有兩個：平均無故障時間（MTTF, Mean time to failure）是系統無故障運行的平均時間和平均恢復時間（MTTR, Mean time to restoration）指系統從發生故障到恢復正常之間的平均時間。
Oracle、MySQL等常用資料庫備份恢復典型問題分析

有條件的話，最好還是上一套備份系統，可以把企業所有的重要數據集中統一管理起來，如果確實沒條件，也可以自己規劃一下，主要有以下幾點：1、首先是調研和需求梳理，要對需要備份的資料庫系統做一個統計，明確下各個庫的rpo和rto，然後根據這些信息可以推算出備份的頻率和保存的周期，以及需要的存儲空間、大概的性能要求。
數據備份與災難恢復

災難備份是信息系統安全的關鍵基礎設施。重要信息系統必須構建災難備份和恢復系統，以防範和抵禦災難所帶來的毀滅性打擊。數據是極為寶貴的財富，要保證信息系統持續的運作和成功，就要保護基於計算機的信息。人為的錯誤、硬碟的損毀、電腦病毒、自然災害等都有可能造成數據的丟失，造成無可估量的損失。系統數據丟失會導致系統文件、交易資料、用戶資料、技術文件、財務帳目的丟失，業務將難以正常進行。
RPO 相對路徑覆蓋攻擊

主要是利用瀏覽器的一些特性和部分服務端的配置差異導致的漏洞，通過一些技巧，我們可以通過引入相對路徑來引入其他資源文件，以達到我們的目的。漏洞成因：RPO 依賴於瀏覽器和網絡伺服器的反應，基於伺服器的 Web 緩存技術和配置差異，以及伺服器和客戶端遊覽器的解析差異，利用前端代碼中加載的 css/js 的相對路徑來加載其他文件，最終瀏覽器將伺服器返回的不是 css/js 文件，而是當作 css/js 來解析，從而導致xss、信息洩露等漏洞產生。
實現薄膜電晶體技術和重要的設備指標

TFTs由於可以製備材料廣泛，從而具有不同的電氣和機械特性，因此可以用於各種創新應用。為了在大量新興應用中成功的李用TFT技術，比如柔性、可拉伸和透明大面積微電子技術，這裡有許多重要的指標。關鍵詞：載流子遷移率; 閾值電壓；接觸電阻；薄膜電晶體環顧四周，我們可以發現有個東西，光學顯示器已經變成了定義和形成我們現代生活環境不可分割的一部分。
混合雲應用於災難恢復的時機到了嗎?

「據Technology Business Research的分析師Allan Krans聲稱，倒不是說CIO和CEO對安全不大關注，尤其是說到雲，而是雲服務提供商在推出更好的安全解決方案。」――美國《計算機世界》，2014年12月18日去年，我採訪了一家率先部署混合雲災難恢復的一家企業組織的CIO。
賽門鐵克與惠普開發災難恢復方案

隨著企業數據存儲環境的不斷變化，市場對適用於面向內部部署、公有或託管雲等多重環境的災難恢復解決方案的需求也在不斷上升。惠普和賽門鐵克提供的DRaaS解決方案將利用惠普的企業雲，向客戶提供災難恢復服務，降低成本，並帶來自動化且自助的用戶體驗。這項服務不僅將幫助客戶達到系統和應用程式恢復服務協議水平(SLAs)，還將滿足業內安全標準。
人類與自然共同恢復的五大著名環境災難

自工業革命之後，人類活動越來越糟糕：物種滅絕加速、核災難頻發、萬年來維持地球氣候穩定的大氣層也在發生變化。值得一提的是，大自然總是試圖設法彌補，好比「野火燒不盡，春風吹又生」。但是很多情況下，人類造成的傷害太嚴重，大自然有時候也無能為力。但希望猶在。通過將我們的創造力和資源投入到基於科學的恢復項目中，我們可以彌補大自然的適應能力——甚至提高大自然的適應能力。
Cohesity - 適用於關鍵業務應用程式和數據的下一代自動災難恢復系統

有效的業務連續性和災難恢復解決方案使組織可以在IT或業務系統中斷後迅速恢復業務功能。由於自然災害，人為錯誤或勒索軟體攻擊，可能會發生中斷。停機對經濟造成的影響可能是組織所無法承受的，因為收入和客戶可能會轉移到其他地方。如果企業沒有做好準備，其中許多中斷還可能導致大量數據丟失，並給業務運營帶來嚴峻挑戰。
勒索病毒加密機理分析,數據備份與快速災難恢復能力建設是最後防線

應對策略應對勒索病毒的攻擊，任何的網絡安全的防範手段都不能保證百分百的安全，唯有數據備份與災難恢復能力建設是數據安全的最後一道防線，數據備份的RPO值決定業務系統遭受勒索後最小的數據損失量，災難恢復的複雜度和速度關乎到業務系統恢復的時間RTO和投入成本。
雲備份和恢復的優缺點

每個創新的解決方案都有其優點和缺點。雲備份也不例外。以下是雲備份的優缺點：(1)將數據從任何位置恢復到任何硬體無論在何處，雲備份都能夠恢復企業的業務數據。使用雲備份，無需重啟物理伺服器、更換損壞的硬碟或修復網絡問題。只要企業的硬體已啟動並正在運行，實現雲恢復只需點擊鍵盤即可。
基因編輯技術人類的災難/福音

我們將從已實現的利好和未來可能實現的利好兩方面展開論述。現階段，科學家利用基因編輯技術培育出轉基因農作物，抗除草劑的轉基因菸草、番茄，抗害蟲的轉基因棉、番茄、菸草，抗植物病毒的轉基因菸草。據統計，美國至少55%的大豆、40%的玉米為轉基因產品。基因編輯技術有效改善我們的農業。
媒體和娛樂行業的數據備份和恢復

|| 雲計算的備份和災難恢復? 儘管存在這些重要用例，但云計算備份和災難恢復(BDR)的產品卻嚴重不足：(1)備份到雲端以實現高性能備份和恢復到遠程位置：(2)備份來自SaaS提供商的基於雲計算的數據到定製的數據保護雲。問題是幾乎沒有廣播行業廠商在做這些事情。

災難恢復指標之RPO和RTO的技術實現

相關焦點

談災難恢復指標:RTO與RPO什麼意思?

認識數據中心兩個關鍵指標RTO和RPO

RTO 與 RPO

恢復時間目標(RTO)和恢復點目標(RPO)的理解差異

RPO RTO CDP 到底是些啥

雲祺輔導班∣RTO RPO你分清了嗎

RTO/RPO與架構設計

Oracle、MySQL等常用資料庫備份恢復典型問題分析

數據備份與災難恢復

RPO 相對路徑覆蓋攻擊

實現薄膜電晶體技術和重要的設備指標

混合雲應用於災難恢復的時機到了嗎?

賽門鐵克與惠普開發災難恢復方案

人類與自然共同恢復的五大著名環境災難

Cohesity - 適用於關鍵業務應用程式和數據的下一代自動災難恢復系統

勒索病毒加密機理分析,數據備份與快速災難恢復能力建設是最後防線

雲備份和恢復的優缺點

基因編輯技術人類的災難/福音

媒體和娛樂行業的數據備份和恢復