1支付寶和攜程事件引關注
「攤上事了」曾是一句網絡流行語,而近兩天網際網路有兩個企業真的「出事」,5月27日下午5點開始的支付寶故障,是因為光纜被挖掘機挖斷造成手機和電腦支付寶無法登陸、餘額錯誤等問題。僅僅一天時間,攜程網和App在28日完全登陸不上去,網上傳出攜程全線酒店資料庫物理刪除的消息,攜程官方也發布聲明稱,遭到不明攻擊,網站和App陷入癱瘓無法正常使用。而兩件事一前一後的發生,引發整個行業的關注,背後更多是對數據安全和保護的討論。
隨著雲計算和大數據的逐步普及,人們在網際網路應用方面的資產託付越來越重。支付寶的宕機和攜程數據的安全提醒用戶,風險無處不在。由於兩個事件已經深入到日常用戶的資金和信息使用上,「出事」後傳播之快,影響之大,使得業界再一次引發對於數據安全和數據中心容災備份的關注。
支付寶官方微博
5月27日下午17時左右,許多網友反映支付寶故障,在登陸手機支付寶錢包時,頁面顯示請求超時「請稍後在試」、餘額寶等其他多款產品均無法使用。
5月27日18時,支付寶通過微博發布消息,承認支付寶使用出現故障,原因是杭州市蕭山區某地光纜被挖斷,支付寶官方說明不會對用戶的資金安全有任何影響。
到晚上19時20分,支付寶宣布用戶服務已經恢復正常,全程歷時2個多小時。雖然事件逐漸平息,但支付寶又一次被推到風口浪尖,一根光纖就導致如此大面積的「崩潰」,可見支付寶的容災備份和恢復機制還有待提升。
攜程官方網站
相比支付寶,攜程旅行網官方網站28日突然陷入癱瘓,打開主頁後顯示「Service Unavailable」,而攜程官方頁面也顯示404錯誤。對於此次官網癱瘓的原因。攜程官方回應稱,「5月28日上午11:09,因攜程部分伺服器遭到不明攻擊,導致官方網站及APP暫時無法正常使用,目前正在緊急恢復,對用戶造成的不便,深表歉意。」
事件的背後據了解,支付寶在系統上採用了「異地雙活」架構,即杭州和外地兩處機房同時為用戶提供服務,系統會自動將全國所有用戶的需求分流到兩處機房。而在光纖被挖斷的意外發生後,支付寶立即將用戶發往杭州機房的需求引流至異地的機房,所以在受損光纖並未接通的情況下,支付寶服務已經可以恢復正常。但業內人士強調,針對金融業務來說,2小時的恢復時間可以算是一次重大事故。
究其原因,筆者並不想過多的談論觀點,或是列舉網友一些所謂的「玩笑」,從事件本身展開,更多是讓其他的用戶和企業去不斷完善相關IT建設和數據安全保障重要性,由此展開針對數據中心容災備份的一些注意和經驗的提供。
2數據中心災備備份的重要性
對於數據中心而言,當數據遭到破壞時是一場災難。也許很多企業很幸運,從來沒有經歷過數據丟失。但是,正是由於這種事情極少發生以及保持數據的完整性是非常重要的,正如支付寶和攜程事件,告誡企業通過跳過備份來「節省」時間和資源似乎是沒有問題的。
這樣來說,會有人問何為「容災」?其實簡單的說就是儘量減少和避免災難發生所造成的數據損失。備份和恢復是這個「容災」中最重要的部分,提供數據的恢復和保管能力。另外,還要有提高數據可用性的能力,以及預防自然災難所造成的對系統存儲數據的影響和損失。
數據備份(圖片來源qualitechcomputers.com)
提到容災,首先想到數據備份,到底數據備份和容災是怎樣的關係?對於企業來說,這種關係體現在什麼方面才是最關心的。企業關鍵數據的丟失會很大程度上影響業務發展,同時造成嚴重經濟損失。但是很多企業至今都沒有理解容災,認為簡單的建立備份系統之後就認為高枕無憂,其實容災系統也是不可缺少的一環,其相互關係可以說明容災系統的重要性。
有業內人士說,數據中心進行備份是非常重要的,這個理由是非常明顯的。但數據備份最佳做法的列表是沒有窮盡的。有些最佳做法在某些情況下是好用的,而有些規則總是合理的。不管怎樣,備份都是非常重要的和不可忽視的。因此,企業通過試驗各種方法並且看哪一種方法最適合你,要儘可能提前進行學習以便避開一些陷阱。
筆者認為,數據備份可以說是企業數據可用性的最後一道防線,其目的為了在系統崩潰時能夠快速的恢復數據。儘管這也是體現容災的一種形式,但是能力有限。因為如今傳統的備份還是採用數據內外磁帶機進行冷備份,備份機制也統一在機房中管理,一旦機房陷入災難,備份磁帶上的數據也將毀壞,起不到有效保護數據安全作用。
另外,數據備份還是最基礎的形式,沒有數據備份任何容災都沒有現實意義。但光有備份是不夠,真正的數據容災就是能夠彌補傳統備份不足,在災難發生時可以及時恢復整個系統。所以,容災對於IT而言就是提供一個能夠防止各種災難的計算機信息系統。
實時進行備份。最新的備份總是有用的。例如,在銀行、在線交易等方面,只有實時的備份才是有用的。實時的備份不需要更多的資源。但是,如果你的數據是時間敏感性的,那麼,實時備份只是一種選擇。即使你的數據不是時間敏感性的,它對於實時備份也沒有影響。為了增加額外的保護,你可以備份已經備份的數據。對於重要的數據來說,對已經備份的數據進行備份不是浪費時間。
定期備份需要時間和取決於你在使用的具體備份程序。備份可能會影響到你的數據中心的正常工作。
3備份僅僅是容災的一個開始
對於一個企業來說,數據進行備份僅僅是整個容災工作的開始,備份目的就是為了能在系統故障的時候進行有效恢復。但對於很多企業來講,特別是中小企業,數據備份只是一項簡單的工作,對於容災計劃方面沒有弄清楚真正的意義,根本沒有把數據容災放在首要位置,所以會導致在容災恢復上出現問題。
容災恢復上出現問題
首先,不清楚容災意義。企業對於容災沒有進行效果方面的評估,認為花費巨大的精力和財力在數據備份方面,最終在問題出現時候就是簡單的覆蓋恢復,沒有真正的感受到效果方面的實際意義。甚至缺乏完全的文檔化恢復計劃和措施。
其次,容災計劃可行性許多企業在弄清楚容災意義,並不是有效的進行計劃,導致很多容災計劃只是在想當然的情況下進行的編寫,沒有進行過任何的模擬演練,缺乏真正的可行性。最終一旦災難發生,根本就起不到足夠的容災作用,數據根本沒有辦法有效恢復。
第三,容災沒有可用配置文檔。對於大型企業而言,在容災備份方面有著專業的IT人才,並不缺乏相關的經驗和手段。但是,對於一些企業,特別是中小企業沒有對於當前系統配置和相關文件的必要存檔。在進行容災恢復時,找不到相應的原始系統配置文檔,導致給災難恢復帶來不必要的困難。
此外,對於容災備份,許多企業僅僅對於一些需要長期保存的數據進行簡單的季度備份、年度備份,特別是一些文檔資料。企業這個時候沒有對這類文檔進行有效的多份備用策略,致使一旦出現類似問題數據造成丟失。所以,對於這類需要長期保存的關鍵備份,可以採用不同地方保存至少2個以上的備份應用。
可見,隨著企業IT建設的高速發展,企業存儲的數據量也呈現爆炸式的增長。很多企業的數據中心,隨著業務的發展,產生了不同時間建設的多個IT子系統,隨著業務持續性要求的提升,數據中心的容災建設迫在眉睫。