雲磁碟故障的技術解讀 鵬雲網絡ZettaStor有答案

2021-02-07 存儲在線

騰訊雲磁碟故障導致「前沿數控」數據丟失一事,有關各方進行了一系列解讀,但大多沒有擺脫借題炒作之嫌,真正地技術解讀倒是被棄之一旁,這也是一種悲哀!

在國內環境條件下,對於故障進行技術解讀是一個很困難的事情,主要障礙在於事件的信息披露,牽涉到追責的問題,當事方常常不能如實透露事件真相,從而讓技術解讀成為了無源之水。

為騰訊雲點讚!

與國內大多數故障事件不同,騰訊雲對於雲磁碟故障信息披露,實事求是的態度值得點讚!

試想如果騰訊雲堅持以「部分雲硬碟IO異常」為由進行搪塞,那麼真相就不會公之於眾,更談不上什麼技術分析。就像人會生病一樣,IT系統會發生故障,其實是最正常不過的事情,沒有什麼好隱瞞的!

在8月8日聲明中,騰訊雲故障進行了還原。

首先是雲存儲系統擴容要進行數據遷移,在數據遷移過程中,為了追求速度,人為/運維違章操作,沒有進行數據校驗,原有數據過早刪除。恰逢磁碟靜默錯誤,導致數據無法恢復!

這裡提到了磁碟靜默錯誤,簡單說就是數據處理過程都是正常的,但是使用時才會發現數據錯誤,造成靜默數據錯誤,磁碟本身的原因主要是固件錯誤以及硬碟介質本身的原因(如噪聲、電磁等)。

橫向擴展和數據遷移

此次故障原因清楚了,但也衍生、延展出來更多技術話題。

首先,數據遷移是由存儲系統擴容引起的。對於雲存儲來說,不是橫向擴展Scale out嗎?擴容就是了,為什麼要進行數據遷移呢?

這是一個非常有意思的話題。

為此,我也請教了軟體定義存儲的專業廠商,得到鵬雲網絡、華雲網際等廠商專家的支持!在技術方面,他們是很有實力的廠商。以鵬雲網絡為例,創始人陳靚曾長期擔任美國亞馬遜AWS 核心構架師,帶領團隊進行 S3 雲存儲系統深度優化,並主持 Glacier 存儲系統的設計和研發。

專家提示說,軟體定義存儲或者稱雲存儲有不同的技術實現方式,有Paxos /Raft 、Zookeeper、DHT(Distributed Hash Table)等不同元數據管理方法。

其中,DHT是根據一致性哈希的方式計算出來,其好處是極大降低了元數據服務存儲壓力和訪問壓力。但弱點在於對於容量規模要有很好的預計,如果涉及添加節點,移除節點,添加磁碟,移除磁碟的情況,由於哈希環會發生變化,一部分數據需要重新分布,會在集群中產生不必要的數據遷移,而且數據量往往非常大。

這也是為什麼,有推測認為騰訊雲存儲採用了DHT方式來構建,當然推測未經過證實。

實際上,即使不採用DHT。雲存儲單一資源池的規模也是有上限的,也就是說,集群內節點數量是由最佳實踐的。以VSAN為例,有64個節點數量的限制;Ceph(DHT)是256,超過出這個限,節點之間網絡通信的複雜度,以及效率都難以得到保障。

對於騰訊雲存儲來說,對外提供公有雲服務,同時支持多個用戶,數據規模和增長速度達到上限,這是可以想像的事情。因此,數據遷移在所難免!這一點,鵬雲網絡、華雲網際的專家都是肯定的。

數據遷移的話題

專家指出:數據遷移不是災難,磁碟靜默錯誤也不是大問題,甚至違章操作關閉檢驗也不是致命的問題!

那麼數據是怎麼丟的呢?

實際上,磁碟靜默錯誤是非常小概率的事件,是個別磁碟問題。要知道雲存儲數據有多副本保護,完全可以應對小概率事件導致的錯誤。

試想一下,如果是對雲存儲系統進行完整的數據遷移,即使關閉了校驗,仍然有三副本(或者兩副本)數據存儲,應該可以應對磁碟靜默錯誤。

那麼,副本為什麼沒有發揮作用呢?

據專家推測,其數據遷移的過程並沒有進行完整的數據遷移;估計就是遷移了主數據樣本,並製作了三副本保護,遷移過程違章關閉了檢驗。如果主數據有誤,其製作的副本數據也是錯誤的。加上,原有數據刪除過早,造成了難以挽回的錯誤。

所以數據遷移、靜默錯誤、關閉校驗都不是問題的元兇!一系列問題疊加才是數據丟失的根本原因。

試想,騰訊雲支持租戶眾多,為什麼只有「前沿數控」中招了呢?只能說這是一個小概率事件!

「對於雲存儲或稱軟體定義存儲,高性能和高可擴展度是必須考慮的因素,以鵬雲ZettaStor DBS為例,可從幾臺伺服器起步,擴展至上百萬臺伺服器規模 , 且保持穩定和高性能。從底層進行磁碟性能優化,實現了同樣數量磁碟3倍以上的性能表現。」專家說。

全流程數據校驗更是需要著重考慮問題。分布式緩存一致、全流程數據校驗、磁碟修復等全方位技術手段,也是鵬雲ZettaStor DBS的顯著特徵。

快照和備份的話題

當事件發生之後,數據保護肯定是一個繞不開的話題。

很可悲的是,很多雲租戶會認為:備份、快照是雲存儲天生具備的屬性,這樣的想法就太天真了。

一來不是所有的應用都需要保護的;二來如果作為默認的屬性,那麼由此導致的價格提升,這是用戶願意承受的嗎?

有人指出:作為一家1000萬元業務規模的公司,「前沿數據」不知都對數據進行保護,數據處於近乎「裸奔」的狀態,這樣的經營意識也是沒誰了!咎由自取!

類似的事情很多,很多時候,也不是水平和意識的問題,還是跟錢有關係。

數據保護是要花錢的!而且應對的是小概率事件!

鋌而走險,有時候也是無奈之舉。

那麼,騰訊雲不是提供了免費的快照服務嗎?

既然,如此當事者就應該責怪自己,為什麼不在快照的選項上打個√呢?即使打了√,用戶也應該知道並不是萬事大吉的。

快照有它的作用和限制。

首先,沒有辦法無限制的打快照,因為會影響性能;二來,快照只是記錄了磁碟數據變化的一種狀態,數據恢復需要依賴磁碟原始的數據;單純依賴快照是沒有辦法恢復數據的。

有關數據備份,所針對的包括硬體故障,其這一點的作用和副本是相同;不同之處在於,數據備份還可以針對邏輯故障,在這種情況下,錯誤不是硬體造成的,而是人員操作失誤造成的,如輸入錯誤,刪錯數據等。藉助快照、日誌等數據備份,可以對錯誤進行修正。

一句話,不同的應用需要不同的數據保護。從雙活數據中心,到CDP、備份,等級不同,效果和作用也不同,當然其費用支出也不同。因此,鋌而走險也是可以的,需要的前提是:你的運氣足夠好!

小結

亡羊補牢,從中汲取教訓是當務之急!

但是更加重要的,還是應該是對於技術的掌握和了解!相同的是:它們都叫軟體定義存儲或者雲存儲,不同的是,他們的技術方案不盡相同。以校驗為例,鵬雲網絡的方案設計、華雲網際、VASN、Ceph的方案設計各不相同。

對於這些不同設計方案的選型,其實沒有捷徑的方法可以選擇!惟有不斷地了解技術,並根據應用的實際情況加以選擇,別無他法!

相關焦點

  • 百度智能雲推出雲磁碟CDS實例快照功能,輕鬆實現整機數據備份
    哆啦A夢有一個神奇工具是「時光穿梭機」,「嗖」的一下,就回到了過去。你想和它一樣擁有這樣的工具嗎?比如在磁碟中,想回滾到什麼時候就回滾到什麼時候,想一塊磁碟回滾也行,想全部雲磁碟回滾也行。是不是很讓人激動?
  • 百度智能雲推14款ABC新產品 覆蓋多應用最高降價50%
    4月11日,2019ABC INSPIRE百度雲智峰會上,百度副總裁、百度智能雲總經理尹世明宣布,「百度雲」品牌升級為「百度智能雲」,並發布了14款ABC新產品,升級百度智能視頻平臺和3大視頻行業解決方案。據了解,百度智能雲在大會上發布的14款ABC新產品涉及主機、計算、網絡、存儲、資料庫、安全等。
  • 鵬博士電信傳媒集團股份有限公司關於通過數據中心聯盟「可信雲...
    原標題:鵬博士電信傳媒集團股份有限公司關於通過數據中心聯盟「可信雲」認證的公告  證券簡稱:鵬博士 證券代碼:600804公告編號:臨2017-015  證券代碼:122132 證券簡稱:12鵬博債  鵬博士電信傳媒集團股份有限公司  關於通過數據中心聯盟「可信雲」認證的公告  本公司董事會及全體董事保證本公告內容不存在任何虛假記載
  • 感受雲資料庫的魅力 Cloud TiDB技術解讀
    在雲時代,容器成為應用分發部署的基本單位,而谷歌基於內部使用數十年的容器編排系統 Borg 經驗推出的開源容器編排系統 Kubernetes 成為當前容器編排技術的主流。作為 Cloud Native Database,TiDB 選擇擁抱容器技術,並與 Kubernetes 進行深度整合,使其可以非常方便地基於 Kubernetes 完成資料庫的自動化管理。
  • Azure網絡開發負責人Albert Greenberg:微軟SDN技術解讀
    Albert Greenberg是微軟的傑出工程師,也是微軟Azure部門網絡開發的負責人,他在SDN上開展工作已經有10年的時間。Albert Greenberg日前接受了CSDN記者的專訪,介紹了他在SDN方面的工作,並深入解讀了他對SDN技術及其發展的認識。
  • 鵬博士:淨利潤同比增長 576.36%,「雲網+IDC」確立第二成長曲線
    另外,公司利用自身中立地位、業務全面、機制靈活的優勢,搭建跨雲(雲廠商)跨網(基礎運營商網絡)的雲網交換平臺、 融合雲平臺,推動智慧雲網一體化業務。 財務的調整保證公司的風險出清,而業務的革新為公司佇立了新的增長點。
  • 如何通過雲定位工程機械故障?
    近幾年,在國內各大知名企業帶頭下,改變傳統的作業方式和動力方式,在國內開始工程機械的電動化、智能化、無人化部署,開發基於大數據的故障診斷技術,實現工程機械平臺化管理。ZWS-CAN如何降低工程機械測試及故障排查難度?工程機械上的CAN數據總線控制技術較為成熟,其控制軟體應用層不易出現故障,其故障一般都是由CAN總線物理層以及數據鏈路層出現問題引起。工程機械裝備系統內部CAN節點眾多,若現場出現CAN通訊故障,通常需要工程師帶著諸如USBCAN卡等測試工具去現場進行排查。如果是常規的故障問題,現場工程師定位故障相對比較容易。
  • 鵬博士打造全新網絡應用「備線通」 讓業務備線走入按需按時計費時代
    2020年11月28日,由中國通信學會指導,江蘇省未來網絡創新研究院主辦,SDNLAB承辦的第三屆中國SD-WAN峰會在北京舉行。會上,鵬博士全球網絡通信事業部發布了全新應用「備線通」,並展出了「PengSWAN解決方案」、「小朋管家」等產品和服務,榮獲了「2020年度SD-WAN Awards年度評選技術創新獎」。
  • 全球公有雲一哥十年宕機故障大全
    AWS網絡服務中斷,持續時間不詳。2012年10月22日,亞馬遜位於北維吉尼亞的網絡服務AWS中斷。事故影響了包括Reddit、Pinterest等知名大網站。中斷影響了彈性魔豆服務,其後是彈性魔豆服務的控制臺,關係資料庫服務,彈性緩存,彈性計算雲EC2,以及雲搜索。
  • 百度智能雲新品問世/價格腰斬 能否撐起百度AI TO B野心?
    在技術上,BTS有多級壓縮技術,IO消耗相比Hbase直降40%以上,並行無鎖數據結構,多線程吞吐,寫性能提升50%以上。尤其是其中的Schema Free方便支持到百萬例單標線性擴展到PB級別;千萬級別的TPS。
  • 靜電感應對網絡傳輸有哪些影響 怎樣預防靜電感應帶來的網絡故障
    引起網絡反應遲鈍現象的原因有多種,但有一種因素往往不大引人注意,那就是靜電感應;由於靜電感應不起眼,大家在排除故障的過程中常常會忽視它,殊不知感應靜電既能使網卡無故「罷工」,又能影響網絡信號的正常傳輸。
  • 鵬博士榮獲2020第九屆上市公司信息技術產業最具成長性上市公司獎...
    鵬博士(600804)憑藉優異的市場表現獲得「信息技術產業最具成長性上市公司獎」,此次獲獎體現了業內及資本市場對鵬博士未來發展和長期投資價值的認可。  本次評選歷經網絡提名、大數據篩選、數據模型篩選,及公眾投票和專家組評審等多個步驟。尤其,在建模測算過程中設置了更加複雜的量化科學體系,通過模型檢驗才能進入公眾投票和專家組評審的環節。
  • 網絡故障排除工具:快速定位網絡故障
    網絡故障排除對於網絡技術專家和網絡工程師是頗具挑戰的工作。每當添加新的設備或網絡發生變更時,新的問題就會出現,而且很難確定問題出在哪裡。每一位網絡工程師或專家都有自己的經驗和必備工具,能讓他們快速定位網絡故障。以下的這些工具,是否是你的工具箱中的選項。 1、Nmap Nmap是開源工具,它被稱作網絡故障排除的「瑞士軍刀」。它基本上是使用超級功能Ping,廣播數據包來識別主機,包括主機的開放埠和作業系統版本。
  • 新基建·領行者|鵬博士大數據:深耕穩做,多點開花
    自3月初中共中央政治局常委會會議提出「加快5G網絡、數據中心等新型基礎設施建設進度」以來,數據中心相關行業探討「新基建」的熱潮持續升溫。我們認為,國內數據中心行業的精英們早已投身新型基礎設施建設,大家在解讀機遇、展望趨勢的同時,也應該多觀察行業領先客戶和供應商的實踐經驗,更好的把握新型基礎設施的發展方向。
  • 華為雲首次突發大規模「宕機」故障!雲服務安全再引發行業關注
    從網友眾說紛紜中推測,此次的宕機事件或因北京機房出現故障導致,也有開發者稱也許是存儲服務出現問題造成的被迫關機。事故發生後,華為方面進行了快速運維,截至中午11點45分,華為雲在其微博上發布聲明稱基本業務已恢復,雖然已經得到官方修復公告的回應,但仍有不少用戶表示「登錄不上」。有網友表示,初步恢復到可登錄的狀態,用戶信息資料庫連不上,推測應該是虛擬化平臺的問題。
  • 「答案分享」智慧樹雲計算技術答案
    ( )A:對B:錯正確答案:「對」2雲計算涉及以下哪些技術( )。A:作業系統B:計算機網絡C:分布式系統D:各選項均正確正確答案:「各選項均正確」第二章 單元測試1雲數據中心對網絡延時要求較高( )A:對B:錯正確答案:「對」3雲數據中心往往有成千上萬個節點。
  • 鵬雲網絡受邀出席神州雲科新品發布會 推動核心技術發展
    近期,鵬雲網絡受邀參加神州雲科Elastic新品發布會。神州數碼集團旗下神州雲科基於多年行業實踐與技術積累隆重發布了分布式Block存儲Elastic,作為先進雲計算領域的領導品牌,鵬雲網絡創始人兼CTO陳靚受邀出席。
  • 南澳考試遭遇網絡技術故障,近三千考生錯過心理學考試
    不過,該組織表示,由於出現「不可預見的」技術故障,南澳2720名學生未能完成成績佔比30%的該科考試。 該學科成績對他們的ATAR排名有影響。
  • 技術乾貨|Oracle RAC上雲怎麼玩?
    而深信服超融合實現了計算、存儲、網絡、安全的完全軟體定義和融合,不僅極大簡化IT的運維工作,還能夠為業務的快速變化提供快速的響應能力。深信服企業級雲正是基於超融合架構構建,能夠承載Oracle RAC、MySQL、HIS等關鍵應用的企業級雲解決方案。
  • 借力雲管理網絡 蘭州大學開啟智慧校園新時代
    如果說智慧校園的建設是為了讓校園工作、學習和生活更加便捷、高效、智能,那麼網絡就相當於是智慧校園的「神經系統」。要做好複雜的「神經系統」管理並非易事,但在校園面積3800多畝、建有6個校區、擁有4萬多師生的蘭州大學,卻做到了上萬臺無線AP的運維管理只需要藉助一個雲管理平臺就可以輕鬆實現。蘭州大學是如何做到這一點的呢?且聽我慢慢道來。