遠離宕機?存儲自動運維了解一下

2021-01-09 略懂的小咖

美國太平洋時間12月14日凌晨3點47分左右,YouTube、Google雲端硬碟,Gmail,Google Meet,Google文檔,Google搜索,Google Play,Google Home,Google Maps停服,這是谷歌近半年內第三次出現大規模宕機事件。

經過近50分鐘的緊急處理,相關服務在當地時間凌晨4點32分恢復正常,並向受到該問題影響的所有用戶表示歉意。

至於這次宕機的原因,來自谷歌官方的表述是「internal storage quota issue」。在谷歌后續的一份初步調查報告中,提到導致宕機的原因為「我們的自動配額管理系統出現了問題,降低了谷歌中央身份管理系統的容量,導致其在全球範圍內返回錯誤。因此,我們無法驗證用戶請求是否經過認證,並向用戶提供錯誤。」

那麼,這個「自動配額管理」是什麼意思呢?

存儲專家解釋道,數據在存儲盤中的存放,並不是「既來之,則安之」,而是需要規劃一個存儲池,被劃在這個池中的數據只能在對應的空間中存放。池子有多大,就是通過上面的「配額」來管理的。

這次導致谷歌宕機的「自動配額管理系統出現了問題」,就好比我們去坐火車,先要有一張票,才能上車。但是現在售票員在工作時間划水跑了,大家沒有買到票,結果人在站外著急瞪眼,車在站裡空空如也。

想要徹底避免類似問題,就需要我們的運維工作不僅僅監控磁碟是否寫滿並報警,還要做出資源池級別的容量監控,以便更進一步做出提前預測,避免自動額度管理系統「罷工」。華為AI運維提供面向池級、盤級、系統級的容量閾值監控、容量預測告警,同時,華為也提供自動資源發放管理的能力。

近期,科技巨頭公司、證券公司頻頻故障癱瘓,影響小則波及一個區域,大則波及全球。IT基礎設施層面的高可靠構築誠然是前提,是「金剛鑽」,但問題往往出現在運維階段,「手藝」怎麼樣,才是決定「瓷器活」能否做成的決定性因素。

有著深厚先進技術積累的科技、金融領域企業尚且在運維上頻頻觸礁,其他領域的風險和困境可想而知。

調查數據顯示,隨著全球數據規模的爆炸性增長,企業數據中心的故障中,存儲設備相關故障已經佔到70%以上。以某國際網際網路社交企業為例,每天需要修複數據高達24TB,每天修復帶來的跨機架流量高達180TB。技術和新應用的層出不窮,也帶來運維複雜化的副作用。

傳統的運維高度依賴人的經驗和精力,運維人員的一天就是從虛機、存儲,再到數據、網絡,更像一名企業的救火隊員。在全球產業邁進數位化、智能化的背景下,如何使能統一的AI運維,扭轉傳統「人拉肩抗」的局面,從而實現支持企業業務平穩運行,業務戰略突破的目標,已經逐漸成為全球行業頭部企業的共同訴求:

01

首先,運維系統從一個追求穩態的系統,走向追求穩態+敏態的系統。這就意味著,運維系統不僅要追求7*24小時的穩健運行,還要追求對業務的敏捷使能。

02

其次,運維已經不僅僅只是一個支撐系統,更多的是要與業務融合,成為一個生產系統,給業務帶來新的價值;

03

最後,運維的流程將慢慢地從「以人為中心」向「面向自動化的業務流程重構」,最終走向「自動駕駛」的IT運維系統。

在數據基礎設施運維層面,運維的自動化水平是數位化轉型的核心體現之一。特別是面向核心系統或新興業務,運維將更多地參與到生產系統中去,運維與業務的結合會越來越緊密。

只有讓更多的運維人員從繁雜的例行工作解放出來,才能投入到更加有創新性的工作中去。華為存儲基於智能運維平臺DME逐步構建面向智能運維的AI能力,圍繞客戶關心的設備異常、容量預警等關鍵場景為客戶業務的正常運行保駕護航。

具體來看看華為智能存儲運維有哪些「法寶」?

設備側+雲端容量預測

假設客戶能夠提前預知陣列或存儲池,甚至更細粒度對象的容量變化趨勢,那麼,由於容量配額不足所導致的服務宕機情況則會大大減少。華為提供「雲上+本地」聯動的運維能力,基於時序預測等關鍵技術,能夠向客戶提供未來最長365天的容量趨勢預測,並能夠提前預警80%配額,提醒用戶提前擴容。

提前14天風險盤預測

如今,通過華為存儲的異常檢測模型服務,可以提前14天預測到硬碟故障。華為硬碟異常檢測模型服務基於S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技術,每日採集數據中心硬碟數據(硬碟ID、SN、硬碟非安全斷電次數、通電時長),從歷史數據中識別硬碟不同屬性的突變模式對當前狀態進行預測,結合用戶反饋數據,定期執行模型自優化,持續提升預測精度。為DC硬碟提供主動運維。

截止目前,華為硬碟異常檢測模型已經服務於200+企業DC,幫助客戶提前14天識別硬碟故障或風險,預測的誤報率低於0.1%。

存儲性能異常預測管理

基於時間序列預測等關鍵技術的性能預測特性,以及基於閾值觸發的性能潮汐預警,能夠讓客戶預知設備關鍵性能指標變化趨勢。時延、IOPS、塊帶寬盡在掌握,以提早發現設備性能瓶頸點,輔助客戶儘早規避可能發生的異常。

傳統的專家經驗規則或靜態閾值預警,無法覆蓋大多數性能異常場景,且可能存在誤報漏報的情況。華為提供基於機器學習的關鍵性能KPI異常檢測及根因定界特性,無監督自學習的異常檢測模型能夠實時檢測設備時延是否異常,現網數據測試驗證,異常檢測準確率近90%;存儲設備內置基於多集成樹算法融合模型,外加皮爾遜相關性關聯分析算法,實現異常根因的定界分析。

華為智能存儲引擎DME基於「雲-中心-設備」三層AI架構,攜手客戶在智能運維的自動駕駛之路上不斷創新,持續擴大自動化的邊界。從被動運維走向主動運維,持續降低運維門檻及成本,實時確保客戶業務體驗最優。

相關焦點

  • 宕機時間少七倍,揭秘AWS基礎設施的運維之道
    任何設備都會壞數據中心等基礎設施是雲服務商的核心命脈,由於大部分雲服務商隨著業務的增長,其數據中心的規模和設備數量也會隨之膨脹,帶來的就是數據中心故障和宕機風險的增長。AWS作為全球雲計算巨頭,其數據中心規模無出其右,它又是如何看待風險以及解決風險的。
  • 昨晚,谷歌全球宕機,終於還是栽了!
    宕機的代價有多大?或許無人知曉確切的答案,但是可以粗略的估算一下。2013年穀歌曾發生過一次5分鐘的宕機,谷歌當年第二季度營收達到141億美元,相當於每分鐘營收10.8萬美元,換句話說,谷歌所有服務宕機5分鐘,其直接損失就是54.5萬美元,還不算由此帶來的企業商譽影響和對客戶業務的間接影響。由此算來,谷歌單單今年的幾次宕機,所帶來的損失就已經難以估量。
  • 防止數據宕機:什麼是數據可觀測性?
    他們消除了軟體開發人員和IT運維技術人員之間的隔閡,推動軟體無縫且可靠地發布到生產環境中。隨著組織的發展,為它們提供支持的底層技術堆棧變得越來越複雜,對於DevOps團隊來說,保持其系統正常健康地運轉非常重要。可觀測性是工程學詞彙中最近增加的一個詞彙,它不但滿足了這一需求,還包括對事件的監視、跟蹤和分類,從而防止宕機。
  • 中科曙光推出區塊鏈專用存儲系統ChainStor
    存儲服務商提供的存儲節點(存儲系統)是否能實現數據的快速落盤以及數據是否能在時效範圍內被及時抽取出來,將成為其快速發展和獲得長期收益的關鍵。因此,區塊鏈存儲項目對底層存儲系統的性能、可靠性、擴展性和運維效率都有著嚴苛的要求。
  • 微博為何總宕機?
    微博方面回應稱,確實是發生宕機,原因是流量瞬間暴增,超出伺服器最大訪問閥值。並稱後續將仔細復盤,加強技術儲備,完善應對方案。發生了幾次宕機事件後,吃瓜群眾們對此表示已經習慣,甚至很多人認為,如果明星突然宣布結婚或分手微博還沒宕機,只能證明該明星還不夠火。今年的兩次宕機,發生在「志玲姐姐」結婚和「範爺」分手上。
  • 貼符保不宕機?遊戲公司請和尚為伺服器開光
    一般情況下,為了保證伺服器能穩定運行,廠商都會選擇加強日常的運維。然而,近日有一家廠商卻腦洞大開,請和尚為伺服器開光,貼符保其永不宕機。近日,據網友爆料稱,某公司程式設計師近日為避免遊戲公測時出現宕機,特意將伺服器帶到寺廟進行開光。伺服器開光後,程式設計師在兩名法師陪同下將伺服器帶回機房。兩名法師為伺服器機組貼符,保佑其永不宕機。然而,機智的網友卻早已看穿一切套路。
  • 近年數據中心嚴重宕機事故盤點
    它的穩定關系所有人的生活......一旦宕機,後果不堪設想。不僅會造成用戶無法正常訪問應用,嚴重的還會造成巨大經濟損失。據美國調查機構數據顯示,數據中心宕機,能夠造成每分鐘將近1萬美元的經濟損失。事後得知,YouTube的伺服器出現了宕機,時間持續了超過2個小時。影響的範圍包括網頁版和移動端,造成的結果就是用戶無法訪問網頁,登陸或者播放相關視頻。事實上,宕機事件是行業普遍現象,並非YouTube所獨有。其中不乏微軟、騰訊、阿里巴巴等網際網路巨頭。下面咱們就來看看過去幾年,世界各國出現的比較經典的宕機事故吧。
  • 「5G」下DevOps技術構建移動行業智能IT運維平臺
    (3)數據存儲層:各類數據按照需求和分工,分別存儲在不同介質上,以達到最優的效率和最佳的搭配等效果。(4)容災切換操作自動化:以容災作業流程的方式實現容災切換流程批量自動執行。通過雙活數據中心為業務系統建立雙活模式,實現自動化切換,儘可能減少宕機時間。
  • 谷歌凌晨宕機致大部分服務停用官方回應為內部存儲分配問題
    根據Google Workspace狀態信息中心頁面顯示,谷歌首先了解到大多數用戶無法訪問Gmail,並提出更新的解決方案。不到40分鐘,部分用戶已經恢復服務,緊接著一小時內絕大部分受到影響的用戶已經解決問題。一位谷歌發言人通過郵件回復新京報貝殼財經記者稱,谷歌經歷了一個約45分鐘的認證系統宕機,原因是內部存儲分配的問題。在此期間需要用戶登錄的服務出現了很高的錯誤率。
  • 北塔BTSO2.5開啟運維數據價值發現之旅
    北塔BTSO智能運維系統正是以數據運維為核心指導思路,提供分布式採集器,支持廣域網絡環境支持,以先進的架構為依託,提供高達470億欄位(業務指標)的存儲能力,為數據運維提供了強大的基礎支撐。北塔軟體以運維數據為基礎,以智能運維為核心,更好地幫助客戶挖掘運維數據的價值。
  • AI走進數據中心智能化運維:騰訊與清華聯合論文被自動化領域頂級...
    近日,騰訊數據中心與清華大學自動化系智網中心團隊的賈慶山老師合作論文被第21屆IFAC國際自動控制世界大會錄取。該大會為自動控制領域三大頂會之一,將於今年7月在德國柏林舉辦。本屆大會將關注可持續資源、綠色能源、數位化和工業4.0等主題,人工智慧、控制和計算機科學日益重要的融合也將成為大會關注的焦點。
  • 谷歌數十項服務在全球範圍內發生大範圍宕機
    但谷歌的公司自動系統直到服務中斷了30分鐘仍在匯報任何服務都沒有出現問題,包括消費者服務和面向開發者的雲服務。直到12時25分,谷歌終於發現問題,並公開表示:「我們發現有一個問題……讓大部分用戶都受到了影響,受影響的用戶無法訪問谷歌服務。」「無獨有偶」又一次應驗,這已是近5個月來第3次全球宕機。
  • 來,了解一下
    隨著自動單系統大行其道,其他交易系統的各種交易終端開發商也開始研發自己的行情觸發單和止損止盈功能,這就是最早的條件單系統。當時,雲計算、雲服務還沒有普及,無奈又受各櫃檯交易系統的限制,各種條件單只能是單機版,所有功能都運行在客戶自己的電腦上。客戶必須保證自己的電腦不能斷電不能斷網不能宕機,即使一切都正常,網絡的延遲也會造成條件單觸發延遲。
  • 馬振芳:HDS存儲虛擬化在BSS核心系統應用
    HDS早在2004年,就已經推出了自己虛擬化的產品,到目前為止在全球有上千個成功案例,在中國電信行業,目前據我了解,在廣東電信、陝西電信、山東聯通,核心系統裡都已經採用了我們虛擬化解決方案。下面我主要講兩個話題,一個是HDS虛擬化技術的概述,另外就廣東電信存儲虛擬化案例講一下產品服務實施的便捷、好處。
  • 【IDCC2020】廣東浩雲長盛網絡股份有限公司全國運維總經理朱紅兵...
    我們再看一下數據中心運營的痛點,第一個痛點就是宕機的風險,事故的種類大概有三大類,第一類是設備類的,包括UPS、發電機、空調,因為我們的設備跟生物體一樣也有生命周期,設備本身也有磨合期、穩定期、衰退期,設備天然的性能落後這是一個大的原因;第二個原因是人為的原因,第三個是自然災害環境的原因。設備的故障通過有效地預防性維護手段進行降低。
  • 浪潮存儲:基於InView智能管理平臺,給複雜的存儲管理做減法
    比如:智能化的把數據保存在合適的區域;自動的完成數據均衡;預測未來的需求;預防潛在的問題;自動參數調優等,有AI加持的智能化存儲管理可以增強存儲系統的可靠性、降低存儲的複雜性和維護成本。其中,排第一的AIOps用途是改善系統的整體可用性,其次是加快問題解決速度及提高性能容量規劃,預測性地識別任何即將發生的故障,監視與存儲相關的其他IT基礎架構也被用戶重點關注。整體來說,存儲智能運維技術(AIOps)在整個的市場和發展趨勢是非常好的,對於用戶來說,用戶期待藉助存儲智能運維技術(AIOps)來解決日常手段或者現有方法不能解決的存儲管理問題。
  • 向日葵遠程運維—機房遠程運維解決方案新理念
    這些專業的運維團隊也一直在嘗試如何通過一種行之有效的方式,將各類複雜的設備統一管理起來,以降低運維成本,提升運維效率。:(1)線下運維效率低下該公司承接的客戶運維項目分散在各個城市,地理跨度大,當伺服器等設備出現問題時,公司經常無法第一時間到達現場為客戶解決故障,加大了客戶在突發故障等緊急情況下遭受損失的風險,同時路途奔波分散了運維人員有限的精力,面對業務迅速增加,急需一種更有效的方式來提升運維效率;(2)IT系統複雜,維護難度高
  • 本地存儲與雲存儲的主要區別是什麼
    在許多企業看來,雲存儲是有利有弊的。 但是,隨著數據量的爆發式增長,往往倒逼企業不得不去使用雲存儲解決方案。而且,基於雲的軟體應用程式(SaaS)的使用也日益增多,這意味著隨著時間的推移,雲存儲解決方案正在逐步替代傳統的本地存儲解決方案。在選擇存儲方式之前,企業首先應該了解本地存儲與雲存儲的主要區別。 1.