美國太平洋(601099,股吧)時間12月14日凌晨3點47分左右,YouTube、Google雲端硬碟,Gmail,Google Meet,Google文檔,Google搜索,Google Play,Google Home,Google Maps停服,這是谷歌近半年內第三次出現大規模宕機事件。
經過近50分鐘的緊急處理,相關服務在當地時間凌晨4點32分恢復正常,並向受到該問題影響的所有用戶表示歉意。
至於這次宕機的原因,來自谷歌官方的表述是「internal storage quota issue」。在谷歌后續的一份初步調查報告中,提到導致宕機的原因為「我們的自動配額管理系統出現了問題,降低了谷歌中央身份管理系統的容量,導致其在全球範圍內返回錯誤。因此,我們無法驗證用戶請求是否經過認證,並向用戶提供錯誤。」
那麼,這個「自動配額管理」是什麼意思呢?
存儲專家解釋道,數據在存儲盤中的存放,並不是「既來之,則安之」,而是需要規劃一個存儲池,被劃在這個池中的數據只能在對應的空間中存放。池子有多大,就是通過上面的「配額」來管理的。
這次導致谷歌宕機的「自動配額管理系統出現了問題」,就好比我們去坐火車,先要有一張票,才能上車。但是現在售票員在工作時間划水跑了,大家沒有買到票,結果人在站外著急瞪眼,車在站裡空空如也。
想要徹底避免類似問題,就需要我們的運維工作不僅僅監控磁碟是否寫滿並報警,還要做出資源池級別的容量監控,以便更進一步做出提前預測,避免自動額度管理系統「罷工」。華為AI運維提供面向池級、盤級、系統級的容量閾值監控、容量預測告警,同時,華為也提供自動資源發放管理的能力。
近期,科技巨頭公司、證券公司頻頻故障癱瘓,影響小則波及一個區域,大則波及全球。IT基礎設施層面的高可靠構築誠然是前提,是「金剛鑽」,但問題往往出現在運維階段,「手藝」怎麼樣,才是決定「瓷器活」能否做成的決定性因素。
有著深厚先進技術積累的科技、金融領域企業尚且在運維上頻頻觸礁,其他領域的風險和困境可想而知。
調查數據顯示,隨著全球數據規模的爆炸性增長,企業數據中心的故障中,存儲設備相關故障已經佔到70%以上。以某國際網際網路社交企業為例,每天需要修複數據高達24TB,每天修復帶來的跨機架流量高達180TB。技術和新應用的層出不窮,也帶來運維複雜化的副作用。
傳統的運維高度依賴人的經驗和精力,運維人員的一天就是從虛機、存儲,再到數據、網絡,更像一名企業的救火隊員。在全球產業邁進數位化、智能化的背景下,如何使能統一的AI運維,扭轉傳統「人拉肩抗」的局面,從而實現支持企業業務平穩運行,業務戰略突破的目標,已經逐漸成為全球行業頭部企業的共同訴求:
01
首先,運維系統從一個追求穩態的系統,走向追求穩態+敏態的系統。這就意味著,運維系統不僅要追求7*24小時的穩健運行,還要追求對業務的敏捷使能。
02
其次,運維已經不僅僅只是一個支撐系統,更多的是要與業務融合,成為一個生產系統,給業務帶來新的價值;
03
最後,運維的流程將慢慢地從「以人為中心」向「面向自動化的業務流程重構」,最終走向「自動駕駛」的IT運維系統。
在數據基礎設施運維層面,運維的自動化水平是數位化轉型的核心體現之一。特別是面向核心系統或新興業務,運維將更多地參與到生產系統中去,運維與業務的結合會越來越緊密。
只有讓更多的運維人員從繁雜的例行工作解放出來,才能投入到更加有創新性的工作中去。華為存儲基於智能運維平臺DME逐步構建面向智能運維的AI能力,圍繞客戶關心的設備異常、容量預警等關鍵場景為客戶業務的正常運行保駕護航。
具體來看看華為智能存儲運維有哪些「法寶」?
設備側+雲端容量預測
假設客戶能夠提前預知陣列或存儲池,甚至更細粒度對象的容量變化趨勢,那麼,由於容量配額不足所導致的服務宕機情況則會大大減少。華為提供「雲上+本地」聯動的運維能力,基於時序預測等關鍵技術,能夠向客戶提供未來最長365天的容量趨勢預測,並能夠提前預警80%配額,提醒用戶提前擴容。
提前14天風險盤預測
如今,通過華為存儲的異常檢測模型服務,可以提前14天預測到硬碟故障。華為硬碟異常檢測模型服務基於S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技術,每日採集數據中心硬碟數據(硬碟ID、SN、硬碟非安全斷電次數、通電時長),從歷史數據中識別硬碟不同屬性的突變模式對當前狀態進行預測,結合用戶反饋數據,定期執行模型自優化,持續提升預測精度。為DC硬碟提供主動運維。
截止目前,華為硬碟異常檢測模型已經服務於200+企業DC,幫助客戶提前14天識別硬碟故障或風險,預測的誤報率低於0.1%。
存儲性能異常預測管理
基於時間序列預測等關鍵技術的性能預測特性,以及基於閾值觸發的性能潮汐預警,能夠讓客戶預知設備關鍵性能指標變化趨勢。時延、IOPS、塊帶寬盡在掌握,以提早發現設備性能瓶頸點,輔助客戶儘早規避可能發生的異常。
傳統的專家經驗規則或靜態閾值預警,無法覆蓋大多數性能異常場景,且可能存在誤報漏報的情況。華為提供基於機器學習的關鍵性能KPI異常檢測及根因定界特性,無監督自學習的異常檢測模型能夠實時檢測設備時延是否異常,現網數據測試驗證,異常檢測準確率近90%;存儲設備內置基於多集成樹算法融合模型,外加皮爾遜相關性關聯分析算法,實現異常根因的定界分析。
華為智能存儲引擎DME基於「雲-中心-設備」三層AI架構,攜手客戶在智能運維的自動駕駛之路上不斷創新,持續擴大自動化的邊界。從被動運維走向主動運維,持續降低運維門檻及成本,實時確保客戶業務體驗最優。
本文首發於微信公眾號:略懂的小咖。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
(責任編輯:張洋 HN080)