先智數據:如何實現數據中心的智能運維?

2021-01-08 DOIT

近日,在2017中國存儲峰會上,先智數據中國區總經理董唯元圍繞「人工智慧時代的數據中心運維」展開演講,作為智能存儲的先鋒者分享其獨特觀點與最佳實踐。

董唯元認為,實現智能化的數據中心運維,要從減少IT系統運維對專業人士的依賴入手,藉助智能化輔助管理,由人工智慧解決系統解決眾多瑣碎的細節問題,提高效率。在判斷數據中心複雜的系統故障時,無論是應用端還是在設備端,幾乎所有防範故障的手段存在冗餘,而智能化手段可以準確做出預判。

系統磁碟數據量太大時,多核磁碟可能會同時出現故障,先智數據具備主動式故障預測能力,同時防範諸多隱患,不僅如此,還能通過人工智慧技術,預測磁碟壽命,先知先覺,為企業降本增效。

以下內容根據演講實錄整理:

先智數據,大家看這個名字覺得好像跟人工智慧有點關係,公司成立已有五年時間,我們起和智能相關的名字時,人工智慧還沒有那麼熱,我們的團隊大多是原先做存儲的研發人員,存儲領域多年來在應用上始終存在一定的局限性,所有的動態都須配上預測能力,當磁碟空間不夠時再去解決,這個動態沒有太多意義。

預測能力在數據中心裡到底能幹什麼?意義又是什麼?

先智數據的願景就是連接存儲與未來的人工智慧,宏觀來講,是人工智慧與基礎架構之間的關係,在基礎架構領域,很多人工智慧的應用起到了替代人工或部分替代人工的應用,或者說,它替代了基礎架構原理本身的工作模式。所以人工智慧在數據中心的應用,首先是減少對專業人士的依賴。面對數據中心可能出現的故障,我們所能做的就是作最壞的打算,到底哪裡會有故障,其實是不可知的,所有的防範故障的手段都是冗餘,冗餘不是出現在應用端就是在設備端,純靠冗餘並不能堵住問題,除了堵,就是作疏堵結合,通過智能化手段作預判,相對比較準確地預知未來情況,雖然故障可能還會存在,但大大減輕了面對故障時的人為壓力,明確知道故障原因,選擇應對手段就會變得更輕鬆。運維思路發生變化,這種轉變就是預測能力帶給數據的比較基礎的意義。

預知能力可以解決哪些具體實際問題?

現有技術大多還是在於後期「治病」階段,先智數據充當「算命」角色,算出設備使用多久會壞,並不做後期治病的事情。例如,兩副本或三副本存儲,是比較奢侈的配置方式,在這種配置方式下,我們產品的可靠性得到了充分保證,為1PB的數據擴展出3PB的空間,但實際上,兩副本或者三副本,這種副本保護機制並沒有想像中那麼強,所以我們要得出系統總體的健康概率時,就要用到一個疊加的方式,這個原來叫副本安全分布邊界。

總之當系統磁碟數據量太大,多核磁碟可能會同時出現故障,為保障可靠性,限制磁碟總數上限,這個數可能遠低於大家的直觀感覺,大家覺得我用了那麼奢侈的副本保護,還是有局限性。

磁碟故障了要修復,這會影響前端的應用,存儲不光可靠性這一點重要,還有性能的可靠性,這是存儲裡最核心的兩條腿,如果VDI出現風暴,早晨九點鐘左右,這個時候VDI的壓力是最大的,硬碟壞了,到底是修復還是不修復?如果修復,同事們打開郵件的就會慢,如果不修復,或者用最低的資源去慢速修復它,可能修復過程要一周左右,對用戶來講實際上很不願意看到魚和熊掌的選擇,這是真實需求,今天由於技術的局限不可能做到這一點的根源,其實是說所有故障修復手段是在事後進行的,如果能提前預知故障,修復手段還是原來的修復手段,但是我可以把這些動作提前到故障發生之前,就可能解決太多現在不方便解決的問題,不管是可靠性脆弱的問題,還是可靠性與性能互斥的問題,都可以迎刃而解。但如果有預知能力,相當於給系統增加了一個緯度,原來很難逾越的障礙在新緯度上很輕鬆就可以跳過去。同時,提前預測這種機制實際可以提前避免準故障狀態帶來的隱患,可以不用再面臨準故障狀態不好不壞說不清的過程。

我們具體的工作原理主要是基於磁碟的SMART信息,和它所運行環境的CPU內存的應用負載狀態,兩個因素疊加在一起,我們看到有一些比較類似的做磁碟診斷的工具,我們今天要解決的就是這個問題,就是要附加上很多所處工作環境的信息。通過兩個東西的疊加才能得出來時間延續的預測。包括國內的網際網路廠商做的預測基本上都是基於建模的方式,這種方式做出來的效果有點像天氣預報,今天下午很準,明天上午還比較準,一周後甚至一個月之後就無法準確預測了,這種基於建模方式做的預測其實都有這個問題,就是近期準,我們為了做長周期的預測,採用比較複雜的神經網絡診斷。

這個預測最核心的要素其實不是神經網絡怎麼建,最核心的要素是你有沒有數據去訓練它,比較有核心價值的地方是,我們有將近十萬個磁碟在連續四年的時間裡,每一天都有連續的狀態記錄,這樣加在一起一共有6000萬左右的樣本量,我們才訓練出今天的神經網絡,可以相對來說能比較準確地預測磁碟壽命。

未經允許不得轉載:DOIT » 先智數據:如何實現數據中心的智能運維?

相關焦點

  • D2iQ聯手先智數據為Kubernetes多雲運維提供AIOps解決方案
    日前,D2iQ與先智數據宣布建立合作關係,雙方將融合先智數據的高端AIOps解決方案Federator.ai與D2iQ Kubernetes雲原生平臺,幫助企業客戶在基於Kubernetes的多雲環境中優化資源和應用性能。
  • OpenShift TV專訪先智數據:基於AI的主動管理在多雲環境如何實現...
    2020年12月16日,在OpenShift TV上,先智數據(ProphetStor)CEO,Eric Chen和產品副總裁Ming Sheu接受了紅帽高級首席產品營銷官,Mike Waite的採訪,暢談先智數據的發展願景與使命。先智數據長期致力於基於AI的主動管理來解決混合多雲環境中的複雜性並為客戶帶來創新價值。
  • 海量大數據平臺的運維智能化實踐
    本文摘要:  介紹Tesla如何支撐阿里離線計算和實時計算兩大海量大數據平臺的標準化日常運維運營,以及探索如何構築運維領域的知識圖譜,打造針對大數據平臺和大數據業務的數據化全息投影,實現多維的立體化監控、智能決策分析、自動化執行的運維閉環。
  • 「7核」加持 施耐德電氣助力打造智能綠色數據中心設施
    根據2019年的數據顯示,我國每年數據中心用電量佔到全社會用電量的1.8%左右,同年,國家出臺《關於加強綠色數據中心建設的指導意見》,明確提出2022年,新建大型、超大型數據中心的電能使用效率值達到1.4以下。因此,在確保電力供應持續、穩定,保障數據中心高度可用的基礎上,如何通過數位化技術進一步優化供配電系統,以更加智能化的方式降低能耗,並提升管理效率和水平,成為數據中心行業亟待解決的問題。
  • 數據中心建設如何實現「加速跑」
    搭「樂高」式建設數據中心雷鋒網在騰訊雲儀徵數據中心調研時發現,該數據中心是由一個個貨櫃式的「模塊」組合而成的。據騰訊華東數據中心經理吳蘇陽介紹,這是正式騰訊自研的第四代數據中心技術——T-BLock。
  • 華為四大重構,新一代數據中心來了!
    華為對數據中心進行了四大重構市場需求激增的數據中心,面臨著建設資源獲取難/建設周期長、能耗高、運維複雜等艱巨挑戰。據悉,華為提出了極簡、綠色、智能、安全的下一代數據中心目標架構,以"四大重構"為手段,解決了數據中心上述挑戰。
  • 雲智慧捐贈清華大學成立清華大學軟體學院智能運維研究中心儀式
    2019年12月18日,在清華大學舉行了雲智慧捐贈清華大學成立清華大學軟體學院智能運維研究中心成立儀式。智能運維研究中心將聚焦智能運維全周期的核心技術,開展相關研究和成果轉化工作,同時智能運維研究中心還將面向未來數位化轉型,開展IoT數據處理及圖像視覺理解等方向的探索。
  • 華為CloudFabric,引領數據中心網絡進入智能時代
    1、AI驅動數據中心重構  數據中心網絡面臨新挑戰  企業智能化升級驅動數據中心從雲時代邁入了智能時代。相比而言,雲數據中心更像是個業務支撐中心,以應用為中心,通過雲平臺實現IT資源的快速發放。數據中心網絡已經成為智能時代數據中心算力釋放,數據價值變現的核心關鍵。同時AI作為智能時代的使能技術,如何進一步幫助數據中心網絡自身完成智能升級,提升部署運維效率,成為新的機遇和挑戰。
  • 運維人的福音!L3級自動駕駛的數據中心網絡解決方案來了
    如同汽車駕駛人急切盼望自動駕駛早日成熟和普及一樣,網絡運維人也十分期待自動駕駛網絡的來臨。這在近日華為與IDC合作發布的《數據中心網絡自動駕駛指數報告》(以下簡稱「報告」)中得到了體現。數據中心自動駕駛網絡何以被期待?報告調研顯示,「90%以上的企業表示完全自動駕駛的數據中心網絡是他們的目標。」為什麼如此高比例的企業用戶希望部署自動駕駛網絡?
  • 浪潮信息主導開放計算項目新進展公布 為數據中心智能化運維奠定基礎
    海量數據的產生讓數據中心的工作負載變得越來越複雜多變,對硬體性能和效率的要求也更為嚴格。在此背景下,浪潮作為全球領先的計算解決提供商,開始致力於開放基礎設施的建設,並為企業和用戶提供綜合的解決方案,以應對全新的挑戰。
  • 【萊說IDC】系列專題(三)丨如何高效運行維護數據中心
    A3: 保障IDC的高可用性:運維管理的最終目標是通過科學合理的運維手段,通過對設備的維護,流程的管理,事件的應對為客戶提供高可用的數據中心環境。 保障業務的可持續性:保障數據中心業務的正常運行,保障客戶業務的穩定可持續運行。 節能高效:降低數據中心PUE值,提升數據中心運營效率,降低能耗成本。
  • 科源集團同興智能完成蘭州新區雲數據中心外網雲平臺「黑啟動」工作
    >11月6日,為歷練自主核心技術團隊應急響應能力,檢驗雲平臺、網絡、安全及基礎環境技術人員技能水平,科源集團同興智能公司運維團隊在國網蘭州國家級新區能源網際網路融創園大數據中心開展雲平臺外網環境「黑啟動」實操演練工作。
  • 乘5G和大數據中心之風,力維動環監控業務提速
    然而面對洶湧而至的新基建時代,基站機房的動力環境如何能夠滿足大量的機房建設和複雜運維要求?如何用更少的運維人員實現更高的運維效率?新形勢下數據中心機房運維和管理面臨巨大挑戰。「新基建」號角吹響, 動環監控市場迎來爆發契機如今,以5G領銜的新基建正在快馬加鞭建設中。數據顯示,我國已建成5G基站達19.8萬個。
  • 第五屆「攻城獅」數據中心運維大賽圓滿結束!
    12月8日,第五屆「攻城獅」數據中心運維大賽決賽在北京國家會議中心落下帷幕。本次大賽由雲計算發展與政策論壇用戶委員會主辦,中國IDC產業年度大典組委會承辦,旨在為IDC服務商、運維工程師提供一個面向IDC行業的展示平臺,同時讓廣大用戶了解運維的重要性,推動IDC行業的可持續發展。
  • 奧運會冠軍胡佳參觀中國電信克卜勒華南數據中心
    克卜勒團隊與胡佳總、兩位電力能耗方面的專家在會議室交流項目,胡佳總認真地聽克卜勒華南數據中心專業人員進行各方面介紹,並探討新一代數據中心如何做到更綠色、節能及高效的運行?克卜勒董事、總經理孫高潔向胡佳總介紹數據中心項目
  • 智能製造與大數據——數據共享實現網絡化
    上一篇圍繞智能製造發展過程的第一個階段——「數位化」展開闡述,重點介紹實現數位化的關鍵技術--數據採集。本篇將圍繞智能製造發展的第二階段「網絡化」展開論述,尤其是網絡化過程中的數據共享與協同。什麼是網絡化?
  • 智能警報 戴爾先智服務升級更具AI功能
    藉由創新的SupportAssist技術,戴爾發布全新的升級版本:先智服務(Premium Support Plus)。先智服務不僅僅具備戴爾全智服務(Premium Support)的全部優秀特性,還增加了許多全新的服務特性,這其中包括:為跌落、液體潑濺或電湧造成的意外損壞提供維修或更換服務,讓用戶的設備恢復運行。定製化服務,一步步幫助用戶解決更複雜的軟體問題、設置數據備份應用、實施家長控制。
  • 如何為世界500強銀行數據中心「退燒」 國雙智慧能源方案小試牛刀
    與耗電量居高不下形成反差的是,傳統數據中心的能源效率卻一直無法有效提升,整體水平處於偏低的狀態。如何給數據中心「退燒」,構建綠色節能、高效穩定的新型數據中心?這既是國家能源戰略所指,也是企業承擔社會責任和實現降本增效的關鍵。空調能耗成為數據中心高PUE的「原罪「讓我們從國雙新近完成的一個智慧能源項目中來尋找答案。銀行作為數據中心的核心應用領域,在聚焦安全可靠合規以及保障業務連續性方面,一直引領數據中心發展潮流。
  • 東旭藍天「智能運維機器人」在巨力股份分布式電站項目實現全覆蓋...
    近日,由東旭藍天控股子公司安軒科技研發生產的「光伏電站智能運維機器人」在位於河北省保定市徐水縣的巨力股份(002342.SZ)6.17MW屋頂分布式光伏電站項目實現全覆蓋並正式投運。如果加裝環境監控系統,「擺渡車」還可實現根據雨量和落灰程度自動啟動清洗機器人進行運維的需求。
  • 數據中心運營,雲巨頭是如何修煉「內功」的?
    如此龐大的雲基礎設施是如何運維的,一直以來都備受業界關注,而多年來AWS很少談及這個話題。在今年的亞馬遜re:Invent在線峰會上,AWS首次揭開了自己雲基礎設施的神秘面紗,從數據中心的供電管理系統,雲數據中心的延遲,到晶片的研發等等,雖然只是冰山一角,但可以從不同的視角更加直觀、清晰的了解AWS是如何修煉「內功」的。