近日,在2017中國存儲峰會上,先智數據中國區總經理董唯元圍繞「人工智慧時代的數據中心運維」展開演講,作為智能存儲的先鋒者分享其獨特觀點與最佳實踐。
董唯元認為,實現智能化的數據中心運維,要從減少IT系統運維對專業人士的依賴入手,藉助智能化輔助管理,由人工智慧解決系統解決眾多瑣碎的細節問題,提高效率。在判斷數據中心複雜的系統故障時,無論是應用端還是在設備端,幾乎所有防範故障的手段存在冗餘,而智能化手段可以準確做出預判。
系統磁碟數據量太大時,多核磁碟可能會同時出現故障,先智數據具備主動式故障預測能力,同時防範諸多隱患,不僅如此,還能通過人工智慧技術,預測磁碟壽命,先知先覺,為企業降本增效。
以下內容根據演講實錄整理:
先智數據,大家看這個名字覺得好像跟人工智慧有點關係,公司成立已有五年時間,我們起和智能相關的名字時,人工智慧還沒有那麼熱,我們的團隊大多是原先做存儲的研發人員,存儲領域多年來在應用上始終存在一定的局限性,所有的動態都須配上預測能力,當磁碟空間不夠時再去解決,這個動態沒有太多意義。
預測能力在數據中心裡到底能幹什麼?意義又是什麼?
先智數據的願景就是連接存儲與未來的人工智慧,宏觀來講,是人工智慧與基礎架構之間的關係,在基礎架構領域,很多人工智慧的應用起到了替代人工或部分替代人工的應用,或者說,它替代了基礎架構原理本身的工作模式。所以人工智慧在數據中心的應用,首先是減少對專業人士的依賴。面對數據中心可能出現的故障,我們所能做的就是作最壞的打算,到底哪裡會有故障,其實是不可知的,所有的防範故障的手段都是冗餘,冗餘不是出現在應用端就是在設備端,純靠冗餘並不能堵住問題,除了堵,就是作疏堵結合,通過智能化手段作預判,相對比較準確地預知未來情況,雖然故障可能還會存在,但大大減輕了面對故障時的人為壓力,明確知道故障原因,選擇應對手段就會變得更輕鬆。運維思路發生變化,這種轉變就是預測能力帶給數據的比較基礎的意義。
預知能力可以解決哪些具體實際問題?
現有技術大多還是在於後期「治病」階段,先智數據充當「算命」角色,算出設備使用多久會壞,並不做後期治病的事情。例如,兩副本或三副本存儲,是比較奢侈的配置方式,在這種配置方式下,我們產品的可靠性得到了充分保證,為1PB的數據擴展出3PB的空間,但實際上,兩副本或者三副本,這種副本保護機制並沒有想像中那麼強,所以我們要得出系統總體的健康概率時,就要用到一個疊加的方式,這個原來叫副本安全分布邊界。
總之當系統磁碟數據量太大,多核磁碟可能會同時出現故障,為保障可靠性,限制磁碟總數上限,這個數可能遠低於大家的直觀感覺,大家覺得我用了那麼奢侈的副本保護,還是有局限性。
磁碟故障了要修復,這會影響前端的應用,存儲不光可靠性這一點重要,還有性能的可靠性,這是存儲裡最核心的兩條腿,如果VDI出現風暴,早晨九點鐘左右,這個時候VDI的壓力是最大的,硬碟壞了,到底是修復還是不修復?如果修復,同事們打開郵件的就會慢,如果不修復,或者用最低的資源去慢速修復它,可能修復過程要一周左右,對用戶來講實際上很不願意看到魚和熊掌的選擇,這是真實需求,今天由於技術的局限不可能做到這一點的根源,其實是說所有故障修復手段是在事後進行的,如果能提前預知故障,修復手段還是原來的修復手段,但是我可以把這些動作提前到故障發生之前,就可能解決太多現在不方便解決的問題,不管是可靠性脆弱的問題,還是可靠性與性能互斥的問題,都可以迎刃而解。但如果有預知能力,相當於給系統增加了一個緯度,原來很難逾越的障礙在新緯度上很輕鬆就可以跳過去。同時,提前預測這種機制實際可以提前避免準故障狀態帶來的隱患,可以不用再面臨準故障狀態不好不壞說不清的過程。
我們具體的工作原理主要是基於磁碟的SMART信息,和它所運行環境的CPU內存的應用負載狀態,兩個因素疊加在一起,我們看到有一些比較類似的做磁碟診斷的工具,我們今天要解決的就是這個問題,就是要附加上很多所處工作環境的信息。通過兩個東西的疊加才能得出來時間延續的預測。包括國內的網際網路廠商做的預測基本上都是基於建模的方式,這種方式做出來的效果有點像天氣預報,今天下午很準,明天上午還比較準,一周後甚至一個月之後就無法準確預測了,這種基於建模方式做的預測其實都有這個問題,就是近期準,我們為了做長周期的預測,採用比較複雜的神經網絡診斷。
這個預測最核心的要素其實不是神經網絡怎麼建,最核心的要素是你有沒有數據去訓練它,比較有核心價值的地方是,我們有將近十萬個磁碟在連續四年的時間裡,每一天都有連續的狀態記錄,這樣加在一起一共有6000萬左右的樣本量,我們才訓練出今天的神經網絡,可以相對來說能比較準確地預測磁碟壽命。
未經允許不得轉載:DOIT » 先智數據:如何實現數據中心的智能運維?