隨著網際網路、5G、IoT等技術的飛速發展,全球大型數據中心數量將以3.6%的複合年增長率增長,數據中心規模不斷擴大,數據中心伺服器規模已經達到10萬級,這不僅需要更多的運維工程師,給企業增加運維成本,同時給運維工程師也帶來了極大的難度和挑戰:如何及時發現異常設備?異常根因是什麼?故障是否能自愈?是否能預測故障?性能趨勢是什麼?如何決策?
運維發展歷程:人肉運維、自動化運維和智能運維
早期的運維工作,大部分是由運維工程師手工完成,這被稱作人肉運維。伺服器運行狀態,全靠運維工程師每日肉眼查看,進行問題定位與解決。自動化運維應運而生,大大提升了發現異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維力不從心。
Gartner在2016時提出了智能運維(Artificial Intelligence for IT Operations)的概念,並預測到2020年,智能運維的採用率將高達50%。從伺服器運維的角度來分析伺服器智能運維,目標就是通過對帶外信息(配置信息、狀態信息、性能信息、日誌等)和帶內信息(配置參數、性能信息、日誌信息)進行採集,通過機器學習的方式來解決運維問題,提高系統預警能力和穩定性,降低運維成本,提高運維效率。
異常快速檢測,問題準確告警
在伺服器運維中,異常檢測是根本,常見的有三大監控數據:狀態指標、性能指標和日誌數據,狀態指標一般誤報率較少,而傳統性能指標的設置閾值,常常某一時刻產生噪點數據而產生誤報;對於周期性變化的數據又無法進行動態調整,也常常產生誤報,大大降低了告警的準確性。日誌一般是半結構化數據,根據日誌級別產生告警,其準確性極差,並且只能檢測到已知和確定模式的異常。
浪潮伺服器智能運維採用無閾值告警,無需人為設置閾值,通過對時序數據進行去噪、升維、方差等處理後,經過神經網絡、LSTM、隨機森林等算法進行動態的學習,達到對監控的性能指標,自動、實時、準確的識別出異常數據。對於日誌的處理,通過對單條日誌的語義識別和日誌文件的時序識別方式,經過自然語言、專家系統、神經網絡、深度學習等算法進行訓練或者維護,從而不斷完善,達到日誌異常的準確檢測。
故障智能處理,輕鬆運維so easy
智能故障診斷是建立在異常檢測之上,有了準確的異常檢測,通過綜合各個異常指標進行數據的融合、過濾、權重等處理,使用神經網絡、SVM、隨機森林等智能算法,尋找問題根因,給出問題解決方案,使得運維工程師能夠分鐘級解決問題。
智能故障預測是對設備某一部件的性能數據和狀態的動態檢測,對原始數據進行數據挖掘,尋找特徵數據建立數學模型,使用神經網絡、SVM等智能算法進行在線/離線訓練,形成預測模型。在部件發生故障前,感知故障,從而避免業務宕機,提高系統穩定性。
智能故障自愈是指故障確認後或者預測到故障時,無需人為幹預,能夠通過重啟、配置或者一定的流程,使得系統能夠恢復正常。故障自愈,需要維護一定的規則或者對故障進行標記,經過神經網絡、SVM等算法進行訓練,形成自愈模型,實現系統的故障自愈。
智能決策,感知未來發展
浪潮伺服器智能運維工具可對伺服器的性能數據進行預測,經過ARIMA、最小二乘法、指數平滑、LSTM等智能算法,能夠感知系統在未來幾個小時、幾天或者一年的數據的走勢、增長量或者周期性變化等,不僅為人工預測或者智能決策提供基礎數據,還能夠為業務系統提供優化建議。
浪潮伺服器智能決策是建立在異常檢測、故障診斷、故障預測、性能預測等之上,通過建立數據模型,經過神經網絡、深度學習、專家系統等智能算法的不斷學習,形成決策模型,無需人為幹預,對伺服器的配置參數進行智能調整,版本基線的升級/回退等決策,從而達到系統性能最優、異常最少、功耗最低等效果。
例如監控伺服器運行的性能,在業務少的時候,可以將伺服器功耗降低,在集群方式下,甚至可以進行伺服器關機操作,在業務量大的時候,將伺服器性能調整至最優等智能決策。在整機櫃/機房中,功耗的管理,當伺服器都處於滿載時,伺服器的功耗是否超越了整個機房或者機櫃的最大功耗,超越之後如何進行智能決策等。
智能推薦,發掘無限價值
智能推薦是對平臺大量數據的統計、計算、分析和挖掘等處理,建立數據模型,通過神經網絡、深度學習、最小二乘法、SVM等智能算法,建立推薦模型,實現對整個數據中心進行分析和預測,來指導客戶決策伺服器下架、備件量、擴容量、縮容量、採購廠商等。例如某一型號伺服器的故障率過高,維護費用相應增高,建議下架,又由於業務的增長,需要採購新的伺服器,通過智能算法評估採購量,進行推薦。
目前,浪潮依託自身技術優勢,已自主研發了一系列自動化、智能化伺服器管理軟體集,從伺服器上架、配置、部署、監控、故障分析等實現了全生命周期運維管理。其中ISPIM(浪潮物理基礎設施管理平臺)突破了大規模基礎設施智能管理平臺的分布式網格架構、高性能數據採集框架及智能分析系統、無狀態管理技術,實現大規模伺服器的全生命周期的智能管理。