解放運維工程師 你需要伺服器智能運維

2020-12-17 IT之家

隨著網際網路、5G、IoT等技術的飛速發展,全球大型數據中心數量將以3.6%的複合年增長率增長,數據中心規模不斷擴大,數據中心伺服器規模已經達到10萬級,這不僅需要更多的運維工程師,給企業增加運維成本,同時給運維工程師也帶來了極大的難度和挑戰:如何及時發現異常設備?異常根因是什麼?故障是否能自愈?是否能預測故障?性能趨勢是什麼?如何決策?

運維發展歷程:人肉運維、自動化運維和智能運維

早期的運維工作,大部分是由運維工程師手工完成,這被稱作人肉運維。伺服器運行狀態,全靠運維工程師每日肉眼查看,進行問題定位與解決。自動化運維應運而生,大大提升了發現異常設備的效率,降低了運維成本。但是,面對故障根因、故障預測、性能趨勢和控制決策,自動化運維力不從心。

Gartner在2016時提出了智能運維(Artificial Intelligence for IT Operations)的概念,並預測到2020年,智能運維的採用率將高達50%。從伺服器運維的角度來分析伺服器智能運維,目標就是通過對帶外信息(配置信息、狀態信息、性能信息、日誌等)和帶內信息(配置參數、性能信息、日誌信息)進行採集,通過機器學習的方式來解決運維問題,提高系統預警能力和穩定性,降低運維成本,提高運維效率。

異常快速檢測,問題準確告警

在伺服器運維中,異常檢測是根本,常見的有三大監控數據:狀態指標、性能指標和日誌數據,狀態指標一般誤報率較少,而傳統性能指標的設置閾值,常常某一時刻產生噪點數據而產生誤報;對於周期性變化的數據又無法進行動態調整,也常常產生誤報,大大降低了告警的準確性。日誌一般是半結構化數據,根據日誌級別產生告警,其準確性極差,並且只能檢測到已知和確定模式的異常。

浪潮伺服器智能運維採用無閾值告警,無需人為設置閾值,通過對時序數據進行去噪、升維、方差等處理後,經過神經網絡、LSTM、隨機森林等算法進行動態的學習,達到對監控的性能指標,自動、實時、準確的識別出異常數據。對於日誌的處理,通過對單條日誌的語義識別和日誌文件的時序識別方式,經過自然語言、專家系統、神經網絡、深度學習等算法進行訓練或者維護,從而不斷完善,達到日誌異常的準確檢測。

故障智能處理,輕鬆運維so easy

智能故障診斷是建立在異常檢測之上,有了準確的異常檢測,通過綜合各個異常指標進行數據的融合、過濾、權重等處理,使用神經網絡、SVM、隨機森林等智能算法,尋找問題根因,給出問題解決方案,使得運維工程師能夠分鐘級解決問題。

智能故障預測是對設備某一部件的性能數據和狀態的動態檢測,對原始數據進行數據挖掘,尋找特徵數據建立數學模型,使用神經網絡、SVM等智能算法進行在線/離線訓練,形成預測模型。在部件發生故障前,感知故障,從而避免業務宕機,提高系統穩定性。

智能故障自愈是指故障確認後或者預測到故障時,無需人為幹預,能夠通過重啟、配置或者一定的流程,使得系統能夠恢復正常。故障自愈,需要維護一定的規則或者對故障進行標記,經過神經網絡、SVM等算法進行訓練,形成自愈模型,實現系統的故障自愈。

智能決策,感知未來發展

浪潮伺服器智能運維工具可對伺服器的性能數據進行預測,經過ARIMA、最小二乘法、指數平滑、LSTM等智能算法,能夠感知系統在未來幾個小時、幾天或者一年的數據的走勢、增長量或者周期性變化等,不僅為人工預測或者智能決策提供基礎數據,還能夠為業務系統提供優化建議。

浪潮伺服器智能決策是建立在異常檢測、故障診斷、故障預測、性能預測等之上,通過建立數據模型,經過神經網絡、深度學習、專家系統等智能算法的不斷學習,形成決策模型,無需人為幹預,對伺服器的配置參數進行智能調整,版本基線的升級/回退等決策,從而達到系統性能最優、異常最少、功耗最低等效果。

例如監控伺服器運行的性能,在業務少的時候,可以將伺服器功耗降低,在集群方式下,甚至可以進行伺服器關機操作,在業務量大的時候,將伺服器性能調整至最優等智能決策。在整機櫃/機房中,功耗的管理,當伺服器都處於滿載時,伺服器的功耗是否超越了整個機房或者機櫃的最大功耗,超越之後如何進行智能決策等。

智能推薦,發掘無限價值

智能推薦是對平臺大量數據的統計、計算、分析和挖掘等處理,建立數據模型,通過神經網絡、深度學習、最小二乘法、SVM等智能算法,建立推薦模型,實現對整個數據中心進行分析和預測,來指導客戶決策伺服器下架、備件量、擴容量、縮容量、採購廠商等。例如某一型號伺服器的故障率過高,維護費用相應增高,建議下架,又由於業務的增長,需要採購新的伺服器,通過智能算法評估採購量,進行推薦。

目前,浪潮依託自身技術優勢,已自主研發了一系列自動化、智能化伺服器管理軟體集,從伺服器上架、配置、部署、監控、故障分析等實現了全生命周期運維管理。其中ISPIM(浪潮物理基礎設施管理平臺)突破了大規模基礎設施智能管理平臺的分布式網格架構、高性能數據採集框架及智能分析系統、無狀態管理技術,實現大規模伺服器的全生命周期的智能管理。

相關焦點

  • 運維雜談|IT運維工程師的價值
    每當我們聊到運維工程師時,人們想到的可能就是「修電腦的」 、」打雜的」,如果你這樣想說明你對運維工程師這個職業有很大的誤解,那運維工程師都起到了哪些作用呢。服務的安全性:網絡安全事件每時每刻都在發生著,一旦我們中招對一個企業來說損失是巨大的,所以從網絡設施上架的那一刻起我們就要從各個方面去預防著此類事件的發生,更改配置、關閉有安全威脅的埠,定期的對工作站、伺服器、交換機等進行安全檢查,安裝升級各種殺毒軟體等,這些工作都是繁瑣的枯燥的,但是這些工作確保證了我們網絡的安全。
  • 運維工程師的未來——Python
    在這背後是一家又一家的網際網路公司提供的各種服務,我們在使用每個服務的時候都會去訪問網際網路公司的伺服器,而為了正常訪問,運維工程師需要很多人工操作,但面對海量爆發的訪問,利用傳統的運維技術應對也已經略顯吃力。當然除了這些傳統的運維技術,我們也並不是沒有其他的應對方式。
  • 遠程運維是什麼?運維是什麼?運維工程師是幹嘛的?
    運維工程師擁有伺服器的各項權限,一條錯誤的命令、一個錯誤的回車操作,可能就將導致企業蒙受巨大的損失,坊間各種"刪庫跑路"、"rm -rf /"之類的事情在國內外屢有發生,因此運維安全體系就尤為重要。較為常見的策略有分級權限控制+堡壘機(又稱跳板機)+操作審計。
  • Linux運維工程師前景如何?
    Linux運維崗位描述用一句話概括就是維護Linux作業系統以及系統之上的相關軟體服務、程序代碼和企業數據使得企業能夠優質、高效、快速的為企業的客戶提供服務,從而盈利賺錢,隨著企業增長,伺服器和服務數量、要求也會成倍增加,對運維的能力和數量都有更多的要求
  • 數據中心運維工程師需要具備哪些知識結構
    伴隨著數據中心的密集建設,對於數據中心的運維人員一定有較多的需求,數據中心的運維工程師應該具備以下知識結構:第一:網絡知識。計算機網絡知識是數據中心運維工程師的基本要求,包括幾個大的內容,比如網絡故障排查、交換路由配置、安全配置、網絡結構劃分、設計等內容,其中故障處理是非常重要的環節。
  • IT運維工程師,主要是做什麼的?
    現如今幾乎所有行業都無法離開網絡、計算機、印表機等等一系列IT設備,大部分公司還需要有自己公司的系統、OA、網站、網絡店鋪等等相關衍生產品,因此IT運維工程師對於任何一個企業來說都是至關重要的,有些公司有專門IT部門,有些公司為了節省公司成本將IT人員與辦公室或行政人員安排在同一個部門進行辦公。
  • 運維工程師:為什麼在領導眼裡我總是故障定位與修復很慢?
    A:楊工,請問你作為運維工程師工作感覺如何?A:王經理,請問你作為楊工的領導對他是怎麼看的?楊工:……以上就是大部分運維工程師的工作現狀每天因為伺服器故障排查沒有輔助工具,忙得暈頭轉向,卻還經常被領導抱怨「故障定位難」、「解決問題太慢」其實,解決問題工作量大
  • UC運維工程師老王:深入聊聊你不熟知的網際網路應用運維,我在UC的運維
    第一部分:我講應用運維是什麼; 第二部分:我講應用運維需要什麼樣的團隊;第三部分:給個案例講講運維能做什麼?第一部分:應用運維是什麼其實很多時候非運維的人員不知道運維是什麼,他們都理解你們是網管、提供伺服器的,處理故障的,其實這些都不是。
  • 你到底懂不懂什麼是Linux運維工程師?
    其實,Linux運維工程師被稱為「背鍋俠」只是網友調侃,有不少同學對這個崗位工作還是有一定誤解。今天,我們就來詳細介紹下這個幕後英雄的技術崗位:Linux運維工程師目前國內網際網路、行動支付、O2O業務發展迅猛,需要為億萬用戶提供線上服務。
  • 運維小白成神之路1-什麼是Linux運維
    當然是各個公司開發的,這些軟體需要專業的開發工程師通過編寫電腦程式將其開發出來,但是軟體的運行與維護就需要運維工程師了。在電腦與手機上安裝的應用軟體一般稱為客戶端程序, 如遊戲APP,購物APP等。比如用戶在使用購物APP時, 客戶在軟體裡可以搜索商品,查看商品介紹, 註冊帳號, 發表評論, 下單與付款等,這些數據都需要專業的性能更好的電腦(我們一般稱之為伺服器)上跑服務端程序來存放與管理. 運維工程師主要管理的就是伺服器與服務端程序。
  • Linux運維工程師真實的工作狀態到底是怎麼樣的?
    現在的運維工程師在大家眼中是個什麼樣子呢?
  • 如何快速成為一名Linux運維工程師
    2、Git版本控制,很多人可能覺得沒有必要,這個是開發才學的嘛,其實不然,今天Devops的日漸崛起,對於傳統運維工程師來說是一個挑戰,也是一個機遇。工程師們日常需要寫大量的腳本,可以使用Git來管理、備份常用代碼、腳本。3、Shell編程,寫腳本當然需要Shell啦,這也是基礎。
  • IDC機房運維經驗淺談
    運維工作師需要什麼樣的技能及素質做為一名運維工程師需要什麼樣的技能及素質呢,首先說說技能吧,如大家上面所看到,運維是一個集多IT工種技能與一身的崗位,對系統->網絡->存儲->協議->需求->開發->測試->安全等各環節都需要了解一些,但對於某些環節需熟悉甚至精通
  • 年薪50萬的運維工程師學習成長路線
    今天就來聊一聊我的想法,本人8年linux運維一線經驗,呆過很多網際網路公司,從一線運維做到運維架構師一職,也見證了中國運維行業從無人問津到可圈可點的整個演變過程。Linux系統目前主要應用在企業伺服器上,學習linux,更多的是向linux系統/運維工程師方向進軍。比如雲計算系統工程師,大數據運維工程師,運維開發工程師其職位都是linux運維工程師的進階。
  • 如果你的女朋友是IDC運維工程師
    因為她作為一個銷售行業的從業者真的不知道做好一個IDC運維需要具備多少條件:懂硬體、懂伺服器、懂存儲、懂linux、懂安全、懂防火牆、懂虛擬化、懂傳輸光路波分、會路由交接、會資料庫、會改代碼、會破密碼、會遠控、會改圖、會裝逼、會說話、會溝通、會算帳、會勾搭、會諮詢、會觀察、會看人、會服務、能熬夜、能早起、能受氣、懂協作、懂捨得、懂政治、懂品牌·····既能受得了忙
  • 智能運維 | 解放程式設計師,一個工具就能鎖定程序故障(下)
    還有人一上來就說,這個問題還真是從來沒想過。正所謂「少見多怪」,說的是因為很少見或者乾脆沒見過,所以覺得奇怪。又有說「司空見慣」,說的是天天見,所以就習慣了。這兩個成語表達的就是不常見的事情容易被看成是怪的,常見的事情就不怪了。換成數學的語言就是:小概率事件是異常,大概率事件是正常。雖然這個說法不是百分之百準確,但是大部分時候還就是這樣。
  • Linux系統運維工程師入門絕招放送
    運維是幹嘛的?安裝伺服器系統?重裝系統再裝系統?背鍋的?我就稀裡糊塗的,這樣報著必死的決心,考下RHCE認證,走上了Linux運維的道路,成為了一名linux運維工程師。有些心得跟大家分享下,避免小白多走冤路。Linux運維必須要掌握的工具,我列出這幾方面,這樣的話入門就基本沒問題。
  • 女生到底是做測試好還是做伺服器運維好?
    女生到底是做測試好還是做伺服器運維好?最近網絡工程師成長日記作者小編遇到一些女生學習計算機,他們問道,他們有的是計算機專業,有的是和計算機相關或者無關的專業。在面臨找工作的時候,都遇到了這樣的問題,就是自己到底是以後去做測試類的崗位呢?
  • IT運維工程師的現狀
    大家都說運維就是背鍋俠,受累不討好,工資低……為了更加深入地了解這個行業特意做了一些工作(期間瀏覽了多個網站,論壇以及貼吧還加了一些IT運維相關的QQ群微信群),對IT運維人員目前的現狀進行一個總結,全部都是真實案例,作為「搞運維」的你是否也對以下情況呢?
  • 網易資深工程師詳解運維面經!
    、中級還是高級運維或者是DevOps:初級運維:會些簡單的企業伺服器或網絡運維工作,比如搭建個服務、組件個小型區域網或搬運伺服器、安裝作業系統,一般這類運維人員所管理的伺服器不多,因此薪資待遇也一般,通常不會專人專職,可能還會兼辦公網落管理等工作。