作為一家城市商業銀行的IT運維負責人,老金最近有些焦慮。
2年前行內規劃啟動雲平臺建設,目前已全面上線。雲平臺的建成帶來了計算、存儲等資源的池化,讓生產資源的交付時間由數周縮短到1天,並加快了業務的上線和創新速度。
雲帶來了效率的顯著提升,但卻對老金所負責的IT運維工作帶來了新的挑戰。以前老金團隊經歷過無數次熬夜奮戰,雖苦點累點,但根據多年的經驗和利用運維工具還能保證金融IT系統的穩定。然而如今的雲化環境下,讓IT運維對業務的感知和對故障的發現與定位愈加困難起來,老金的焦慮來源於此,似乎總有一股勁使不出來的感覺。
特別在網絡運維方面,以業務感知遇到的挑戰來說,目前網絡業務的配置方式從傳統的人工配置演變為由雲平臺和控制器配置的方式,使得很難實時感知到網絡的變化;在故障發現上,網絡的連接狀態、資源使用狀態和策略狀態對於運維人員來說逐漸呈現「黑盒」,在遭遇故障時,運維人員無法第一時間感知,從而不得不面臨巨大的壓力。
但對於金融業來說,保證業務穩定運行和實現故障發生時快速恢復,是運維的生命線。在金融業快速發展和數位化轉型愈發深入的今天,老金的焦慮在很多金融機構普遍存在,基於傳統的工具和運維方法已不能滿足日趨複雜的金融IT環境。
「老金們」該怎麼辦?
金融業的運維轉型之變
隨著金融科技發展趨勢愈演愈烈,金融業的競爭逐漸演變為服務與創新力的競爭。在數位化浪潮的時代變革中,隨之而變的IT運維也需從以設備為中心轉變為以業務和用戶體驗為中心。
這其中蘊含三個轉型變化:
第一,從關注網絡到關注服務質量。網絡的連通與否只是運維的初級目標,服務質量的保障才是運維的終極目的。關注服務質量就需要更敏銳地感知運維指標細微的變化,如網絡的丟包等。業務部門反映應用有卡頓現象,這就需要運維人員拿出更精細的數據去進行分析,以準確定位故障。
第二,從被動維護到主動性維護。IT系統的穩定是金融企業正常運營的基石,所以應急處置能力是運維強調的一個關鍵詞,但這光靠被動響應是遠遠不夠的。這就要求運維主動出擊,提早發現問題,例如通過部署自動化工具定期對系統進行健康檢查,結合AI算法對業務運行狀態進行準確預測,提升業務感知能力。
第三,從依賴經驗到依賴數據驅動運維。人的經驗固然可貴,但不得不說通過查看日誌的方式從海量的故障告警和日誌信息中根據個人經驗排查定位問題,效率低下。況且,過去以來因為人的「經驗」問題導致的運維事故也不在少數,只有以數據為基準幫助精細化決策才是運維的正確「姿勢」。
為IT運維「注入智能」
如何實現運維轉型,讓金融業以更高的運維效率提升業務?在華為看來,隨著AI的深入應用,唯有為IT運維「注入智能」才能鋪就金融業數位化升級的未來之路。
Gartner認為,將大數據與機器學習功能相結合的AIOps是提升IT運維成熟度的下一階段。AIOps可以應用到廣泛的IT運維流程及場景中,並被認為是提升運維智能化水平的重要方式。
實現智能運維最核心的基礎是數據,但它往往卻成為短板,尤其在網絡方面,SNMP盤據運維市場十幾年,其協議限定了每5分鐘收集一次網絡信息,周期長、效率低。華為網絡智能分析器採用Telemetry技術實現秒級的數據獲取,其具備的實時獲取數據的能力,從而為分析器挖掘數據提供了堅實基礎,並消除了智能運維的關鍵障礙。
華為推出的iMaster NCE自動駕駛網絡管理與控制系統通過植入獨有的AI算法和AI引擎,將傳統的網絡管理功能、SDN控制功能和網絡數據分析功能融為一體,從而支撐對金融網絡全生命周期的智能運維管理。
iMaster NCE從業務視角出發,實時評估網絡健康度:首先通過Telemetry實時採集網絡數據,進而快速感知故障的發生;其次基於AI算法進行深度特徵挖掘和學習,實現分鐘內精細化定位故障根因;最後在快速定位故障根因的基礎上,智能推薦故障恢復方案,並實現業務故障分鐘級自愈。
金融網絡運維瞄向智慧、可靠與安全
將傳統的人工運維模式轉變為智能運維模式是AIOps的目標,通過機器學習不斷從運維大數據如日誌、運行信息、應用信息等中提煉和總結規則,進而做出智能化的分析決策,以機器自判、自斷和自決提升智能運維水平,是包括金融業在內的每一個行業想實現的運維目標。
華為致力於打造面向自動駕駛的智能網絡時代,通過「自動化駕駛」的技術解決複雜網絡的運維,把人做的一些操作交給機器去做,減少人為操作的複雜性,降低失誤,提升網絡質量。
金融業有其鮮明的行業特點,減少業務中斷時間,實現業務高可用是其運維的核心。華為企業服務從品質服務到卓悅服務,致力於打造智慧、可靠、安全的金融網絡,提升運維效率和網絡安全,實現業務「永不掉線」。
如何邁向以AI為核心的智能化運維?如何打造更智慧、更可靠、更安全的金融網絡?這將是一段充滿挑戰的旅程,華為不斷推動運維服務的全新進化。10月24日,「華為中國金融運維高峰論壇2019」將在杭州召開,將解開IT運維人員迷之困惑的一系列答案。