小編茉莉:對於「夏洛克」這個產品名字,很多人都充滿了好奇。專業IT運維軟體和完美破案的傳奇神探之間,有著怎樣的關聯?為什麼IT產品會有這麼酷的命名?
— 這是2016IT運營新世界大會上令聽眾印象最深刻的演講,來自夏洛克ITOA的締造者楊辰
探索運維大數據
創造運營新價值
大家好,我是EOI擎創信息的創始人兼CEO楊辰。
擎創信息很榮幸能夠作為IT運營新世界論壇的合作方之一參與第一屆峰會,我也很感謝組辦方能安排時間讓我跟大家談一談如何探索IT運維大數據,創造運營新價值。但這個話題很大,我想十八分鐘反正也講不完,乾脆就先從我的媽媽和我之間的一個小故事開始說起吧。
我小時候看上去還是蠻乖的,不過前提是在被大人識破之前。
這個故事發生在20多年前,那是1990年,我那時初中三年級,正是人生中一個比較重要的階段,因為要準備中考,所以家裡呢也管得很嚴。我們家裡,母親比較兇一些,一進入初三就嚴令禁止我看電視,但這對於當時的我是毀滅性打擊,因為那時候正在放一部當時我認為的偶像劇《聖鬥士星矢》,我非常痴迷。
初秋的一個下午,那天我媽提前下班。回到家一看,我正在寫字檯前奮筆疾書,很投入的樣子。我媽很欣慰,走進了洗手間準備洗洗臉,這時忽然發現,洗臉毛巾沒有掛好,而且還是比較溼的。我媽思索了一下,轉而來到客廳查看,發現沙發上鋪就的沙發巾有點沒鋪平,再看沙發對面的電視機,卻沒有任何異樣。那時都流行套電視機套,只見那個繡著藍花的電視機套好端端的套在上面。但是,我媽沒有就此放棄查探,只見她迅即走到電視機跟前,摘下電視機套,然後把手伸到電視機背後一摸,感覺到略略有些溼潤。
接下來便是如獅吼一般地斷喝一聲,「楊辰,你給我過來!「
我怯生生地走了出來。「你是不是偷看電視了?」
我大腦一陣短路,顫抖著說沒有啊。
「不可能,你肯定是偷看電視了,而且你還怕電視機發熱給我感覺出來,所以把溼毛巾蓋在電視機背後對不對?」
我如同中了一招晴空霹靂,只好從實招來,當然是被一頓暴揍,就不多言了。
事後,我懷著特別崇敬的心情向父親了解,我母親是怎樣看出來的。我父親微笑不語,隨手丟給我一本書,《福爾摩斯探案集》,說,好好看看吧,關鍵在於綜合分析,要能夠從看似無關的事件中找出其中暗藏的關係,特別是那些貌似普通但實際反常的小事,往往是問題的關鍵。
比如,你何曾這麼愛讀書,居然下了課老老實實坐在書桌前,卻沒有遊手好閒?
再比如,你又不愛講衛生,從不回家洗臉洗手,怎麼會有一塊溼漉漉的毛巾還沒掛好?
那至於沙發巾沒有鋪好這種蛛絲馬跡則是線索被串在一起後顯而易見的指向事實的證據咯。
大約就是那時起,我迷上了福爾摩斯探案集,而且居然還在二十多年後在創業項目裡,把我們的IT運維大數據分析產品命名為夏洛克,就是希望我們的產品能夠如同大偵探夏洛克福爾摩斯一般的見微知著,從海量的運維數據裡發掘出解決問題的關鍵信息,這個,恐怕我父母都沒想到過。
其實我們的IT運維管理工作和我母親管理孩子的工作很類似,每一個IT運維的工作者都希望自己管理的系統不要出事。但我母親比較幸運,只有兩個孩子要管理,而在座的運維工作者和領導,管的孩子則是成千上萬,而且這些孩子,也就是我們的系統,近年來,隨著基礎架構虛擬化和雲化,以及應用網際網路化,數量和複雜度都以指數級遞增。
所以我們運維管理的現狀是這樣的:
什麼原因呢?因為我們雖然有許多局部的監控管理手段,但還是存在一個明顯的短板,就是這些工具大都是只具備發現局部問題的能力,但是綜合分析能力乏善可陳。
我們每日有從網絡、系統、應用、中間件、資料庫甚至環控來的大量的故障報警,讓人無從著手,很難判定哪些是根源報警,我們有大量的監控指標的變化報告,但要是想找出這些變化背後蘊含的意義則難上加難,更不用說還有日復一日產生的大量系統和應用日誌,這裡面有對於交易健康狀況以及業務決策支持的重要信息,但我們無法及時發掘,也無法和基礎架構的報警和性能情況建立聯繫,運維工單和配置信息。
無論是事件單還是變更單,對於綜合分析IT運營情況都是很有價值的,但因為他們和監控數據、日誌數據分離,對於綜合分析都是很大的障礙,所有一切都指向一個事實,那就是傳統的ITOM手段,只發現問題但不能分析和定位問題,更談不上預判問題。
所以我們說ITOM期待變革,我們需要能綜合分析全局運維大數據的解決方案,這就是ITOA,IT運營分析系統,他能夠幫助用戶對於各類運維過程中產生的數據,無論是結構化的,還是非結構化的,進行有機的綜合分析,從而迅速提升故障排查的速度,協助業務做決策,以及防範企業風險。
那麼ITOA如何幫助我們從探索海量的運維數據並且從中獲取價值呢?,我想藉助三個真實的故事來說明。
第一個故事 發生在一個外資銀行客戶。他們去年上線了OracleEBS財務分析系統,在苦幹實幹了近一年後終於投產了,但是災難隨之發生,就是該系統總是在使用一個月左右的時間就變得越來越慢,無論怎樣研究,廠商、開發商、用戶的開發部門、運維部門投入大量人力和時間就是搞不定,因為這過往的半年中,與系統相關的報警、性能數據報告、各類日誌,量太大了,不知道到底哪些報錯和變化指向問題的根源。只好暫時採用了運維界公認的排障神器——定期重啟。但是總是重啟Weblogic畢竟隱患重重,用戶十分抓狂。
後來在ITOA工具的協助下,事情出現了轉機。首先因為ITOA改變了我們訪問這些運維數據的方法,我們的查詢索引變得極為便利和迅捷,使得統計分析成為可能,把過往六個月的各類告警、日誌報錯進行分類,排列,而後再通過偉大的樸素貝葉斯算法,他能告訴我們諸多因素對結果影響的概率。於是我們發現了一個不易察覺的現象,就是在每次周期性的發生該故障時,在諸多報錯中,都會有大量的Java空指針報錯」Java Lang Null Pointer Exception」,該空指針報錯會在「系統緩慢」現象出現前7天開始呈現,並且報錯的數量呈線性增加,直接問題爆發。而當我們把這個問題反映給開發商後,他們迅速的圍繞該問題進行排查很快找到了程序裡的bug。
這個案例告訴我們,分析力是通過兩方面體現的:一個是對於大數據的快速統計,第二個是對於所統計出來的結果通過機器學習的算法進行研究。其實這種統計思路運維人員不是沒有,關鍵是在沒有ITOA的能力以前,統計的效率非常低,而且我們沒有機器這樣的計算能力去輔助分析。所以我們要的工具應該是人的延展,這也是未來AI的積極一面,它能做自己擅長的事,人類也做自己擅長的事,從而通過合作使得未來更美好。
第二個故事 發生在一家農村商業銀行。
新一版本的網銀上線了,但是究竟對業務有多大幫助?客戶是不是喜歡使用?哪些功能的體驗更優秀或更糟糕?我們來看一看ITOA為客戶統計的指標:
用戶使用頻率/活躍用戶:
瀏覽量(PV)
訪客數(UV)
獨立IP數(IP) - 訪問者的地理位置分布
系統用戶體驗:
平均訪問時長
平均訪問頁數
跳出率
業務每秒訪問數,每秒交易數,交易故障率等
其實用戶在頁面的駐留時長,駐留後未完成交易就跳出的比率,這些信息都是在運維數據裡提供,比如從日誌中可以挖掘,但是在業務生產數據中卻不記錄的信息,但是,這些過程信息卻對於業務決策有重大的意義,可以幫助我們了解用戶的體驗和行為。而且,我們甚至還可以通過ITOA挖掘運維數據中用戶刷卡密碼出錯的次數和地點以及頻度的多指標模型來反映是否有信用卡盜刷的風險。
因此IT運維大數據分析是業務大數據分析的一種很有價值的有機補充。
第三個故事 發生在一家國內著名的城市商業銀行。
大家知道交易問題分析中有個很常見的問題就是內存洩漏,但內存洩漏的問題往往不易被發現,原因就是內存的變化是緩慢的,但等到發現時往往就已經對生產造成影響。
在解決此類問題時,ITOA所需要具備的綜合分析力就顯得尤為重要,它可以幫助客戶把與內存相關的幾個基礎KPI進行組合分析,比如CPU佔用率和用戶訪問數量,一般來說,當用戶訪問數量增加,CPU佔用率會同比增加,內存也一樣,但反過來講,若是用戶訪問數量沒有增長,比如在夜間或業務閒時,CPU佔比趨同,但內存卻仍然增加,這種情況下,內存洩漏的趨勢就可以被提前預判,從而給用戶留有修復的寶貴時間。
當然,原理貌似簡單,但問題是要讓機器理解所謂增長或者降低並不容易,因為任何一個指標都存在周期性變化,不是線性增長或減少的,而這裡就可以用時序數據分析算法 Holt-Winters來分析和預測,也就是俗稱的三次指數平滑算法。趨勢的預判是每個運維人員的理想,但過去則更類似夢想。今天,我們通過將機器學習算法結合大數據的處理技術用於運維管理場景,使得這個現實距離夢想前所未有的接近。
其實和上面的故事類似的場景還有很多,說明運維大數據這座寶藏可以發掘的價值潛力還很大。
擎創的願景就是希望能夠通過探索IT運維大數據這座寶藏,利用機器深度學習技術提升IT運維管理的智能分析力,力求為每家企業級用戶打造量身定製的IT運維專家,如同我們產品的名稱夏洛克一樣,為我們的企業IT出謀劃策,排憂解難。
我們本次參與組辦IT運營新世界論壇,正是深知在國內企業級IT管理在過往的十年中經歷的挑戰,也深知在未來的十年中即將面臨的變化,數位化大潮中的企業IT,絕對不可能再安於保障自己不出問題就可以高枕無憂,它需要有如同業務經營一樣的經營思路,只有這樣才能真正從運維走向運營。實際上IT在數位化趨勢中就是一種核心業務,而既然IT作為一種重要業務品種存在,又怎能沒有自己的經營分析系統?而經營分析的對象正是海量的運維大數據,而經營分析的手段就是ITOA。
最後,衷心祝福中國的企業IT運營水平日新月異,也盼望擎創的夏洛克ITOA運營分析軟體產品能夠成為各位從運維向運營跋涉道路上的一級堅實的臺階。
▼ 長按二維碼,關注「夏洛克ITOA」,跟我們一起成為企業IT運維專家!