項目背景
大數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。廣東GDP多年蟬聯全國第一,某運營商廣東省分公司為提高其在通信行業的地位,節省重複的功能開發成本,提高對業務的監控能力,減輕在運維方面的負擔,同時把握這一新興領域帶來的機遇。通過建立大數據智能雲監控平臺,不斷跟蹤研究大數據、堅持技術創新與應用創新的協同共進,加快各領域對大數據監控平臺的開發與利用,推動大數據的應用進入新的騰飛階段。
項目痛點
目前市面上一般的監控平臺,基本處理邏輯是基於個人經驗設定閥值,當監控的指標達到或超過閥值後產生報警。主要存在以下的問題:
1、當前的雲監控平臺多數採用分散部署,多層次分級部署可以減輕服務端壓力,但是會增加運維人員在部署和維護方面的困難。
2、採用分散處理,針對不同的數據源,開發獨立的程序進行部署和解析,容易造成開發、運維以及升級擴展的困難。
3、基本採用批量設置靜態閥值。閥值不合理,大面積虛假報警,同時不能反映動態真實環境,對所產生的報警,以及各報警之間的依賴關係缺乏分析,從而無法甄別出真實的、根源性的報警。
4、基本只有針對已發生情況的事後報警,缺乏預警。沒有結合運行情況的趨勢分析進行預警,不符合風險管控的原則。
解決方案
天雲軟體研發的大數據智能雲監控平臺是一項基於雲的運維智能監控系統,利用開源軟體或中間件可實時提取物理設備、基於雲平臺虛擬環境的有關設備和應用的運維數據,利用大數據平臺進行建模分析形成運維指標。
平臺採用模塊化設計,統一化管理和部署,能大大減少後期運維和升級方面的困難,同時給用戶提供最簡單的操作、最整潔的界面,最方便靈活的功能。
平臺總體架構圖
綜合監控界面
大數據智能雲監控平臺致力於在原有一般監控的基礎上,著力解決上述問題,構建基於大數據分析的智能監控,達到依靠數據自決策、自動態規劃,並對報警結果進行分析比對後,再呈現給用戶。
1、 由於分散部署會增加運維人員在維護和部署的困難,所以平臺在數據採集這一塊採取統一扁平化部署,即只有兩層架構:採集器——設備。
2、 上述提到分散處理會給開發、運維以及升級擴展帶來困難,所以平臺統一集中處理數據,即用spark對所有數據統一處理入庫。
3、 如果採用批量設置靜態閥值,會導致閥值不合理。平臺採用智能推薦閥值、智能發現異常,能大大提高報警的真實性和準確性;智能分析報警,動態展示報警和預警,能提高報警的精準性。
告警管理界面
監控地圖界面
項目總結
天雲軟體的大數據智能雲監控平臺引入了大數據智能雲平臺技術,將有利於快速部署業務,根據web層提供可自主定義的運維管理和監控界面,能及時發出告警和預警,同時精準定位告警和預警,以便及時處理運維問題。引用大數據智能雲監控平臺能使報警的精準性提高60%,降低建設和維護成本的30%,將大數據的潛在價值轉化為實際利益,使經濟效益實現最大化。通過對不同來源數據的管理、監控、分析與優化,將結果反饋到業務當中,將為客戶創造出巨大的經濟和社會價值,更為企業技術、業務和管理創新帶來新的契機。