監控產品中「告警服務」的設計及演化

2021-01-10 人人都是產品經理

在「告警服務」的設計過程中,首先明確了「告警服務」的價值,然後通過用戶畫像描述了「告警服務」的實際應用場景,接著通過「用戶體驗地圖」全面梳理了「告警服務」中用戶的觸點、痛點、機會點,並以此分析出設計的落地策略,最後通過對「告警服務」的設計及其迭代演化,逐步完善「告警服務」的設計方案、提升用戶體驗。

監控,可以拆解為「監視+控制」,監視(monitor)表示用戶通過觀察獲取數據,控制(control)表示數據變化引發的用戶行為。

作為雲產品的一種,監控產品構成「數據—人—行為」的閉環,滿足用戶兩層需求:

提供準確實時的產品數據產品數據引導正確的用戶行為

數據是監控的基礎,行為是監控的價值變現。本文所述的「告警服務」就是在用戶處於離線狀態下,監控產品仍然能構成「數據—人—行為」的完整閉環。

一、告警服務的價值用戶需求

對於99%的用戶,都不能7*24盯著監控系統,當處於離線狀態時(幹活、吃飯、睡覺、下班、休假…),用戶與監控數據之間是隔離的。

在這種場景中,如果監控數據發生了異常變化,用戶仍希望能夠立馬獲悉,進而採取措施應對、避免造成損失。「告警服務」應運而生,用戶設定一定的規則,當監控數據違反規則時觸發告警並發送給用戶,打破「人」和「數據」的的隔離狀態,瞬間構成「數據—人—行為」的完整閉環。

業務價值

「告警服務」能極大解放用戶的注意力。通過對產品的業務數據設定規則,業務人員就可以7*24的掌握產品數據的健康狀態,得以將更多的精力專注於業務本身。

「告警服務」能使用戶第一時間獲取期望的業務數據。產品的業務數據一旦違反用戶設定的規則即可迅速推送至用戶,幫助用戶過濾99%的無效信息,使數據精準觸達用戶。

二、用戶畫像用戶畫像A

任盈盈,女,25歲,產品經理

負責蘇寧易購某核心產品線-XX產品線的產品工作,日常的工作主要圍繞XX產品線的需求、排期、研發、上線開展,工作節奏快、強度高。每天會登錄數次監控產品,查看XX產品線的監控數據,以掌握XX產品線的健康狀態。

由於工作節奏快,每天難以抽出充沛的時間去分析產品監控數據,會遺漏部分關鍵數據從而留下隱患。希望能通過告警服務獲取所有XX產品線相關的關鍵異常數據,既不用花費大量的時間精力去分析數據,也不會遺漏任何關鍵數據。

用戶畫像B

令狐衝,男,35歲,技術負責人

負責蘇寧易購某核心研發中心-XX研發中心的技術工作,日常的工作主要是XX研發中心的技術保障,工作責任重、壓力大。每天一上班就會打開監控產品,隨時查看XX研發中心相關的監控數據,保證系統的穩定。

由於系統是7*24小時運行,但自身無法全天候上線查看監控數據,尤其是下班後或節假日,沒法做到隨時查看監控數據。希望能通過告警服務及時獲取XX研發中心相關的異常數據,以便第一時間作出判斷、並決定是否安排人員介入。

三、用戶體驗地圖

通過參考行業相關產品和調研用戶需求,可以將「告警服務」拆分為4個階段:

「配置告警策略——篩選產品數據——推送告警消息——接收告警消息」

以下是「告警服務」4個階段的用戶體驗地圖,可以從全局視角審視「告警服務」的每一個環節。

通過洞察用戶的行為和心理,梳理用戶在不同階段的情緒點,可以盤點、挖掘「告警服務」四個階段設計的機會點,如下:

配置告警策略:簡單的配置規則、合理的指標、提供默認的閾值篩選產品數據:計算平臺處理能力強、計算平臺準確性高、計算平臺穩定性好推送告警消息:告警平臺穩定性好、告警平臺對相同告警進行合併接收告警消息:告警內容簡單易讀、告警消息支持多渠道發送、告警消息支持自定義接收者四、分析與思考

用戶體驗地圖給出設計的「機會點」,接下來需要思考如何將其落地、形成可參考執行的設計策略。

首先,需要關注存在哪些用戶觸點,這是設計落地的切入點,通過用戶體驗地圖,分析如下:

1)在「配置告警策略」階段,存在1個觸點:告警配置模塊。

結合該階段的設計機會點,可以推定:在告警配置模塊,需要提供簡單的配置規則,在配置規則內儘量提供用戶最合適的指標或組合,並且在關於閾值的設定上可以提供默認值、或者毋需用戶設定。

2)在「篩選產品數據」、「推送告警信息」兩個階段,均由後臺系統自動完成、用戶不會直接接觸,因此不存在用戶觸點。

但是並不意味著設計不需要關注這兩個階段,在設計的過程中,需要根據目前的技術能力給出合理的設計方案,儘量避免憑空想像。

3)在「接受告警消息」階段,存在2個觸點:終端接收設備、告警內容。

結合該階段的設計機會點,可以推定:

針對「終端接收設備」,用戶希望可以選擇自己需要的渠道接收告警消息,並且告警消息發送給誰也由用戶自己決定,這兩項均屬於配置階段的內容。針對「告警內容」,用戶希望能按照重要、緊急兩個維度將告警內容從上到下排列,並且儘量減少冗餘信息、提升可讀性。

通過以上分析,可以清晰歸納出,設計的落地點主要由兩個:

配置告警策略(支持自定義的渠道和接收者)告警消息所推送的內容

針對這兩項的設計策略如下:

五、設計及演化配置告警策略

參考行業相關產品,告警配置模塊主要分為兩個部分:

告警策略的展示列表告警策略的添加/編輯狀態

本質上兩者都是即圍繞「告警策略」開展設計。

針對「告警策略」,一般由4種內容組成:

告警策略的名稱告警監控的對象告警針對的指標告警觸發的條件

在本案例中,由於「終端接收設備」模塊的內容合併至「告警配置模塊」,因此本案例中的告警策略需要再增加一項內容:告警消息的推送。

1)告警策略的名稱:指本條告警策略的名稱,與人的姓名一樣,是用戶識別告警策略的主要標識。

2)告警監控的對象:指本條告警策略是針對哪些對象而配置的,監控這些對象的狀態變化。

3)告警針對的指標:指針對哪個數據指標設立告警規則,指標可以是單個或一組,需要選擇合適的指標才能更好的發揮告警服務的價值。

4)告警觸發的條件:指選定的數據指標達到什麼閾值即觸發告警的生成,這個決定告警服務的精確程度。

5)告警消息的推送:指告警消息發送的人員,以及發送的方式,也就是解決「通知誰、怎麼通知」的問題。

梳理完告警配置模塊的元素,就可以根據「配置告警策略」的設計原則,開展設計:「配置規則簡單、指標契合、閾值有默認值、自定義接收渠道、自定義接收者」

當用戶進入告警配置模塊,未配置任何告警策略,提示、引導用戶開始創建。

針對「添加告警策略」,經歷了3版設計方案的演變。

第一版方案,基本符合上述的設計原則。

該方案上線之後用戶配置了大量的告警策略,但發生了意想不到的事情:不告警。經過排查定位,最終確認是計算平臺產生了非常嚴重的阻塞,即「用戶體驗地圖」的第二階段「篩選產品數據」出了問題。復盤之後,認定有兩方面的原因:

一是所選擇的告警指標「影響用戶佔比的環比增長率」涉及大量的「去重」計算,嚴重消耗計算平臺的性能;二是監控對象沒有做限制,多個篩選條件排列組合之後產生了大量監控對象,遠遠超過了計算平臺的極限。

因此,決定從兩個方面優化設計方案:

使用新的告警指標對監控對象做限制

這是第二版方案,在延續第一版所遵循的設計原則基礎上,針對性做了優化。

監控對象限制了可配置的數目,降低現有計算平臺產生阻塞的風險;改用新的告警指標,捨棄了「去重」計算,提供「絕對值」、「相對值」兩種指標供用戶選擇,覆蓋面更廣;精簡了觸發條件,減輕現有計算平臺的壓力;消息推送的渠道默認值只設置「豆芽」,降低成本(豆芽是蘇寧內部員工使用的IM工具)

第二版方案上線之後,告警計算平臺的阻塞問題解決了,但是用戶反饋:監控對象可配置的太少。這個當時已經預料到會有這個問題,但是現有的計算平臺性能受限,「巧婦難為無米之炊」,只能採取這種妥協的方式。

隨著新的計算平臺上線,性能得到極大提升,設計方案也不用「畏手畏腳」。第三版方案在保留原有優點的基礎上,主要針對「告警對象」做了重點優化。

告警名稱提供默認值,解決用戶對告警名稱填寫過程中「不願想、不願寫」的」懶「需求;監控對象的來源,提供用戶常見的場景作為待選集合,方便用戶快速選擇告警對象;監控對象的配置,讓用戶行為從「輸入」變成「勾選」,並提供批量選擇,簡化用戶的配置步驟;監控對象的數目,限制數放開至200,並可通過後臺配置進行動態調整。之所以將數目暫定於200,是方便用戶從四個TOP異常的場景中分別選中一類,正好200。

添加完告警策略之後,告警模塊至少會有一條告警策略。

支持用戶對告警策略列表進行篩選、搜索支持繼續添加告警策略將告警策略的五種主要內容(告警名稱、監控對象、告警指標、觸發條件、消息推送)顯示在列表內支持對單條策略的開關、編輯和刪除,其中「開關」場景是用戶暫時需要關閉策略、但不對其進行刪除告警消息

告警消息指的是當告警發生以後,告警平臺將該條告警相關的信息推送至用戶,是「數據—人—行為」閉環的重要一環,用戶通過閱讀告警消息獲取當前系統的健康狀況、從而採取對應的幹預措施。

根據「告警消息」的設計原則,開展設計:

「提供關鍵數據、精簡告警內容、減少冗餘信息、提升可讀性」

相比於「配置告警策略」,「告警消息」沒有出現過較大版本的優化。通過參考行業相關產品和用戶需求,擇取了9個欄位,實際的告警消息有兩種模板,分別對應兩種告警指標:異常數、絕對值。

告警策略的名稱:用戶第一時間判斷和自身的相關程度,是否自己創建、是否是高優先級告警策略。當前產生的告警等級:判斷該告警的嚴重程度,決定了採取何種幹預措施。產生告警的監控對象:確認告警是由哪個監控對象引起,如果要採取措施可據此聯繫責任人。觸發告警的數據:查看現場數據,在告警等級的基礎上進一步判斷該告警的嚴重程度。告警發生的時間:時間可用於定位告警的原因和判斷時效性。告警所屬的產品:附屬信息,當用戶名下有多個產品時據此區分。告警發生的來源:附屬信息,當用戶使用多種監控系統時據此區分。告警消息的接收者:附屬信息,用戶用以判斷相關干係人是誰。告警策略的創建者:附屬信息,用戶用以判斷該告警策略是否是正常、合法創建。六、總結小結

在「告警服務」的設計過程中,首先明確了「告警服務」的價值,然後通過用戶畫像描述了「告警服務」的實際應用場景,接著通過「用戶體驗地圖」全面梳理了「告警服務」中用戶的觸點、痛點、機會點,並以此分析出設計的落地策略,最後通過對「告警服務」的設計及其迭代演化,逐步完善「告警服務」的設計方案、提升用戶體驗。

隨著AI和大數據等技術的引入,「告警服務」會持續進行優化迭代,主要圍繞3個方面:

更簡單的配置。通過採取態勢感知、智能化的帶狀閾值區間會逐步取代人工設定的閾值,能極大降低用戶使用「告警服務」的成本。更具體的對象。目前的告警策略針對的還是零散的告警對象,未來將會將圍繞「場景」概念為用戶提供更加具體的業務告警對象,價值更高。更精準的決策。目前的告警服務僅僅限於將現場數據告知用戶,未來將會提供給用戶加精準的輔助決策,以達到智能化運維的目標。反思

設計師都是理想主義者,設計過程就是一個理想主義者不斷與這個世界妥協的過程,與用戶妥協、與技術妥協、與時間妥協,但這也體現體驗設計的魅力:圍繞用戶需求進行快速迭代。

「設計沒有好與壞,只有合不合適」

 

作者:胡欣欣,公眾號:吹拉彈唱大師(ID:cltcds)

本文由@吹拉彈唱大師 原創發布於人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash, 基於CC0協議

相關焦點

  • 熱像儀新突破 第五代告警熱成像攝像機
    北京和普威視光電技術有限公司設計生產的告警熱成像攝像機有效解決了這一問題,HP-TTC4系列熱點智能探測告警熱成像攝像機產品是基於最新的第五代非製冷紅外技術和連續變焦紅外光學技術開發的遠距離熱成像攝像機。採用高靈敏度336X256解析度非製冷型焦平面成像探測器,先進數字電路和圖像處理算法可提供細膩平滑的圖像。
  • 竣達技術丨機房組態系統綜合監控解決方案
    一、方案簡介: 竣達機房組態系統綜合監控解決方案集軟硬體於一體,mips架構,Linux作業系統,便捷的嵌入式WEB服務方式。 3.動環主機具備12路RS485通訊接口,設備數量較多時,可接入IO擴展模塊,採集煙霧和漏水檢測模塊的開關量信號,並提供給動環監控主機共24路開關量輸入,其他的開關量告警設備都可以接入該擴展模塊中
  • 基於WebGL的3D可視化告警系統關鍵技術解析 ThingJS
    #三維可視化# #3D開發#WebGL 3D技術新一代3D框架-ThingJS3D可視化告警系統案例基於ThingJS的通用架構設計WebGL 3D技術WebGL是一種在網頁瀏覽器中渲染3D圖形的 JavaScript API,無需加裝插件,只需編寫網頁代碼即可實現3D圖形的展示。
  • 在線測溫熱成像攝像機在測溫監控系統的應用
    針對生產廠房系統關鍵設備監控的實際情況,北京和普威視科技股份有限公司設計了廠房在線測溫監控系統,利用熱成像原理,通過接受物體發射的紅外線,將被測目標物體表面的紅外輻射轉變成視頻信號,以此來監測設備溫度及其他異常事件。
  • ZWS行業應用-光伏電站監控系統
    編者按:光伏發電是近年來發展迅速的新能源,隨著規模壯大,以往人工統計收益、巡檢監控電站的方式無法滿足運營需求,為此,致遠電子提供了光伏電站監控方案,實現電站的遠程監測。
  • 檔案館煙感監控系統
    煙霧探測器也被稱為感煙式火災探測器、煙感探測器、感煙探測器、煙感探頭和煙感傳感器,主要應用於消防系統,在安防系統建設中也有應用。 煙霧探測器,是根據感應煙霧顆粒的原理來工作。採用獨特的機構設計以及光電信號處理技術,具有防塵、防蟲、抗外界光線幹擾等特點,從設計上保證了產品的穩定性。
  • 如何實現對數據中心智能小母線的監控?
    近年來,隨著數據中心建設的快速發展和更高需求,智能小母線系統逐漸被應用於機房的末端配電中,具有電流小、插接方便、智能化程度高等特點,即插式插接箱給各個機櫃內的PDU分配電。始端箱和插接箱內可設置監測模塊,將數據上傳至動環監控中心。
  • 基於WebGL的倉儲糧食溫度告警可視化 ThingJS
    B樣條曲線一般應用在計算機輔助設計與製造當中,是一種由大量控制點生成曲線的工具,它具有樣條曲線的普遍特性:(1)是一條只需要幾個點依次指定的光滑曲線;(2)可以通過相應算法找到曲線或者曲面的點;(3)根據人們對近似度的需求,通過迭代計算方法使用線段能足夠準確再現曲線的形狀。
  • 民用航空氣象綜合服務平臺將上線運行
    民航氣象中心主任周建華說,該平臺運行後,將目前所有的航空氣象產品進行集中整理,並綜合機場和航班的運行標準,提供氣象信息。「比如,我們在氣象信息中會顯示目前跑道視程是多少,會不會超過起飛標準,為用戶在複雜天氣下作出決策提供技術支持」。  天氣是瞬息萬變的,正在發生和即將發生的重要天氣會對航空運行帶來重要影響。所以,氣象信息的傳遞必須強調及時性。
  • 航空之「眼」:動態監控飛機飛行全過程
    國際業界對此開展了廣泛的交流與合作,國際民航組織(ICAO)成立了相關工作組,提出了航空器追蹤運行概念草案—全球航空遇險與安全系統(GADSS)以及相關的標準和建議措施,明確了各相關方的角色與責任,並確定了開展全球航空器追蹤的戰略規劃,旨在為航空器搜救和事故調查工作提供支持,同時提出了利用現有技術及時獲取航空器位置、簡化航空器定位程序、實現航空器位置信息共享以及改善ATSU的告警服務能力的近階段目標
  • 數據中心機房母線智能監控方案說明
    智能監控方案說明末端母線監控系統概要數據中心的眾多設備,尤其是 IT 設備要求 7×24 小時不間斷運行,作為運 維管理的一部分,基礎設施的監控和管理在數據中心中的作用和功能是必不可少監控系統是通過硬體(母線系統中包含現場傳感器、數據採集/運算模塊和 通訊模塊)和軟體技術(主要包括本地人機界面內置的用於數據二次分析和圖形 表格呈現的程序),對基礎設施(例如末端母線系統、精密空調系統、UPS 系統、 安防系統等)和 IT 設備的運行狀況進行實時監控,及時發現故障,並對運行數 據進行分析和處理。
  • 接近完美的監控系統—普羅米修斯
    當年,由於SoundCloud公司生產了太多的服務,傳統的監控已經無法滿足監控需求,於是他們在2012年決定著手開發新的監控系統,即普羅米修斯。要採集目標(主機或服務)的監控數據,首先就要在被採集目標上安裝採集組件,這種採集組件被稱為Exporter。
  • 基於RS485總線的溫溼度監控系統設計
    整個系統在監控系統治理軟體的控制下,同一協調工作,完成設計功能。  2.2 主從式通訊網絡  監控系統中網絡通訊採用RS-485串行總線連接,串行通訊具有傳輸間隔長、連接簡單、使用靈活方便、數據傳輸可靠性高的特點,在產業監控、數據採集和實時控制系統中得到了廣泛應用。
  • 從產品設計角度,解讀物聯網四層架構
    本文作者從產品設計的角度出發,為我們解讀了物聯網的四層架構。本文以物聯網四層架構為基礎,從物聯網產品設計的角度來解讀每層架構的功能以及主要內容,旨在為物聯網產品設計以及實現思路感興趣的物聯網產品或研發人員有些幫助。通過網際網路,人和人之間可以傳遞和交流信息。
  • 海康威視螢石360度無線WIFI監控攝像頭
    雙向雲臺,靈活轉動,雙向雲臺設計夜間紅外燈亮度將根據環境自動調節,環境過暗情況下夜視效果自動增強,近距離監控時,自動降低紅外燈亮度,防止過曝,更貼心保障夜間攝像機視頻畫面的清斷穩定。夜視距離最遠可達10米。
  • 產汙設備用電監控平臺
    產汙設備用電監控平臺是在相關地區環保局需要監控生產企業的生產設備和環保設施排汙淨化設備上安裝具有通訊功能的智能監測模塊對企業中已安裝監測模塊的設備的運行狀態(啟停狀態)和各種電參量進行實時的監測並通過數據分析和模型研判及時發現這些設備運行的各種異常情況。
  • 2020年最受歡迎的雲生態開源應用程式監控工具
    但是容器雲架構下系統監控確實一個常常被忽略的問題。儘管容器部署主要涉及在每個容器內運行單個應用程式或服務,但是隨著部署規模的擴大,對環境狀態和運行狀況的可見性變得越來越重要,而不僅僅是在作業系統或應用程式級別,而且在容器級別也是如此。雲生態監控和日誌處理領域分為實時資料庫,度量標準收集器,可視化工具,輪詢器,記錄器等。
  • 智能配電網綜合輔助監控系統包括WEB版管理平臺、APP手機遠程管理...
    1 系統總體設計  1.1 系統總體架構  根據《配電房管理制度》、《配電房操作規程》以及《電力安全生產條例》等文件精神,結合我公司實際應用案例,採用分布式和模塊化架構,把智能配電網綜合輔助監控系統分為站端設備和軟體系統兩部分。
  • 公交車閉路監控系統的結構組成及功能設計
    珠海安聯銳視科技股份有限公司研發的公交車閉路監控系統不僅能跟蹤記錄車輛的地理位置,還能對客車的運行狀況和司乘人員的工作進行全過程監控和錄像,防止司機違規操作,還可以在司乘人員與乘客發生糾紛時作為區分責任的證據,監督司乘人員在樹立公司良好形象等維護公司和乘客的利益,給乘客提供更優質的服務,提升客運企業的競爭力。
  • 從互動設計到產品設計到服務設計,變遷是怎麼發生的?
    服務設計的定義:以用戶為中心,對整個用戶體驗過程的服務引導和質量把控;服務設計以企業為推動力,基於自身特點和商業目標,對於服務運營管理作出的規劃和設計。我將從五個方面來對比傳統意識與服務設計意識的差別,從而讓大家更好地理解什麼是服務設計。