Ucan 2020 普惠公開課 - 智能與計算論壇
宇詩 - AI必須被看見 - 態勢可視化在安全智能系統上的嘗試
序言:從一個新的論述開始看到這個題目,大家一定會有這樣的疑問,AI必須被看見和安全有什麼關係?在這裡要引入一個新的論述,那就是2019年IEEE VIS 安全分論壇上查爾斯歐曼博士(Dr. Chris Oehmen)在《Visualization in an Autonomic World: Establishing Trust, Maintaining Control, and Imparting Resilience》這篇論文中所提到的:「隨著系統自主決策的增加,人類對可視化的需求越來越大。隨著系統複雜性,互聯性和自治性的增加,新的可視化形式對安全有效地操作和控制自動化系統來說必不可少。」
從這個論述中引出了兩個問題:
1.什麼是自主決策系統?
2.如何控制自主決策系統?
對於上面的兩個問題,我們來看下面的視頻(引用自《SimplePlanes 靜不穩定飛控v2.0正式版 演示視頻》 By bili_2559497):
這是一段使用simple planes模擬一架基於靜不安定氣動結構(也就是無動力,且翼面不動的情況下不可能保持穩定平飛)的飛機進行機動動作時的視頻。我們可以看到,視頻中的機翼發生了很多細小的振動,這些振動是由於氣流,或者其他一些無意識的操作造成的嗎?顯然不是。所有這些細小的振動,都是把一個比如拉升,或者俯衝之類的大動作由AI分解為無數小動作,通過電控系統控制翼面所做出的,所以這是一個典型的自主決策系統。
那麼第二個問題,如何控制自主決策系統呢?我們依然以飛機為例來看下圖(引用自《BOEING 737 COCKPIT EVOLUTION》 by Mr Aviator):
在這個例子中,我們可以看到波音737-100(左)到波音737-max(右)的座艙演化過程。這個演化過程最典型的特點就是座艙的玻璃化,也就是用液晶儀表取代了機電式指針儀表。而且並不是簡單地把機電儀表照搬到了液晶顯示器上,而是進行一些取捨和整合——比如基於地圖展示的整體飛行態勢信息。概括來說,飛控AI經歷了由機械式向全時,全權限電傳飛控的進化,與之相對的,觀測和控制系統則由單參數的機電式指針儀表發展為態勢綜合顯示系統。
也就是如下圖所示的,從左邊的,單純只能顯示數字的儀表進化為類似右側的,能顯示數字和關係的態勢化儀表。這種儀表不僅能顯示數字,還能揭示數字之間的關係。
下圖左側所展示的是由阿里巴巴研發的團圓系統推送的兒童走失信息。團圓系統是一個能夠讓更多人幫忙尋找走失兒童的一個基於Ai推送的公益系統。下圖左側部分展示了這個系統中全部4172條數據中的大約1/10,也就是400+條數據的截圖。事實證明,僅僅這個規模的數據,人類就已經無法把握全局。因此我們首先需要將抽象的數據具象化,也就是進行可視化,之後便可以得到上圖右側的可視化圖表,它將左側的數據進行了基礎的可視化。但它是否能夠反應當前系統的狀態或者輔助決策者對未來的趨勢進行預測呢?我認為不一定能,因為它所反映出的只是整個系統狀態在某個時間點,或某個維度的截面,並不能完整地反映整個系統的情況。第一個問題,如何衡量自主決策系統的工作效率和效果呢?答案是新的可視化形式。同時第二個問題也就出現了,用什麼樣的新的可視化形式來解決問題一?這篇文章將從什麼是態勢可視化,態勢可視化如何實施,和態勢可視化的案例展示這三個維度對態勢可視化這一設計模型進行闡釋。一. 可視化與態勢可視化如果最外圈是最廣泛的可視化的範圍,在其內側,稱為科學可視化。科學可視化,就是將客觀實在先抽象為數據,然後再將數據具象化為圖形的過程。
科學可視化的範圍內便是數據可視化,儘管這和陳為教授的理論有所不同。數據可視化沒有科學可視化將客觀實在抽象為數據的過程,而直接將數據具象化為圖形。
而在數據可視化的範圍內,便是態勢可視化。如何實現態勢可視化呢?
二. 態勢可視化落地的方法論從下往上依次是圖表展示,關係鏈路,多端互動,多維度數據可視化。越是往上,在數據展示的維度上就越能展現高維度的數據,也就越能夠展現系統發展的趨勢,同時技術要求上也越來越高。因此我們當前可以用多維數據可視化的手段,更好地去表現更高的數據維度和整個系統的趨勢。運用多維數據可視化,其目的就是對系統當前的狀態進行評估,或對未來的狀態進行預測。而實現多維數據可視化的過程,則是對數據和圖形進行整合的設計,通過數據的驅動生成圖形。
下圖所示的就是通過觀察,設計,實現來落地的多維數據可視化的整個實現過程。
在獲取原始數據,分析與挖掘需求之後,如下所展示的就是將源數據結構轉化為設計數據結構的過程。左側所示的是原始數據,而右側則是進行設計後的目標數據。數據的每一列可以稱之為一個維度,可以看到原始數據的詳情維度中含有大量信息,這些信息很難被計算機系統直接使用,而在右側的設計數據中,將這個維度拆解成了走失地點,走失事件,找回時間三個維度。這個手段稱為數據的結構化,與之類似的手段還有排序,去重等等,目的都是將原始數據轉化為設計數據。在設計數據的基礎上,進行可視化形式的設計,這點在後面還會詳述。在整個設計階段結束後,進行落地和實現。落地的形式既包括與前後端和數據開發同學合作的傳統形式,也包括了diy的形式。
比如下面的這個視頻,這就是一種典型的無需編碼的可視化diy工具nodebox,及使用nodebox,通過簡單的節點拖拽,通過數據生成一個極坐標圖形的過程。接下來,我們從兩個不同維度的例子來體會應用於安全智能系統的態勢可視化案例,以及他可以為我們的業務帶來什麼。三. 態勢可視化在不同維度的智能安全系統上的應用1.社會維度的智能安全系統大家應該還記得團圓系統的4172條數據,也還記得之前基於柱餅線的可視化形式。之前的結論是不論是觀察數據本身還是基本的可視化形式,都無法有效率地讓用戶獲得系統當前的狀態和發展的趨勢,為什麼呢?因為很難高效地從觀察原始數據本身,或經過基本的可視化操作的數據中獲得如下的這些信息,比如:什麼時間走失的孩子多?什麼時間找回的孩子多?為什麼?從總體上看,這種時間上的分布是否可能隱藏著某種模式?系統能否進一步優化,使真正需要幫助的人更快得到幫助從獨立的個體看,因為走失原因不同,每個孩子分別經歷多久才能被找到?所以,為了讓用戶更高效地感知系統態勢,基於經過設計的團圓數據,我們設計了跌落態勢圖這種通用型可視化圖表。從下圖中可以看到一直向後延伸的曲線,那表徵了孩子還沒有被找到,而垂直向下的曲線則表示幾乎在當天孩子就被找到了,這大多數時候表示孩子走失的原因可能是離家出走,而在橫坐標所表示的時間維度上,我們還可以簡單地看出不同類型的走失事件在時間上的分布情況。而基於上面的跌落態勢圖,在2019年的國家安全周上,我們製作了一個可以進行交互的可視化裝置。通過操作觸控螢幕,參展群眾可以非常清晰地了解兒童走失事件在時間上的分布情況,以及走失的原因,從而在一定程度上直觀地掌握走失事件的狀態和趨勢。跌落態勢圖和桑基圖等通用圖表一樣,也是一種通用型圖表。作為通過圖表,僅有一個案例是不夠的。基於各省/市衛健委及其他公開數據,我們又嘗試使用跌落態勢圖對新冠病毒的毒力與患者的病程和嚴重程度之間的關係進行了分析。在數據部分,下圖的左側是原始數據,而右側是使用openrefine進行了結構化,去重,排序等處理後的設計數據。
經由將源數據轉化為設計數據的過程,基於設計數據,生成了patients tracking可視化看板。下圖是看板進行交互操作時的狀態,可以對分析的維度進行切換。
下圖所示,其中左側是接觸-發病維度,右側是發病-治癒維度。從接觸-發病維度中,我們看到左上角有四名患者同時發病,這可能表徵了一起聚集式傳播事件。而在右側的發病-治癒維度,分析截止到2020年2月18日發生的唯二兩例死亡病例時我們可以看到,這兩個病例都在早期感染病毒,而病程經歷時間很長。這就可能說明了病毒毒力和病程擁有一定的關係。
因為我們對數據沒有經過太多處理就直接搬上了屏幕。在後續還可以在數據處理的部分進行更多優化,比如:1. 統計方面的優化:置信區間計算(x̅-Za/2 * σ/√(n),x̅+Za/2 * σ/√(n)),根據置信區間排除異常值;根據統計學上的檢測方法估算需要的樣本量n,從而更加精確地對數據有效性進行判斷。2. 分析方面的優化:數據經過聚類等算法處理後再進行展示,這樣或許可以避免因為數據過多造成的可讀性差的問題。2.集團維度的智能安全系統比如應用於雙十一期間,對交易風險進行防控的可視化系統。我們所面臨的問題依然是數據量大以及維度眾多。在進行可視化設計之前,我們首先要考慮的實際上是將這麼多維度呈現於一個圖形上是和否會造成觀眾難以接受和理解呢?從下圖的認知負荷與認知績效曲線圖中可以看到,白色實線代表認知績效,白色虛線代表注意力投入,藍色區域代表可視化圖形識別難度。我們可以看到在最左側的簡單區域裡,因為圖形過於簡單導致認知績效水平低(也就是獲取不到太多有用信息)。而在紅色範圍內,認知績效達到峰值,也實現了較好的可記憶性,可以說達到了認知和記憶的平衡,所以我們認為,可以通過增加一定程度的識別難度,來強化用戶對圖形的理解和記憶。因此基於各種極坐標圖形,我們進行了一系列的擴展,對雙十一數據進行了多維可視化的設計。那麼為什麼是基於極坐標圖形呢?因為它能夠同時表現諸如對比,時間,並列,等多種關係,像南丁格爾玫瑰圖,悲慘世界圖等大家耳熟能詳的可視化圖形也都來自極坐標圖形。
在下圖的左側,便是應用於2018年雙十一大促的忒彌斯之眼。而右側是應用於2019年雙十一的日冕圖。在日冕圖中,使用角度展示了數據的維度,通過角度和扇形面積的比例,凸顯出哪一個維度是真正需要被關注和需要的重點維度。在日冕圖上每個被凸顯出來的扇形中,圓心角越大,其對應的弦長越長。而扇形中所顯示的各個指標的顯示面積也會相應增加。這就給分析和指揮人員留下了更加深刻的印象。越需要被關注的信息,就越被凸顯出來,越能吸引分析人員的注意力,也就越容易被分析人員快速地理解和記憶。
態勢可視化模型以上的這些案例,就是我們通過多維數據可視化的手段,使用戶得以更容易地感知系統狀態,並在一定程度上可以對系統發展的趨勢進行預測,從而輔助用戶制定,和執行決策。態勢可視化的模型如下所示,而多維數據可視化則是其中將設計思想和理論落地的重要環節:在態勢可視化的研究上我們才剛剛起步,希望有機會和同學們進一步交流。
謝謝