本文是疫情大數據回顧系列的最後一篇,我們還是回到大數據應用,因為大數據總是通過應用來發揮價值。
儘管在疫情開始,由於各方面的限制,大數據的應用還比較原始或者不及時,甚至在疫情進展過程中,我們對大數據應用的很多期待依然由於種種原因沒有能夠落地實施,但在整個過程中,我們還是看到了很多大數據應用真正切實改變了人們的生活,大大提高了效率。
在本文的系列一,我們也見縫插針地給出了一些大數據應用的例子,圍繞數據分析的四個階段:發生了什麼?為什麼發生?未來會發生什麼?以及怎麼影響未來的發生?即描述性分析、診斷性分析、預測性分析以及處方型分析給出了一些應用案例。但這種基於目標的分析方法還不足以梳理疫情大數據應用的脈絡,在本文中,我們試著換一個方法來組織對大數據疫情應用的分析,並在分析過程中,給出我們的一些總結和思考。
大數據疫情應用本質上屬於公共衛生信息化範疇,而圍繞公共衛生事件的應急管理屬於國家大應急管理的一個門類。對於這類應急管理事件,我們可以用OODA環理論來分析。
OODA 循環又稱博依德循環,由美國空軍上校約翰·博依德(John Boyd)提出。OODA是觀察(Observe)、判斷(Orient)、決策(Decide)以及行動(Act)的英文縮寫,最早用於美軍作戰系統,後來也被用於圍繞信息採集、分析和指揮決策等的突發事件處理。從戰爭的視角看,這次圍繞疫情的處理循環可以看作一場人民和病毒的戰爭,我們就順著這個脈絡來分析各個處理階段的一些應用。這裡要說明的是整個OODA循環本身又可以包含OODA小循環,是互相協調的步驟。如下圖所示。為方便讀者理解,本文我們還是圍繞著主循環的四個大的階段來給出說明。
一、觀察
什麼是觀察?就是搜集各方面的信息,典型的就是情報大數據,譬如疫情大數據情報,就是要從正式渠道,包括公共衛生上報系統、HIS系統或者社區綜合治理系統等採集各種大數據,以了解發生了什麼事情。也包括非正式渠道,包括各種媒體,社交群,甚至是類似「朝陽群眾」這類信息眾包系統。這些數據主體可能是結構化的信息,例如各種信息化系統的接口數據,也可能是半結構化的文本數據或者類似圖像、聲音或者視頻的非結構化數據。觀察是淺層的事實搜集,卻是所有分析決策的開始。
(1)疫情篩查暨個人信息填報
個人信息填報主要是了解各個個體在疫情期間是否去過疫區?有沒有新冠肺炎的指徵(主要通過體溫)?有沒有乘坐過確診病例的交通工具(主要是飛機和鐵路)?有沒有遷移的計劃(比如離開本省計劃返回時間)等等。可以說早期的信息填報幾乎是個體大數據的唯一來源,甚至剛剛疫情開始的時候,需要通過社區人員上門手工採集相關數據,工作量非常大,而且容易遺漏,所以早期所謂大數據應用,就是把紙質的這個動作變成通過手機端來採集,移動應用或者小程序或者H5頁面。
下圖左邊是釘釘針對學校的健康上報系統,右邊是微信的疫情情報群眾上報系統。
這些疫情大數據採集系統其實談不上大數據,就是一個樸素的在線數據搜集的應用而已。既無法保證採集數據的完備性(表單是各個組織根據需要設計的),也不能確保數據的準確性(依賴於人的填寫),更無法共享數據(不同部門可能都需要數據,所以需要重複採集),甚至填寫的方式和頻率也不盡相同(有表單,也有通過微信反饋的)。
延伸應用一、通過智能語音機器人輔助採集信息
疫情機器人在這次疫情防控中,主要用於數據採集和百姓諮詢,前者主要通過自動撥打電話(採用合成語音TTS)給相關人比如忘記填報或者不會使用智慧型手機的人(老人)以輔助採集相關信息,這些信息最終通過語音識別轉換文字之後作為填報數據統一匯總,後者主要是基於語音識別之後進行自然語言對話,過去主要用於銀行或者電商的客戶服務場景,這次用於老百姓疫情信息查詢或者相關求助也是比較自然的事情。
智能語音機器人對於減少人工參與,提升信息採集和查詢效率已經被證明是很好的工具,儘管還存在識別不準確,對話不自然等限制條件,但在大數據或者人工智慧應用中已經是比較成熟的場景。
延伸應用二、通過軌跡數據查詢個人過去14天所到城市
大家知道區域隔離是這次疫情管控的關鍵,對於高風險區域特別是湖北的城市,是嚴格限定出入的。各個城市也會根據過去14天的行程制定嚴格的居家隔離措施,例如北京,對於所有國內的離京返回人群統一進行14天的居家隔離措施,怎麼判斷14天有沒離京,主要就是根據用戶使用手機的大數據查詢和分析,這是一個很切實際的應用,其一,軌跡數據查詢是嚴格的需要用戶授權才能查詢,而且是在用戶設備上發起,從而確保了隱私性;其二,軌跡數據並不涉及用戶的精確的軌跡數據,而只是客戶的漫遊數據,所以即便被檢查人員看到也不涉及個人很私密的信息。
(2)圍繞人體測溫和人臉識別的視頻應用
除了收集疫情篩查信息外,以智能攝像頭作為核心部件的安全防控解決方案也被大量應用在機場、酒店等各個地方,其主要功能包括:人體體溫測試,主要採用紅外的方式進行,這種方式靈敏度高,且適應大流量測試;人臉識別,主要對關鍵人員軌跡進行輔助識別,屬於傳統應用範疇;戴口罩識別,在人臉識別中即使帶了口罩也要能夠識別出相關人員身份,而這裡主要是作為強制防疫措施的自動核查即不戴口罩是不被允許的。
延伸應用一、社區門禁加上攝像頭自動識別功能
早期智能門禁主要是刷智能門禁卡,隨著攝像頭特別是帶人臉識別的攝像頭技術的成熟,人臉識別門禁被大量應用在智慧小區的入口識別,其不僅僅用於開關門,還涉及實名客戶軌跡的確認,它既可以解決過去人卡不一致的問題,還可以解決便利性的問題,也有小區通過智能門禁和攝像頭的組合來進一步對小區進出的安全事件進行檢測,包括尾隨進入、徘徊等。
在此次疫情防控中,為了提升防控的效率和自動化,很多社區使用了帶人臉識別和攝像頭結合的智能方案,提升了小區管控力度和效率,也得到了百姓們的支持和上級政府主管單位的認同。這些數據可以有效的作為前述採集數據的補充。
延伸應用二、民宿實名登記和人臉識別裝置
過去酒店的登記和管理相對比較正規,隨著人臉識別技術的成熟,酒店使用相關設備進行核驗已經比較普及和成熟。而民宿實名登記和管理相對不完善,對公安系統一標三實的數據準確性帶來了挑戰,特別是那種類似日租或者臨時的租房。
通過應用包括前述的門禁設備加更多人臉識別裝置,民宿的數據準確性有望帶來很大的提升。疫情的發生使得我們對社區的精細化管理要求更加嚴格,通過廣泛鋪設的智能硬體設備的採集,可以大大增加數據的準確性和實時性,防患於未然。
2、判斷
判斷是OODA的第二個O(Orient)的中文翻譯也有翻譯為分析的,其含義是將各種信息融合起來進行分析以產生進一步的洞察信息,這些信息可能是對表面現象的進一步關聯、背後原因的挖掘、異常的發現等等。
簡單的大數據統計分析可以發現整個疫情的基本情況,包括感染者和疑似感染者等,這些信息可以按照時間和空間來進行劃分,並進而可以對地區感染趨勢進行查看,這是一般統計學的範疇。複雜一些可以是對確診患者的關係分析和挖掘,通常使用流行病學調查就可以發現一些端倪。
我們在回顧系列第一篇章,已經給出了所謂ABC傳染路徑的分析問題,流行病學調查可以容易發現AC的傳播特色,但沒有更多技術手段支持很難發現B。而且這種關係由於一般只能發現顯性關係,所以從提前遏制的角度來看,效果一般。
(1)疫情匯總統計和分區域統計
數據統計和匯總應該是數據分析的最簡單手段,但對大眾來說可能是最重要和最直接的數據感知,下圖是國內最早以圖表展現形式給的關於確診、疑似和重症的統計數據,也包括了對增量的一個統計說明,這些說明就是一些簡單的判斷或者說分析。但這些最關鍵數據的提供可以大大緩解人們的焦慮或者關注,這些數據大多來自衛計委部門的官方數據,但為啥很少有人去查看那些數據,我在前面的文章也提到了,要用用戶體驗良好的方式展示數據分析結果。這個就是數據可視化的重要性。
(2)同乘人員查找和附近確診人查詢
為什麼把這兩個應用放在一起,從用戶體驗上,這些應用只提供數據,需要客戶提供出行信息或者位置信息才能獲取到最終的結果,這個在未來也是大數據獲取數據進行判斷的一個重要方向,即系統提供一部分數據,用戶提供數據再生成最終的結果。
患者同乘應用出現背景是比較「原始」的,最早無糖信息科技人員通過人工採集各個地方發布的確診患者的乘車信息匯總了這個資料庫,然後提供出來再進行查找就比較容易了,而疫情小區的信息也是類似的。
從這個角度看,有時候數據關聯如果沒有很好的頂層設計和規劃,數據的提供還比較發散,要為應用提供良好的判斷,就比較棘手。這也說明,我們國家關於公共醫療衛生的數據打通仍然是亟需解決的問題。
(3)確診人員的流行病學調查暨人員關係分析
現在科學已經意識到人類社會是由複雜的社會關係網絡組成,人們在物理空間、社會空間和信息空間的交互就是複雜關係的產生、加強、消滅和重連的過程。所以在大數據領域基於關係的實體分析非常流行,儘管分析的技術各有不同,通常用於關係分析的技術包括:數據挖掘的關聯分析、知識圖譜以及複雜網絡分析等等。
這裡面不僅僅有數據科學的難題,也有複雜社會動力學的問題。儘管很少將關係網絡等應用直接提供給最終用戶,但政府部門或者學者在研究時,往往會使用相關技術來發現傳播路徑或者找到隱藏的傳播節點。
上圖是個簡單的確診患者相關的關係網絡的可視化,最簡單可通過調查,人工畫出相關的傳播網絡圖,一般適用於顯性知識的可視化,如果要發現網絡的複雜問題,或者需要自動化挖掘網絡知識,還需要藉助包括機器學習、知識推理等專門知識。
延伸應用一、知識圖譜用於新冠疫情知識傳播
如上圖所示,有一些公司針對新冠肺炎的知識傳播,也生成了一些知識宣傳或者助於科研的知識圖譜。這些可視化的圖譜可能對於人們學習和認識疾病有一定的用處,但並不能帶來多大的實用價值。
延伸應用二、密切接觸人員軌跡碰撞
如上圖所示,密切人員軌跡碰撞試圖利用人和人之間的空間關係來推斷確診患者可能的密切接觸人群,位置數據可以是視頻數據、移動基站定位數據以及GPS數據。過去位置碰撞常常用於公安系統同夥發現,與公安系統同夥發現還可以從多個角度找到可能性(不會只同時出現過一次)不同,疫情密切接觸的位置數據由於存在臨時性特徵,例如只是一起排隊買菜(有相關案例的報導),所以很難發揮作用。
目前尚未見有公開報導做位置分析可以發現確診人員的密切接觸者的案例,儘管專家、政府甚至大眾對此都有期待。從筆者了解的情況,有一些範圍性的軌跡碰撞或者統計性的碰撞案例,只能起一些「安慰」作用,還不能發揮核心作用。但軌跡數據的碰撞值得細緻的研究。
3、決策
在了解了事實掌握了情況之後,就需要依據掌握的信息進行決策,比如準備採取什麼行動?為了決策更加有效有時候也會採用輔助方法來進行。
其一預測分析,預測分析的本質是為了更好的做決策,這裡面包括一些機器學習的方法和數據統計的方法,也有一些物理方程的方法;其二科學仿真,仿真是認識事物規律過去常用的方法,也用於通過不同要素的搭配對可能結果進行模擬,來為決策者提供決策依據;其三運籌優化,運籌優化用於決策有非常悠久的歷史,選址和路徑規劃是最常見的運籌優化的場景,另外關係到資源匹配、庫存管理或者投資的組合優化都可以用運籌優化來解決;其四推薦引擎,推薦是根據過去的經驗,給出的決策建議,良好的推薦系統不僅僅考慮過去的經驗也考慮先驗知識和最近的情況。
在大數據應用中,大家比較熟悉的智能輔助可能是一些機器學習的方法,但更多決策實際是基於數據建模和先驗知識的。儘管有很多系統特別是國外的一些仿真系統也提供了一些仿真應用或者決策輔助功能,但真實事件中很少看到相關的案例,這也說明了從認知的角度或者決策的角度,我們還有很長的路要走,特別在實戰化方向。但我們也看到在預測方面,這次疫情還是有很多很好的應用。
(1)確診人數即感染人數預測
關於感染人數的預測一直是大家比較關心的問題,不僅僅涉及到對傳染程度的整體評估,還涉及資源調配、社區管理等等一系列措施的制定和實施,所以一度以來關於中國新冠疫情感染人數的預測就有不同的說法。
目前從官方數字來看,確診病例大概在8萬左右,基本和很多預測模型的數據一致。但預測模型只是給一個量級的估計,考慮存在早期快速傳播,後續人員返共以及境外輸入以及存在一些病例沒有及時確診可能死亡等複雜條件,真實感染人數和確診病例之間還有一些差距。但目前公認的事實是,中國國內疫情傳播基本得到抑制,熟悉整個疫情專家組對外發生過程的都知道,這個預測數字還是非常關鍵的,對於確認是否出現拐點,封城措施的解除以及復工復產都有重要的指導作用。
疫情預測採取的方法有很多,但通常比較流行的是基於SEIR的傳染病動力學模型,這是一個數學方程的形式,考慮各種情況對相關參數或者結果會做一些修正。大家看到的預測很多都是SEIR模型方式,等數據積累到一定程度也有使用機器學習的方式來做,典型的就是一些回歸方法,這些方法各有一些優缺點,所以有時候也會結合起來進行交叉參考。
關於預測的準確性,筆者的觀點,我們更應該把預測作為一個認識問題的手段而不要看做結果,從大的方面講,可能所有預測都是不準確的,因為有太多複雜要素,如果再考慮人為幹預就更複雜,但對於指導是沒有問題的。
(2)新冠肺炎CT影像的AI輔助診斷
這裡的大數據也就是新冠肺炎患者的CT影像樣本,通過識別幾千個病例的樣本,再結合人工智慧學習樣本的病灶紋理,最終建立了一套針對新冠肺炎CT樣本的AI算法。
算法訓練的結果就是,可以讓AI以96%的準確率從待診斷患者中識別出新冠肺炎患者的肺部CT。其實AI輔助識別病例不是新鮮事,但這個依賴於大量數據的訓練,實際工作中也只是作為一種參考。
4、行動
一旦有了決策,下面就需要執行,行動的執行一個是解決效率問題,儘量提高投入產出比,能自動化的自動化,類似智能督辦、智能推送都是一些提升效率的方法,金融系統裡面使用智能客服進行催繳就是一個典型提高效率的方法,在疫情處理中涉及電話溝通的可以通過智能督辦來完成。
行動的執行還要解決效果問題,通過A/B測試即兩種方案對比,或者人和機器協同,或者持續閉環學習等都可以提升行動的效果。
在疫情中,我們也發現一些簡單的信息化應用(有些基於大數據的)可以大大提升防疫的效率,這次疫情最出彩的就是健康碼。健康碼根據輸入的相關信息以及過去的行程信息以及地方政府要求的信息最後生成一個表示危險性的健康碼,通過不同顏色來標識,一般綠色的都是通行狀態。
以上,我們簡單回顧了一下大數據疫情的一些典型應用,我們也發現整體而言,大數據包括人工智慧的應用還不夠深入,缺少殺手級的一些應用,比如軌跡大數據碰撞應用、資源匹配和調度應用、疫情情報大數據分析應用等等,這些核心應用對於大數據疫情的判斷和指揮非常關鍵,還有待於我們持續去攻克。
我們也發現大數據本身還依賴信息化流程應用的構建來發揮作用,前面提到這三類應用大部分和業務系統的構建即能否獲取到相關數據有關。下面結合筆者的經驗也結合這次疫情大數據應用的一些知識,我們來看看大數據發展的一些趨勢。
首先我們可以看看中國計算機學會在2019年12月召開的大數據技術大會上對2020大數據十大趨勢的預測,筆者也參加了相關的調研,基本上這是各個專家的普遍共識,我們先來看一下:
(1)數據科學與人工智慧的結合越來越緊密
(2)機器學習繼續成為大數據智能分析的核心技術
(3)大數據的安全和隱私保護成為研究和應用熱點
(4)數據科學帶動多學科融合;基礎理論研究受到重視,但未見突破
(5)基於知識圖譜的大數據應用成為熱門應用場景
(6)數據的語義化和知識化是數據價值的基礎問題
(7)人工智慧、大數據、雲計算將高度融合為一體化的系統
(8)基於區塊鏈技術的大數據應用場景漸漸豐富
(9)大數據處理多樣化模式並存融合,基於海量知識仍是主流智能模式
(10)關鍵數據資源涉及國家主權
有個基本共識就是大數據和人工智慧的交叉越來越多,一個是大數據系統或者基礎設施的建設經過這麼多年相對比較成熟,特別是隨著hadoop、spark以及flink等優秀開源項目的出現,儘管在大數據系統層面還有很多棘手的問題需要解決,但是基礎還是比較紮實的,當有了這些數據,人們期望從大數據中獲取深層價值的時候,自然人工智慧的結合就會越來越緊密,有時候也把數據智能來形容這些交叉處理方法。
其中最典型的就是機器學習技術,特別是深度學習。最近幾年大數據的核心應用幾乎都是和機器學習相關,尤其是深度學習為核心的圖像識別、語音識別和視頻處理等。當這些基礎的數據的感知需求被滿足之後,大家對大數據的知識化應用,通常在人工智慧也被稱作認知智能有了更大的訴求,一個特點就是期望通過海量知識來推動認知進步,大規模知識圖譜、大規模圖網絡以及人為因果圖等知識推理的深度應用一直吸引著學術界和工業界。
在前面系列文章中,筆者也重點提到了數據安全和隱私,這次疫情期間也發生了一些值得關注的事件,所以未來安全和隱私保護一定是研究和應用的熱點,這裡面區塊鏈技術也會發揮一定的作用。在基礎理論還不成熟,或者繼深度學習之後,有沒有巨大革命技術來推動數據智能發展,現在還看不到,工業界著重在考慮超融合系統建設,儘量發揮軟體和應急系統的協同作用。這些基本認知和大數據專委會的一些趨勢判斷也是一致的。
結合前面幾個系列以及本文提到的一些大數據疫情應用,筆者試圖對大數據發展特別是應用發展給出一些判斷,供讀者參考:
1、大數據本身不是「業務」,大數據是賦能者,其價值取決於其賦予的業務的價值
2、與節省成本相比,企業經營者更期望通過大數據提升企業收入
3、無論是善政、惠民還是興業,提升效率和效果,是政府最關注的話題
4、從感知到認知,企業和政府對大數據有更多的期待,大數據離不開人工智慧
5、數據安全和隱私會從「副業」成為「主業」,甚至產生革命性影響。
限於篇幅我們不展開解釋,有一個核心就是大數據更多要和其服務的業務結合在一起,找到關鍵場景並去解決業務問題才能真正實現價值。推薦系統用在疫情防控可能價值不大,用於廣告推薦可能就會帶來很大的收入。
在目前大經濟形勢下,對企業來說,可能開源比節流更重要,所以大數據圍繞著營銷和市場可能更需要。經過此次疫情政府的需求會進一步釋放,對「實戰」的期待也會增加,所以未來的大數據政府應用必須拿出真本事,就是提升辦事的效率,提升質量的效果。人工智慧依然是為了熱點,數據驅動進一步從數據化往智能化演進。最後就是安全和隱私的革命性作用,感興趣可以參考本系列前面的文章。
至此,本系列五篇文章全部完畢,筆者期望通過這些文章了解大數據,結合案例感知大數據作用,並進而進一步指導我們後續的工作,我們在大數據的宏途上才剛剛起步,任重而道遠。