JUST技術:基於軌跡的新冠易感人群查詢方案

2020-11-07 京東數科智能城市

COVID-19席捲全球,對全球生命衛生安全構成了極大挑戰。截至2020年11月5日,COVID-19 全球累計確診4826萬人,累計死亡122萬人。在沒有疫苗情況下,早發現、早報告、早隔離、早治療是控制疫情的最有效方案。

在疫情防控最關鍵的前幾個月,京東城市幫北京市找到 500 餘名高危的密切接觸者,為宿遷市找到全市範圍四分之一比例的新冠肺炎確診人員;在全國範圍內,幫廣州、南京、成都等 18 個省市做了高危人群態勢分析。其中,JUST團隊做出了重要貢獻。我們提出了一種新穎的軌跡感染風險度量和高效的查詢方案,這項工作已發布在論文《EfficientSuspected Infected Crowds Detection Based on Spatio-Temporal Trajectories》[1]。

一、問題背景

致命病毒在人與人之間的傳播一直是全球公共衛生面臨的重要問題。從19世紀前半葉開始,由霍亂狐菌引發的霍亂奪取了無數人的生命,僅僅印度,在霍亂爆發之後的100年間,由其造成的死亡人數高達3800萬人。在歐洲,僅在1831年間死亡人數高達90萬人。2002年底,「非典」疫情爆發,其病死率近11%。從2019年底開始至今,一種新冠病毒(SARA-Cov-2)造成的疾病COVID-19席捲全球,對全球生命衛生安全構成了極大挑戰。截至2020年11月5日,COVID-19 全球累計確診4826萬人,累計死亡122萬人。

在沒有疫苗情況下,早發現、早報告、早隔離、早治療是控制疫情的最有效方案。中國政府根據四早方案,果斷採取封城、方艙隔離等措施,很快控制住了COVID-19的傳播,保障了人民的安全。

因為COVID-19具有極高的傳染性,它可以通過唾液等傳播,並且幾乎人人易感。因此,早發現病毒攜帶者並及時將其隔離,就能阻止他傳播給其他人,進而有效地防止疫情大規模傳播。

傳統尋找病毒攜帶者主要通過以下兩種方案:1)人工詢問患者曾經去過的地方和接觸的人群,然後讓相關社區工作人員去核實和隔離密切接觸者;2)通過患者的出行記錄,如火車票,飛機票等,找到與患者同乘的人。但以上這兩種做法十分依賴於患者的記憶,並且很難找全與患者有過一段近距離共處的陌生人。

隨著移動網際網路的高速發展,每時每刻都會產生大量的時空數據。這些時空數據記錄著人的活動軌跡。因此,如果我們掌握了COVID-19患者在被隔離前的活動軌跡,那麼我們就可以很清楚地知道他去過的地方,再通過時空範圍查詢就能找到跟患者有過近距離接觸的人群。如圖1所示,給定患者移動軌跡(如圖1中紅色軌跡),易感人群挖掘找出與這條軌跡有過密切接觸的人群(如圖1中藍色人群)。

圖1:易感人群示意圖

現存軌跡度量,如DTW、EDR、Hausdorff等算法能計算軌跡的全局相似度[3]。但是,只要與患者在很小的時空範圍內近距離接觸就可能被感染,因此這些度量不適用於易感人群判斷。此外,COVID-19潛伏期很長,甚至超過了14天,並且它在潛伏期也有傳染性。然而,一座城市14天產生的軌跡數據量可能會十分龐大。因此,計算全城中所有與患者接觸的人群需要巨大的計算量。

為此,我們提出了一種新穎的軌跡度量,它將軌跡分成若干傳播子段,再計算各個子段與患者密切接觸程度,最後我們將疑似人與患者所有傳播子段的接觸概率綜合起來評價他被感染的概率。此外,我們利用JUST引擎管理防疫期間的海量軌跡,並設計了一種空間優化索引SFT,其將相近時空範圍內的軌跡段聚集在一起,極大地加快了查詢效率。

二、基本框架

為了處理大量患者傳播的易感人群,我們開發了一個快速查詢的解決方案。如圖2所示,我們系統的主要結構由三個部分組成:數據預處理,候選者提取和感染性探索。

圖2:算法框架

數據預處理:如圖2中最上面的方框所示,我們首先將軌跡的噪聲位置過濾掉。之後,我們將軌跡分段。然後,我們使用XZ2T索引來組織軌跡段,再通過JUST[2]將它們存儲到NoSQL資料庫中。

候選者提取:候選者提取過程使用分段算法、SFT索引策略和時空查詢接口。分段的目的是避免軌跡太長而帶來的較大的內存和I/O開銷。我們在所有待查詢軌跡段上建立了SFT索引,其中具有類似時空範圍的段被放置在SFT索引同一葉節點中。然後,我們通過擴展SFT每個葉節點的時空範圍,再從資料庫中提取候選片段。最後,我們從資料庫中獲得了粗粒度的候選對象,並且數據冗餘度低且I / O消耗較小。

感染性探索:圖2的最底部的框顯示了感染性探索的過程。首先,我們修剪一些不可能是密切接觸的候選人;然後,我們計算剩餘疑似人群在患者可傳播段的感染概率,再聚合屬於同一軌跡的局部軌跡段的所有傳染性,並計算出其軌跡的總體傳染性。最後,我們過濾傳染性低於感染閾值的軌跡。

三、數據預處理

由於用戶軌跡數量巨大,造成傳統資料庫難以實現快速查詢。因此,我們通過分布式資料庫(如HBase),將海量軌跡數據用key-value的形式存儲在具有多備份且安全的分布式集群上。然而,傳統分布式並不直接支持軌跡數據,為此需要為軌跡數據設計特殊的行鍵結構,才能取得更佳查詢效率。我們設計的XZ2T索引,能高效的管理類似軌跡這種多維時空數據。XZ2T索引按照固定時間跨度(如,年,月,日)將時間劃分為若干不相交的區間,並通過XZ2索引將二維空間範圍映射到一維整數域中,如圖3所示,然後再組合時間分區號和空間編碼值為存儲鍵,再將其鍵和數據存儲在分布式資料庫中以備易感人群挖掘查詢離線使用。

圖3:表設計

四、候選者提取

1、分段

首先,我們患者的軌跡分成若干個可傳播片段,這些片段可以準確的表示患者曾經在那些地方活動過。然後,我們通過查詢每個軌跡片段可能感染的時空範圍,找到候選易感人群。我們從兩個時間或者空間間隔超過一定值的軌跡點中間切斷軌跡,形成軌跡段。如圖4中,最大時間間隔為30分鐘,最大空間間隔為50m。

圖4:軌跡分段

2、SFT索引

在實際的使用場景中,患者的數據會批量增加,如果採用循環查詢將花費大量的時間。為此,我們設計了空間優先時空索引SFT,其將相近時空範圍內的軌跡段聚集在一起並一同查詢疑似人群。這樣的設計極大地減少了I/O開銷和數據冗餘。如圖5所示,在SFT索引中,我們首先通過四叉樹將軌跡段聚類在不同節點上,然後再在每一個葉子節點中建立一維R索引管理時間範圍。

圖5:SFT空間優先索引

3、ST Query

如圖6所示,我們患者軌跡(藍色軌跡)分成兩條子段s1, s2,每條軌跡段會形成一個活動的空間(如圖6中紅色實線表示的矩形範圍)和時間(如圖6中q1.t和q3.t之間的時間範圍)範圍,我們將空間範圍和時間範圍擴張θd, θt得到受影響時空範圍。最後,我們從資料庫中提取出所有出現在患者影響時空範圍內的人群,並根據用戶ID聚合屬於同一人的軌跡,進而得到疑似人群。並通過下面的具體實現第五節中描述的感染風險度量方案確定疑似人群的風險值。

圖6:疑似人群查詢

五、感染風險

COVID-19患者會感染跟他有過密切接觸的人。因此,被感染風險的影響因素與患者和正常人接觸的時空距離遠近有很重要的關係。所以,患者軌跡中的每一個軌跡點都能形成一個傳播的時空範圍。

1、時空關係度量

我們將軌跡點定義為l = (p, t),其中p表示位置,t表示時刻。給定一個軌跡點位置l, 一個空間影響範圍θd和一個時間影響範圍θt.我們用STR(l, θd, θt.)來表示時空影響範圍。如下:

其中dist表示空間距離,在位置l影響的時空範圍STR(l, θd, θt.)內,我們通過公式(1)計算人群與該時空位置上的密切接觸程度:

(1)

其中,st_dist(l, v)表示兩個時空位置之間的距離。如公式(2)所示:

(2)

其中,λ屬於[0, 1]區間,它用來控制空間和時間的偏好,和將空間距離和時間間隔歸一化到[0,1]範圍內。注意,如果一條軌跡與STR(l,θd, θt.)不相交,那麼它在l處的時空接觸可能為0。

2、軌跡感染風險

(1)局部軌跡段的感染風險

為了更精準的描述患者傳播路徑,需要將患者從潛伏期開始到被隔離期間的所有軌跡集中起來。但,由於GPS終端有些信號不穩定或者用戶關閉了終端等原因,造成了患者在這段時間的軌跡並不一定是一直連續的。並且,患者所有時空點組成的一條軌跡具有較大的時空範圍,這樣會在時空查詢時產生大量的冗餘數據。因此,我們需要將軌跡分段,將長軌跡分割成較為合適的軌跡局部段。如圖四所示,我們從兩個時間或者空間間隔超過一定距離的軌跡點中間切斷軌跡,形成軌跡段。

給定病毒攜帶者的局部軌跡段(s)和疑似感染人員的軌跡(T),我們通過公式(3)衡量疑似人員在攜帶者的局部軌跡段被感染的風險。公式(3)如下:

(3)

其中,l是軌跡段s中的一個時空位置,|s|代表s的時空位置數量。

(2)軌跡感染風險

一個病毒攜帶者的完整軌跡由多個局部軌跡段組成。因此,僅僅通過局部軌跡段的感染風險並不能完全反應疑似人員被感染風險。如,某個疑似人員雖然跟患者在各個軌跡局部段接觸並不多,但是他多次出現在患者不同的局部軌跡段中,那麼他也被感染的風險應該更大。因此,簡單的做法通過將疑似人員在攜帶者各個局部段的被感染風險值相加作為最終感染風險。但是,如果病毒攜帶者在某一個軌跡局部段停留時間越長,那麼他在該位置傳播病毒的可能越大。因此,如公式(4),我們需要考慮給攜帶者的局部軌跡段加上權重來標記它可能的傳播強度。如公式(5)中,我們用時間的相對佔比來標記可能的強度。

(4)

(5)

3、剪枝策略

易感人群算法需要計算患者每個時空點與附近疑似人群的感染概率,因此需要大量的計算量。所有,我們提供了四種剪枝策略來減少計算量。剪枝策略的詳細描述見[1]。

(6)

(7)

(8)

(9)

六、案例

圖7:易感人群系統

我們基於本算法開發了易感人群查詢系統。如圖7所示,我們將手機等設備和應用產生的時空軌跡數據存儲在JUST平臺中,並利用JUST提供的軌跡預處理功能完成原始軌跡去噪和分段操作。然後我們將軌跡存儲在JUST提供的軌跡表中。再將第五節設計的易感人群算法封裝為DAL操作,讓用戶可以通過一條簡單的SQL語句就能很快地完成易感人群查詢。最後,對外輸出易感人群名單支持上層應用。

該系統已經支持了北京、武漢、廣州、南京、成都等多個省市。在疫情最關鍵的前幾個月,我們幫北京市找到 500 餘名高危的密切接觸者;為宿遷市找到全市範圍四分之一比例的新冠肺炎確診人員;並協助其它團隊完成高危人群態勢分析。

參考文獻:

[1] He, Huajun & Li, Ruiyuan &Wang, Rubin & Bao, Jie & Zheng, Yu & Li, Tianrui. (2020). EfficientSuspected Infected Crowds Detection Based on Spatio-Temporal Trajectories.

[2] http://just.urban-computing.com/

[3] https://mp.weixin.qq.com/s/95DJin1jHNntg1X9sp6R8Q

相關焦點

  • 人群移動軌跡可視化新論文,入選IEEE TVCG及VIS
    本研究基於脫敏後的京津冀城市群超過120億條移動終端位置記錄,對城市人群移動模式進行了挖掘和分析,創新性地提出了針對時間稀疏軌跡的分類、聚合和可視化方法以往類似研究基於的數據通常規模較小且來源單一,而本次研究使用的數據集來自超過10萬種行動應用程式,不僅規模龐大,而且具有整合多數據來源的優勢,可以覆蓋更多類型的移動軌跡、具有更小的誤差。但同時,這些軌跡數據也具有採樣隨機且時間稀疏的特點,為數據挖掘和分析帶來了一定難度。
  • 一眼掌握態勢、用數據指導防控,以下33個疫情監測、分析與發布方案...
    提供方:百度立即聯繫2、新冠肺炎 AI 智能諮詢及問答產品新冠肺炎 AI 智能問答機器人是搜狗公司基於數據挖掘、NLP、推薦技術研發的一款面向大眾的精準問答產品。提供方:搜狗立即聯繫3、新冠肺炎全國疫情場所實時查詢平臺新冠肺炎全國疫情場所實時查詢平臺(NCPS),由中誠信徵信智能風控部獨立研發,利用「大數據+AI」技術手段,收集匯總來源於全國各地衛健委發布的新冠肺炎確診患者的行動軌跡、旅居史等,最終形成「列表+地圖」雙模式的可視化疫情感染場所實時查詢平臺
  • NB-IoT智慧煙感解決方案白皮書
    1、序言 《NB-IoT智慧煙感解決方案白皮書》分析了國內獨立式感煙火災探測報警器(以下簡稱獨立煙感)產品的問題和挑戰,推出了基於物聯網(IoT)平臺與NB-IoT技術的感煙火災探測報警器(以下簡稱智慧煙感),並提出了智慧煙感解決方案,包括解決方案的價值、優勢及對未來的預期。
  • 在手機軟體輸入航班號能查詢飛機飛行軌跡
    近日,有網友推薦了一款名為「非常準」的手機軟體,只要輸入航班號就能查到幾乎所有國內、國際客機的飛行軌跡。一旦確認航班號,用戶所查詢的航班將以機場雷達圖的形式呈現在頁面上,頁面中的飛機圖像分為藍色和綠色兩種,均提供飛行軌跡、經緯度和飛機所在高度等信息。
  • 基於網絡藥理學與分子對接技術的
    金花清感顆粒防治新型冠狀...
    國際病毒分類委員會將新型冠狀病毒命名為「SARS-CoV- 2」,具有傳播迅速、傳染性強、人群普遍易感等特點,並以發熱、乏力及乾咳等作為臨床主要症狀,重症患者則出現呼吸困難、呼吸窘迫症候群及膿毒性休克等。目前,臨床尚未出現針對SARS-CoV-2的有效且特異性藥物與疫苗,西醫主要採用傳統的抗病毒藥物進行治療,其不良反應較大且一定程度上缺乏循證依據。
  • 移動號碼網上怎麼查漫遊地 移動個人軌跡證明查詢方法
    可能還有好多小夥伴們都還不知道呢,小編今天就給大家帶來了關於這個移動個人軌跡證明查詢方法介紹啦!  移動個人軌跡證明怎麼查  個人軌跡證明是大運營商開通的「漫遊地查詢」 服務。這項新舉措是依託運營商自身大數據能力,在確保信息安全的前提下,向機主本人提供的公益服務。
  • 百分點認知智能實驗室:基於知識圖譜的問答技術和實踐
    本文主要介紹實驗室在本次比賽和基於知識圖譜問答業務的實踐中使用的技術方案。本文作者:易顯維、蘇海波一、背景介紹知識圖譜的目的是給人工智慧應用提供知識支撐,使得人工智慧系統尤其是其中的決策算法在決策過程中能夠參考到現實世界中豐富的知識。
  • 騰訊qq個人軌跡記錄在哪裡查看 手機查詢qq個人軌跡二維碼
    今天,QQ個人軌跡記錄在朋友圈裡刷了屏,通過查詢QQ個人軌跡記錄可以知道你註冊QQ多久以及換了多少次頭像,有幾個群等,關於QQ的數據都會在這上面顯示出報告分享給你看,類似網易雲的年度歌單。如果你不知道QQ個人軌跡記錄在哪裡查看,從哪進的話,本站將提供QQ個人軌跡記錄的查看入口地址還有二維碼。
  • 電信移動聯通個人軌跡證明查詢方法 查途徑地發簡訊號碼
    電信移動聯通個人軌跡證明查詢方法 查途徑地發簡訊號碼  電信聯通移動個人軌跡證明怎麼查?近日電信、聯通、移動三大運營商推出了個人軌跡證明,大家可通過給自己電話號碼的運營商發簡訊獲得手機最近一個月的軌跡,還不知道怎麼查的朋友,下面小編帶來了三大運營商個人軌跡證明查詢方法,一起來看看吧。
  • 一種基於A*算法的用於道路場景的軌跡規劃方法
    一種基於A*算法的用於道路場景的軌跡規劃方法 李倩 發表於 2018-10-19 11:17:54 本文提出了一種基於A*算法的用於道路場景的軌跡規劃方法,該方法中
  • 廣州移動號碼個人軌跡簡訊查詢方法
    目前我國16億手機用戶均可通過以上簡訊方式查詢本人前14天內到過的停留4小時以上的到訪地,可查詢到具體地市。該簡訊可作為本人的行程證明使用。  移動用戶簡訊查詢方法:  發送「CXMYD#實名登記有效證件後四位」到10086,可查詢用戶近15-30日內到訪的省市信息。
  • 基於網絡藥理學與分子對接技術的
    國際病毒分類委員會將新型冠狀病毒命名為「SARS-CoV- 2」,具有傳播迅速、傳染性強、人群普遍易感等特點,並以發熱、乏力及乾咳等作為臨床主要症狀,重症患者則出現呼吸困難、呼吸窘迫症候群及膿毒性休克等。目前,臨床尚未出現針對SARS-CoV-2的有效且特異性藥物與疫苗,西醫主要採用傳統的抗病毒藥物進行治療,其不良反應較大且一定程度上缺乏循證依據。
  • 怎麼證明個人行程軌跡?「漫遊地查詢」上線 ,近期足跡輕鬆查
    合理地使用信息化技術應用可高效、便捷地開展人員行程軌跡信息核驗,能大大提高工作效率,輔助疫情防控工作科學、高效開展。電信運營商依託自身大數據在用戶主動授權以及確保信息安全的情況下,面向用戶提供疫情防控查詢助手公益服務,針對個人進入機關單位及小區、園區、公司、醫院等公共場所或者通過疫情防控檢查站等場景,以便用戶快捷證明自己近期行程軌跡。
  • 世衛組織:已有抗體人群比例僅為10%上下,大部分人仍易感
    5月11日,世衛組織衛生緊急項目技術主管瑪麗亞·范·科霍夫表示,研究發現已有新冠肺炎抗體的人群比例較低,研究結果位於1%—10%區間,部分研究顯示約為14%—15%。瑪麗亞·范·科霍夫指出,還需了解這些研究所基於的人群及論文,群體免疫在疫苗接種中表示需要達到免疫以保護其他人的群體比例,目前尚未得知新冠肺炎所需的比例,但肯定比目前研究結果要高,意味著大部分人群仍然易感,新冠肺炎還會與人類共存很長時間,還有更多人可被感染。
  • 基於超聲波傳感器的社交距離解決方案
    打開APP 基於超聲波傳感器的社交距離解決方案 TDK株式會社 發表於 2020-12-01 16:05:20 作為一種可準確測量員工之間距離的手段,基於超聲波傳感器*1 技術的解決方案引起了人們的關注。 在企業中確保社交距離 為了防止傳染性疾病的傳播,與他人保持安全距離並最大程度減少接觸是十分必要的。對企業來說,降低那些會危及供應鏈、企業聲譽和生產力的感染風險也非常重要,更不用說創造一個讓員工安心工作的環境了。
  • 寵物也成新冠易感群體,義大利新冠高發區的寵物檢測到新冠抗體
    近日,Nature 子刊 Nature Communications 發布了一項專門針對寵物感染新冠病毒的研究報告。報告顯示,在被採集的 919 只寵物樣本中,3.3% 的狗和 5.8% 的貓具有可檢測的新冠病毒中和抗體滴度。值得注意的是,新冠確診患者的寵物貓和寵物狗被檢測出抗體陽性的概率更高。
  • 基於RFID技術的智能車輛定位及測速系統解決方案
    一、方案背景  隨著經濟和汽車技術的發展, 現在擁有汽車的居民越來越多,堵車現象也越來越嚴重,堵車不僅浪費了大家寶貴的時間,也使交通事故頻發。如何充分利用路網、縮短車輛運行時間、降低行車延誤、保障行車安全、提高道路通行能力等道路資源優化問題成為當前每個城市需要解決的重要課題。
  • Flightradar 24:為全世界人民提供航空軌跡查詢
    在全球範圍內,對外免費提供飛行數據整合查詢的服務商主要有兩家:Flightaware 和 Flightradar24。他們都通過自己的網站對外免費提供數據和軌跡查詢。 Flightaware )由於免費、便利、齊全,各國媒體乃至於航空愛好者,乃至於各種第三方軟體、網站,查詢核對航班軌跡信息
  • 基於慣性傳感技術的跌倒報警器
    最終設計的基於慣性傳感技術的跌倒報警器如圖6所示。5 基於慣性傳感技術的跌倒報警器的測試  跌倒報警器採用六軸運動傳感器檢測人體跌倒,採用GPS和基站定位(LBS)相結合的定位方式實時跟蹤老人運行軌跡,實現跌倒報警,軌跡查詢等功能,同時還具有一鍵SOS呼救功能,具有穩定、可靠、方便攜帶等優點,圖7顯示的是跌倒報警器的外觀圖。
  • 基於機動LSTM的周圍車輛多模態軌跡預測
    本文提出了一種基於LSTM模型的高速公路周邊車輛交互感知運動預測模型。我們的模型為車輛進行機動分配置信值,並在此基礎上輸出未來運動的多模態分布。我們比較了我們的方法與現有技術的車輛運動預測的公開有用的NGSIM US-101和I-80數據集。我們的結果表明,在預測誤差的均方根值方面有了改進。