利用統計模型與大數據探尋人口流動與新冠傳播的潛在聯繫

2020-09-04 數據派THU

來源:運籌OR帷幄
本文約1400字,建議閱讀7分鐘新冠預防,社交距離,人口流動趨勢。


作者:杜鴻儒,約翰霍普金斯大學土木與系統工程系在讀博士生,研究方向:流行病數據建模,人口流動模型,網絡建模。
編者按
作者基於匿名蜂窩數據生成了美國人口流動網絡,並且根據人口流動趨勢:
構建了各郡縣的社交距離評估指標;計算了美國各郡縣新增確診病例的實時增長率。
基於這兩個變量,利用統計學模型,作者分析了保持社交距離對美國新增確診病例增加率的影響。根據研究表明,在受新冠疫情影響最嚴重的郡縣,人口流動趨勢和新增確診病例的增長速率密切相關。這項研究通過統計模型證明了社交疏遠對於控制疫情傳播的有效性。在疫苗大規模投入市場使用前,保持社交疏遠依然是對抗病毒傳播最有效的方法之一。


研究背景


自美國首次報導新冠肺炎疫情以來,疫情已經席捲美國超過90%的郡縣。美國各州對於新冠疫情的響應存在差異性,各州各郡縣政府或快或慢地出臺了不同力度的居家隔離命令。由於各州各郡縣的居家令頒布時間不同,執行力度的差異性,人口流動的複雜性,以及各個地區疫情輕重差別性較大,如何宏觀評估美國居家令對疫情的影響成為一個難題。

方法

我們基於實時匿名蜂窩數據生成了美國人口流動網絡,並且根據人口流動趨勢構建了各郡縣的社交距離評估指標。同時,我們還計算了美國各郡縣新增確診病例的實時增長率。基於這兩個變量,我們利用統計學模型,分析了保持社交距離對美國新增確診病例增加率的影響。

主要發現

根據研究表明,在受新冠疫情影響最嚴重的郡縣,人口流動趨勢和新增確診病例的增長速率密切相關。在美國確診病例最多的25個縣中,20個縣的Pearson相關係數大於0.7。此外,相比於疫情發生以前,人口的流動量下降了35-63%。人口流動量的下降對新冠疫情傳播的影響,會在9到12天之後開始顯現,9-12天的時間間隔與新冠肺炎病理報告中的潛伏期一致。值得一提的是,我們還在研究中發現,許多地區的居民在居家令頒布之前就減少了出行的次數。人們可能通過不同渠道獲取了信息,並接受了公共衛生部門建議的社交疏遠的提議。
這項研究通過統計模型證明了社交疏遠對於控制疫情傳播的有效性。在疫苗大規模投入市場使用前,保持社交疏遠依然是對抗病毒傳播最有效的方法之一。

Social Distancing Ratio(SD):



Vijt: 在t時,從i到j的交通流量。Vijt0: 疫情發生前,從i到j的交通流量。SDjt:代表了在t天時,j地點人口流動的相對變化, SD等於0表示出行量為0,SD等於0.5說明出行量相比於疫情之前減少了50%。

Growth rate ratio (GR):

結果展示:

1月24日和4月17日美國各地區出行量的對比。灰常地區由於手機數據樣本過少不作展示。

美國確診病例前十名州的SD ratio趨勢圖。藍虛線代表縣級居家令的頒布日期,紅虛線代表州級居家令頒布日期。(日期有重合)

在不同的時間間隔下,SD ratio和GR的相關係數變化。最佳滯後時間間隔為9到12天。
Limitations:
本文只考慮了出行量和人口流動對疫情傳播的影響,並沒有考慮其他重要影響因素,例如:口罩使用和接觸者追蹤等等。
更多細節請參考:https://www.thelancet.com/journals/laninf/article/PIIS1473-3099(20)30553-3/fulltext?utm_campaign=tlcoronavirus20&utm_content=133314454&utm_medium=social&utm_source=twitter&hss_channel=tw-27013292

參考文獻:

Badr, H.S., Du, H., Marshall, M., Dong, E., Squire, M.M. and Gardner, L.M., 2020. Association between mobility patterns and COVID-19 transmission in the USA: a mathematical modelling study. The Lancet Infectious Diseases.


編輯:黃繼彥

——END——

想要獲得更多數據科學領域相關動態,誠邀關注清華-青島數據科學研究院官方微信公眾平臺「 數據派THU 」。

相關焦點

  • 疫情拐點何時出現——基於數學模型的新冠病毒傳播預測
    2)本文對SEIR模型做適當簡化,減少參數,再針對新冠病毒已明確的具體信息設定參數區間範圍,再從多個維度選取校驗條件,利用計算機數值模擬的方法求取參數值。通俗的來講就是讓電腦程式在參數區間範圍內做大量嘗試,試探出較合理的參數值,使得各個校驗條件都能較好的相恰。
  • 新冠病毒傳播與溫度和緯度相關?模型預測社區傳播危險地區或北移
    https://ssrn.com/abstract=3550308 文章中指出,自新冠病毒疫情在中國湖北發生以來,其社區傳播主要沿著東西向展開
  • 新冠疫情當下,大數據技術能為我們做些什麼
    打開APP 新冠疫情當下,大數據技術能為我們做些什麼 佚名 發表於 2020-04-05 08:26:00 (文章來源:網絡整理
  • 工信部:電信大數據可統計分析人員流動情況 助力疫情防控
    工信部信息通信管理局局長韓夏表示,我國擁有16億手機用戶,通過發揮網絡大國優勢,利用大數據等新技術手段,能夠實時、準確、全面地為疫情防控提供強有力的決策支撐。   中國聯通副總經理買彥州稱,中國聯通在短時間內研發了疫情防控大數據平臺,用來支撐疫情防控工作,平臺具有疫區人群流動監測、返程復工人群流動監測等功能,可以直觀地通過可視化展現,可讓相關部門及時研判疫情。   韓夏表示,利用工信部推送的數據,地方聯防聯控機制相關部門比對當地旅遊、交管、出行等數據,摸排出重點人員,為基層防控篩查提供精細化數據支持,受到地方政府普遍認可。
  • 「大數據+監測」提升統計精確度
    日前,記者從區統計局隊獲悉,其將全面開啟「大數據+」統計工作新局面,不斷嘗試將大數據新技術引入統計工作各個領域,用大數據助力統計調查和普查,提升海澱統計工作水平和服務地區發展的能力。2015年開始,區統計局隊率先嘗試採用移動通信大數據技術進行人口動態監測和分析研究,開啟了統計監測工作的新天地。經過幾年的發展,大數據技術應用從人口監測到經普清查、民生調查,促進了區統計局隊工作效率和統計現代化水平的提升。統計監測領域也由原來的企業發展、群眾安全感擴展到商業、社區民生等多個領域,統計服務區域發展的水平進一步提高。
  • 新研究:緯度和溫度與新冠傳播有關聯,這些地區未來或有風險
    研究者提出了一個簡化的模型,該模型能顯示一個區域內的新冠肺炎傳播風險是否增加。具體來說,就是通過使用天氣模型,預測在未來幾周內最有可能出現新冠肺炎社區嚴重傳播的高風險區,從而可以將公共衛生工作重點放在對這些區域的關注和遏制上。
  • 飛機上新冠病毒的傳播風險低
    那麼,旅客在機艙內感染新冠病毒的風險究竟如何?國際航空運輸協會(IATA,簡稱「國際航協」)近日公布的最新數據顯示,在今年初至今搭乘飛機出行的約12億人次旅客中,共計報告44人可能在飛行途中感染了病毒(包括已確診、可能和潛在的病例)。國際航協據此指出,機艙內新冠病毒傳播風險極低,與被閃電擊中的概率相當。安全是航空業的重中之重。
  • 美預測新冠病毒傳播高風險場所
    科技日報北京11月11日電 (記者張夢然)英國《自然》雜誌10日發表了一項根據美國大數據開展的流行病學建模研究,結果顯示,重新開放餐館、健身房、咖啡館和酒店會帶來最大的新冠病毒傳播風險。模型顯示,降低這些場館的使用率,或能讓預測的感染人數大幅降低。
  • 李蘭娟:人工智慧和大數據在抗疫中發揮重要作用
    本文轉自【中國新聞網】;(抗擊新冠肺炎)李蘭娟:人工智慧和大數據在抗疫中發揮重要作用中新社湖南衡陽12月13日電 (記者 餘湛奕)在13日湖南省衡陽市舉行的2020年大數據科技傳播與應用高峰論壇上,中國工程院院士、浙江大學傳染病診治國家重點實驗室教授李蘭娟發表主旨演講時表示
  • 新冠病毒出現潛在「耐藥性」基因突變,對控制疫情有何影響?
    ▎藥明康德內容團隊編輯 日前,丹麥政府宣布,將殺掉全國水貂農場中的超過1700萬頭水貂,以預防新冠病毒突變株的潛在傳播。並且,至少有12人被這一名為「cluster 5」的病毒突變株感染。
  • 《自然》論文:餐館健身房咖啡館酒店的新冠病毒傳播風險最高
    中新網北京11月11日電 (記者 孫自法)國際著名學術期刊《自然》最新發表一篇流行病學研究論文稱,一項根據美國數據開展的建模研究顯示,重新開放餐館、健身房、咖啡館和酒店會帶來最大的新型冠狀病毒(SARS-CoV-2)傳播風險。
  • 2015.09:網際網路大數據在政府統計中的應用路徑研究(「大數據在政府...
    價格統計。   在CPI統計方面,電子商務交易數據、網際網路企業數據都是價格統計的新數據源,這些數據量大、更新快,充分利用這些數據有助於減少調查成本,提高指標發布的頻次。人口統計。   傳統官方統計投入大量人力物力財力,進行人口普查,可獲得數據包括全國和地區人口數量、城市和農村人口數量、人口性別比例、人口地域分布、年齡結構、出生率/死亡率等;而利用網際網路,可以快速及時地統計
  • 氣候對新冠病毒傳播的影響僅有3%?
    大流行以來,人們基於對流感,其他人類冠狀病毒傳染病的經驗,以及當時疾病主要在北半球溫帶地區流行為依據,認為氣候對這種疾病的傳播具有重大影響,並寄希望於炎熱的夏季高溫能夠消滅,至少減少其傳播。儘管,從世界範圍來說,夏天並沒有給疾病流行帶來實質性的緩解,但是天氣和COVID-19之間的聯繫仍然是一個熱門話題。重要的是,儘管結果並不一致,有一些研究,特別是早期的研究也的確支持環境溫度對新冠病毒傳播具有影響的觀點。基於此,認為普遍認為隨著秋冬季節到來,這種疾病必然會進入第二波全球性大流行。
  • 2015.10:中國人口的多邊流動與再分布均衡(曾相嵛等)
    另一方面,從流出地因素來看,房屋施工面積越大,居住條件越寬鬆,流出人口反而越多,這反映出我國獨有的城鄉二元結構,省際流動人口中農村戶籍人口佔80%,房屋施工面積更多表現為宅基地上建設的住宅面積,因而反映出農業佔比較高的特徵,因而房屋施工面積與流出人口正相關。
  • 研究表明:全美這些場所最易感染新冠
    該模型還發現新冠病毒感染中存在嚴重的種族和社會經濟不平等現象。史丹福大學和西北大學的研究人員使用來自SafeGraph的手機位置數據來模擬新冠病毒在美國10個最大城市地區中的潛在傳播:亞特蘭大、芝加哥、達拉斯、休斯敦、洛杉磯、邁阿密、紐約、費城、舊金山和華盛頓特區。
  • 華中大最新研究成果揭示新冠病毒的傳播特徵
    新冠病毒  新華社武漢8月25日電(記者李偉)國際學術期刊《自然》近日正式刊印了華中科技大學公共衛生學院團隊的最新研究成果,這一研究是在前期總結武漢市公共衛生幹預措施與疫情流行趨勢關聯性的論文基礎上,進一步通過數學模型評估了防控效果,揭示了新冠病毒的傳播特徵。
  • 諾獎科學家:通用模型預測任何地區新冠疫情走勢,歡迎挑戰
    一個數學模型,真的可以做到預測每個地方新冠疫情何時結束,以及確診人數和死亡人數嗎?萊維特團隊開放了所有的研究數據,乃至計算機運算代碼。他們說,歡迎全球對他們的成果進行檢驗,發起挑戰!,經過5個月對全球3546個不同國家地區的疫情數據追蹤,和長達90天的科研攻堅,發現在許多地點,雖然疫情開始時間不同、具體情況不同,但是對已知數據利用統計學模型進行計算分析後發現線性趨勢相似,疫情從高峰迴落「曲線變平」的速度相似。
  • 新冠的感染率和死亡率有多高?《自然》研究綜合多國數據得出結果
    2020年進入倒數第2個月,全球新冠肺炎累計確診人數已超過4700萬。隨著北半球進入秋冬季,一些國家地區的疫情再次嚴峻起來。新冠病毒的傳播水平和感染的嚴重程度究竟有多高?死亡人數通常被用作評估傳播率和感染嚴重程度的關鍵指標,但由於各國報告的老年人的死亡率存在很大差異,簡單比較死亡總數可能會對新冠病毒的基本傳播水平產生錯誤的認識。另一個指標是血清陽性率,即通過血清學調查估算有多少人對新冠病毒產生抗體。抗體表明一個人是否在某個時期感染了新冠病毒,因此可以指示整個人群的感染率。但這一類數據受到檢測能力的影響。
  • 科學統計新冠肺炎病亡人數有多難?
    早在今年3月,歐洲和北美國家開始對新冠肺炎病亡人數進行統計時,加州大學爾灣分校的人口統計學家已認識到,有關新冠疫情的數據統計會存在問題。在正常情況下,冬季也會存在流感患者死於肺炎的情況。此次新冠肺炎病理更為複雜,感染人群更為龐大,從診斷、統計到公布的每個環節都面臨更大困難。今年3月和4月,美國國家統計局發布的死亡人數表明,疫情導致的死亡人數要多於新冠肺炎致死的人數。
  • 2018.11:大數據在政府統計中的應用、瓶頸及融合路徑(餘芳東)
    三是移動手機數據,主要來源於網絡運營商、第三方軟體開發商等,包括從移動手機接收/撥打電話、簡訊、微信等信息,可用於人口密度、人口流動、人口分布以及交通統計、旅遊統計等。/追蹤器數據和自動傳輸數據,可用於交通流量統計、人口流動分布統計以及能源資源統計等。