「最新研究」新型冠狀病毒傳播的高斯分布模型

2020-12-06 中國科技論文在線

本文通信作者李志宏,為中國原子能科學研究院核物理研究所研究員,主要研究方向:核天體物理。

本站(www.paper.edu.cn)歡迎更多疫情相關學術投稿,將第一時間審核發布,免費分享,一起攜手,共克時疫!

本文為預印本論文,尚未經同行評議

新型冠狀病毒傳播的高斯分布模型

李星君1,李志宏2

1 北京化工大學化學工程學院,北京 100029

2 中國原子能科學研究院核物理研究所,北京 102413

摘要:本文利用三種數學分布模型擬合了我國多個地區新型冠狀病毒肺炎的確診病例數據,結果發現高斯分布模型給出的疫情發展曲線與實際數據的吻合度較高。高斯分布模型不但可以確定新增病例增長曲線的拐點時間、病毒的感染期和最大累計確診病例數,而且能夠很好地預測疫情的走勢,為國家的抗疫決策提供理論支撐。把高斯分布模型和二項式模型相結合起來,我們還導出了這次新型冠狀病毒肺炎的基本繁殖率(R0) 在1.68 至3.56之間,結果對該病毒的傳播機制研究有重要意義。

關鍵詞:流行病與衛生統計學,新型冠狀病毒肺炎,疾病傳播,基本繁殖率

基金項目: 中國原子能科學研究院院長基金項目,穩定性支持項目:WDJC-2019-13

0 引言

對疫情發展狀況的科學推斷不但是傳染病預測、預警和抗擊疫情決策關鍵依據,也是減小恐慌心理,消滅謠言的重要利器。因此,每逢疫情到來的時候,都會有大量疫情預測文章出現。2019年末從湖北武漢開始的新型冠狀病毒肺炎是一種雖然致死率低,但傳播非常迅速的惡性傳播疾病。截至2020年3月2日24時,全國共確診新型冠狀病毒肺炎80175例,疑似715例,死亡2915例。其傳播速度超過了2003年的SARS。對該疫情進行模型分析,有助於我們了解該新型冠狀病毒的傳播特點和發展規律,對此類病毒的防治和研究都具有重要意義。

人們對流行病傳播的數學模型研究迄今已經有一百多年的歷史了。1911年Ross[1, 2]首先建立了流行病傳播的數學模型,奠定了傳染病研究的動力學基礎。經過一百多年的發展,傳染病模型已經研究得相當細緻。在當前流行的模型中,主要有SI[3]、SIR[4]、SIRS[5]、SEIR[6] 等。隨著模型考慮的因素越多,模型越複雜,擬合參數也就越多,導致模型預測的誤差很大。比如SEIR 模型,其待定參數高達7個以上,要想得到比較好的模型參數至少需要十餘天數據累計。如果傳染病的周期較短,用這種較多參數的模型做預測就顯得很力不從心,甚至會出現在沒有獲得理想擬合參數的情況下,疫情已趨於結束。因此,對於傳染病的預測,最好能找到一種擬合參數少、預測效果可靠的數學模型。

在作者2020年2月7日完成的「新型冠狀病毒的傳播模型研究」[7]論文中,我們使用感染人數的增長速率為二項式分布的模型預測了全國和北京地區的疫情發展趨勢。從當前的進展情況來看,我們的預測結果總體表現良好:北京地區到2月20日時的新增確診病例小於5例/日,累計最大確診病例數為380例,與實際情況基本符合;全國疫情發展的趨勢也基本符合預測,但是受湖北地區2月12日起執行新確診標準的影響,作者預測的最大病例數有較大的出入。按照新的診斷標準,全國的最大確診病例數比以前的標準約增大1.6倍。因此,2月7日的預測結果換算成新檢測標準後應該是最大累計確診病例為7.8萬人。需要指出的是,我們原來的估算是建立在孤立模型的基礎上的。如果孤立系統因擴散或確診病例的流入事件被打破,就需要對原有的模型進行修正。修正的方法之一是把來自孤立系統之外的引入病例去掉,比如北京地區2020年3月8日的累計確診病例數為428例,其中就包括了13例國外輸入和23例外地來京病例。除去這些外部引入病例,結果和我們2020年2月7日預測的最大累計確診病例380 例[7]基本一樣。這樣做當然是可以的,不過對照起來不夠直觀,也會引起不必要的誤解。為了避免這種情況,可以考慮進行一下模型改進,使其包含外部引入因素。

在這篇文章中,我們嘗試把新增病例的二項式分布模型改為高斯分布模型,並用其解釋本次國內疫情較重的幾個地區的確診病例數據,評估利用高斯分布模型進行疫情預測的可行性。

1 高斯分布模型

對國內各地的疫情數據分析發現,當有外部輸入確診病例的情況出現時,會導致新增病例數的統計分布出現拖尾現象。主要表現在快到平臺期的新增病例數目高於預測結果(如圖1),導致模型預測的累計確診病例和新增病例都存在一定程度的偏低現象。為了解決這個問題,需要進行模型改進。

圖1: 北京地區每日新增確診病例的二項式分布與最佳擬合分布的比較

首先,我們來挖掘一下二項式分布的內涵,把文獻[7]中的公式(2)做進一步的變換,令r=kM,則有:

此方程正是通常所說的Logistic統計模型,其回歸運算常用於流行病學的研究。通過logistic回歸分析,人們可以大致了解導致病患的危險因素。Logistic模型中的因變量為二項式分布,其增長率曲線為拋物線。方程(1)的解為:

該解就是我們平時所說的S型曲線,又叫皮爾曲線、理察曲線或者增長曲線等[8]。它描繪了傳染病的發生和發展過程:初始階段緩慢發展,接著是快速的增長階段,最後是平穩的發展時期一直到飽和狀態。可以看出,在式(1)中M為最大累計確診病例數,它等於r/k。也就是說,當達到飽和狀態時,孤立體系的所有人最終都將被感染的。由於接觸時間,患病時間的隨機性,導致新增確診病例隨時間的變化曲線接近高斯分布。因此有:

其中,M為最大累計確診病例數;μ為發病時間的數學期望值,它代表新增病例數的處於拐點的時間;σ為高斯分布的標準差,它決定了高斯分布的幅度,也和疫情的持續時間相關。我們猜測,2σ比較接近病毒的有效傳染期(潛伏期),這可以通過各地的疫情數據加以確認。

當然,在新增病例分布偏離對稱的情況下,也可以考慮向長時間方向拖尾的指數分布模型:

上述三種分布模型都能擬合2003年非典的疫情的數據(二項式分布模型見引文[7]中的圖4,高斯分布和指數分布模型見本文圖2),但它們的預測能力、穩定度,以及能否正確地反映疫情走向,需要進行檢驗。

圖2: 高斯分布和指數分布擬合2003年北京市非典累計和新增確診病例數據的結果。

我們使用三種模型分別擬合了北京、上海、廣東、浙江、河南、安徽和江西等地區的確診病例數據,並比較了使用不同數據點的擬合優度。結果列於表1 中。其中M1 代表多項式模型,M2 代表高斯分布模型,M3 代表指數分布模型,表中的日期代表選用該日期之前的數據進行擬合,擬合優度的表達式為:

其中,n為擬合使用的樣本數目,Ni為第i天的累計確診病例,Nmi為模型計算的第i天的累計確診病例,σi為第i天累計確診病例的統計誤差。

圖3: 高斯分布擬合北京市2020年新型冠狀病毒肺炎累計和新增確診病例的結果

從表1中的擬合優度數據可以看出:指數分布模型除在浙江省的數據擬合中表現稍好外,其它地區都差於二項式分布模型與高斯分布模型。這說明指數模型不能反映疫情發展趨勢的細節,因此可以棄之不用。二項式分布模型在北京、上海的確診病例擬合中表現較好,而高斯分布模型在其它地區的表現佔優。圖3為用高斯分布擬合北京地區累計和新增確診病例的結果,從中可以看出,高斯分布可以重現新增病例分布的尾部。擬合得到北京地區的最大累計確診病例數為429例,也與北京市近期公布的累計確診病例數符合很好。從結果看,高斯分布的模型計算結果已包含了外部引入病例情況,可以與官方公布的數據直接進行比對。

表1: 三種模型擬合結果的比較

其中的數值代表模型預測曲線相對於總數據集的擬合優度,M1指多項式模型,M2為高斯分布模型,M3代表指數分布模型。日期表示僅擬合該日期之前的病例數據。

下面來分析一下高斯分布模型的預測效果。我們假定使用前期疫情數據獲得的擬合優度χ2值比使用全部數據的擬合結果大十倍的預測效果是可以接受的。從表1 中可以看出,高斯分布模型在2月6日左右就可以預測大部分地區確診病例數據。模型計算與公布數據在全時間段內都符合很好,這表明模型參數相對穩定,全國的疫情防控工作總體向好,模型具有很好的預測效果。湖北地區的情況比較複雜,其病號太多,醫療資源不夠充分,感染者的確診時間可能延遲於感染時間。另外,檢測標準的改變與核減病例等不確定性也會影響模型的預測效果。我們因而使用改變標準前後的不同數據給出兩種模型計算結果,如圖4所示。新舊兩種標準之間的最大累計病例數目之比為1.68,新增確診病例數的拐點相差3天,分別對應於2 月6日和2月9日。如果不出現鬆懈和意外感染事件發生,湖北地區的累計確診病例平臺也會在3月中旬到來,最大的累計確診病例數為6.6萬人。本估計比王霞等人[9]的3月2日要晚一點。考慮到病毒的潛伏期,等到最後一位病人的所有密切接觸者結束14 天的隔離,疫情才算真正結束。

圖4: 湖北地區累計確診病例數據與模型計算結果的比較

表2列出了使用高斯分布模型擬合出的北京、廣東等地區新型冠狀肺炎確診病例的模型參數。其中,M代表最大累計確診病例,σ代表高斯分布的標準差,μ代表發病時間的數學期望值。模型給出的最大累計確診病例數很好地符合了當前各地區公布的累計確診病例的數值,各地方差參量的平均值為6.92,該數值的2倍非常吻合新型冠狀病毒14 天的感染期。

表2: 利用高斯分布模型擬合得到的國內幾個地區的高斯分布模型參數

2 結論

本文分析了三組參數較少的新型冠狀病毒肺炎疫情的預測模型,結果發現:高斯分布模型可以很好地符合新增確診病例和累計確診病例的發展曲線,能夠確定各地病毒的感染期,新增病例曲線的拐點時間,並可以預測最大累計確診病例數。基於這些特點,可以根據疫情前期的數據來預測疫情的發展趨勢。

二項式分布模型和高斯分布模型結合起來可以更好地解釋疫情傳播特徵。二項式分布模型可以給出新增病例的拐點時間,最大累計確診病例數以及病毒感染的加速因子r。高斯分布可以給出最大累計確診病例數,新增確診病例的拐點時間和病毒的傳染周期。感染加速因子與傳染期的乘積即為傳染病的基本繁殖率R0,它是人們研究傳染病傳播的最重要的指標之一。本工作得到的這次新型冠狀病毒肺炎的基本繁殖率的取值範圍在1.68至3.56 之間。山東省的數值最小為1.68,湖北省的最大為3.56。本結果與趙等人[10]等人利用時間序列模型研究的結果(R0的範圍為2.24-3.58)符合很好。

致謝

感謝中國原子能科學研究院核物理研究所的領導對本工作的鼓勵和大力支持;感謝中國原子能科學研究院院長基金的資助。

參考文獻(References)

[1] Ross R. The prevention of malaria[M]. London: John Murray; 1911, 651-686.

[2] Ross R. Some quantitative studies in epidemiology[J] Nature. 1911, 87:466-467.

[3] Bailey N T J, The Mathematical Theory of Infectious Diseases[M], 2nd ed. Macmillan, New York, 1975

[4] Luz P M, Struchiner C J, Galvani A P, et al. Modeling Transmission Dynamics and Control of Vector-Borne Neglected Tropical Diseases[J] . PLoS Neglected Tropical Diseases, 2010, 4(10):e761.

[5] Busenberg S and Cooke K, Vertically Tmnsmitted Diseases: Models and Dynamics[M], Springer, Berlin, (1993).

[6] Audrey M. Dor_elien, Ballesteros S, Grenfell B T. Impact of Birth Seasonality on Dynamics of Acute Immunizing Infections in Sub-Saharan Africa[J]. PLOS ONE, 2013, 8.

[7] 李星君,李志宏. 新型冠狀病毒的傳播模型研究[EB/OL]. 北京:中國科技論文在線[2020-02-12]. http://www.paper.edu.cn/releasepaper/content/202002-42.

[8] Kucharavy D, Guio D G. Application of S-shaped curves[J]. Procedia Engineering, 2011,

9:559-572.

[9] 王霞,唐三一,陳勇等,新型冠狀病毒肺炎疫情下武漢及周邊地區何時復工?[J]. 數據驅動的網絡模型分析.DOI://10.1360/SSM-2020-0037, 2020.

[10] Zhao S, Lin Q, Ran J et al. reliminary estimation of the basic reproduction number of novel coronavirus (2019-nCoV) in China, from 2019 to 2020: A data-driven analysis in the early phase of the outbreak[J]. Int J Infect Dis. 2020, doi: 10.1016/j.ijid.2020.01.050.

相關焦點

  • 闢謠:蚊子會傳播新型冠狀病毒嗎?
    蚊蟲叮咬有沒有可能成為新型冠狀病毒新的傳播途徑?答案是不會的,目前沒有任何證據證明蚊子可以傳播新冠病毒。目前研究發現,可從新冠肺炎患者的痰液、呼吸道分泌物、血液、糞便等檢出病毒核酸。然而,即使蚊蟲叮咬了新冠肺炎感染者,新冠病毒也不會在蚊子體內存活,因此,新冠病毒無法通過蚊子從感染者傳播至健康者。根據國家衛生健康委員會最新發布的《新型冠狀病毒肺炎診療方案(試行第七版)》所述,經呼吸道飛沫和密切接觸傳播是新冠肺炎的主要傳播途徑。此外,在相對封閉的環境中,長時間暴露於高濃度氣溶膠的情況也有經氣溶膠傳播的可能。
  • 新型冠狀病毒最新研究動態,第二彈!
    關於新型冠狀病毒的研究,檢驗君上周整理過一期並與大家分享。今天,《新型冠狀病毒最新研究動態,第二彈》來襲! 雷莫地韋和氯喹對2019-nCoV的體外抑制作用 目前還沒有針對新型冠狀病毒的具體治療方法,我們迫切需要尋找有效的抗病毒藥物來治療疾病,阻止疫情傳播。
  • 糞口會傳播病毒?17個關於新型冠狀病毒的...
    糞口會傳播病毒?17個關於新型冠狀病毒的謠言與真相,請擴散!活力海勃灣  作者:  2020-02-02 歡迎關注「活力海勃灣」微信公眾平臺。我們將為您提供最權威、最新鮮的本地資訊。
  • 新型冠狀病毒溯源:究竟是哪種野味帶來的災難?
    這篇文章剛發表在線就引發了爭議,被時刻關注的國外學者提出質疑,「蛇不可能是傳播新型冠狀病毒的宿主」。「在生物信息學的分析下,我們最後證明了 SARS 病毒是經過幾個蝙蝠 SARS樣冠狀病毒重組而來的。」石正麗團隊的這一研究結果也刊登在 Nature。在對新型冠狀病毒的探究中,石正麗團隊憑藉以往的積累與經驗,發現2019-nCoV 與一種蝙蝠攜帶的冠狀病毒的序列一致性高達 96%。
  • 出生30 小時新生兒感染,新型肺炎真的存在母嬰垂直傳播?
    今天,武漢兒童醫院確診了兩例新生兒新型冠狀病毒肺炎病例。其中,最小的確診寶寶出生僅 30 小時,該新生兒母親為新型冠狀病毒肺炎確診患者,目前該新生兒生命體徵穩定。據武漢兒童醫院新生兒內科專家曾凌空介紹,該病區接收的新生患兒,母親均為新型冠狀病毒感染的肺炎患者,但嬰兒絕大多數核酸檢測顯示為陰性(即未感染)。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第5期)
    3.bioRxiv:特殊模型有望幫助預測新型冠狀病毒的潛在藥物靶點doi:10.1101/2020.02.26.961938近日,一篇發表在預印版平臺bioRxiv上題為「Predictions for the binding domain and potential new drug targets of 2019-nCoV」的研究報告中,來自北京科技大學的研究人員通過研究成功預測了新型冠狀病毒
  • 病毒起源:《美國國家科學院院刊》研究坐實「美國投毒」?
    新冠肺炎疫情形勢儘管在中國持續走低,但有關新型冠狀病毒來源的討論仍在發酵,及至衍生出兩個不同場域(中外輿論場)的病毒起源說,給本已高熱的疫情話題再添一把火。自湖北武漢疫情爆發以來,根據時間線和境內外不同的輿論場可發現,有關新冠肺炎病毒來源大體分為四種說法,即動物起源說、中國研究洩露說和美國基因武器說、境外輸入說。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    近日,來自 CMU、Petuum 等機構的研究者提出一種新型語義分割模型動態結構化語義傳播網絡 DSSPN,通過將語義概念層次明確地結合到網絡中來構建語義神經元圖。實驗證明 DSSPN 優於當前最優的分割模型。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第7期)
    同一天,負責分類和命名病毒的的國際病毒分類學委員會的冠狀病毒研究小組在bioRxiv上發表了一篇文章,指出該研究小組已經決定,新型冠狀病毒2019-nCoV是導致2002-2003年爆發嚴重急性呼吸症候群(SARS)冠狀病毒(SARS-CoV)的變種。
  • 中國學者最新研究:新型冠狀病毒的直接來源最可能是蛇
    1月22日,中國學者最新在線發表的一篇研究論文將導致17人死亡、500多人確診感染的2019-nCoV新型冠狀病毒肺炎疫情的可疑對象鎖定到蛇。該論文的標題是《新型冠狀病毒纖突蛋白的同源重組可能促進了從蛇到人的跨物種傳播》,由北京大學、廣西中醫藥大學、寧波大學、武漢生物工程學院的研究人員聯合完成,22日在線發表在英文學術期刊《醫學病毒學雜誌》(Journal of Medical Virology)。
  • 從社交傳播規律,看新型冠狀病毒的防控
    據最新報導,截至1月21日24時,國家衛健委報告的全國13個省新型冠狀病毒感染的肺炎確診病例440例,死亡病例累計9例,其中新增冠狀病毒感染的肺炎確診病例149例。同時,疫情已經蔓延至國外,日本通報確診病例1例,泰國通報確診病例3例,韓國通報確診病例1例,多數為武漢人或到訪過武漢人士。
  • 新冠肺炎傳播途徑是什麼?新型冠狀病毒肺炎通過什麼傳播
    @央視新聞:【#新冠肺炎傳播途徑含氣溶膠傳播#】今天,上海疫情防控工作發布會介紹:衛生防疫專家強調,目前可以確定的新冠肺炎傳播途徑主要為直接傳播、氣溶膠傳播和接觸傳播。  直接傳播是指患者噴嚏、咳嗽、說話的飛沫,呼出的氣體近距離直接吸入導致的感染;  氣溶膠傳播是指飛沫混合在空氣中,形成氣溶膠,吸入後導致感染;  接觸傳播是指飛沫沉積在物品表面,接觸汙染手後,再接觸口腔、鼻腔、眼睛等黏膜,導致感染。
  • 模型攻擊:魯棒性聯邦學習研究的最新進展
    本文作者給出了名為「限制—縮放」(「constrain-and-scale」)的通用方法,使攻擊者能夠產生一個在主任務和後門任務上都有很高的準確度、但又不被中央伺服器異常檢測器拒絕的模型。論文通過使用一個目標函數將規避異常檢測的行為納入訓練中,該目標函數:(1)對模型的準確性進行獎勵,(2)對偏離中央伺服器的聚合器認為 「正常」 的模型進行懲罰。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第8期)
    同一天,負責分類和命名病毒的的國際病毒分類學委員會的冠狀病毒研究小組在bioRxiv上發表了一篇文章,指出該研究小組已經決定,新型冠狀病毒2019-nCoV是導致2002-2003年爆發嚴重急性呼吸症候群(SARS)冠狀病毒(SARS-CoV)的變種。
  • 任麗麗:新型冠狀病毒病原學研究對臨床的提示
    病原學的問題可總結為「六大問題」。第一個問題,它是誰?當發現一個不明原因肺炎或者其他的不明原因感染,它到底是由什麼病原引發?這些方法都是病毒病原學研究常用的檢測方法,在所有檢測鑑定方法中分子檢測仍是較快速的,可以幫助我們快速病毒篩查;病毒分離培養等病毒學上的「金標準」檢測方法耗時長。
  • 石正麗與美國科學家發表研究,監測蝙蝠冠狀病毒跨物種傳播
    武漢病毒研究所石正麗研究員和美國生態健康聯盟(EcoHealth Alliance)主席彼得·達什亞克(Peter Daszak)教授團隊5月31日在科學預印版網站BioRxiv發表了關於蝙蝠冠狀病毒跨物種傳播的最新研究論文,這篇論文已經被《自然通訊》雜誌接受,並將於近期發表。
  • MedPeer推出「新型冠狀病毒研究情報中心」助力相關研究
    目前,新型冠狀病毒(2019-nCoV)在全球範圍內傳播、蔓延,形勢尤為嚴峻。在全球關注下,龐雜的相關資訊、情報隨之而來,在為公眾提供參考的同時,也存在著以下問題:01 情報質量參差不齊,部分情報難以溯源,甚至含有虛構、誇大疫情等虛假消息,構成謠言傳播,引起公眾恐慌;02 情報分類雜亂無章,維度單一,不具系統性,使公眾無法及時獲取到最新的、權威的、全面的信息;
  • 新型冠狀病毒肺炎臨床及影像學研究進展
    根據最新數據統計,沒有華南海鮮市場暴露史的病例數量正在增加。同時也出現了沒有武漢暴露史的聚集性確診病例。此外,在國外許多國家或地區也發現了未明確接觸華南海鮮市場的確診病例。醫務人員感染和家庭群集感染表明2019-nCoV呈現明顯的人群聚集性,且傳染性比SARS-CoV及MERS-CoV更強,疫情開始出現社區傳播。
  • 新型冠狀病毒2019-nCoV/COVID-19最新研究進展(第6期)
    2.JAMA:有缺陷的新型冠狀病毒測試策略促進這種病毒在美國傳播doi:10.1001/jama.2020.3864衛生專家說,新型冠狀病毒SARS-CoV-2檢測試劑盒有缺陷,再加上最初針對的人太少的診斷策略,使得這種病毒的傳播超出了美國當局的檢測能力。
  • 新型冠狀病毒感染的肺炎在中國武漢的早期傳播動態
    ·無華南海鮮市場接觸史的病例在12月底開始呈指數增長,根據潛伏時間和傳染時間倒推,人傳人的現象發生在半個月前,即12月中旬2019年12月,在中國湖北省武漢市出現了新型冠狀病毒(2019-nCoV)感染肺炎(NCIP)的最初病例。