大數據文摘出品
身處新冠肺炎疫情之中,每個人心裡都在問,疫情到底有多嚴重?全球又一共會有多少人死於疫情?
鑑於有關新冠病毒的大量研究和數據收集,我們似乎可以很容易地找到答案。
很簡單嘛,死亡人數=易感人群數*感染率*死亡率。把這三個數字弄明白不就可以啦。
真的是這樣嘛?
先讓我們來看看一些關於美國疫情的模型預測數字。
根據《紐約時報》的報導,美國疾控中心(CDC)使用模型來預測疫情前景,得到的最好情況是將會有20萬美國人死亡。
而另一份來自倫敦帝國學院的研究報告,則因其基於模型的恐怖預測直接上了新聞頭條,這份報告認為,如果人們不改變愛聚集等習慣行為,那麼新冠病毒疫情將造成220萬美國人死亡。
不得不說,這兩種預測有著驚人的差異。這種差異就像是美國每年因受傷和暴力而喪生的人數和其他國家因戰爭而死亡的人數之間的差距。換句話說,一個是我們日常生活中面對的數字,而另一個則會永遠改變一個國家。
那麼,為什麼差距如此之大?這就不得不說到模型這隻「小怪獸」的本質。
使用數學模型來預測未來對專家來說很有價值,即使各種模型之結果可能存在巨大差異。
不過,要弄清這些不確定的結果及其隨時間的變化並不總是那麼容易,而且這麼燒腦的東西可能還有害身心。這就是為什麼我們要探究流行病模型,希望你了解這種不確定性後可以更好地理解各種預測。
回到我們的簡單數學模型。
死亡人數=易感人群數*感染率*死亡率
N(死亡) = N(易感人群) * 感染率 * 死亡率
看上去挺簡單的吧。然而,當你開始嘗試填入變量的值時,你會發現你根本不知道該填什麼。每個變量都有多種選擇,也取決於各人的知識差距。
比如基本的數據輸入。不同的國家和地區以不同的方式收集數據。沒有一個統一的表格可以讓我們輕鬆地比較世界各地的病例和死亡情況。即使在美國,許多醫生也認為因新冠病毒而死亡的人數遠超真正上報的數據。
類似的情況還存在於各國的檢測機制中。一些國家提供檢測給任何想要進行檢測的人,其他則不是。這使我們很難真正了解到底多少人實際感染新冠病毒以及有多少人檢測呈陽性。
而且,病毒本身的傳染性是無法預測的,其對某些社會群體的傷害會更大。這意味著,病毒的社會影響將由各地的人口統計特徵和醫療保健渠道所決定。
讓我們來具體看看這個模型涉及的數據吧。
病死率
「一些人死於新冠病毒」,這也許是我們在這裡可以做的最後的一個絕對陳述。
很可惜,「一些」不是數字,不能用來進行數學計算。
事實上,從疫情一開始就計算病毒的致死率是不準確的。各社會群體之間的病死率差異很大。加州大學舊金山分校的生物統計學家Rae Wannier表示:「由於年齡是一個很重要的因素,你必須根據美國人口構成以及併發症的發生率來調整病死率。」(併發症是可能加重新冠病毒影響的其他潛在病症。)
換句話說,不是只有一個「病死率」,而是有很多個。美國的病死率將不同於糖尿病發生率較低的國家的病死率。同樣地,美國國內各地區的病死率也是這樣。如果病毒在有大量老齡人口的城市傳播,其病死率會比人口較為年輕的城市要高。
但是,讓我們先看看全球的情況。中國或義大利的新冠病毒死亡率是否可以用來確定美國的病死率呢?當然有一定的幫助,但這只是降低了不確定性,並不能使其確定。
當然,不管怎樣,我們都不太可能知道這些地方確切的病死率。這其中有多種原因,首先是收集到的有關新冠病毒病例的基本信息並不準確。這些數據是許多主觀選擇的結果,而這些主觀選擇必須清楚且詳細地記錄下來,然後才可以認為這些數據是準確的。如何收集數據以及每次是否以相同的方式收集數據都是很重要的。
此外,未收集或不準確的數據也是個問題。要確定病死率,必須將死於該疾病的人數除以感染該疾病的人數。這裡,我們並沒有確切的受感染人數統計信息。因此,從數學角度來說,我們不知道分母是多少。(嚴格來說,我們可能也不確切知道分子是多少,但是我們可以假設病死人數比較接近正確值。)
鑽石公主號遊輪上的數千名乘客接受了新冠病毒的檢測。其結果可以給我們推斷其他情況的感染率和病死率做參考,但這種類比並不完美,因為大多數感染情況並不是發生在遊輪上。
在理想情況下,我們將測試群體中每個人是否感染了新冠病毒,從而可以肯定地知道有多少人感染,以及有多少人因此而死亡。但是,目前僅有極少數情況可以這麼做。以鑽石公主號為例,這艘遊輪在新冠疫情爆發後被隔離,船上幾乎所有人員都接受了檢測(3,711人中採集了3,063個樣本)。
鑽石公主號就是一個活生生的實驗室!它具有上文所述的那種數據記錄條件,這在實際情況中通常不會遇到。研究人員不僅能夠知道有多少人感染,而且還能知道有多少人完全沒有症狀,因此可以推斷出,在其他疫區可能有多少未檢測,未確診和未計算的人數。
這種特殊環境得到的結果表明,有很多人並不知道自己已經感染新冠病毒,因此病死率比其他檢測數據的結果要低。鑽石公主號上已確診並有症狀人群的病死率是2.3%,但是所有已確診病例(包括無症狀的病例)的病死率為1.2%。在冰島,一家名為deCODE Genetics的公司於3月13日開始為普通無症狀人群提供免費篩查。截至3月29日,deCODE 在8694份檢測樣本中檢出71名感染者,其中包括無症狀感染者。
同時,有症狀人數的比率(有症狀和無症狀的人數比)很重要,我們現在對此大多只是猜測。倫敦帝國理工學院的報告假設,三分之二的病例出現症狀就足以引起感染者的重視並進行自我隔離。從鑽石公主號的數據可以看出,確診時有一半的病例是有症狀的。有症狀人數比率的實際數字可以改變病死率的計算。
不過鑽石公主號的數據也並非完美,他們並沒有對所有人進行檢測,這種人口統計數據也不能代表廣大的人群。而且某些仍在治療的乘客仍然可能會死亡,這會增加病死率。但是目前在世界範圍內還找不到更可靠的統計數據。冰島的數據尚未公布是否以相同程度的方法進行採集。
在美國,這種廣泛的測試才剛剛開始,這確實很重要。但如果像某些州那樣主要對有症狀患者進行檢測,則得到的病死率將無法反映實際死亡情況(還是分母的問題)。並且在全美進行的測試還受到其他阻礙,例如普遍缺乏可用的檢測試劑盒以及某些私人實驗室不提供檢測呈陰性的人數。
真實病死率還受到對重症患者救治能力的影響,這取決於醫院的綜合水平。如果重症患者都可以進ICU並使用呼吸機,那麼許多都是可以搶救回來的。但是ICU床位和呼吸機等資源是相對稀缺的,如果供不應求(某些地區已經是這樣的了),那麼沒有呼吸機的人就可能會死亡。
這還會產生連鎖反應,其他事故或緊急情況的病人也可能會因缺乏醫院資源而受到影響,那麼某些可預防的死亡情況(與新冠疫情毫無關係)也將導致總體死亡人數增加,即使這不算作新冠疫情的死亡人數。
Wannier說:「物資供應和人員最終是否會短缺會極大地影響死亡人數,我們的醫療系統是否有足夠的承受能力也還不清楚。」
感染率
關於死亡率的結論也適用於感染率:估值都會受到數據收集、抽樣和有症狀者比率的影響。
要知道感染率,我們必須找出病毒從一個人轉移到另一個人的頻率。你可能已經聽說過「基礎再生數」這個術語,即R0,這是追溯到易感人群中每個被感染者導致的新感染人數的平均值。
首先,感染率取決於傳播方式。傳播方式可能的變化很大,又取決於各種社會行為,環境和政治決策。從一個國家到另一個國家,從一個州到另一個州,情況可能會不盡相同。它會隨著時間的推移而變化,這取決於我們採取何種措施來對抗該病毒。例如,在積水很多的地方,瘧疾的基礎複製數量更高。
因此,對冠狀病毒的潛在結果進行建模意味著要找出許多不同的傳播方式。這又涉及了更多變量。
比如說,接觸率。也就是在一個給定時間內與被感染者接觸的人數。這是人們唯一可以控制的事情,這就是為什麼每個人都居家隔離並保持社交距離的原因。
每個人的接觸率都不相同,這具體取決於他們的生活狀況和工作等因素,並且會根據公共衛生幹預措施和地點而變化。
然後是每例接觸的傳染率。不同的接觸場合會導致完全不同傳染率。很容易想像,露天馬拉松和教會活動的傳染率就會大不相同。
再來,還需要考慮有症狀比率。有些人認為,無症狀攜帶者的感染力不如出現症狀的人,因此有症狀比率也與傳播率有關。
當你嘗試計算接觸傳播時,病毒生物學也很重要。其中包括病毒可以在某個表面上生存多長時間,還有它可以在空氣中飛多遠。然後還有個體行為帶來的差異。
例如,吸菸者可能更容易受到病毒感染。他們的肺部可能更為脆弱。另外,由於吸菸,他們的手也更容易與嘴接觸。
最後,還有傳染性的持續時間:一個患者可以持續傳播多久?以及在發病過程中何時會存在傳染性?俄亥俄州立大學流行病學和人口健康計劃的負責人馬克·威爾說,這取決於病毒生物學和個體免疫系統。
所有這些參數都用於估算R0,即病毒的基礎再生數。
雖然基礎再生數假設所有人都易感,但一個有效的複製數量,取決於有多少人口易感。如此之多的人群被視為易感人群的原因之一是,以前都沒有人得過新冠肺炎。
一個好的模型還需要考慮再感染的問題:如果感染了這種病毒並康復的人對再次感染產生免疫,那麼易感人群就會減少。但是到目前為止,我們對這種病毒的感染後免疫性了解不多。
如果疫苗之類的東西被製造出來,易感性就又不一樣了。好了,我們已經說得足夠複雜啦。
綜合建模
要建立模型,你必須集成所有這些變量,並考慮它們的不確定性,它們彼此之間的關聯程度以及各種其他因素。
所有這些因素都可能會受到我們採取的幹預措施的影響,這些幹預措施包括社交距離,洗手,停課等。這是一個巨大的未知因素,可以極大地改變疫情爆發的形態,而且也會因國家,州甚至城市而異。
讓我們把它想像成做餡餅的過程。如果你有正規的菜譜,就可以很輕鬆地完成。但是,如果菜譜中說「根據你手頭上有的食物,添加3到15個切碎的蘋果,或者牛肉,或者白菜」,你還知道你做出來的是什麼貨色麼?
當然,你可以對正確的原料和數量作出假設。但記住哦,這只是假設。假設越多,最後餡餅的味道也會差得更遠。
在接下來的幾個月中,你一定還會陸續看到各類關於新冠肺炎的預測。他們不會全部一致。但是,僅僅因為它們基於假設並不意味著它們就一文不值。
畢竟,「所有模型都是錯誤的,但有一些卻很有用。」
相關報導:
https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/
- DataCastle -