6月下旬以來,美國新型冠狀病毒每日新增確診病例在經歷了之前一個多月的平穩期之後突然上升,並且屢屢突破之前的單日新增最高值39096例(4月24日)。7月1日開始更是多日突破日增5萬大關,7月3日新增確診病例達歷史高值58910例。[1]
為此,美國媒體近日做了大量的報導。這顯然影響到了川普的復工復學計劃,也就影響到了他競選總統的選情。
在美國移民局出臺新規要求在美留學生若只上網課或被要求離境、美國政府向國會遞交退出世衛組織通知的同時,川普連發多條推文,用他的統計數據展示他「非凡」的抗疫成果。
【新冠病毒確診病例上升(因為大量檢測),死亡人數緩步下降。假新聞媒體應該給報導報導這個啊,並且新增崗位數正在創紀錄!】
【在目前我們偉大的檢測計劃繼續領跑世界的時候,新冠病毒死亡數下降了39%。為什麼那些假新聞媒體不報導死亡數下降了那麼多呢?因為這些媒體都是貨真價實的假新聞!】
【重磅新聞:美國新冠病毒病死率幾乎是世界最低!並且,美國的死亡人數大幅下降,比最高峰時下降了10倍(還有,我們的經濟正強勢回歸!)。】
【為什麼那些假新聞媒體拒絕報導我們的新冠病毒死亡數已經下降了39%,並且我們現在的病死率是世界最低的?因為它們見不得我們為這個國家做得那麼好!】
【「美國新冠病毒病死率從高處急速下降」,病死率下降了十倍。我們的病死率是世界最低的。那些假新聞應該報導這些更重要的事實,但是他們沒有!】
看完之後去對比美國的新冠疫情相關數據,會有一種「他說得好像還真挺有道理」的錯覺。這裡我們不得不佩服川普真是一個雖不懂統計學,但卻十分善於利用統計陷阱的統計學鬼才。
為什麼這麼說呢?今天Alfred就帶大家看看川普推文中隱藏的統計陷阱。
陷阱一、相關不等於因果川普推文中說:因為大量檢測,所以美國最近的新冠病毒確診數才上升到5萬多的。
咋一聽好像很有道理,檢測的人數越多,當然確診的人數就越多呀,要是檢測量少的話,確實也沒有那麼多確診病例嘛。殊不知這正是一個常見的統計陷阱:相關不等於因果。
檢測人數與確診人數具有明顯的正相關,但並不能認為檢測數上升是確診數上升的原因。就像不能因為城市裡的警察數量跟犯罪案件發生數是正相關,就說是因為警察越多導致了犯罪案件數量越多一樣。也不能因為消防出勤數跟火災發生數是正相關,就說是因為出勤數越多導致了火災發生數越多一樣。
在統計學中,因果關係從屬於相關關係,但判定相關關係是否為因果關係時,需要考慮以下幾點[2]:
▲ 1. 純屬巧合:正如紅樓夢第六回題目寫道,劉姥姥一進榮國府,賈寶玉初試雲雨情,這純屬巧合;
▲ 2. 存在混雜因素:蟬叫得越響,屋子裡越覺得熱。並不是蟬的叫聲大導致屋子裡氣溫升高;
▲ 3. 反向因果關係:正如警察數量跟犯罪案件發生數一樣,並非是因為警察數量多導致犯罪案件發生數升高,而是犯罪案件發生數升高所以需要更多的警察。
在這裡也是一樣的,正是因為潛在感染人數增多,所以需要更多的檢測,而不是因為加大了檢測才導致確診數上升的。一張來自約翰·霍普金斯大學統計的美國每日檢測數和確診率圖也說明了這一點。[3]
由圖可以看到,美國新冠病毒每日檢測數確實一直在上升,5月21日到6月20日每日平均檢測數為452922,6月21日到7月7日每日平均檢測數上升為599142。但是自6月下旬開始每日確診率(每日確診數/每日檢測數)也在上升。
即使6月下旬後仍然保持5月21日到6月20日的每日平均452922檢測數不變,如果按照7月7日的移動平均確診率8%計算,6月下旬之後的每日確診數仍然會上升到36233例。比起原先平均每日22246例來說,仍是大幅上升。
因此,川普說的因為檢測數更多所以確診數更多,把相關關係說成因果關係,正是利用了這個統計陷阱來試圖掩人耳目。
陷阱二、確診數上升,死亡數反倒下降川普的多篇推文都在重複一個點:雖然你們看現在每日的確診數突破5萬,但是死亡數一直都在下降啊,比起最高峰時一日死亡2749人(4月21日)來說,現在每日死亡人數都下降「十倍」了,假新聞媒體為什麼不報導呢!
如果我們去看美國新冠病毒每日新增死亡病例的數據,會發現確實如川普所描述的那樣:比起4月21日報告死亡了2749人來說,7月5日報告的死亡人數為262人,確實下降了「十倍」。
這裡面川普所使用的陷阱估計明眼人都能看出來,那就是:患者從確診到死亡具有一定的時間差,每位被統計到並公布死亡的新冠患者距離其確診平均差了2-3周甚至更長的時間。
因此,當前的死亡病例數並非是當前的確診病例數導致的,而是2-3周甚至更長時間之前的確診病例數導致的。6月下旬新增的確診病例,需要2-3周甚至更長的時間才能看見結果。
陷阱三、部分取代總體或許川普心中也默默覺得單說現在的死亡人數下降數據並不具太大的說服力,於是他進一步拿病死率說事兒:美國新冠病毒病死率世界最低!
發完這篇推文之後,馬上有他的擁躉貼出了這麼一張圖:
一眼看上去,確實是這麼回事兒:法國、英國、義大利、西班牙等國家的新冠病毒病死率遠在美國之上,最近就連德國的病死率都比美國要高。美國新冠病毒病死率世界最低!
仔細一想不對,世界除了西歐和美國之外,就沒有其它國家了嗎?難道美國人的眼中的世界就是美國和西歐嗎?
我們進一步完善了世界各國新冠病毒病死率的圖表,可以看到亞洲的韓國、歐洲的塞爾維亞、美洲的智利、非洲的南非和大洋洲的紐西蘭等國家的新冠病毒病死率都比美國要低很多。
面對這些數據,為什麼川普還可以理直氣壯地說「美國新冠病毒病死率世界最低」,以部分取代總體呢?大概是因為部分美國人眼中的世界還真是這樣的。
除了並不是世界最低的之外,川普一直吹噓的美國新冠病毒病死率其實還有其它的問題:每個國家的內部情況不同,並不能單純對比病死率來看抗疫的情況。
為什麼這麼說呢?我們先舉個例子。
假設1: 現在有兩個國家分別為國家A和國家B,這兩個國家新冠病毒確診人數都為1000人,國家A因新冠病毒死亡人數為100人(病死率10%),國家B因新冠病毒死亡人數為200人(病死率20%)。
問你覺得哪個國家抗疫更為成功?
第一直覺,國家A的病死率更低,當然是國家A更為成功嘛。當真是這麼簡單嗎?
我們簡單地把A國和B國的確診病例分為年輕人和老年人,假設2: A國年輕人確診數為900,死亡數為30,老年人確診數為100,死亡數為70,B國年輕人確診數為600,死亡數為10,老年人確診數為400,死亡數為190。
這樣也符合以假設1的情況,但是無論是年輕人還是老年人的病死率,B國都比A國要低。
這是為什麼呢?原因就在於A國和B國內在的人口結構不一樣,導致確診病例的人口年齡構成也不一樣。B國的老年人比A國多很多,而老年人的病死率普遍偏高。於是造成了分組時都佔優勢,但總評時反而處於劣勢的情況,該現象稱作「辛普森悖論」。
這也是為什麼統計學要求在比較兩組數據時,首先要檢查數據內部構成的原因。
因此,單純拿美國新冠病毒病死率和其它病死率高的國家比,是不厚道的。
比如義大利截止到7月7日的新冠病毒病死率為14.4%,而美國為4.3%,是否可以單純地說美國抗疫比義大利更為成功呢?我們分別從義大利高級衛生研究所和美國疾病控制與預防中心獲取到義大利和美國的新冠病毒各年齡段確診人數和病死人數的數據。[4] [5]
可以看到,義大利的確診病例年齡主要集中在50歲以上,特別是80歲以上的老年人佔了很大一部分比例。
而美國的確診病例主要集中在20歲-69歲年齡段,與義大利相比偏年輕。
如果看美國和義大利各年齡段新冠病毒病死率的話,義大利在10-49歲年齡段的病死率都比美國低,而在50歲以上的病死率高於美國。
因此,病死率是衡量抗疫是否成功的一個指標,但是並不能單純拿病死率來做國家之間抗疫效果的比較。川普顯然是利用了「辛普森悖論」的這一點。
五、川普聰明著呢!縱觀川普在推特上發表的這些統計數據,看似一點都不懂統計學,比如經常用「十倍」來形容下降,但卻是一個非常善於利用統計數據和統計陷阱來說服選民的鬼才。
很多人看了川普這幾個月的騷操作之後,總以為川普不會是個傻子吧。川普才不傻,人家聰明著呢!
傻的是沒有判斷力的選民。
引用:
[1] Daily New Cases in the United States. https://www.worldometers.info/coronavirus/country/us/.
[2] 中室牧子, 津川友介. 原因與結果的經濟學. 後浪丨民主與建設出版社, 2019-06.
[3] Rate of Positive Tests in the US and States Over Time. https://coronavirus.jhu.edu/testing/individual-states.
[4] Istituto Superiore di Sanità. Sorveglianza Integrata COVID-19 in Italia. 2020-06-22.https://www.epicentro.iss.it/coronavirus/sars-cov-2-sorveglianza-dati.
[5] Stokes EK, Zambrano LD, Anderson KN, et al. Coronavirus Disease 2019 Case Surveillance — United States, January 22–May 30, 2020. MMWR Morb Mortal Wkly Rep 2020;69:759–765. DOI: http://dx.doi.org/10.15585/mmwr.mm6924e2external.
本文首發於微信公眾號「Alfred數據室」,轉載請聯繫原作者!