真實感染數據是可計算的麼?探尋真實感染數據有意義麼?口罩賣脫銷源自第二類統計學?控制流感不該佔用更多社會資源?大數據還是大麻煩?該不該恐懼?
1
真實感染數據是可計算的麼?
武漢冠狀病毒(2019-nCoV)確診病例數字是否正確,一直是個爭議極大的問題。儘管專家們的預測存在很大出入,但很少有人意識到,此次統計數據與他們遇到的其他統計數據不同的這一事實。
官方發布的病例數統計信息,需要慎重對待,一旦對數據的理解存在誤解,會產生重大的誤判。
這裡就不饒彎子了,根源在於,從統計實踐的角度來看,病例數據屬於完全不同的統計信息類別。
我們熟悉的統計學,通常是「兩側對稱」的不確定性的統計。
比如,你可能想知道在全國大選中有多少比例的選民支持某個總統候選人。顯然,你不可了解全國每一個人的想法,所以你要做的是隨機詢問一部分人並收集他們的意見。
由於你的樣本遠遠小於總人口數,因此為了解決這種不確定性,你會計算一個誤差範圍,有了這個範圍,對支持者的真實比例就會有一個相對靠譜的區間估計。
以2020年民主黨的最新艾默生民意測驗為例,民意調查顯示安德魯·楊獲得了8%選民的支持。但是,這不是全美2.5億人的投票人口給出的,實際上,這個調查只有497人參與。
因此該民意測驗計入了不確定性,並給出了+/- 4.1%的誤差範圍。也就是說,他們認為Andrew Yang獲得了總人口3.9-12.1%的支持。這樣看來,8%還算是一個不錯的估計,對候選人和普通民眾來說,這次調查提供了足夠的信息:楊(Andrew Yang)頗受歡迎。
你可以看到,這個誤差範圍左右是對稱的,這就是我們所說的「兩側對稱」。
現在考慮在武漢爆發新型冠狀病毒(2019-nCoV)。
這項數據的特異之處就在於,我們要處理的是「極端的」具有「單向不確定性」的統計數據:
「截至1月28日,一共確認感染5,974例。」
你很可能會相信這個數字,並得出結論認為已有5974人被感染。
但這個數字幾乎是完全錯誤的——不是因為統計錯誤或報告錯誤,或者是政治因素,而是由於感染檢測流程過程中,統計方法的先天不對稱性帶來的。
被冠以「確診」的人沒有感染冠狀病毒的機率接近0,但感染了冠狀病毒的人卻並不一定被冠以「確診」。因此,5,974其實最小感染人數(一個下限),而不是實際感染人數的一個近似的中值。
2
探尋真實感染數據有意義麼?
讓我們把數據看完:國家衛生委員會1月28日數據顯示
9,239例感染疑似病例
與受感染患者有65,537例密切接觸,其中59,990例患者被隔離
毫無疑問,這些病例當中相當一部分將被證明感染了冠狀病毒。我們繼續做出兩個假設(僅僅是假設):
90%的疑似病例被證明是冠狀病毒。
受到醫療監視的人中有20%的人也感染了冠狀病毒。
這樣,三者相加,一共有5974 + 9239*90% + 59990*20% = 26287 真實感染病例。這個數字很可能比官方公布的最小值更加接近真實情況。當然,這個計算我們帶入的數字是臆斷的,非常激進,完全不可採信。
即便我們採用了激進的數據,但仍然有一些因素未計入最終的估算當中:
疑似或者受到監視的病例當中,最終可能感染更多的人。這些新感染的人可能繼續感染更多的人——這就是冠狀病毒的工作方式,它們遍布社會網絡,很難實時跟蹤。
檢測出無症狀的攜帶者(具有傳染性但不顯示症狀的人)非常困難,並且要掌握沒有向當局報告其症狀的人的數量也非常困難。
複雜的上報和確診流程,也抬高了確診的門檻,很多病人無法被及時地識別,從而讓更多與其接觸的人感染冠狀病毒。
考慮到以上種種的複雜性,即使假設的90%和20%是正確的,估計的26287人可能最終也會是真實感染的最小數量。
我們只能坐以待斃了麼?
非也!統計學家們怎肯輕易認輸?
雖然幾乎不可能從官方數字了解問題的嚴重性,但可以根據其他(不一定是數字)信息進行估算。比如:
如果沒有人與人之間的傳播,病毒的傳播通常會在針對病源的幹預措施介入後產生效果。但是在這次暴發中,人與人之間的傳播途徑被確認,這大大增加了更多未被發現的感染者的可能性。R0作為基本繁殖數可以做出粗略的預測。
也可以基於遷移模式進行推斷。例如,在武漢不可能有100人被感染,而在整個北美地區則不可能有200人被感染,因為武漢的人很少去北美旅行。倫敦帝國理工學院的研究人員使用這類模型估計,到2020年1月18日,總共有4,000例有症狀的2019-nCoV患者,而此時官方只有121例確診病例——他們是根據武漢國際機場的出境旅客人數以及國外的7起確診病例進行的估算。
許多人已經過世,死因不明。這些人不太可能接受冠狀病毒檢測,因為這將浪費大量的社會資源,畢竟醫院的排隊時間太長了—— 通過醫院的監控或報導發現,病患候診等待時間以小時為單位。
因此,報告的數字不正確,估計的數字也不正確。
充其量,它們是真實數字的下限。
3
口罩賣脫銷源自第二類統計學?
第一類統計,即總統大選的對稱誤差當中,總體平均值由樣本平均值估算,誤差也相對較小。如果誤差足夠小,則可以將統計參數視為總體參數。
第二種統計,即冠狀病毒統計中的不對稱誤差當中,統計參數與總體數據的參數並不匹配,真實案例數等於已確認的案例加未發現的案例,這是一個單純的誤差項。
換句話說,統計量是真實數據的一個下限。而且該誤差是不對稱的,並且可能非常大——它具有自己的分布,隨著官方收集更多信息,誤差只會在一個方向上不斷調整。
追根溯源,我們發現,真實社會案例當中,只要檢測出現問題,就可以出現後者這種不對稱統計信息。
比如發生自然災害,官方一定是公布已確認的死亡人數,而不會報告未經確認的估計數(以避免不必要的痛苦)。死亡的人不會活過來,但仍有一些死亡人數尚未計算進去。
另一個例子是關於調查敏感的個人問題的社會研究:如果做某件事情令人尷尬,做這件事的人不一定會承認,但沒做這件事的人一定不會承認。
在這兩種情況下,估計都將具有不對稱的誤差。對於社會研究而言,採樣誤差已經是一個問題,而現在的真實參數讓結果更加不確定了!
讓我們回到統計對行為和現實世界決策的影響。
當人們說官方數字被低估了時,他們會忘記這一點:官方數字並不是對真實病例數的估計。官方數字甚至沒有試圖估計真實的病例數,因為無論如何這都是錯誤的。
它僅報告已確認的病例數。還報告了可疑和隔離病例的數量——這些數字是需要關注的數字,以便更好地了解情況。
即使這些數字仍然可能會產生誤導,但似乎人們並不一定會被這些數字所誤導。人們會恐懼地採取行動,並採取看似不必要的預防措施,他們會憑直覺知道官方報告的數字不是真實數字。
當真實的數據必然比報導的數據更差時,進行前瞻性思考非常重要:行動不一定要按照報導的數據來制定——即便我們能夠給出精確的估計,最終的決定甚至也不需要參考現實世界裡真實的水平。
而這種思考,似乎已經寫進了中國人的基因,我們不自覺地就做出了自己的選擇。
學術一點的說法就是:
考慮到真實數據的不確定性,必要的時候,可以基於比真實水平更高的「安全」水平制定行動計劃。通過這樣做,我們創造了安全裕度並保證了系統的魯棒性。
通俗地說:
這就是為什麼口罩在中國賣脫銷的原因——人們無法猜測感染的真實數字,因此只能非理性地為未來著想,按照心理上的安全預期進行物資儲備。
4
控制流感不該佔用更多社會資源?
2009年,H1N1爆發,澳大利亞有191人死於H1N1流感(豬流感)。而同時期,22,523人死於缺血性心臟病,人們開始批評說,心臟病死亡人數是前者的118倍,但政府在控制豬流感大流行上花費了不成比例的2億美元。
這個批評看似致命,實則不堪一擊。
問題就在於,我們不能將H1N1與心臟病作比較。
為什麼?
H1N1 流感是H1N1病毒的新株,在2009年大流行之前是未知的。對於可能發生的死亡人數的最佳預測(無需幹預,因為我們正在決定是否需要幹預)只能使用歷史數據來估計可能發生的死亡:
黑死病:造成30-60%的歐洲人口喪生。
西班牙流感:佔世界人口的3–5%。
1968年流感:估計有100萬人死亡。
當然,新病毒並不少見,並不總是導致如此驚人的死亡人數。關鍵是,這些疾病導致的死亡人數變化很大,我們可以很容易地看到在相對較短的時間內死亡人數增加了幾個數量級。
傳染性疾病遵循長尾分布。這種風險讓我們不得不投入大量的人力物力財力給予消解。
我們再考慮由心臟病造成的死亡:2010年的死亡人數是2009年的兩倍嗎?這是不可能的。實際上,心臟病死亡人數一直呈稀疏分布。
這裡的教訓就是,永遠不要把長尾分布和短尾分布放在一起來比較。
我們已經有一段時間沒有經歷過極端流行病了。社會內部和社會之間的相互聯繫意味著傳染性疾病的傳播速度更快。但是同時,我們更擅長於確定疫情,部署醫療物資和建立隔離區。
如果有人爭辯說這些疾病沒有遵循長尾分布的規律,因此不能保證迅速做出反應,請提醒他們,在出現麻煩的最初跡象下,迅速反應可以使我們免受極端事件的影響。
基於類似的理由,我們也不應該直接比較工資和公司利潤增長兩個數據。
工資增長應相對穩定——人們無法想像僱主會向大批工人減薪或加薪20%。這裡有兩個期望:
人們不希望工資在兩個方向上的波動超過5%(或接近該數字)。
人們也不希望工資增長出現負增長,尤其是在工會存在的情況下。
另一方面,我可以想像涉及公司利潤增長發生重大變化的現實情況:危機可能導致災難性損失和直接破產。政策變化和新技術可以導致國民經濟的快速增長。那麼,公司的利潤增長會波動更大嗎?
一些政客似乎並未考慮這一點,但經濟觀察家卻有所洞察。
「 Lowy Institute高級研究員John Edwards說,利潤往往「比工資波動得多」。
— RMIT ABC Fact Check
如果公司利潤增長的確具有更大的波動性,那麼一個時期內增長五倍的增長率就不足為奇了,也許在下一年這個形勢很容易就會被扭轉。
5
大數據還是大麻煩?該不該恐懼?
當不同現象背後的機制相差很大時,就不宜在生成的統計數據之間進行比較,這樣做都不是好的統計學實踐。
可悲的是,在大數據時代,這種情況發生的越來越多。
人們普遍認為統計數據是關於從數據中提取某些模式的感覺,但這很有可能犯錯——提取模式很容易,難的是如何利用常識過濾掉數據裡的垃圾。
對比兩個數字的時候,可以帶來決策,但生成數據的過程,加上專家的經驗(潛在的概率分布)揭露了一些隨機性(長尾?還是短尾?),研究這個過程比我們計算的最終數字(統計結果)更重要。
史蒂文·平克和比爾·蓋茨,他們一直都在循循善誘讓我們「保持理性」和「相信數據」,基於同樣的理由,他們還批評媒體壓倒性的不當負面關注。
只是他們倆都錯了。
不要聽從比爾蓋茨們的錯誤建議:他曾說:」恐懼扭曲了我們對事實的洞察「。
而冠狀病毒的故事卻告訴我們,事實正好相反!——恐懼其實是個好東西,它讓我們帶著批判的眼鏡,不拘泥於統計數據的抽象解讀,從而失去對真實世界的深刻洞察。