今年三月份MedRxiv上發表的預印版論文"Relationship between the ABO Blood Group and the COVID-19 Susceptibility"提出,A型血人群有更高的風險患新型冠狀病毒,而O型血患病風險則相對低。
其中,分析的樣本有武漢市金銀壇醫院的1775名新冠肺炎患者,以及武漢市3694名正常人的血型分布,我們整理出來表格對比一下:
當時有人調侃說這個研究有什麼用,還不如做點別的。但是從統計學角度來看,這個研究發現,是非常有價值的。
揭示事物奧秘的動力,來自於好奇與發現;新的科學理論的產生,往往是由於舊的理論無法解釋某些現象。例如,牛頓經典力學無法解釋觀測到的星際現象與按照理論計算出來的差異,才有了相對論的提出與驗證。
根據新的現象分析思考新的理論,是科學家的工作。
下面來講,這個數字差異為什麼有意義,以及什麼是顯著性差異。
用通俗的講就是,分布有些不同,是偶然現象,還是非偶然現象?
統計學上,顯著性檢驗的定義:「顯著性檢驗(significance test)就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。」
教科書式的解釋就是:「顯著性檢驗是針對我們對總體所做的假設做檢驗,其原理就是「小概率事件實際不可能性原理」來接受或否定假設。抽樣實驗會產生抽樣誤差,對實驗資料進行比較分析時,不能僅憑兩個結果(平均數或率)的不同就作出結論,而是要進行統計學分析,鑑別出兩者差異是抽樣誤差引起的,還是由特定的實驗處理引起的。」
舉個日常生活中的例子:
住在兩個相鄰的小區(小區A、小區B)的初三學生,每月月考,現在有6個月的數學學科成績數據。小區A有4個月平均成績高於小區B,有2個月成績低於小區B;總體上,小區A的整體平均分,高於小區B。是否說明住在A小區的學生數學學習比B小區的好?並涉及到決策:為了孩子,我是否應該從B小區搬到A小區?
一般的想法是,兩個相鄰的小區、同一學校、老師也一樣,偶爾一次兩次不同,成績應該差不多的。
但從統計學角度,需要具體分析兩組數據是否有顯著性差異。
這涉及到了統計分析,A小區的學習成績是否顯著高於B小區?說得通俗些就是,A小區成績高於B小區,是不是偶然現象?
a. 如果統計學上不具有顯著性差異,那麼就說明"小區A成績高"很可能就是個偶然現象,兩邊成績其實沒什麼差異。
b. 如果統計學上具有顯著差異,那麼"小區A成績高"不是偶然現象,有一些潛在因素在起作用,需要找到那個原因。
比如,可能的原因或許有:
(1)A小區富裕些,補課的孩子多;
(2)B小區最近在施工,影響了孩子的休息;
(3)B小區有幾個不學習的壞孩子,影響了孩子學習。
如果只是補課的原因,那麼你就不需要搬家,因為你家孩子也一直在補課;如果是因為施工,那就要考慮怎樣消除影響;如果是周邊學習環境不好的原因,那就要考慮搬家事宜了。原因找到了,才能對症下藥。
這個例子是說明,從「現象」到「尋找原因」這個過程。直覺往往是不準確的,很可能的情況是,統計學上已經有了顯著性差異,但直觀上沒有感受;如果不針對潛在的因素加以控制,會造成更嚴重的後果。
再回到O型血的人不易患新冠病毒這個論文。
我們看到,O型血正常人群比例33.84%,新冠樣本中比例為25.80%,統計學分析計算後,表明有顯著差異(P小於0.001);而AB型血正常人群比例9.10%,新冠樣本中比例為10.03%,計算後,不能說明具有顯著差異(P=0.291)。(註:P值越小,「樣本分布與假設分布一致」發生的概率越小)
就是說,新冠樣本中AB型血比例高,可能是偶然現象;而O型血比例低,很可能是有原因的,需要科學進一步研究。
參考文獻:"Relationship between the ABO Blood Group and the COVID-19 Susceptibility"
https://www.medrxiv.org/content/10.1101/2020.03.11.20031096v2