前一段時間看了一個小文章說,P值已死。為什麼?因為P值根本起不到我們期望的作用,甚至更絕望地說,P值根本就起不到這個作用。
那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。
簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想(假設檢驗會在以後文中專門介紹)。簡單地說,如果你有一個50人的班級,已經知道你們班上50人的身高平均是170cm,如果現在給你1個人,身高是190cm,那麼讓你來判斷,這個人是不是你們班的人?
對於這個問題,你會怎麼判斷呢?很明顯,兩種答案,要麼是,要麼不是。通常我們會假定他是這個班上的人,因為即使是平均身高170cm,但也不是所有人都170cm,肯定有高有矮,高的人是有可能達到190cm的。但是我們不得不承認,對於一個平均身高是170cm的50人來說,出現一個190cm高的人,這種機率是相當低的。這個「機率」就是P值。
換句稍微專業一點的術語來說,對於一個均值是170cm的總體,有人的身高比均值高20cm,如果這個人真的是這個群體中的,那麼出現20cm這麼大的差異的概率有多大?這個概率就是P值。如果這個概率很小(如P值=0.01),那就可以說,出現這麼大的差異的概率只有百分之一。對於這麼小的概率,我們認為它不大可能出現,也就是說,這個人不大可能是屬於這個群裡中的,更大的可能是屬於其他群體中的。
現在還面臨一個問題,P值到底小於多少,我們才能下結論認為這個人不大可能屬於這個群體呢?換句說話,小於多少才算「不大可能」?現在我們通用的標準是0.05,也就是說,概率小於5%,就認為「不大可能」。那這個0.05是怎麼來的呢?這個0.05也是Fisher老先生提出來的,可是他沒有對此做任何解釋,只是說他突然想起來了,或許覺得0.05是他的幸運數字吧,然後就用0.05了,然後我們就一直沿用了。
不管0.05是Fisher老先生的一個偶然想法還是怎麼樣,起碼我們真的就有了一個標準了。只要能統一,始終是好事的,尤其在以前的時候。不過在當前計算機已經超級發達的時代,有這麼一個標準就不一定是好事了。很多人都曾有過這種經歷,P值正好等於0.049或0.052之類的。等於0.049的,感覺神都在眷顧他;等於0.052的,恨不得一頭去撞牆。也有人問過我,我的P值等於0.052,我可不可以四捨五入到0.05?
實際上,對於P值等於0.052之類的問題,也不用太煩惱。現在的雜誌一般都要求提供具體的P值,而不是簡單寫為P<0.05等。為什麼呢?因為P值僅僅告訴你,根據你的數據所得出的結論,有多大的犯錯風險。P值是對已有的(注意是已經有了的)結果的判斷,而不是反映了結果大小。比如剛才例子中,結果已經有了,就是差值是20cm,P值的作用是判斷出現這麼大的值到底有多大可能。對於0.052來說,比0.05多了千分之二的可能性,難道你覺得增加這千分之二的可能性可以讓你推翻你的結論嗎?我相信大多數人都不會這麼認為。所以你大可不必糾結於想方設法非要改成小於0.05的事情,大大方方地把自己的P值放上,我想讀者會有自己的判斷的。如果一個雜誌因為你的P值=0.052而拒絕承認你的結論,我想這個雜誌也不值得發表。
目前仍有人認為P值代表了差異大小,認為P值越小,差異越大,因此力求一個小的P值。而事實上,P值跟差別大小沒什麼太大關係,真正有關的反而是其他因素,比如例數的多少,這是個很重要的因素。例數少的話,就容易出現一個大的P值。以前就有臨床大夫質疑統計學,說:你看你們統計學,20個數據P值就大於0.05,我原封不動地複製成200個,P值就小於0.05,有統計學意義了。這不是在玩數字遊戲嗎?
我要說:你說的恰恰相反,20個數據時,P值大於0.05,不讓你有統計學意義,是在給你一個提醒,說明你的數據不足以支持你的結論。就像是你治療了20個人,即使都治好了,你如果宣稱治癒率100%,估計沒人會相信你。但是200個人就變成P值小於0.05,這正好說明了結論更可靠了,如果你對200個人治療還是都治好了,那你這時候說治癒率100%,我相信一定會有更多的人相信你。所以,好好想想P值吧,它是有現實意義的。統計學不是數字遊戲,而是讓你的結論更有說服力。靠什麼來體現你的結論的說服力呢,P值。