前一段時間看了一個小文章說,P值已死。為什麼?因為P值根本起不到我們期望的作用,甚至更絕望地說,P值根本就起不到這個作用。
那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。
簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想。
簡單地說,如果你有一個50人的班級,已經知道你們班上50人的身高平均是170cm,如果現在給你1個人,身高是190cm,那麼讓你來判斷,這個人是不是你們班的人?
對於這個問題,你會怎麼判斷呢?很明顯,兩種答案,要麼是,要麼不是。通常我們會假定他是這個班上的人,因為即使是平均身高170cm,但也不是所有人都170cm,肯定有高有矮,高的人是有可能達到190cm的。但是我們不得不承認,對於一個平均身高是170cm的50人來說,出現一個190cm高的人,這種機率是相當低的。這個「機率」就是P值。
換句稍微專業一點的術語來說,對於一個均值是170cm的總體,有人的身高比均值高20cm,如果這個人真的是這個群體中的,那麼出現20cm這麼大的差異的概率有多大?這個概率就是P值。如果這個概率很小(如P值=0.01),那就可以說,出現這麼大的差異的概率只有百分之一。對於這麼小的概率,我們認為它不大可能出現,也就是說,這個人不大可能是屬於這個群裡中的,更大的可能是屬於其他群體中的。
現在還面臨一個問題,P值到底小於多少,我們才能下結論認為這個人不大可能屬於這個群體呢?換句說話,小於多少才算「不大可能」?現在我們通用的標準是0.05,也就是說,概率小於5%,就認為「不大可能」。那這個0.05是怎麼來的呢?這個0.05也是Fisher老先生提出來的,可是他沒有對此做任何解釋,只是說他突然想起來了,或許覺得0.05是他的幸運數字吧,然後就用0.05了,然後我們就一直沿用了。
不管0.05是Fisher老先生的一個偶然想法還是怎麼樣,起碼我們真的就有了一個標準了。只要能統一,始終是好事的,尤其在以前的時候。不過在當前計算機已經超級發達的時代,有這麼一個標準就不一定是好事了。很多人都曾有過這種經歷,P值正好等於0.049或0.052之類的。等於0.049的,感覺神都在眷顧他;等於0.052的,恨不得一頭去撞牆。也有人問過我,我的P值等於0.052,我可不可以四捨五入到0.05?
實際上,對於P值等於0.052之類的問題,也不用太煩惱。現在的雜誌一般都要求提供具體的P值,而不是簡單寫為P<0.05等。為什麼呢?因為P值僅僅告訴你,根據你的數據所得出的結論,有多大的犯錯風險。P值是對已有的(注意是已經有了的)結果的判斷,而不是反映了結果大小。比如剛才例子中,結果已經有了,就是差值是20cm,P值的作用是判斷出現這麼大的值到底有多大可能。對於0.052來說,
比0.05多了千分之二的可能性,難道你覺得增加這千分之二的可能性可以讓你推翻你的結論嗎?我相信大多數人都不會這麼認為。所以你大可不必糾結於想方設法非要改成小於0.05的事情,大大方方地把自己的P值放上,我想讀者會有自己的判斷的。如果一個雜誌因為你的P值=0.052而拒絕承認你的結論,我想這個雜誌也不值得發表。
目前仍有人認為P值代表了差異大小,認為P值越小,差異越大,因此力求一個小的P值。而事實上,P值跟差別大小沒什麼太大關係,真正有關的反而是其他因素,比如例數的多少,這是個很重要的因素。例數少的話,就容易出現一個大的P值。以前就有臨床大夫質疑統計學,說:你看你們統計學,20個數據P值就大於0.05,我原封不動地複製成200個,P值就小於0.05,有統計學意義了。這不是在玩數字遊戲嗎?
我要說:你說的恰恰相反,20個數據時, P值大於0.05,不讓你有統計學意義,是在給你一個提醒,說明你的數據不足以支持你的結論。就像是你治療了20個人,即使都治好了,你如果宣稱治癒率100%,估計沒人會相信你。但是200個人就變成P值小於0.05,這正好說明了結論更可靠了,如果你對200個人治療還是都治好了,那你這時候說治癒率100%,我相信一定會有更多的人相信你。所以,好好想想P值吧,它是有現實意義的。統計學不是數字遊戲,而是讓你的結論更有說服力。靠什麼來體現你的結論的說服力呢,P值。
美國統計協會公布了P值使用的幾大準則:
這條準則的意思是說,我們通常會設立一個假設的模型,稱為「原假設」,然後在這個模型下觀察數據在多大程度上與原假設背道而馳。P值越小,說明數據與模型之間越不匹配。
準則2:P值並不能衡量某條假設為真的概率,或是數據僅由隨機因素產生的概率。
這條準則表明,儘管研究者們在很多情況下都希望計算出某假設為真的概率,但P值的作用並不是這個。P值只解釋數據與假設之間的關係,它並不解釋假設本身。
準則3:科學結論、商業決策或政策制定不應該僅依賴於P值是否超過一個給定的閾值。
這一條給出了對決策制定的建議:成功的決策取決於很多方面,包括實驗的設計,測量的質量,外部的信息和證據,假設的合理性等等。僅僅看P值是否小於0.05是非常具有誤導性的。
準則4:合理的推斷過程需要完整的報告和透明度。
這條準則強調,在給出統計分析的結果時,不能有選擇地給出P值和相關分析。舉個例子來說,某項研究可能使用了好幾種分析的方法,而研究者只報告P值最小的那項,這就會使得P值無法進行解釋。相應地,聲明建議研究者應該給出研究過程中檢驗過的假設的數量,所有使用過的方法和相應的P值等。
準則5:P值或統計顯著性並不衡量影響的大小或結果的重要性。
這句話說明,統計的顯著性並不代表科學上的重要性。一個經常會看到的現象是,無論某個效應的影響有多小,當樣本量足夠大或測量精度足夠高時,P值通常都會很小。反之,一些重大的影響如果樣本量不夠多或測量精度不夠高,其P值也可能很大。
準則6:P值就其本身而言,並不是一個非常好的對模型或假設所含證據大小的衡量。
簡而言之,數據分析不能僅僅計算P值,而應該探索其他更貼近數據的模型。
聲明之後還列舉出了一些其他的能對P值進行補充的分析方手段,比如置信區間,貝葉斯方法,似然比,FDR(False Discovery Rate)等等。這些方法都依賴於一些其他的假定,但在一些特定的問題中會比P值更為直接地回答諸如「哪個假定更為正確」這樣的問題。
聲明最後給出了對統計實踐者的一些建議:好的科學實踐包括方方面面,如好的設計和實施,數值上和圖形上對數據進行匯總,對研究中現象的理解,對結果的解釋,完整的報告等等——科學的世界裡,不存在哪個單一的指標能替代科學的思維方式。
作者:馮國雙
斐然智達SCI學術服務為生物、醫學工作者提供:
SCI論文翻譯、編輯潤色、評估評審、修改投稿等一站式論文服務;
實驗委託、基金標書、Meta分析等科研服務;
以及培訓班服務。