統計學 P值到底是個什麼東西

2021-01-20 斐然智達SCI學術服務

前一段時間看了一個小文章說,P值已死。為什麼?因為P值根本起不到我們期望的作用,甚至更絕望地說,P值根本就起不到這個作用。


那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。

 簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想。


簡單地說,如果你有一個50人的班級,已經知道你們班上50人的身高平均是170cm,如果現在給你1個人,身高是190cm,那麼讓你來判斷,這個人是不是你們班的人?

 對於這個問題,你會怎麼判斷呢?很明顯,兩種答案,要麼是,要麼不是。通常我們會假定他是這個班上的人,因為即使是平均身高170cm,但也不是所有人都170cm,肯定有高有矮,高的人是有可能達到190cm的。但是我們不得不承認,對於一個平均身高是170cm的50人來說,出現一個190cm高的人,這種機率是相當低的。這個「機率」就是P值。

       

換句稍微專業一點的術語來說,對於一個均值是170cm的總體,有人的身高比均值高20cm,如果這個人真的是這個群體中的,那麼出現20cm這麼大的差異的概率有多大?這個概率就是P值。如果這個概率很小(如P值=0.01),那就可以說,出現這麼大的差異的概率只有百分之一。對於這麼小的概率,我們認為它不大可能出現,也就是說,這個人不大可能是屬於這個群裡中的,更大的可能是屬於其他群體中的。

 現在還面臨一個問題,P值到底小於多少,我們才能下結論認為這個人不大可能屬於這個群體呢?換句說話,小於多少才算「不大可能」?現在我們通用的標準是0.05,也就是說,概率小於5%,就認為「不大可能」。那這個0.05是怎麼來的呢?這個0.05也是Fisher老先生提出來的,可是他沒有對此做任何解釋,只是說他突然想起來了,或許覺得0.05是他的幸運數字吧,然後就用0.05了,然後我們就一直沿用了。


不管0.05是Fisher老先生的一個偶然想法還是怎麼樣,起碼我們真的就有了一個標準了。只要能統一,始終是好事的,尤其在以前的時候。不過在當前計算機已經超級發達的時代,有這麼一個標準就不一定是好事了。很多人都曾有過這種經歷,P值正好等於0.049或0.052之類的。等於0.049的,感覺神都在眷顧他;等於0.052的,恨不得一頭去撞牆。也有人問過我,我的P值等於0.052,我可不可以四捨五入到0.05?

       

實際上,對於P值等於0.052之類的問題,也不用太煩惱。現在的雜誌一般都要求提供具體的P值,而不是簡單寫為P<0.05等。為什麼呢?因為P值僅僅告訴你,根據你的數據所得出的結論,有多大的犯錯風險。P值是對已有的(注意是已經有了的)結果的判斷,而不是反映了結果大小。比如剛才例子中,結果已經有了,就是差值是20cm,P值的作用是判斷出現這麼大的值到底有多大可能。對於0.052來說,


比0.05多了千分之二的可能性,難道你覺得增加這千分之二的可能性可以讓你推翻你的結論嗎?我相信大多數人都不會這麼認為。所以你大可不必糾結於想方設法非要改成小於0.05的事情,大大方方地把自己的P值放上,我想讀者會有自己的判斷的。如果一個雜誌因為你的P值=0.052而拒絕承認你的結論,我想這個雜誌也不值得發表。

 目前仍有人認為P值代表了差異大小,認為P值越小,差異越大,因此力求一個小的P值。而事實上,P值跟差別大小沒什麼太大關係,真正有關的反而是其他因素,比如例數的多少,這是個很重要的因素。例數少的話,就容易出現一個大的P值。以前就有臨床大夫質疑統計學,說:你看你們統計學,20個數據P值就大於0.05,我原封不動地複製成200個,P值就小於0.05,有統計學意義了。這不是在玩數字遊戲嗎?

     

我要說:你說的恰恰相反,20個數據時, P值大於0.05,不讓你有統計學意義,是在給你一個提醒,說明你的數據不足以支持你的結論。就像是你治療了20個人,即使都治好了,你如果宣稱治癒率100%,估計沒人會相信你。但是200個人就變成P值小於0.05,這正好說明了結論更可靠了,如果你對200個人治療還是都治好了,那你這時候說治癒率100%,我相信一定會有更多的人相信你。所以,好好想想P值吧,它是有現實意義的。統計學不是數字遊戲,而是讓你的結論更有說服力。靠什麼來體現你的結論的說服力呢,P值。



美國統計協會公布了P值使用的幾大準則:


準則1:P值可以表達的是數據與一個給定模型不匹配的程度



這條準則的意思是說,我們通常會設立一個假設的模型,稱為「原假設」,然後在這個模型下觀察數據在多大程度上與原假設背道而馳。P值越小,說明數據與模型之間越不匹配。


準則2:P值並不能衡量某條假設為真的概率,或是數據僅由隨機因素產生的概率。

這條準則表明,儘管研究者們在很多情況下都希望計算出某假設為真的概率,但P值的作用並不是這個。P值只解釋數據與假設之間的關係,它並不解釋假設本身。


準則3:科學結論、商業決策或政策制定不應該僅依賴於P值是否超過一個給定的閾值。

這一條給出了對決策制定的建議:成功的決策取決於很多方面,包括實驗的設計,測量的質量,外部的信息和證據,假設的合理性等等。僅僅看P值是否小於0.05是非常具有誤導性的。


準則4:合理的推斷過程需要完整的報告和透明度。

這條準則強調,在給出統計分析的結果時,不能有選擇地給出P值和相關分析。舉個例子來說,某項研究可能使用了好幾種分析的方法,而研究者只報告P值最小的那項,這就會使得P值無法進行解釋。相應地,聲明建議研究者應該給出研究過程中檢驗過的假設的數量,所有使用過的方法和相應的P值等。


準則5:P值或統計顯著性並不衡量影響的大小或結果的重要性。

這句話說明,統計的顯著性並不代表科學上的重要性。一個經常會看到的現象是,無論某個效應的影響有多小,當樣本量足夠大或測量精度足夠高時,P值通常都會很小。反之,一些重大的影響如果樣本量不夠多或測量精度不夠高,其P值也可能很大。


準則6:P值就其本身而言,並不是一個非常好的對模型或假設所含證據大小的衡量。

簡而言之,數據分析不能僅僅計算P值,而應該探索其他更貼近數據的模型。

聲明之後還列舉出了一些其他的能對P值進行補充的分析方手段,比如置信區間,貝葉斯方法,似然比,FDR(False Discovery Rate)等等。這些方法都依賴於一些其他的假定,但在一些特定的問題中會比P值更為直接地回答諸如「哪個假定更為正確」這樣的問題。


聲明最後給出了對統計實踐者的一些建議:好的科學實踐包括方方面面,如好的設計和實施,數值上和圖形上對數據進行匯總,對研究中現象的理解,對結果的解釋,完整的報告等等——科學的世界裡,不存在哪個單一的指標能替代科學的思維方式。


作者:馮國雙




斐然智達SCI學術服務為生物、醫學工作者提供:

SCI論文翻譯、編輯潤色、評估評審、修改投稿等一站式論文服務;

實驗委託、基金標書、Meta分析等科研服務;

以及培訓班服務。

相關焦點

  • 【微言茶話】小白學統計系列之三:P值到底是個什麼東西
    那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想(假設檢驗會在以後文中專門介紹)。
  • 怎樣理解 p=0.06 的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • 怎樣理解p=0.06的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合
  • 當統計學遇上大數據——P值消亡
    拉普拉斯        P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。2.
  • 乾貨|統計學的P值危機
    今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • P值之死|當統計學遇上大數據
    拉普拉斯P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。2.
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 統計學基礎遭質疑! p值、信賴區間為何被數百科學家連名反對?
    顯著性這一概念是支撐統計學發展的大廈。統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。
  • 更加嚴苛的統計學顯著性閾值來了,p<0.05好像要說再見了
    兩天前,Science網站上登了一篇來自Kelly Servick的評論,根據最新的一篇有72個作者將發表在Nature Human Behavior
  • 【統計學】讓人糾結的P值
    計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯著的風險增加48%(p值為0.091)。而對比前一組,聲稱結果呈現顯著性的研究,風險比也是1.2。他們的研究只是更加精確,風險間隔區間在9%到33%之間(p值為0.0003)。
  • 醫學統計學基礎概念:P值與可信區間
    那P值到底要怎樣理解呢?首先,我們先要明確P值中的P意指probability,即概率。根據美國統計協會2016年的定義,P值是指在一個特定的統計模型下,從樣本數據計算出的估計值(如兩組間樣本均數差)等於觀測值或比觀測值更為極端的概率(Wasserstein, 2016)。讀到這裡,或許讀者就會更疑惑這到底是什麼意思?
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    拉普拉斯        P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。2.
  • 統計學需要一場變革
    p值經常被曲解,統計的顯著性不等於實際的顯著性。此外,為了讓數據更漂亮,很多研究人員有意無意地將p值向上或向下調整。美國加利福尼亞大學洛杉磯分校的名譽教授、統計學家和流行病學家桑德·格林蘭德(Sander Greenland)說:「你可以用統計學方法來證明任何事情。」他是呼籲統計學改革的科學家之一。
  • p-value到底是什麼?
    對於大部分小夥伴來說,在日常數據分析中,經常會使用p-value的大小來判斷不同處理或兩個樣本之間是否存在顯著性差異。我們先來看幾個概念。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。