給數據科學家直白解釋P值的含義

2021-01-16 AI公園

最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。

即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。

我去維基百科找了一些東西,這是它的定義:

在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。

我的第一個想法是,可能他們這樣寫,所以沒有人能理解它。這裡的問題在於統計學家喜歡使用的大量術語。

這篇文章是關於用一種容易理解的方式解釋 p 值,而不是統計學家們的方式。

一個現實生活中的問題

在我們的生活中,我們對一件事的相信程度勝過另一件事。

地球是圓的。或者地球繞著太陽轉。太陽從東方升起。

對於那些有著不同程度不確定因素的不太明顯的人來說 —— 鍛鍊可以減肥?還是說川普會在下次選舉中贏/輸?或者某種特定的藥物有效?還是說睡 8 個小時對你的健康有好處?

前一類是事實,後一類則因人而異。

那麼,如果我找到你說鍛鍊不會影響體重呢?

所有去健身房的人都可能對我說不好聽的話。但是否存在一種數學和邏輯結構,可以證明我是錯的?

這就引出了假設檢驗的概念。

假設檢驗

鍛鍊不能減肥?

所以我在上面的例子中所說的鍛鍊不會影響體重。這是我的假設。我們暫時稱它為零假設。就目前而言,我們認為這種現狀是正確的。

那些發誓要鍛鍊的人的替代假設是 —— 鍛鍊確實能減肥。

但我們如何驗證這些假設呢?我們收集的數據。我們收集了 10 個經常鍛鍊超過 3 個月的人的減肥數據。

樣本減重均值 = 2 kg

樣本標準差 = 1 kg

這能證明運動確實能減肥嗎?粗略一看,似乎鍛鍊確實有好處,因為鍛鍊的人平均減重 2 公斤。

但你會發現,當你進行假設檢驗時,這種清晰的發現並不總是如此。如果做運動的人減掉的體重只有 0.2 公斤呢?你還會那麼肯定運動能減肥嗎?

那麼,我們如何量化這一點,並在背後進行一些數學計算呢?

我們來做個實驗。

實驗

讓我們再回到我們的假設:

:鍛鍊不影響體重。或者說 𝜇= 0

Hᴬ:鍛鍊減肥。或者說 𝜇> 0

我們看了 10 個人的數據樣本,我們試著找出

觀察平均值(運動的人減重的值) = 2 公斤

觀測樣本標準差 = 1 kg

我們可以問自己一個問題假設零假設成立,觀察到樣本均值為 2 千克或更極端情況的概率是多少假設零假設成立,觀察到樣本均值為 2 千克或更極端情況的概率是多少

假設我們可以計算這個— 如果這個概率值很低(小於閾值),我們就拒絕零假設。否則,我們不拒絕零假設。**為什麼不拒絕?**我稍後會回答這個問題。

這個概率值實際上是 p 值。簡單地說,它就是我們假設零假設成立時觀察到的結果或極端結果的概率。

統計學家把這個閾值稱為顯著性水平(𝜶),在大多數的情況下,取 𝜶=0.05。

**那麼我們怎麼回答這個問題呢:**假設零假設成立,減肥 2 公斤或 2 公斤以上的值的概率是多少?

現在,我們來聊聊我們最喜歡的正態分布。

正態分布假設零假設成立,我們創建一個減肥樣本均值的抽樣分布。

中心極限定理: 中心極限定理簡單地指出,如果你有一個分布,均值 μ 和標準差 σ,從這個分布中隨機抽樣,得到的樣本分布也是近似正態分布的,均值和原來的分布一樣,標準差為 σ/√n,其中 σ 是樣本的標準差,n 觀測樣本的數量。

根據零假設,我們已經知道總體均值了,於是,我們有了正態分布的均值是 0,標準差是 1/√10。


抽樣分布是樣本均值的分布。

採樣的樣本分布的均值來自於總體分布。我們觀察到一個特定的平均值,即 Xobserved = 2kg。

現在我們可以使用一些統計軟體來找到這條曲線下的面積:

from scipy.stats import norm
import numpy as np
p = 1-norm.cdf(2, loc=0, scale = 1/np.sqrt(10))
print(p)
--
1.269814253745949e-10

可以看到,這是個非常小的概率 p 值(< 0.5 的顯著性水平),意味著減肥超值過平均 2kg 的概率非常小。

我們可以拒絕零假設。我們可以稱我們的結果在統計上是有意義的,因為它們不是偶然發生的。

Z 統計量當你讀到假設檢驗的時候,你可能也聽說過 Z 統計量。就像我說的,術語。

這是上面基本相同思想的延伸,我們使用均值為 0,方差為 1 的標準正態分布作為抽樣分布,使用下面的方式將觀測值 x 進行轉化:

這樣用統計表格更容易。在我們運行的例子中,我們的 z 統計量是:

z = (2-0)/(1/np.sqrt(10))
print(z)
----
6.324555320336758

只要看>6 的 Z 統計量就能知道觀測值至少有 6 個標準差遠,p 值應該更小。我們仍然可以找到 p 值,使用:

from scipy.stats import norm
import numpy as np
p = 1-norm.cdf(z, loc=0, scale=1)
print(p)
----
1.269814253745949e-10

正如你所看到的,我們使用 Z 統計量得到了相同的結果。

一個重要的區別

我們的陪審員永遠無法確定,所以他們不會接受,他們只是拒絕。

我們之前說過我們拒絕零假設因為我們有足夠的證據來證明零假設是錯誤的。

但是如果 p 值高於顯著性水平呢?那麼我們說我們沒有拒絕零假設。為什麼不接受零假設呢?

最直觀的例子就是使用初審法院。在初審法庭上,原假設是被告無罪。然後我們看到一些證據來反駁零假設。

如果我們不能反駁無效假設,法官就不會說被告沒有犯罪。法官只說根據所給的證據,我們不能給被告定罪。

再舉一個例子:假設我們正在探索外星生命。零假設是那個星球上就沒有生命。我們漫遊了幾英裡,尋找那個星球上的人/外星人。如果我們看到任何外星人,我們可以拒絕零假設,支持另一種選擇。

但是,如果我們沒有看到任何外星人,我們能確定地說在這個星球上沒有外星生命或者接受我們的零假設嗎?也許我們需要更多的探索,也許我們需要更多的時間,也許我們已經發現了一個外星人。在這種情況下,我們不能接受零假設,我們只能拒絕它。或者,我們可以說**「我們沒有學到任何有趣的東西」**。

在 STAT101 課程中,他們會教你如何在這種情況下寫出令人費解的段落。(「我們沒有拒絕零假設,也沒有得出沒有足夠的統計證據支持這個星球上存在外星生命的結論。」)我總是允許我的本科生這樣寫:我們沒有學到任何有趣的東西。

Riddikulus:使用p值進行假設檢驗可以使原假設看起來很荒謬

本質上,假設檢驗就是檢查我們的觀測值是否使原假設看起來很荒謬。如果是,我們拒絕零假設,稱我們的結果具有統計顯著性。除此之外,我們沒有學到任何有趣的東西,我們繼續維持現狀。

相關焦點

  • 被Nature科學家封殺的P值,到底有什麼意義?
    那麼P值的真正含義是什麼呢?或許,數據科學家Admond Lee會給我們答案,下文是他對於P值的探索經歷,可隨文摘菌一探究竟。                                                                    ——維基百科所以P值的真正含義是什麼呢?到了現在,尤其是當我進入數據科學領域之後,我才慢慢理解了p值的含義,以及它是如何在某些實驗成為決策制定工具的一部分的。
  • 作為一名數據科學從業者,你應該知道的P值
    >當你向有抱負的數據科學家談論p值時,以下情況看起來是否很熟悉?我無法告訴你數據科學家(甚至是成熟的科學家)在涉及到如何解釋p值時是多麼的手足無措。實際上,可以花點時間回答以下問題:如何解釋p值?P值有多麼的重要?
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    那時我對 p 值、假設檢驗甚至統計顯著一無所知。直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 隨手學統計:繞不過的 p 值
    當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。還沒完全看懂這個定義是在說什麼?
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 九成以上研究者或無法正確理解p值
    原因不外乎兩點,1)從統計原理的角度上,p值能夠反映的信息與數據所代表的實際信息存在較大差別;2)從研究者使用的角度上,p值的構造理念和解讀方式本身不容易理解,具有認知上的誤導性。如何正確地使用與解讀p值,遂成為一個「一直在討論、從未被解決」的問題。天下苦p值久矣?
  • 當統計學遇上大數據——P值消亡
    莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。        實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」
  • p值、信賴區間為何被數百科學家連名反對?
    這篇公開信名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。 正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的 p 值作為判斷標準。
  • P值之死|當統計學遇上大數據
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    (P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.)
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!        實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」
  • 聽說P界值要從0.05降到0.005?不,這不是真的不是真的
    P不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。當然還有更直白的表達:(Political Analysis, 2018)2018年1月22日,美國學術期刊《政治分析》宣布從2018年的開始的第26輯起禁用p值。其要義在於:政治分析將不再在回歸表或其他地方報告P值。造成這種變化的原因有很多,其中最重要的一個原因是:單純依靠p值本身,並不能提供支持特定模式或假設的證據。
  • 【p值之爭】史丹福大學陸教授有話說
    最近,學界關於p值的效用以及p值的濫用與已發表的醫學研究無法重複性較差之間可能存在的關聯性有一些爭論。在本文中,我們以通俗易懂的方法介紹p值,並且解釋它的隨機性和局限性。然而,目前提出其它能替代p值的概念也有同樣的局限。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合