在統計的世界裡經常聽到 p-value,那什麼是 p-value 呢?查查 Wikipedia 得到:
In statistical hypothesis testing, the p-value is the probability that, when the null hypothesis is true, the statistical summary (such as the absolute value of the sample mean difference between two groups) would be greater than or equal to the actual observed results.
Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。
但希望下面極簡的講解能讓小孩懂什麼是 p-value。
講背景:丟硬幣
隨機丟硬幣,
看是正面還是反面,
如果硬幣的質量是均勻分布,
通常稱為公平的硬幣 (fair coin),
那麼出現正面和反面的概率是 1/2。
丟概念:p-value
現在我來丟一個硬幣若干次,
你根據結果來判斷硬幣是否公平。
也就是在下面兩種情況選一個
情況 0 :硬幣公平
情況 1:硬幣不公平
通常情況 0 是沒有意外情況發生,
而情況 1 是有意外情況發生。
p-value 就是假設
在情況 0 為真時觀測結果發生的概率,
即硬幣公平時觀測結果發生的概率。
讀完上面的句子如果不懂,
看完下節來回來讀一遍。
現在,我開始丟硬幣了 。。。
做試驗:p-value
牢記:p-value 就是硬幣公平時觀測結果發生的概率。
第一次硬幣是反面,p-value 是多少?
你覺得硬幣不公平嗎?
絕壁不會啊!
當硬幣公平時,
丟 1 次出現反面有 50% 概率呢。
第二次硬幣又是反面, p-value 是多少?
你覺得硬幣不公平嗎?
額,不會啊
當硬幣公平時,
丟 2 次出現反面有 25% 概率呢。
(50%)^2 = 25%
第三次硬幣又是反面, p-value 是多少?
你覺得硬幣不公平嗎?
額,我想想。。。
當硬幣公平時,
丟 3 次出現反面有 12.5% 概率。
(50%)^3 = 12.5%
第四次硬幣又是反面! p-value 是多少?
你覺得硬幣不公平嗎?
額額額(撓撓頭)
你心理開始變化了吧
當硬幣公平時,
丟 4 次出現反面只有 6.25% 概率。
(50%)^4 = 6.25%
第五次硬幣又是反面!!! p-value 是多少?
你覺得硬幣不公平嗎?
是的!不公平!
你突然開始非常確定了,
當硬幣公平時,
丟 5 次出現反面只有 3.125% 概率。
(50%)^5 = 3.125%
恭喜你,答對了,我就是用了一個兩邊都是反面的硬幣來做試驗的。
復盤一下
回顧:p-value 就是硬幣公平時觀測結果發生的概率。
當丟了五次都是反面,
如果硬幣公平,
計算出來的 p-value 是 3.125%,
非常不可能在硬幣公平時隨機發生!
因此我們改變原先的假設,
認為硬幣公平是不成立,
進而認為硬幣不公平,
這很科學!
讓我們產生了改變原假設想法是什麼?
是一個很小 p-value 值。
跟著我捋一捋,
在上面丟硬幣的過程中,
你是不是在某個時點想大叫一聲 WOW,
大概就是連續 5 次看到反面的時候,
你會覺得硬幣公平非常可笑,
因而推翻了它。
要推翻硬幣公平的假設
你還需要一個基準,
統計上叫做顯著性水平,
我把它叫做「搞笑閾值」
當 p-value 還小於這個搞笑閾值,
那原假設明顯就搞笑了嘛,
你還像個傻冒一樣不推翻它?
來類比一下
在現實中,你永遠不可能 100% 的確定假設的真假,因為假設檢驗的總體參數(population parameter),你不可能在總體上做試驗,只可能在樣本上做試驗,計算樣本統計(sample statistics)來判斷假設的真假。
就像丟硬幣試驗一樣,我只要不給你看我的硬幣,你就不可能 100% 確認這是個不公平的硬幣。但是通過做試驗(收集一系列樣本觀測結果),計算 p-value,當小於事先設定好足夠小的「搞笑閾值」的時候,你就有充足信心說硬幣是不公平的,誠然,你有可能(possible)會錯,但不太可能(not probable)會錯。