什麼是P-Value?
話說很久以前,有個巫師,拿一枚硬幣,拋了2次,2次都是頭朝上!巫師就對信眾說,兩次頭朝上的原因是他的這枚硬幣是一枚很奇特的硬幣!
你信嗎?不管你信不信,反正我不信。我認為:雖然這枚硬幣2次都是頭朝上,但是它與其它的普通硬幣,沒什麼不同!這在統計學上,被稱為假設。
讓我們來好好分析一下,看看連續2次頭朝上,算不算神奇。
先看一下,一枚硬幣,連續拋2次,會發生什麼?
我們列出所有可能,結果是,HH,HT,TH,TT (H代表head,T代表tail)
那麼連續兩次頭朝上的概率就是0.25
連續兩次尾朝上的概率也是0.25
巫師認為神奇,是因為他覺著這是個小概率事件。但實際上呢?連續兩次頭朝上的概率和連續兩次尾朝上的概率是一樣一樣的!統計學家發明了P-Value用來計量這些神奇事件概率事件之和。
那麼P-Value for 兩次頭朝上 = 0.25(兩次頭朝上) + 0.25(兩次尾朝上)+0(更小的概率事件) = 0.5
那除了HH,TT,還有HT,和TH,因為頭尾混合,無需計較次序,因為HT + TH的概率就是0.5 因為 0.25(兩次頭朝上的概率)<0.5,所以相對於頭尾組合,那算是稀奇的。那也就是說沒有比0.25更小的概率事件了。
所以P-Value最終=0.25+0.25+0 = 0.5
總結來說,就是有50%的概率,能做到你認為稀奇的事!你說這還算稀奇嗎?按照一般經驗來說,p-value的值小於5%,算是稀奇。
P-Value總是由3部分組成,1. 稀奇事兒本身的概率 2. 一樣稀奇其它事兒的概率 3. 更稀奇事兒的概率。
再舉一個例子,你認為一朵花,特別稀奇。
但如果告訴你所有的花是這樣的
你突然覺得不是很稀奇,其它的花的顏色也都是唯一的。肯定不算稀奇了。
如果你算p-value,你會發現p-value = 1, 就是隨便拿一朵花,你都會覺得稀奇,實際是再平常不過的事了。
再繼續下一個例子,一枚硬幣拋了5次,其中只有一次是尾朝上,其餘都是頭朝上,你覺得這是稀奇的,少有的。好,我們按照p-value的公式計算一下。
首先我們列出5次拋硬幣的所有可能。
那麼p-value(4H+1T) = P(4H+1T)+P(4T+1H) + P(HHHHH)+P(TTTTT) = 5/32 + 5/32+2/32 = 0.375
也就是說,有37.5%的概率,會讓你感覺到稀奇!
拋硬幣的例子,屬於離散型數據,很容易列舉各種可能性。但對於連續型數據呢?比如我們想要計算一個人的身高是不是稀奇。
對於身高,我們一般用高斯分布,來描述。
從上圖的概率密度分布來看,身高在142-169之間的人,佔了95%。
而身高超過169的,只佔了2.5%。那如果有多個人群,不同的人群都是正態分布,那身高142到底屬於哪個分布呢?
計算p-value!
P-value = 0.05 ??和經驗閾值一樣的呀!那就是說這個點對這個分布來講,既不算稀奇,也算稀奇。換句話就是說,他可以屬於這個分布,也可以屬於其它分布!但如果這個身高,在其它分布的p-value大於0.05,那就是屬於其它分布了。
總結:P-Value是假設檢驗的衡量標準。它能告訴你,你的假設靠不靠譜,到底有多靠譜。以後再遇到p-value 蒙圈的時候,想想那枚神奇的硬幣吧!