P-Value--機器學習筆記

2021-01-20 奇蹟小驢

什麼是P-Value?


話說很久以前,有個巫師,拿一枚硬幣,拋了2次,2次都是頭朝上!巫師就對信眾說,兩次頭朝上的原因是他的這枚硬幣是一枚很奇特的硬幣!


你信嗎?不管你信不信,反正我不信。我認為:雖然這枚硬幣2次都是頭朝上,但是它與其它的普通硬幣,沒什麼不同!這在統計學上,被稱為假設。

讓我們來好好分析一下,看看連續2次頭朝上,算不算神奇。

先看一下,一枚硬幣,連續拋2次,會發生什麼?

我們列出所有可能,結果是,HH,HT,TH,TT (H代表head,T代表tail)

那麼連續兩次頭朝上的概率就是0.25

連續兩次尾朝上的概率也是0.25

巫師認為神奇,是因為他覺著這是個小概率事件。但實際上呢?連續兩次頭朝上的概率和連續兩次尾朝上的概率是一樣一樣的!統計學家發明了P-Value用來計量這些神奇事件概率事件之和。

那麼P-Value for 兩次頭朝上 = 0.25(兩次頭朝上) + 0.25(兩次尾朝上)+0(更小的概率事件) = 0.5

那除了HH,TT,還有HT,和TH,因為頭尾混合,無需計較次序,因為HT + TH的概率就是0.5 因為 0.25(兩次頭朝上的概率)<0.5,所以相對於頭尾組合,那算是稀奇的。那也就是說沒有比0.25更小的概率事件了。

所以P-Value最終=0.25+0.25+0 = 0.5

總結來說,就是有50%的概率,能做到你認為稀奇的事!你說這還算稀奇嗎?按照一般經驗來說,p-value的值小於5%,算是稀奇。


P-Value總是由3部分組成,1. 稀奇事兒本身的概率 2. 一樣稀奇其它事兒的概率 3. 更稀奇事兒的概率。


再舉一個例子,你認為一朵花,特別稀奇。

但如果告訴你所有的花是這樣的

你突然覺得不是很稀奇,其它的花的顏色也都是唯一的。肯定不算稀奇了。


如果你算p-value,你會發現p-value = 1, 就是隨便拿一朵花,你都會覺得稀奇,實際是再平常不過的事了。


再繼續下一個例子,一枚硬幣拋了5次,其中只有一次是尾朝上,其餘都是頭朝上,你覺得這是稀奇的,少有的。好,我們按照p-value的公式計算一下。

首先我們列出5次拋硬幣的所有可能。

那麼p-value(4H+1T) = P(4H+1T)+P(4T+1H) + P(HHHHH)+P(TTTTT) = 5/32 + 5/32+2/32 = 0.375

也就是說,有37.5%的概率,會讓你感覺到稀奇!


拋硬幣的例子,屬於離散型數據,很容易列舉各種可能性。但對於連續型數據呢?比如我們想要計算一個人的身高是不是稀奇。

對於身高,我們一般用高斯分布,來描述。

從上圖的概率密度分布來看,身高在142-169之間的人,佔了95%。

而身高超過169的,只佔了2.5%。那如果有多個人群,不同的人群都是正態分布,那身高142到底屬於哪個分布呢?

計算p-value!


P-value = 0.05 ??和經驗閾值一樣的呀!那就是說這個點對這個分布來講,既不算稀奇,也算稀奇。換句話就是說,他可以屬於這個分布,也可以屬於其它分布!但如果這個身高,在其它分布的p-value大於0.05,那就是屬於其它分布了。

總結:P-Value是假設檢驗的衡量標準。它能告訴你,你的假設靠不靠譜,到底有多靠譜。以後再遇到p-value 蒙圈的時候,想想那枚神奇的硬幣吧!


相關焦點

  • p-value到底是什麼?
    對於大部分小夥伴來說,在日常數據分析中,經常會使用p-value的大小來判斷不同處理或兩個樣本之間是否存在顯著性差異。我們先來看幾個概念。
  • 數據挖掘常見的 p-value 解讀
    p-value,那什麼是 p-value 呢?Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。但希望下面極簡的講解能讓小孩懂什麼是 p-value。做試驗:p-value牢記:p-value 就是硬幣公平時觀測結果發生的概率。
  • 差異基因分析方法——p-value
    點擊關注基迪奧,立即漲姿勢~上周,我們分享了用RPKM值計算差異基因的方法,這周我們繼續分享另外一種方法p-value
  • 對於P_value的理解
    通常有t檢驗(用於樣本含量較小,倆樣本均數以及兩本均數與總體均數的之間的比較)、z檢驗(用於樣本含量較大,兩個平均數的差異是否顯著)、卡方檢驗(用於倆定類變量,實際觀測值和理論推導值的偏離程度)等~     通常,我們會設定原假設為H0,指兩樣本無差異,Ha為H0的補,指兩者有差異,而所謂P值:「p-value is the probability we get this sample or
  • 什麼,你算出的P-value看上去像齊天大聖變的廟?
    p-value分布直方圖可能有下面6種可能,我們一一看來。Anti-conservative p-value這是根據p-value的定義來的。在原假設下,p-value有5%的可能低於0.05, 10%的可能低於0.1,以此類推,就是一個均勻分布。在p-value接近於0值的峰代表的是備擇假設H1 (alternative hypothesis) (也包含部分假陽性)。如果把原假設和備擇假設分開,p-value的分布應該入下圖所示:
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~
    比較上面分析得到的 p-value 是否小於給定的顯著性水平,從而決定是否拒絕原假設。拒絕原假設意味著拒絕「因子 A 對解釋股票的超額收益沒有作用」。可見,p-value 在上述過程中至關重要。p-value 是 probability value 的簡稱。
  • 【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value
    主題顯著還是不顯著,這是個問題 - p-value漫談在大數據的時代,海量的信息給各行各業帶來了前所未有的機遇,然而數據收集、存儲、查詢和分析等各個環節也都面臨新的挑戰。例如傳統的統計學方法如果直接應用於大數據的假設檢驗的話,就會得出所有的結果都具有統計顯著性的結論。假設檢驗和基於p-value的差異顯著性判斷長期以來在實踐中被大多數學者視為是統計學中的金科玉律,對p-value的過分依賴和誤解也是一個非常普遍的問題。在統計學內部關於p-value的討論也一直都是熱點。
  • R相關與回歸學習筆記(三十五)——樣條函數變換、線性可加模型(一)
    0.001 『**』 0.01 『*』 0.05 『.』 0.1 『 』 1## ## Residual standard error: 0.8521 on 44 degrees of freedom## Multiple R-squared: 0.7483, Adjusted R-squared: 0.7311 ## F-statistic: 43.6 on 3 and 44 DF, p-value
  • PLOS: P值焦慮會否顛覆整個科學界的可信度
    另外,p-curve也可以顯示文獻的證據價值(evidential value)。如果p-curve右偏(right-skewed),即證明文獻提供了足夠的證據,來否定零假設。作者對所有PubMed上開放(open access)的文章進行了文本分析。分析的文本分為兩部分:摘要(abstract)和統計結果(resutls)。
  • 機器學習-決策樹(ID3算法)
    本書原始碼以及數據連結:       https://www.manning.com/MachineLearninginAction       本篇文章首先給出決策樹概念以及ID3算法手寫筆記,然後給出python實現決策樹的代碼,最後通過幾個小例子來展示決策樹。
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠
    「高風險」意味著學者需要費時費力費金錢以收集和處理數據,且得到的結論不一定顯著(沒有令人稱奇的 p-value)。但是,這樣的研究成果才是最根本的,才是真正能夠推動金融經濟學闊步向前的創造性工作。金融經濟學的科學前景深深的植根於學術界的研究和發表環境中。不可否認,如今學術界的研究質量仍然是很高的。但是本文提出的問題不關乎當下,而是著眼於未來。
  • 機器學習-貝葉斯估計
    上一節機器學習-概率論的簡單回顧2.2.3 貝葉斯規則將條件概率的定義與乘積和規則相結合,就得到了貝葉斯規則,也稱為貝葉斯定理2.2.3.1實例:醫學診斷假設你是一名40多歲的女性,你決定進行一項名為乳房 x光檢查的乳腺癌醫學檢測如果檢查呈陽性,你得癌症的機率是多少?這顯然取決於測試的可靠性。
  • 機器視覺學習筆記:一個雙目測距的簡單實例
    1.實例目標學習OpenCV也一月有餘了,遂想進行一個雙目測距的簡單實驗,先解決從無到有,再解決錦上添花。0.3mm,所以測量結果還是比較準確的4.總結本實例背景較為簡單,只能適用於固定場合的零件檢測,水果品質檢測等基本的幾何知識是必要的,例如求直線的交點,一元函數的線性回歸雙目測距基本就是這個流程 載入圖片(抓取一幀)校正圖片區域剪裁角點識別立體匹配生成pixMat計算{world}坐標計算距離或者位姿深圳辰視智能科技有限公司是一家集機器視覺
  • Freescale 9S12 系列單片機應用筆記(SCI)1
    >unsignedchar*str=(unsignedchar*)p;while(size>0){SCIPutChar(port,*str);str++;size--;}}/***Sendashortintvalue(
  • 一千行MySQL學習筆記
    以下為本人當年初學MySQL時做的筆記,也從那時起沒再更新過,但還是囊括了基本的知識點,有時還翻出來查查。是不是乾貨,就看親們了~絕對原創,歡迎轉載,注意人品,呵呵哈哈~如果哪天筆記有更新了,我還是會更新該文章滴,其實筆記已經放到了GitHub上,只是沒告訴你們而已,嚯嚯!
  • 假設檢驗與P-value簡介
    當然你也可以拿9次、10次大的概率相加得到一個P-value。P值不一樣,我們推翻前面假設的信心也不一樣。P值越小的事件發生,我們推翻假設的信心越強。如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • MIT線性代數(Linear Algebra)中文筆記
    前段時間, Github作者yizhen20133868在Github上發布了MIT線性代數的中文筆記,該筆記總結了他們在學習MIT線性代數課程的學習經驗和過程。課程順序是按照麻省理工公開課的 Linear Algebra. 記錄的學習筆記。
  • p.Value越顯著,X變量越重要?
    這是我們在教學過程中經常碰到的來自大家的困惑:王老師,是不是p.Value越顯著,X變量越重要?仔細想想,這也許是一個偽命題,咋說都對。為什麼?因為這個非常依賴於對變量「重要性」的定義。要知道p.Value是統計學中嚴格定義的一個量,但是似乎沒人定義過怎麼說一個變量「重要」?
  • 初一學習方法:做筆記
    做筆記是門很少有人研究的學問。會做筆記的同學可能上課時記得並不多,但很有成效。有些同學的筆記只有自己看得懂,但也很有效。相反,有的同學筆記記得很多,上課時幾乎一直在記筆記,不僅效果差,甚至會影響聽課效果。所以學會有效地做筆記對於每一個同學來說都是很重要的。   1.如何記課堂筆記?
  • 濮良貴機械設計第10版複習筆記及詳解——才聰學習網
    [電子書]濮良貴《機械設計》(第10版)筆記和課後習題(含考研真題)詳解本章是濮良貴主編的《機械設計》(第10版)教材的學習輔導書,主要包括以下內容:1.整理名校筆記,濃縮內容精華。在參考了國內外名校名師講授該教材的課堂筆記基礎上,複習筆記部分對該章的重難點進行了整理,因此,本書的內容幾乎濃縮了該教材的知識精華。2.解析課後習題,提供詳盡答案。本書參考了該教材的國內外配套資料和其他教材的相關知識對該教材的課(章)後習題進行了詳細的分析和解答,並對相關重要知識點進行了延伸和歸納。3.挑選考研真題,總結出題思路。