P-Value--機器學習筆記

2021-02-18 奇蹟小驢

什麼是P-Value?

話說很久以前,有個巫師,拿一枚硬幣,拋了2次,2次都是頭朝上!巫師就對信眾說,兩次頭朝上的原因是他的這枚硬幣是一枚很奇特的硬幣!

你信嗎?不管你信不信,反正我不信。我認為:雖然這枚硬幣2次都是頭朝上,但是它與其它的普通硬幣,沒什麼不同!這在統計學上,被稱為假設。

讓我們來好好分析一下,看看連續2次頭朝上,算不算神奇。

先看一下,一枚硬幣,連續拋2次,會發生什麼?

我們列出所有可能,結果是,HH,HT,TH,TT (H代表head,T代表tail)

那麼連續兩次頭朝上的概率就是0.25

連續兩次尾朝上的概率也是0.25

巫師認為神奇,是因為他覺著這是個小概率事件。但實際上呢?連續兩次頭朝上的概率和連續兩次尾朝上的概率是一樣一樣的!統計學家發明了P-Value用來計量這些神奇事件概率事件之和。

那麼P-Value for 兩次頭朝上 = 0.25(兩次頭朝上) + 0.25(兩次尾朝上)+0(更小的概率事件) = 0.5

那除了HH,TT,還有HT,和TH,因為頭尾混合,無需計較次序,因為HT + TH的概率就是0.5 因為 0.25(兩次頭朝上的概率)<0.5,所以相對於頭尾組合,那算是稀奇的。那也就是說沒有比0.25更小的概率事件了。

所以P-Value最終=0.25+0.25+0 = 0.5

總結來說,就是有50%的概率,能做到你認為稀奇的事!你說這還算稀奇嗎?按照一般經驗來說,p-value的值小於5%,算是稀奇。

P-Value總是由3部分組成,1. 稀奇事兒本身的概率 2. 一樣稀奇其它事兒的概率 3. 更稀奇事兒的概率。

再舉一個例子,你認為一朵花,特別稀奇。

但如果告訴你所有的花是這樣的

你突然覺得不是很稀奇,其它的花的顏色也都是唯一的。肯定不算稀奇了。

如果你算p-value,你會發現p-value = 1, 就是隨便拿一朵花,你都會覺得稀奇,實際是再平常不過的事了。

再繼續下一個例子,一枚硬幣拋了5次,其中只有一次是尾朝上,其餘都是頭朝上,你覺得這是稀奇的,少有的。好,我們按照p-value的公式計算一下。

首先我們列出5次拋硬幣的所有可能。

那麼p-value(4H+1T) = P(4H+1T)+P(4T+1H) + P(HHHHH)+P(TTTTT) = 5/32 + 5/32+2/32 = 0.375

也就是說,有37.5%的概率,會讓你感覺到稀奇!

拋硬幣的例子,屬於離散型數據,很容易列舉各種可能性。但對於連續型數據呢?比如我們想要計算一個人的身高是不是稀奇。

對於身高,我們一般用高斯分布,來描述。

從上圖的概率密度分布來看,身高在142-169之間的人,佔了95%。

而身高超過169的,只佔了2.5%。那如果有多個人群,不同的人群都是正態分布,那身高142到底屬於哪個分布呢?

計算p-value!

P-value = 0.05 ??和經驗閾值一樣的呀!那就是說這個點對這個分布來講,既不算稀奇,也算稀奇。換句話就是說,他可以屬於這個分布,也可以屬於其它分布!但如果這個身高,在其它分布的p-value大於0.05,那就是屬於其它分布了。

總結:P-Value是假設檢驗的衡量標準。它能告訴你,你的假設靠不靠譜,到底有多靠譜。以後再遇到p-value 蒙圈的時候,想想那枚神奇的硬幣吧!

相關焦點

  • R語言可視化學習筆記之添加p-value和顯著性標記
    jco", add = "jitter")#添加p-valuep+stat_compare_means()stat_compare_means(label.y = 50) # Add global p-value
  • 小孩都看得懂的 p-value
    ,那什麼是 p-value 呢?Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。但希望下面極簡的講解能讓小孩懂什麼是 p-value。做試驗:p-value牢記:p-value 就是硬幣公平時觀測結果發生的概率。
  • 數據挖掘常見的 p-value 解讀
    p-value,那什麼是 p-value 呢?Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。但希望下面極簡的講解能讓小孩懂什麼是 p-value。做試驗:p-value牢記:p-value 就是硬幣公平時觀測結果發生的概率。 第一次硬幣是反面,p-value 是多少?你覺得硬幣不公平嗎?絕壁不會啊!
  • 對於P_value的理解
    通常有t檢驗(用於樣本含量較小,倆樣本均數以及兩本均數與總體均數的之間的比較)、z檢驗(用於樣本含量較大,兩個平均數的差異是否顯著)、卡方檢驗(用於倆定類變量,實際觀測值和理論推導值的偏離程度)等~     通常,我們會設定原假設為H0,指兩樣本無差異,Ha為H0的補,指兩者有差異,而所謂P值:「p-value is the probability we get this sample or
  • 想不想體驗手動模擬計算p value的快感!
    雖然很多人一入學就有接觸概率統計等課程,但因為課程本身對於數學要求比較高,然後又比較抽象,所以很有可能學完以後很快就拋之腦後(對,說的就是我),大約最後只留下了p值小於
  • 【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value
    主題顯著還是不顯著,這是個問題 - p-value漫談在大數據的時代,海量的信息給各行各業帶來了前所未有的機遇,然而數據收集、存儲、查詢和分析等各個環節也都面臨新的挑戰。例如傳統的統計學方法如果直接應用於大數據的假設檢驗的話,就會得出所有的結果都具有統計顯著性的結論。假設檢驗和基於p-value的差異顯著性判斷長期以來在實踐中被大多數學者視為是統計學中的金科玉律,對p-value的過分依賴和誤解也是一個非常普遍的問題。在統計學內部關於p-value的討論也一直都是熱點。
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~
    比較上面分析得到的 p-value 是否小於給定的顯著性水平,從而決定是否拒絕原假設。拒絕原假設意味著拒絕「因子 A 對解釋股票的超額收益沒有作用」。可見,p-value 在上述過程中至關重要。p-value 是 probability value 的簡稱。
  • 李宏毅機器學習完整筆記正式發布
    《LeeML-Notes》李宏毅機器學習筆記3.《LeeML-Notes》學習筆記框架4.筆記內容細節展示a. 對梯度下降概念的解析b. 為什麼需要做特徵縮放c. 隱形馬爾科夫鏈的應用5.代碼呈現a. 回歸分析b.
  • 【重溫經典】吳恩達機器學習課程學習筆記七:Logistic回歸
    【導讀】前一段時間,專知內容組推出了春節充電系列:李宏毅2017機器學習課程學習筆記,反響熱烈,由此可見,大家對人工智慧、機器學習的系列課程非常感興趣
  • 知乎 | 機器/深度學習入門建議
    設為星標,第一時間獲取更多乾貨連結:https://zhuanlan.zhihu.com/p/33194897著作權歸作者所有,本文僅作學術分享,若侵權,請聯繫後臺刪文處理!!文末附每日小知識點哦!!機器學習實戰:cuijiahua.com/blog/ml/參考書籍:《統計學習方法》李航吳恩達機器學習筆記:http://www.ai-start.com/ml2014/1.
  • ScalersTalk成長會機器學習小組第7周學習筆記
    Scalers點評:機器學習小組是成長會的內部小組,這是成長會機器學習小組第7周學習筆記往期日誌:ScalersTalk成長會機器學習小組第6周學習筆記ScalersTalk成長會機器學習小組第5周學習筆記(微信有個Bug,無法連結,參見3月23日推送)ScalersTalk成長會機器學習小組第
  • R語言學習筆記之相關性矩陣分析及其可視化
    cor()只能計算出相關係數,無法給出顯著性水平p-value,Hmisc包裡的rcorr()函數能夠同時給出相關係數以及顯著性水平p-value。library(Hmisc)#加載包res2 <- rcorr(as.matrix(mydata))res2#可以用res2$r、res2$P來提取相關係數以及顯著性p-valueres2$r
  • 臺灣大學林軒田機器學習基石課程學習筆記1 -- The Learning Problem
    那麼,從這篇開始,我們將連續對這門課做課程筆記,共16篇,希望能對正在看這們課的童鞋有所幫助。下面開始第一節課的筆記:The Learning Problem。一、What is Machine Learning什麼是「學習」?學習就是人類通過觀察、積累經驗,掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字,就是學習的過程。
  • 史上最全的機器學習筆記,301頁PDF精心整理
    機器學習筆記PDF版本訂閱版權申明:特在此聲明,「機器學習筆記(訂閱版)」為本人獨立工作成果,未經允許,不得轉載。Copyright © 2020 Sakura-gh關注微信公眾號「Sakura的知識庫」,即可訂閱301頁的機器學習筆記PDF版本,訂閱後24小時內會發送到郵箱~訂閱版本將長期進行修訂和更新,並會在後續免費發送到你的郵箱中~封面概覽如下:
  • 使用Python進行機器學習的假設檢驗(附代碼)
    大數據文摘授權轉載自數據派THU來源:medium編譯:張睿毅、張一豪也許所有機器學習的初學者我將簡要介紹一下這個當我學習時給我帶來了麻煩的主題。我把所有這些概念放在一起,並使用python進行示例。在我尋求更廣泛的事情之前要考慮一些問題 ——什麼是假設檢驗?我們為什麼用它?什麼是假設的基本條件?什麼是假設檢驗的重要參數?讓我們一個個地開始吧!假設檢驗是一種統計方法,用於使用實驗數據進行統計決策。
  • 林軒田機器學習基石課程學習筆記1 -- The Learning Problem
    學習就是人類通過觀察、積累經驗,掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字,就是學習的過程。而機器學習(Machine Learning),顧名思義,就是讓機器(計算機)也能向人類一樣,通過觀察大量的數據和訓練,發現事物規律,獲得某種分析問題、解決問題的能力。
  • 我的人工智慧學習筆記(三)
    但是今天廢話不多說了,第三篇人工智慧學習筆記,增強學習Reinforcement Learning。 試想如下情形,一個撿瓶子機器人放置在一個空曠的區域中,他的任務是拾取可回收的瓶子,機器人的電量用兩種狀態「高」和「低」來表示,同一時間機器人可以進行,找尋瓶子,等待,充電這三種行為,機器人的目標是在不用完電的情況下高效的拾取瓶子。
  • 獨家|使用Python進行機器學習的假設檢驗(附連結&代碼)
    也許所有機器學習的初學者,或者中級水平的學生,或者統計專業的學生,都聽說過這個術語,假設檢驗。我將簡要介紹一下這個當我學習時給我帶來了麻煩的主題。我把所有這些概念放在一起,並使用python進行示例。什麼是假設檢驗?我們為什麼用它?什麼是假設的基本條件?
  • 李宏毅機器學習完整筆記發布,AI 界「最熱視頻博主」中文課程筆記全開源
    李老師以幽默風趣的上課風格讓很多晦澀難懂的機器學習理論變得輕鬆易懂,他將理論知識與有趣的例子結合在課堂上展現,並且對深奧的理論知識逐步推導,保證學習者能夠學習到問題的精髓所在。比如老師會經常用寶可夢來結合很多機器學習算法。對於想入門機器學習又想看中文講解的人來說絕對是非常推薦的。但是,考慮到很多機器學習愛好者對於課程筆記的需求,我們不僅僅需要的是教學視頻。
  • 【MIT 6.824】學習筆記 1: MapReduce
    ▲ 點擊上方"多顆糖"關注公眾號2021 年的 MIT 6.824 開課了,記錄和分享一下自己的學習筆記,歡迎一起學習。導讀MapReduce 的問世讓集群分布式計算流行起來,同時,作為分布式系統學習的經典案例,MapReduce 很好地展示了分布式系統的概貌,以及我們在 6.824 要學習到的一些主題。本期材料主要來自於 MapReduce 論文和 MIT 6.824 2021 視頻。