數據挖掘常見的 p-value 解讀

2021-01-16 Python與算法社區



在統計的世界裡經常聽到 p-value,那什麼是 p-value 呢?查查 Wikipedia 得到:


In statistical hypothesis testing, the p-value is the probability that, when the null hypothesis is true, the statistical summary (such as the absolute value of the sample mean difference between two groups) would be greater than or equal to the actual observed results.


Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。


但希望下面極簡的講解能讓小孩懂什麼是 p-value。




講背景:丟硬幣



隨機丟硬幣,

看是正面還是反面,

如果硬幣的質量是均勻分布

通常稱為公平的硬幣 (fair coin),

那麼出現正面和反面的概率是 1/2。





丟概念:p-value


現在我來丟一個硬幣若干次,

你根據結果來判斷硬幣是否公平

也就是在下面兩種情況選一個


情況 0 :硬幣公平

情況 1:硬幣不公平


通常情況 0沒有意外情況發生,

情況 1有意外情況發生。


p-value 就是假設

在情況 0 為真時觀測結果發生的概率,

硬幣公平時觀測結果發生的概率。


讀完上面的句子如果不懂,

看完下節來回來讀一遍。


現在,我開始丟硬幣了 。。。





做試驗:p-value


牢記:p-value 就是硬幣公平時觀測結果發生的概率。 



第一次硬幣是反面,p-value 是多少?


你覺得硬幣不公平嗎?


絕壁不會啊!

硬幣公平時

丟 1 次出現反面有 50% 概率呢。



第二次硬幣又是反面, p-value 是多少?


次數
觀測結果p-value1反面50%2反面25%


你覺得硬幣不公平嗎?


額,不會啊

硬幣公平時

丟 2 次出現反面有 25% 概率呢。

(50%)^2 = 25%



第三次硬幣又是反面, p-value 是多少?

次數
觀測結果p-value1反面50%2反面25%3
反面12.5%


你覺得硬幣不公平嗎?


額,我想想。。。

硬幣公平時

丟 3 次出現反面有 12.5% 概率。

(50%)^3 = 12.5%



第四次硬幣又是反面! p-value 是多少?


次數
觀測結果p-value1反面50%2反面25%3
反面12.5%
4
反面6.25%


你覺得硬幣不公平嗎?


額額額(撓撓頭)

你心理開始變化了吧

硬幣公平時

丟 4 次出現反面只有 6.25% 概率。

(50%)^4 = 6.25%



第五次硬幣又是反面!!! p-value 是多少?


次數
觀測結果p-value1反面50%2反面25%3
反面12.5%
4
反面6.25%
5
反面3.125%


你覺得硬幣不公平嗎?


是的!不公平!

你突然開始非常確定了,

硬幣公平時

丟 5 次出現反面只有 3.125% 概率。

(50%)^5 = 3.125%



恭喜你,答對了,我就是用了一個兩邊都是反面的硬幣來做試驗的。






復盤一下


回顧:p-value 就是硬幣公平時觀測結果發生的概率。 


當丟了五次都是反面,

如果硬幣公平

計算出來的 p-value 是 3.125%,

非常不可能在硬幣公平時隨機發生!

因此我們改變原先的假設

認為硬幣公平是不成立,

進而認為硬幣不公平

這很科學!


讓我們產生了改變原假設想法是什麼?

是一個很小 p-value 值。

跟著我捋一捋,

在上面丟硬幣的過程中,

你是不是在某個時點想大叫一聲 WOW,

大概就是連續 5 次看到反面的時候,

你會覺得硬幣公平非常可笑,

因而推翻了它。


要推翻硬幣公平的假設

你還需要一個基準,

統計上叫做顯著性水平

我把它叫做「搞笑閾值

當 p-value 還小於這個搞笑閾值

原假設明顯就搞笑了嘛,

你還像個傻冒一樣不推翻它?





來類比一下


小孩聽得懂的東西
嚴謹統計的東西情況 0
無效假設
情況 1備擇假設搞笑閾值顯著性水平判斷硬幣是否公平
假設檢驗


在現實中,你永遠不可能 100% 的確定假設的真假,因為假設檢驗的總體參數(population parameter),你不可能在總體上做試驗,只可能在樣本上做試驗,計算樣本統計(sample statistics)來判斷假設的真假。


就像丟硬幣試驗一樣,我只要不給你看我的硬幣,你就不可能 100% 確認這是個不公平的硬幣。但是通過做試驗(收集一系列樣本觀測結果),計算 p-value,當小於事先設定好足夠小的「搞笑閾值」的時候,你就有充足信心說硬幣是不公平的,誠然,你有可能(possible)會錯,但不太可能(not probable)會錯。

相關焦點

  • p-value到底是什麼?
    對於大部分小夥伴來說,在日常數據分析中,經常會使用p-value的大小來判斷不同處理或兩個樣本之間是否存在顯著性差異。我們先來看幾個概念。
  • 【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value
    主題顯著還是不顯著,這是個問題 - p-value漫談在大數據的時代,海量的信息給各行各業帶來了前所未有的機遇,然而數據收集、存儲、查詢和分析等各個環節也都面臨新的挑戰。例如傳統的統計學方法如果直接應用於大數據的假設檢驗的話,就會得出所有的結果都具有統計顯著性的結論。假設檢驗和基於p-value的差異顯著性判斷長期以來在實踐中被大多數學者視為是統計學中的金科玉律,對p-value的過分依賴和誤解也是一個非常普遍的問題。在統計學內部關於p-value的討論也一直都是熱點。
  • P-Value--機器學習筆記
    按照一般經驗來說,p-value的值小於5%,算是稀奇。P-Value總是由3部分組成,1. 稀奇事兒本身的概率 2. 一樣稀奇其它事兒的概率 3. 更稀奇事兒的概率。再舉一個例子,你認為一朵花,特別稀奇。
  • 差異基因分析方法——p-value
    點擊關注基迪奧,立即漲姿勢~上周,我們分享了用RPKM值計算差異基因的方法,這周我們繼續分享另外一種方法p-value
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~
    按照股票在因子 A 上的暴露大小把它們分成 10 份,然後統計每份中股票的平均收益率是否顯著不為 0,顯著性用 p-value 表示。    2b. 使用歷史數據對因子 A 和股票的超額收益進行回歸分析,統計因子的係數(即線性回歸的斜率)是否顯著不為 0,顯著性用 p-value 表示。3.
  • 什麼,你算出的P-value看上去像齊天大聖變的廟?
    給定了統計假設,任何極值內的值與研究數據都是兼容的。基於此,作者可以更好的強調數據分析帶來的期望值和不確定性,不再對結果過於自信或悲觀。不過一來統計界以後會怎麼實施未知,二來籤名也未反對p-value的正確使用。那麼怎麼理解P-value的含義?怎麼算是正確使用P-value呢?怎麼評估算出的P-value是否正常呢? 就是我們下面要說的。
  • 5種高效利用value-counts函數的方法,一鍵提升數據挖掘姿勢水平
    數據挖掘是機器學習領域的一個重要組成部分。在確定訓練哪種模型以及訓練多少模型之前,我們必須對數據包含的內容有所了解。Pandas 庫為此提供了許多有用的函數,value_counts 就是其中之一。此函數返回 pandas 數據框中各個項的數量。但在使用 value-counts 函數的大多數時候用到的是默認參數。
  • 對於P_value的理解
    通常有t檢驗(用於樣本含量較小,倆樣本均數以及兩本均數與總體均數的之間的比較)、z檢驗(用於樣本含量較大,兩個平均數的差異是否顯著)、卡方檢驗(用於倆定類變量,實際觀測值和理論推導值的偏離程度)等~     通常,我們會設定原假設為H0,指兩樣本無差異,Ha為H0的補,指兩者有差異,而所謂P值:「p-value is the probability we get this sample or
  • 研究利器 OncoLnc:TGCA數據挖掘工具
    研究利器| OncoLnc:TGCA數據挖掘工具
  • 單細胞數據挖掘與課題設計實戰課程
    本課程設計了一門單細胞數據挖掘與課題設計課程,專門針對單細胞轉錄組測序數據進行「數據挖掘方法、代碼與思路分享」,並針對單細胞領域課題設計提供詳細的建議。 目前單細胞公共樣本超過3萬例,涵蓋人、小鼠、斑馬魚等常見模式生物,包含血液、正常組織以及罕見組織(如腦、神經系統)等樣本。在各類腫瘤、疾病、不同治療方案等領域更是積累了大量的公共數據,且數據增長趨勢顯著,單細胞測序數據的挖掘目前還是處於剛剛起步的狀態,利用成熟的公共數據進行有意義的挖掘,是用資源取得最優項目及產出的正確思路。
  • GWAS+WGCNA分析——挖掘微效位點新思路
    如果我們使用未校正的原始P value閾值(圖1紅虛線,等於0.05),雖然可以挖掘到不少名義上顯著的位點(nominally significant loci),但這樣的結果中包含大量假陽性。:優化表型鑑定的準確性;擴大樣本量,提高檢驗功效(對微效位點的敏感度);採用多階段法(常見兩階段法)研究微效位點。
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠
    我曾經聯繫過多篇文章的作者,提及被他們文章中因子的表現所震撼、想要自己在樣本外復現他們的發現,因此詢問一些數據和程序上的細節。但是這樣的文章幾乎全部石沉大海。唯一良心的回覆是「當年的代碼寫的很亂,可讀性已經很差了」。我想,大概這些作者也根本無法再現它們當時取得的神奇結果吧。
  • 解讀數據挖掘與數據科學之間鮮為人知的區別
    數據挖掘與數據科學的定義數據挖掘是一種基於大量信息分析的自動數據搜索。其目標是識別趨勢和模式,這是傳統分析技術無法做到的。複雜的數學算法用於分割數據並估計後續事件的可能性。而每個數據科學家都需要了解數據挖掘。在哪裡使用數據科學?
  • 二十、數據挖掘之Eclat算法介紹
    Eclat算法簡介數據格式Apriori算法和FpGrowth都是從項集格式{TID: itemset}的事物集中挖掘頻繁模式,其中TID是事物標誌符,而itemset是事物TID中購買的商品。這種數據格式成為水平數據格式。
  • 數據挖掘之文本分類技術,最詳細的原理解讀
    大數據的生命周期告白大數據處理架構系列三:原來如此簡單,HADOOP原理解讀;)在為人們提供更多可用信息的同時,也導致人們更難從中發現自己最感興趣的信息,也就是說,信息爆炸導致了信息迷航,因此,如何從海量的信息中挖掘出重要的信息具有非常高的研究價值和實際意義 。
  • SEER數據挖掘4.8分SCI發文思路
    或者不做生信數據挖掘的,可以嘗試一下別的發文思路,例如挖掘SEER資料庫的臨床數據進行發表SCI。本次分享的範文發表在FRONT ONCOL上,影響因子:4.848,中科院分區:2區。文章題目:Breast Subtypes and Prognosis of Breast Cancer Patients With Initial Bone Metastasis: A Population-Based Study研究背景:轉移性乳腺癌是一種高度異質性疾病,骨骼是最常見的轉移部位之一。
  • 數據產品經理之數據分析與挖掘
    本文主要跟大家講講,如何通過數據分析和數據挖掘從數據中獲取相關信息和挖掘價值,enjoy~自2014年以來,「大數據」連續六年進入國務院政府工作報告,彰顯出國家對於大數據戰略的重視。其中,作為數據產品經理必備的專業知識之一的數據分析可以分為廣義的數據分析和狹義的數據分析,廣義的數據分析就包括狹義的數據分析和數據挖掘,人們常常提到的數據分析是指狹義的數據分析,數據挖掘和數據分析都是從數據中提取一些有價值的信息,但互相的側重點又有所不同。
  • 數據挖掘(DataMining)概述
    1.數據挖掘的定義數據挖掘:指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘在面向用戶的網際網路產品中發揮著及其重要的作用。2 數據挖掘的對象常見的數據挖掘對象有以下7大類關係型資料庫(MySQL)、非關係係數據庫(NoSQL);數據倉庫/多維度資料庫(HDFS/Hive);空間數據(如地圖信息)
  • PLOS: P值焦慮會否顛覆整個科學界的可信度
    導致p-hacking的常見行為包括:1)因為p<0.05而終止實驗數據的收集;2)測量一大堆因變量,再根據p值選擇性地報告因變量結果;3)根據p值刪掉異常值(outlier);4)根據p值決定如何如何定義對照組(treatment groups);5)在實驗進行過程中分析數據。你中槍了麼?
  • 卡方檢驗中的p值計算 - CSDN
    卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴展點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。