作為一名數據科學從業者,你應該知道的P值

2020-12-14 CDA數據分析師

作者 | SHAROON SAXENA 編譯 | CDA數據分析師 Everything you Should Know about p-value from Scratch for Data Science

介紹

當你向有抱負的數據科學家談論p值時,以下情況看起來是否很熟悉?

我無法告訴你數據科學家(甚至是成熟的科學家)在涉及到如何解釋p值時是多麼的手足無措。實際上,可以花點時間回答以下問題:

如何解釋p值?P值有多麼的重要?你將如何向非數據科學人員(例如利益相關者)解釋p值的重要性?這些問題應該是每個數據科學專業人員都應該能夠回答的關鍵問題。以我的經驗,大多數人都在努力克服第一個問題。如果我們不能為客戶分解機器學習模型的結果,我們就不能說服他們。

維基百科(Wikipedia)對p值的定義讓那些統計和數據科學領域的任何新手都感到望而生畏。關於p值的典型對話是這樣的:

而且你只知道一些公式和約定,卻沒有如何系統的解釋什麼是P值的想法。那麼,我們如何一勞永逸地學習p值,並將其根深蒂固地牢記在心?

我們應該如何從頭開始理解P值

在本文中,我們將從頭開始逐步建立p值的認知,並且還要揭穿p值的傳統(錯誤)解釋。我們將介紹以下內容:

什麼是p值?統計學意義統計中p值的例子數據科學中P值的例子p值的一些傳統(錯誤)解釋什麼是p值?

讓我們從絕對的基礎開始。什麼是p值?為了理解這個問題,我們將來看一下正態分布:

我們在x軸上具有值的範圍,在y軸上具有不同值的出現頻率。

現在,假設我們從此分布中選取一個隨機值。我們選擇接近均值的值的可能性是最高的,因為它具有最高的峰值(由於該區域中的出現值較高)。我們可以清楚地看到,如果我們遠離峰值,則值的出現會迅速減少,相應的概率也會減少,趨近於一個非常小的接近0的值。

但是本文是關於p值的-那麼為什麼我們要看正態分布呢?好吧,考慮到我們上面討論的正態分布,請考慮如何定義P值。

P值是上圖中紅點右側值的累計概率(曲線下的面積)。

要麼是,

當從分布中隨機選擇值時,與紅點相對應的p值告訴我們將任何值帶到紅點右側的「總概率」。

現在,這看起來可能像是一個非常幼稚的定義,但是我們將在此基礎上繼續。

P值本身不包含任何值。較大的p值表示樣本得分與總體得分更加一致或相似。它就是如此簡單。

現在,你可能已經遇到了將p值與alpha值進行比較以得出結論的經驗法則。因此,讓我們研究一下alpha值。

P值的統計意義:輸入– Alpha值

到目前為止,我已經提到過幾次alpha值,alpha值也被稱為顯著性水平。由於某些未知原因,我們知道該值為0.05或5%。

在統計課上我們也被老師教導過,也就是p值小於alpha意味著所獲得的結果具有統計學意義。但是alpha值到底是多少呢?

因此,讓我們花點時間看一下alpha值的含義。

alpha值只是一個閾值,P值在進行實驗後進行的相似性或顯著性(Z-測試或T-測試)中的測試前決定該閾值。

這意味著,如果得到樣本得分的概率小於或閾值p-值,我們認為它與總體顯著不同,甚至屬於新的樣本分布。

再次考慮一下上述的正態分布。此分布中的紅點表示alpha值或閾值p值。現在,讓我們說綠色和橙色點代表實驗後獲得的不同樣本結果。

在圖中可以看到,最左邊的綠點的p值大於alpha。因此, 這些值可以得到相當高的概率和樣本結果被認為是幸運的。

最右邊的點(橙色)的p值小於alpha值(紅色)。因此,樣本結果是一個罕見的結果,不太可能是幸運的。因此,他們與分布有很大的不同。 。

alpha值取決於正在執行的測試。如果我們不確定應該考慮什麼值,那麼將alpha值設為0.05被認為是一個不錯的約定。

但這帶有一個星號- 我們考慮的alpha值越小,則將結果視為有意義的難度就越大。請記住,每個實驗的alpha值會有所不同,並且沒有任何一個alpha值可以視為經驗法則。

讓我們仔細看一下alpha值和p值之間的關係。

p值<alpha值

考慮以下分布:

在此,紅點表示Alpha值。這基本上是閾值p值。我們可以清楚地看到,閾值右側曲線下方的區域非常小。

橙色點代表使用樣本總體的p值。在這種情況下,我們可以清楚地看到p值小於alpha值(紅點右側的面積大於橙點右側的面積)。這可以解釋為:

從樣本獲得的結果是分布的一個極端(這是一個非常罕見的事件),因此很有可能它可能屬於另外一個分布(如下所示)。

考慮到我們對alpha和p值的定義,我們認為得到的樣本結果是顯著不同的。我們可以清楚地看到p值遠遠小於alpha值。

p值> alpha值

我覺得你應該在進一步閱讀之前回答這個問題。既然你已經知道了硬幣的另一面,你就可以想像這種情況的結果了。

p值大於alpha意味著結果支持原假設,因此我們無法拒絕它。此結果通常與備用假設相反(獲得的結果來自其他分布),並且獲得的結果並不顯著,只是一個偶然或者運氣的問題。

再次,考慮相同的總體分布曲線,紅色點為alpha,橙色點為樣本中計算出的p值:

因此,p值> alpha(考慮曲線下方紅色和橙色點右側的區域)可以解釋如下:

樣本結果只是總體分布的一個低概率事件,很可能是靠運氣得到的

我們可以清楚地看到,人口曲線下方橙色點右側的面積遠大於alpha值。這意味著所獲得的結果更可能是同一總體分布的一部分,而不是其他分布的一部分。

現在我們已經理解了p值和alpha值的解釋,讓我們來看一個來自統計世界的經典例子。

統計中p值的例子

在國家射箭隊中,總教練打算在即將到來的比賽之前改善射箭運動員的表現。你認為提高弓箭手性能的好方法是什麼?

他提出並實施了在比賽前進行呼吸運動和冥想可能會有所幫助的想法。實驗前後的統計數據如下:

真有趣。結果支持了弓箭手總體得分提高的假設。但是教練希望確保這些結果是由於弓箭手能力的提高而不是因為運氣或偶然性。那麼你認為我們應該怎麼做?

這是一個典型的相似度測試(本例中為z檢驗),我們想要檢查樣本是否與總體相似。我不會深入討論相似性測試,因為這超出了本文的範圍。

為了解決這個問題,我們將循序漸進的方法:

了解給定的信息並形成備選假設和無效假設計算Z分數並找到曲線下的面積計算相應的p值比較p值和alpha值解釋最終結果這個問題的解決方案

步驟1:了解給定的信息

總體均值= 74總體標準偏差= 8(最近10年的歷史數據與總體有關)樣本均值= 78樣本大小= 60(此處,樣本與練習呼吸練習和冥想的弓箭手有關)我們的總體均值和標準差樣本容量超過30,這意味著我們將使用z檢驗。

根據上面的問題,可能存在兩種情況

實驗後的結果取決於運氣,即實驗前後的均值相似。這將是我們的「零假設」實驗後的結果確實與實驗前的結果有很大不同。這將是我們的「備擇假設」步驟2:計算Z分數

現在,我們將使用以上公式計算Z分數。你問這些符號代表什麼?好吧,告訴你是什麼意思:

X =總體均值M =樣本均值Sigma =總體標準偏差n =樣本實例數插入相應的值後,Z分數為– 3.87。

步驟3:參考Z表並找到p值:

如果我們在Z表中查找3.87,則會得到的值是0.999。這是曲線下的面積或總體分布下的概率。但這是什麼概率?

我們得到的概率是在我們計算的z分數(紅點)的左邊。該值0.999表示相對於總體,得到「小於樣本得分78」的結果的「總概率」。

這裡,紅點表示樣本均值相對於總體分布的位置。但是我們之前學過p值在紅點的右邊,我們該怎麼做?

對於這個,我們會用到正態Z分布下的總面積是1。因此,z分數右側的面積(或未陰影區域所代表的p值)可以計算為:

p值= 1 – 0.999

p值= 0.001

0.001 (p值)是紅點右側的未陰影區域。值0.001表示得到「大於樣本得分78」的結果的「總概率」,相對於總體。

步驟4:比較p值和alpha值

我們沒有為alpha提供任何值,因此我們可以考慮alpha = 0.05。根據我們的理解,如果獲得樣本(p值)結果的可能性小於alpha值,則我們認為獲得的樣本結果有顯著差異。

我們可以清楚地看到,p值遠遠小於alpha值:

0.001(紅色區域)<< 0.5(橙色區域)

這表明,就總體分布而言,得到平均值為78的概率很低。因此,可以方便地說,射箭運動員在樣本群體中成績的提高不是運氣的結果。樣本總體屬於其自身的某種其它(在本例中更好)分布。

數據科學中p值的例子

現在,我相信這是你一直在等待的部分。在統計中使用p值是可以理解的,我們甚至多次聽說過它。但是p值處於數據科學的那個領域中呢?

即使許多有抱負的數據科學家了解p值的含義,他們也不知道如何在數據科學中使用此知識。結果就是他們錯過了一個非常強大的方法來改進他們的模型。

P值是特徵選擇過程中的重要指標。在特徵選擇中,我們嘗試找出自變量的最佳子集來構建模型。

現在你可能會問:「為什麼不把所有的自變量都帶入呢?」

實際上,引入冗餘且沒有貢獻的變量會增加模型的複雜性。此外,它們可以降低模型在準確性、運行時甚至內存佔用方面的性能。

讓我們看一個例子。假設我有一個包含不同初創公司信息的數據集。我們有以下變量:

我們的目標是根據其他自變量來預測初創公司的利潤。現在,你的直覺可能會說–使用所有可用的自變量來構建一個線性回歸模型。

經過預處理和OneHot編碼之後,因變量具有以下映射:

接下來,我們將使用statsmodels庫構建一個OLS(普通最小二乘)模型。這是我們得到的:

這個表顯示了所有關於獨立變量的統計數據。但是現在,我們只對包含p值的列感興趣。我們可以清楚地看到,「R&D Spend」、「Administration」和「State_California」的p值超過0.50!

但是問題是,這個p值在回歸模型中意味著什麼?為此,讓我們了解計算這些p值的假設是什麼:

原假設:自變量對目標變量沒有顯著影響備擇假設:自變量對目標變量有顯著影響現在,以上結果表明,「R&D Spend」、「Administration」和「State_California」對初創公司獲得的「利潤」沒有重大影響。因此,讓我們從模型中刪除這三個變量

除去這兩個變量後的結果映射為:

在再次使用statsmodels庫構建OLS模型時,我們得到的是:

我們可以看到,現在只有一個變量剩餘值為0.05 –「 State_Florida」。那麼我們應該刪除它嗎?

首先,我們從未決定任何alpha值。如果我們將alpha值設為0.05,則變量「 State_Florida」將被消除。如果我將alpha設置為0.10,則該變量將在過濾過程中倖存下來。

在這種情況下,考慮到0.05不是要為alpha值選擇的經驗法則,我會保留下來。

在這個模型總結中最重要的一點是,儘管我們減少了兩個獨立變量,但調整後的R-Square值卻上升了。

正如我們前面討論的這是雙重效果。藉助p值,我們不僅創建了一個變量較少的簡單模型,而且還改善了模型的性能。

在總結本文之前,讓我們看一下許多數據科學專業人員和統計學家對p值的誤解。

對p值的一些傳統(錯誤)解釋

我見過很多人對P值有很多的誤解。以下是一些最常見的錯誤:

我們錯誤地拒絕原假設的概率:儘管低p值會促進對零假設的拒絕,但它與拒絕原假設的概率無關統計顯著性水平: 我們在實驗前選擇顯著性水平。如果p值滿足我們的顯著性水平(p < alpha),我們才能得出結論幹預效果的大小:p值絕不表示實驗期間引入的樣品中的幹預大小。原假設成立的可能性: 這與原假設很接近,可能不會造成太大傷害,但仍然會造成混淆。使用頻率統計量來討論原假設為真是不可能的。高p值意味著數據與原假設高度一致當然還有更多的錯誤!但請記住這些,下次你在工作中遇到p值時,你會做得很好。

相關焦點

  • p 值是什麼?數據科學家用最簡單的方式告訴你
    那時我對 p 值、假設檢驗甚至統計顯著一無所知。直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。
  • 金融考試 必備乾貨:估計、p值與科學決策
    但是你要是告訴我個眾數我就開始犯嘀咕了,是不是也太簡化了,假如100個數的眾數有10個,另外90個我就直接扔掉,太草率了。此時作為科研工作者你應該想有沒有更好的表述,至少要把所有數的信息都包括吧。那麼我們假xiang一個數,這個數距離所有N個數的距離最短,那麼不就有代表性了。想法有了,如何估計呢?
  • P值不重要!P值不重要!!P值不重要!!!
    -臨床問題,數據分析亦不單單指統計,統計只佔臨床研究體系的一小部分,不要過分強調統計技巧和陽性結果,需重點發揮臨床醫生的優勢-解決貼近臨床的科學問題,避免掉入「統計學陷阱」。只說一下p值的確切定義是:"如果H0假設是正確的,觀察到這次實驗結果或一些更好結果(更極端結果)的可能性(概率)。[2] 不幸的是,許多研究人員都誤以為p值代表實驗組比對照組結果更好。初學者在做數據分析時總追求 p<0.05,然後又錯誤地理解為有差別,最後變成是否小於0.05就是是否更好的標誌,這是科研上的一大錯誤思維模式。[3-4]p值離真相還差的太遠。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    一個結論的正確與否並不會因為研究者算出的P值大於還是小於0.05而改變[雖然原作很繞,但這句話吐槽還是很清楚的,它吐槽的是一種是否通過了類似0.05之類的二元類的方法:後文他的觀點是如果用P值的話,應該給出具體的大小。如果你改成「P值大小」,實際上把槽點扭曲了。]。研究者需要將很多因子納入考慮來作出科學推斷,包括研究設計、測量的質量、與研究對象有關的外部證據,以及分析數據時使用的假設的合理性等。
  • 當統計學遇上大數據——P值消亡
    KarlPearson        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 統計︱P值-0.05就發表,不然就去死!
    R·A·Fisher(1890-1962)作為一代假設檢驗理論的創立者,在假設檢驗中首先提出P值的概念。他認為假設檢驗是一種程序,研究人員依照這一程序可以對某一總體參數形成一種判斷。也就是說,他認為假設檢驗是數據分析的一種形式,是人們在研究中加入的主觀信息。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!
  • 【p值之爭】史丹福大學陸教授有話說
    然而,僅僅利用從某單一統計檢驗所得出的p值來判斷研究項目的科學價值則是一種對p值的濫用;為得到可信的臨床研究結果,我們需要將利用p值得到的推斷檢驗的結果與次要結果以及其它數據進行整合。對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】1.
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    KarlPearson        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 每個數據科學專家都應該知道的六個概率分布
    假設你是一所大學的老師。在對一周的作業進行了檢查之後,你給所有的學生打了分數。你把這些打了分數的論文交給大學的數據錄入人員,並告訴他創建一個包含所有學生成績的電子表格。但這個人卻只存儲了成績,而沒有包含對應的學生。他又犯了另一個錯誤,在匆忙中跳過了幾項,但我們卻不知道丟了誰的成績。我們來看看如何來解決這個問題吧。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(中英對照22k字附PDF發「自然p值統計錯誤」下載)
    下期文章全面介紹假設檢驗中p值的概念和統計學應用、論文分析和期刊使用情況;包括多個分析數據舉例和計算說明。它也被稱為數據疏浚(疏通)、數據窺探、數據釣魚、追求顯著性和雙重浸漬(double-dipping注11:不正當統計)。「P-hacking(P值篡改),」西蒙遜(Simonsohn)說,「正在嘗試多種事情,直到你得到理想的結果」——甚至是無意識的。(注13:P值篡改就是試圖反覆計算,潛意識裡想最終得到自己想要的結果。)
  • 假設檢驗:使用p值來接受或拒絕你的假設
    不僅在數據科學中,假設檢驗在各個領域都很重要。想知道怎麼做?讓我們舉個例子。現在有一個lifebuoy沐浴露。沐浴露廠商聲稱,它殺死99.9%的細菌。他們怎麼能這麼說呢?必須有一種測試技術來證明這種說法是正確的。所以假設檢驗用來證明一個主張或任何假設。
  • 【p值之爭】 史丹福大學陸教授有話說
    然而,僅僅利用從某單一統計檢驗所得出的p值來判斷研究項目的科學價值則是一種對p值的濫用;為得到可信的臨床研究結果,我們需要將利用p值得到的推斷檢驗的結果與次要結果以及其它數據進行整合。對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】1.
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    他在書中著重講到研究人員應如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。菲舍爾建議,為方便起見,可以考慮將p值設為0.05。對於這一點,他專門論述道:「在判斷某個偏差是否應該被認為是顯著的時候,將這一閾值作為判斷標準是很方便的。」
  • 800名科學家聯名反對統計學意義,放棄P值「決定論」!
    正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。一周以後,籤署者增加到了800位,這些籤名的人來自學術機構或者之前或現在從事著統計建模相關的領域。除南極洲以外的各個洲的統計學家,臨床或藥物研究人員,生物學家,心理學家也都籤下了名字。一名倡導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。
  • 每個數據科學人都應該知道的7種回歸技術
    在本文中,我會以簡單的方式解釋了數據科學中最常用的7種回歸形式。通過這篇文章,我也希望人們能夠對回歸的廣度有一個概念,而不是僅僅對他們遇到的每個問題應都用線性/邏輯回歸,並希望他們能夠使用這麼多的回歸技術!如果您是數據科學的新手,並且正在尋找一個開始學習的地方,那麼「 數據科學 」課程是一個很好的起點!
  • JAMA:p值檢驗,你用對了嗎? - 生物研究專區 - 生物谷
    研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"