p 值是什麼?數據科學家用最簡單的方式告訴你

2020-12-05 機器之心Pro

選自TowardDataScience

作者:Amond Lee

機器之心編譯

參與:李詩萌、一鳴

即使是沒有任何統計學基礎的讀者朋友可能也聽說過「p 值」,但是鮮有文章能夠清楚解釋 p 值是什麼,以及 p 值在統計學中的作用。本文是 TowardDataScience 的一篇博文,作者條理清楚地解釋了 p 值的相關內容,並給出了一個簡單的例子,適合讀者參考。

還記得我作為暑期實習生第一次在 CERN 海外實習時,大多數人都在討論,要超過「5-sigma」閾值(這意味著 p 值為 0.0000003)才能確認發現了希格斯玻色子。

那時我對 p 值、假設檢驗甚至統計顯著一無所知。

直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。

因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。

本文共分四個部分,從假設檢驗到理解 p 值,以及根據 p 值指導我們的決策過程。我強烈建議你仔細閱讀全文,以便詳細地了解 p 值:

假設檢驗;正態分布;什麼是 p 值;統計顯著性。假設檢驗

假設檢驗

在討論 p 值的意義之前,我們先理解一下假設檢驗。在假設檢驗中,常用 p 值確定結果的統計顯著性。

我們的最終目標是確定結果的統計顯著性。而統計顯著性建立在這 3 個簡單概念之上:

假設檢驗正態分布p 值假設檢驗是用來通過一組數據檢驗針對總體的聲明(零假設)有效性的。如果零假設不成立,我們就會相信備擇假設。

換句話說,我們需要提出聲明(零假設),並用樣本數據來檢驗聲明是否有效。如果聲明是無效的,就選擇備擇假設。就這麼簡單。

而要知道聲明是否有效,就要用 p 值來衡量證據的強度,從而了解到它是否有統計顯著性。如果證據支持備擇假設,那就拒絕零假設並接受備擇假設。後面的章節中會解釋這些內容。

我們舉個例子來更清晰地說明這一概念,這個例子會貫穿全文同時說明其他概念。

假設某個披薩店聲稱,他們的平均配送時間小於等於 30 分鐘,但你認為他們的配送時間不止 30 分鐘。所以你做了假設檢驗,對配送時間隨機採樣來檢驗這一說法:

零假設——平均配送時間小於等於 30 分鐘;備擇假設——平均配送時間大於 30 分鐘。這裡的目標是確定樣本數據中的證據能更好地支持哪種假設(零假設或備擇假設)。

本例中用的是單尾檢驗,因為我們只想知道平均配送時間是否大於 30 分鐘。

因為配送時間小於等於 30 分鐘都是可以接受的,因此我們忽略另一個方向的可能性。這裡想要檢驗的是平均配送時間是否會大於 30 分鐘。換句話說,我們想知道披薩店是否在某種角度上騙了我們。

假設檢驗的常用方法之一是 Z 檢驗。這裡我們不討論細節,因為我們想要先理解表面的內容,然後再深入。

正態分布

平均值為 μ 標準差為 σ 的正態分布

正態分布是用來觀察數據分布的概率密度函數。

正態分布有兩個參數——平均值(μ)和標準差(σ)。

均值是分布的集中趨勢。它決定了正態分布峰值的位置。標準差是衡量可變性的標準,它決定了均值到值的下降幅度。

正態分布通常和 68-95-99.7 規則(上圖所示)相關:

68% 的數據在平均值(μ)±1 個標準差(σ)內;95% 的數據在平均值(μ)±2 個標準差(σ)內;99.7% 的數據在平均值(μ)±3 個標準差(σ)內。還記得文章開頭說的發現希格斯玻色子的「5-sigma」閾值嗎?在科學家證實發現希格斯玻色子之前,5-sigma 約為數據的「99.9999426696856%」。設置這麼嚴格的閾值是為了避免潛在的錯誤信號。

好了。現在你可能想知道「正態分布是如何應用在假設檢驗中的」。

因為是用 Z 檢驗進行假設檢驗的,因此要計算 Z 分數(用於檢驗統計量),這是數據點到平均值的標準偏差數。在本文的例子中,每個數據點都是收集到的披薩配送時間。

計算每個數據點的 Z 分數的公式。

對每個披薩配送時間點計算 Z 分數,並繪製出標準正態分布曲線時,x 軸上的單位從分鐘變成了標準差單位,因為已經通過計算(變量減去平均值再除以標準差,見上述公式)將變量標準化了。

標準正態分布曲線是很有用的,因為我們可以比較測試結果和在標準差中有標準單位的「正態」總體,特別是在變量的單位不同的情況下。

Z 分數的標準正態分布

Z 分數可以告訴我們整個數據相對於總體平均值的位置。

我喜歡 Will Koehrsen 的說法——Z 分數越高或越低,結果就越不可能偶然發生,結果就越有可能有意義。

但多高(低)才足以說明結果是有意義的呢?

這就是解決這個難題的最後一片拼圖——p 值。根據實驗開始前設定的顯著水平(alpha)檢驗結果是否具有統計學意義。

什麼是 P 值

與其用維基百科給出的定義來解釋 p 值,不如用文中的披薩配送時間為例來解釋它。

對披薩配送時間隨機採樣,目的是檢查平均配送時間是否大於 30 分鐘。如果最終的結果支持披薩店的說法(平均配送時間小於等於 30 分鐘),那就接受零假設。否則,就拒絕零假設。

因此,p 值的工作就是回答這個問題:

如果我生活在披薩配送時間小於等於 30 分鐘(零假設成立)的世界中,那我在真實世界中得到的證據有多令人驚訝?

p 值用數字(概率)回答了這一問題。

p 值越低,證據越令人驚訝,零假設越荒謬。

當零假設很荒謬的時候還能做什麼?可以拒絕零假設並轉而選擇備擇假設。

如果 p 值低於之前定義的顯著水平(人們一般將它稱為 alpha,但我將它稱之為荒謬閾值——別問為什麼,我只是覺得這樣更容易理解),那麼就可以拒絕零假設。

現在我們理解了 p 值是什麼意思。接下來把 p 值用到文中的例子中。

現在已經抽樣得到了一些配送時間,計算後發現平均配送時間要長 10 分鐘,p 值為 0.03。

這意味著在披薩配送時間小於等於 30 分鐘(零假設成立)的世界中,由於隨機噪聲的影響,我們有 3% 的概率會看到披薩配送時間延長了至少 10 分鐘。

p 值越低,結果越有意義,因為它不太可能是由噪聲引起的。

大多數人對於 p 值都有一個常見的誤解:

p 值為 0.03 意味著有 3%(概率百分比)的結果是偶然決定的——這是錯誤的。

人們都想得到確切的答案(包括我),而這也是我在很長時間內都對 p 值的解釋感到困惑的原因。

p 值不能證明任何事。這只是一種根據驚訝程度做出合理決策的基礎方法。Cassie Kozyrkov

我們是如何用 0.03 的 p 值來做出合理決策的(重點):

想像我們生活在平均配送時間小於等於 30 分鐘的世界——因為我們信任披薩店(我們最初的信念)!分析收集的配送時間樣本後,p 值為 0.03,低於 0.05 的置信水平(假設在實驗之前就設置好了),因此可以說結果是具有*統計顯著性*的。因為我們一直相信披薩店可以在 30 分鐘內配送披薩,現在需要考慮的是這一信念是否仍然有意義,因為結果告訴我們,披薩店沒能兌現承諾,而且結果是具有統計學意義的。那該怎麼辦?我們先試著用各種方法使初始信念(零假設)成立。但是因為披薩店的口碑越來越差,並且經常找導致配送延遲的藉口,我們自己都覺得再相信披薩店是很可笑的事情,因此,我們決定拒絕零假設。最終,我們做出了不再從這家披薩店買披薩的合理決定。到現在為止,你可能已經注意到了,在上面的例子中,p 值不能證明或決定任何事。

在我看來,當結果有統計學意義時,p 值可以作為挑戰初始信念(零假設)的工具。在我們認為自己的信念荒謬(假設 p 值表明結果具有統計顯著性)的那一刻,就放棄了自己的初始信念(拒絕零假設)並做出了更合理的決定。

統計顯著性

這是最後一步,將所有內容放在一起,並檢驗結果是否有統計學意義。

只有 p 值是不夠的,還要設定閾值(即顯著水平——alpha)。為了避免偏差,實驗開始之前就應該設定 alpha。如果觀測的 p 值小於 alpha,那就可以得出結論——結果具有統計顯著性。

經驗法則一般將 alpha 設定為 0.05 或 0.01(同樣,值取決於你的問題)。

如上文所述,假設在實驗開始前將 alpha 設置為 0.05,得到的結果具有統計顯著性,因為 p 值(0.03)小於 alpha。

為便於參考,整個實驗的基本步驟如下:

陳述零假設;陳述備擇假設;確定 alpha 值;找到和 alpha 水平相關的 Z 分數;根據公式計算檢驗統計量;如果檢驗統計量的值比 alpha 水平的 Z 分數小(或 p 值小於 alpha 值),拒絕零假設。否則,接受零假設。

步驟 5 計算檢驗統計量的公式。

原文連結:https://towardsdatascience.com/p-values-explained-by-data-scientist-f40a746cfc8

相關焦點

  • 作為一名數據科學從業者,你應該知道的P值
    我無法告訴你數據科學家(甚至是成熟的科學家)在涉及到如何解釋p值時是多麼的手足無措。實際上,可以花點時間回答以下問題:如何解釋p值?P值有多麼的重要?你將如何向非數據科學人員(例如利益相關者)解釋p值的重要性?這些問題應該是每個數據科學專業人員都應該能夠回答的關鍵問題。以我的經驗,大多數人都在努力克服第一個問題。如果我們不能為客戶分解機器學習模型的結果,我們就不能說服他們。
  • JAMA:p值檢驗,你用對了嗎?
    研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!
  • 被Nature科學家封殺的P值,到底有什麼意義?
    ——維基百科所以P值的真正含義是什麼呢?到了現在,尤其是當我進入數據科學領域之後,我才慢慢理解了p值的含義,以及它是如何在某些實驗成為決策制定工具的一部分的。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 統計︱P值-0.05就發表,不然就去死!
    分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論,以及p值的補充與替代品。「分歧是巨大的。包括對於核心問題以及需要被改革的實踐的不同看法」,Goodman說,「人們為此面紅耳赤」。 最重要的信息之一是,p值無法告訴你,你的假設是否正確。相反,它是在你的假設之下的,你的數據的概率。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 假設檢驗:使用p值來接受或拒絕你的假設
    介紹檢驗是統計學中最基本的概念之一。不僅在數據科學中,假設檢驗在各個領域都很重要。想知道怎麼做?讓我們舉個例子。現在有一個lifebuoy沐浴露。沐浴露廠商聲稱,它殺死99.9%的細菌。他們怎麼能這麼說呢?必須有一種測試技術來證明這種說法是正確的。所以假設檢驗用來證明一個主張或任何假設。
  • 一篇要求重新定義P值的論文,炸起科學界百人論戰
    圖片來源:BART VAN OVERBEEKE FOTOGRAFIE而讓萊肯斯抓狂的原因是:這篇論文建議降低在眾多實驗中使用的顯著性閾值,讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率,提高科學實驗的重現率。
  • 一篇要求重新定義P值界值的論文,炸起科學界百人論戰
    圖片來源:BART VAN OVERBEEKE FOTOGRAFIE而讓萊肯斯抓狂的原因是:這篇論文建議降低在眾多實驗中使用的顯著性閾值,讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率,提高科學實驗的重現率。但是37歲的萊肯斯認為這是一個災難性的想法。
  • PLOS: P值焦慮會否顛覆整個科學界的可信度
    p值操控(p-hacking)的普遍性和解決辦法什麼是p-hacking?熟悉零假設檢驗(Null hypothesis testing)的人都知道,研究人員總是在試圖發表否定null hypothesis的研究,來證明自己假設的正確。因此為了達到Ronald Fisher人為設定的p<0.05的顯著性標準,很多研究者可能誇大了研究中的效應值(effect size)。
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    他在書中著重講到研究人員應如何將統計檢驗理論應用於實際數據,以便基於數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,並生成一個p值。菲舍爾建議,為方便起見,可以考慮將p值設為0.05。
  • p值、信賴區間為何被數百科學家連名反對?
    一名宣導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。統計學家並非全盤否定p 值,而是保留偏差性同時,三位統計學家也強調, 我們並不禁止p 值的使用,也沒有說 p 值不能在某些領域當做決策標準,比如決定生產過程符合某些品質控制標準。 我們也不提倡什麼都可以,不可信的證據突然變可信。
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    一名倡導者稱,這是「對統計意義輕率測試的外科手術式打擊」,也是「一個為更好的科學實踐發聲的機會」。 同時,三位統計學家也強調,我們並不禁止p值的使用,也沒有說p值不能在某些領域當做決策標準,比如決定生產過程符合某些質量控制標準。我們也不提倡什麼都可以,不可信的證據突然變可信。
  • 隨手學統計:繞不過的 p 值
    在上一期的假設檢驗內容中,我們提到要記住 p<0.05 這個節點。那麼問題來了,各種檢驗中都有的 p 值究竟是什麼?
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    一個結論的正確與否並不會因為研究者算出的P值大於還是小於0.05而改變[雖然原作很繞,但這句話吐槽還是很清楚的,它吐槽的是一種是否通過了類似0.05之類的二元類的方法:後文他的觀點是如果用P值的話,應該給出具體的大小。如果你改成「P值大小」,實際上把槽點扭曲了。]。研究者需要將很多因子納入考慮來作出科學推斷,包括研究設計、測量的質量、與研究對象有關的外部證據,以及分析數據時使用的假設的合理性等。
  • 【p值之爭】史丹福大學陸教授有話說
    在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。