p值是什麼?統計學家用最簡單的方式告訴你

2022-01-02 機器學習算法與Python實戰

↓↓↓點擊關注,回復資料,10個G的驚喜

作者:Amond Lee 機器之心(ID:almosthuman2014)編譯  參與:李詩萌、一鳴   

導讀

即使是沒有任何統計學基礎的讀者朋友可能也聽說過「p 值」,但是鮮有文章能夠清楚解釋 p 值是什麼,以及 p 值在統計學中的作用。本文是 TowardDataScience 的一篇博文,作者條理清楚地解釋了 p 值的相關內容,並給出了一個簡單的例子,適合讀者參考。

還記得我作為暑期實習生第一次在 CERN 海外實習時,大多數人都在討論,要超過「5-sigma」閾值(這意味著 p 值為 0.0000003)才能確認發現了希格斯玻色子。

那時我對 p 值、假設檢驗甚至統計顯著一無所知。

直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。

因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。

本文共分四個部分,從假設檢驗到理解 p 值,以及根據 p 值指導我們的決策過程。我強烈建議你仔細閱讀全文,以便詳細地了解 p 值:

Part1假設檢驗▲假設檢驗

在討論 p 值的意義之前,我們先理解一下假設檢驗。在假設檢驗中,常用 p 值確定結果的統計顯著性。

我們的最終目標是確定結果的統計顯著性。而統計顯著性建立在這 3 個簡單概念之上:假設檢驗是用來通過一組數據檢驗針對總體的聲明(零假設)有效性的。如果零假設不成立,我們就會相信備擇假設。換句話說,我們需要提出聲明(零假設),並用樣本數據來檢驗聲明是否有效。如果聲明是無效的,就選擇備擇假設。就這麼簡單。而要知道聲明是否有效,就要用 p 值來衡量證據的強度,從而了解到它是否有統計顯著性。如果證據支持備擇假設,那就拒絕零假設並接受備擇假設。後面的章節中會解釋這些內容。我們舉個例子來更清晰地說明這一概念,這個例子會貫穿全文同時說明其他概念。假設某個披薩店聲稱,他們的平均配送時間小於等於 30 分鐘,但你認為他們的配送時間不止 30 分鐘。所以你做了假設檢驗,對配送時間隨機採樣來檢驗這一說法:這裡的目標是確定樣本數據中的證據能更好地支持哪種假設(零假設或備擇假設)。本例中用的是單尾檢驗,因為我們只想知道平均配送時間是否大於 30 分鐘。因為配送時間小於等於 30 分鐘都是可以接受的,因此我們忽略另一個方向的可能性。這裡想要檢驗的是平均配送時間是否會大於 30 分鐘。換句話說,我們想知道披薩店是否在某種角度上騙了我們。假設檢驗的常用方法之一是Z檢驗。這裡我們不討論細節,因為我們想要先理解表面的內容,然後再深入。Part2正態分布▲平均值為 μ 標準差為 σ 的正態分布正態分布有兩個參數——平均值(μ)和標準差(σ)。均值是分布的集中趨勢。它決定了正態分布峰值的位置。標準差是衡量可變性的標準,它決定了均值到值的下降幅度。正態分布通常和 68-95-99.7 規則(上圖所示)相關:68% 的數據在平均值(μ)±1 個標準差(σ)內;95% 的數據在平均值(μ)±2 個標準差(σ)內;99.7% 的數據在平均值(μ)±3 個標準差(σ)內。還記得文章開頭說的發現希格斯玻色子的「5-sigma」閾值嗎?在科學家證實發現希格斯玻色子之前,5-sigma 約為數據的「99.9999426696856%」。設置這麼嚴格的閾值是為了避免潛在的錯誤信號。好了。現在你可能想知道「正態分布是如何應用在假設檢驗中的」。因為是用 Z 檢驗進行假設檢驗的,因此要計算 Z 分數(用於檢驗統計量),這是數據點到平均值的標準偏差數。在本文的例子中,每個數據點都是收集到的披薩配送時間▲計算每個數據點的 Z 分數的公式對每個披薩配送時間點計算 Z 分數,並繪製出標準正態分布曲線時,x 軸上的單位從分鐘變成了標準差單位,因為已經通過計算(變量減去平均值再除以標準差,見上述公式)將變量標準化了。標準正態分布曲線是很有用的,因為我們可以比較測試結果和在標準差中有標準單位的「正態」總體,特別是在變量的單位不同的情況下。▲Z 分數的標準正態分布Z 分數可以告訴我們整個數據相對於總體平均值的位置。我喜歡 Will Koehrsen 的說法——Z分數越高或越低,結果就越不可能偶然發生,結果就越有可能有意義這就是解決這個難題的最後一片拼圖——p值。根據實驗開始前設定的顯著水平(alpha)檢驗結果是否具有統計學意義。Part3什麼是 P 值與其用維基百科給出的定義來解釋 p 值,不如用文中的披薩配送時間為例來解釋它。對披薩配送時間隨機採樣,目的是檢查平均配送時間是否大於 30 分鐘。如果最終的結果支持披薩店的說法(平均配送時間小於等於 30 分鐘),那就接受零假設。否則,就拒絕零假設。如果我生活在披薩配送時間小於等於 30 分鐘(零假設成立)的世界中,那我在真實世界中得到的證據有多令人驚訝?當零假設很荒謬的時候還能做什麼?可以拒絕零假設並轉而選擇備擇假設。如果 p 值低於之前定義的顯著水平(人們一般將它稱為 alpha,但我將它稱之為荒謬閾值——別問為什麼,我只是覺得這樣更容易理解),那麼就可以拒絕零假設。現在我們理解了 p 值是什麼意思。接下來把 p 值用到文中的例子中。現在已經抽樣得到了一些配送時間,計算後發現平均配送時間要長 10 分鐘,p 值為 0.03。這意味著在披薩配送時間小於等於 30 分鐘(零假設成立)的世界中,由於隨機噪聲的影響,我們有 3% 的概率會看到披薩配送時間延長了至少 10 分鐘。p值越低,結果越有意義,因為它不太可能是由噪聲引起的。p 值為 0.03 意味著有 3%(概率百分比)的結果是偶然決定的——這是錯誤的。人們都想得到確切的答案(包括我),而這也是我在很長時間內都對 p 值的解釋感到困惑的原因。

p 值不能證明任何事。這只是一種根據驚訝程度做出合理決策的基礎方法。

——Cassie Kozyrkov

我們是如何用 0.03 的 p 值來做出合理決策的(重點):想像我們生活在平均配送時間小於等於 30 分鐘的世界——因為我們信任披薩店(我們最初的信念)!分析收集的配送時間樣本後,p 值為 0.03,低於 0.05 的置信水平(假設在實驗之前就設置好了),因此可以說結果是具有「統計顯著性」的。因為我們一直相信披薩店可以在 30 分鐘內配送披薩,現在需要考慮的是這一信念是否仍然有意義,因為結果告訴我們,披薩店沒能兌現承諾,而且結果是具有統計學意義的。那該怎麼辦?我們先試著用各種方法使初始信念(零假設)成立。但是因為披薩店的口碑越來越差,並且經常找導致配送延遲的藉口,我們自己都覺得再相信披薩店是很可笑的事情,因此,我們決定拒絕零假設。最終,我們做出了不再從這家披薩店買披薩的合理決定。到現在為止,你可能已經注意到了,在上面的例子中,p 值不能證明或決定任何事。在我看來,當結果有統計學意義時,p 值可以作為挑戰初始信念(零假設)的工具。在我們認為自己的信念荒謬(假設 p 值表明結果具有統計顯著性)的那一刻,就放棄了自己的初始信念(拒絕零假設)並做出了更合理的決定。Part4統計顯著性這是最後一步,將所有內容放在一起,並檢驗結果是否有統計學意義。只有 p 值是不夠的,還要設定閾值(即顯著水平——alpha)。為了避免偏差,實驗開始之前就應該設定 alpha。如果觀測的 p 值小於 alpha,那就可以得出結論——結果具有統計顯著性。經驗法則一般將 alpha 設定為 0.05 或 0.01(同樣,值取決於你的問題)。如上文所述,假設在實驗開始前將 alpha 設置為 0.05,得到的結果具有統計顯著性,因為 p 值(0.03)小於 alpha。如果檢驗統計量的值比 alpha 水平的 Z 分數小(或 p 值小於 alpha 值),拒絕零假設。否則,接受零假設。▲步驟 5 計算檢驗統計量的公式

原文:TowardDataScience

連結:https://towardsdatascience.com/p-values-explained-by-data-scientist-f40a746cfc8)

推薦閱讀

相關焦點

  • p 值是什麼?數據科學家用最簡單的方式告訴你
    p 值在統計學中的作用。那時我對 p 值、假設檢驗甚至統計顯著一無所知。直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。
  • 統計計量 | p值是什麼?數據科學家用最簡單的方式告訴你
    )編譯參與:李詩萌、一鳴原文:TowardDataScience(連結:https://towardsdatascience.com/p-values-explained-by-data-scientist-f40a746cfc8)轉載:計量經濟學導讀即使是沒有任何統計學基礎的讀者朋友可能也聽說過「p 值」,但是鮮有文章能夠清楚解釋 p
  • 你真的懂p值嗎? 說人話的統計學
    轉自:協和八►面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?
  • 統計學中一直提到的P值究竟是什麼?
    本文轉載自:統計網結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯。
  • P值不重要!P值不重要!!P值不重要!!!
    作為經典概率理論的一部分,p值得到了最廣泛的應用,雖然往往這種應用都是錯誤的。Chavalarias 團隊的研究[1]發現隨機抽樣1000份摘要中,96%的摘要都至少有一個這樣的"統計顯著性"的p值,可簡單理解為96%的摘要都報告了陽性發現,事實上有這麼多顯著性結果是完全不現實的,不可能96%的檢驗假設都是顯著性的。這得有多大的發表偏倚啊。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。  科學的統計學危機:p 值有什麼問題?  為什麼要談論 p 值的問題?
  • 統計學指標P值還可信嗎?
    統計學指標P值還可信嗎? 統計作為研究方法,是許多科研結果能成立的關鍵,統計中的計算好掌握,然而統計方法的概念卻有許多陷阱,一不小心就會踏入泥沼而不可自拔。
  • 800名科學家聯名反對統計學意義,放棄P值「決定論」!
    同時,三位統計學家也強調,我們並不禁止p值的使用,也沒有說p值不能在某些領域當做決策標準,比如決定生產過程符合某些質量控制標準。我們也不提倡什麼都可以,不可信的證據突然變可信。我們僅僅只是提議在常規的,二分法的情況下不用P值來決定一個結果是否反駁一個科學假設。
  • 統計學白上了?Nature:800名科學家聯名反對統計學意義,放棄P值「決定論」
    正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的概率。換言之,是檢驗假設零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受。
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 搞定統計學必知:P值、T檢驗、卡方檢驗、假設檢驗……
    結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • JAMA:p值檢驗,你用對了嗎? - 生物研究專區 - 生物谷
    研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"
  • 隨手學統計:繞不過的 p 值
    小概率原理簡單的說就是,一個事件如果發生的概率很小的話,那麼它在一次試驗中是幾乎不可能發生的,但在多次重複試驗中幾乎是必然發生的。統計學上一般認為,事件發生概率 p < 0.05 即為小概率事件。當你為自己終於搞懂了什麼是原假設、什麼是 p 值而高興時,我們必須要在這個時候對你說一個很殘酷的事實,這麼多年來你也許把 p 值用錯了!
  • 被Nature科學家封殺的P值,到底有什麼意義?
    我用谷歌搜索了p-value這個詞,看了維基百科後我卻更困惑了…在統計學的假設檢驗中,對一個給定的統計模型來說,p值或概率值是一個特定的概率,即當原假設為真時,統計結果(例如兩個對照組中樣本均值差的絕對值)不小於實際觀測值的概率。
  • 空間統計:P值和Z值
    要說這兩個值之前,還是要複習一下統計學的概念,畢竟空間統計的理論基礎還是建立在經典統計學上面的。    首先,統計學裡面,有一個叫做「零假設」的概念非常厲害。    零假設(null hypothesis),有時候又稱原假設,官方的解釋是:指進行統計檢驗時預先建立的假設。
  • 統計︱P值-0.05就發表,不然就去死!
    最重要的信息之一是,p值無法告訴你,你的假設是否正確。相反,它是在你的假設之下的,你的數據的概率。這聽起來很像「在你的數據之下的,你的假設的概率」,但它們不是一回事,盧森堡健康研究所的一名生物統計學家Stephen Senn說道。要理解原因,可以考慮這樣一個例子,「教皇是基督徒嗎?答案是肯定的」,他說。「基督徒是教皇嗎?答案很可能是否定的。如果你更改了順序,聲明就不存在了」。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • 統計學 P值到底是個什麼東西
    那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。 簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。科學的統計學危機:p 值有什麼問題?為什麼要談論 p 值的問題?