隨手學統計:繞不過的 p 值

2021-01-21 丁香說

在上一期的假設檢驗內容中,我們提到要記住 p<0.05 這個節點。那麼問題來了,各種檢驗中都有的 p 值究竟是什麼?當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。



首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。



還沒完全看懂這個定義是在說什麼?沒關係,我們繼續用上期品茶女士的例子來說明,沒看過上一期的朋友們,可在微信中回復「品茶」進行查看。


原假設:我們認為品茶女士沒有品茶能力

觀察結果:品茶女士把 8 杯茶都品了出來

p 值:0.014


這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。


對,這個 p 值(概率)很小很小!所以根據小概率原理,Fisher 君毫無顧慮地把原假設推翻了。小概率原理簡單的說就是,一個事件如果發生的概率很小的話,那麼它在一次試驗中是幾乎不可能發生的,但在多次重複試驗中幾乎是必然發生的。統計學上一般認為,事件發生概率 p < 0.05 即為小概率事件。



當你為自己終於搞懂了什麼是原假設、什麼是 p 值而高興時,我們必須要在這個時候對你說一個很殘酷的事實,這麼多年來你也許把 p 值用錯了!


誤區一:誤把 p 值大小等同於差異大小

我用你的對照組也完成了一個對照試驗,我的 p 值 <0.01 誒,哈哈,我的 p 值比你小,說明我的藥效比你強!B 藥你說錯了哦,這裡的 p 值大小不能表示兩種藥效差異大小,只能表明你們與對照組的差異均有統計學上的顯著性。如果要知道你們之間藥效是否差異,還需要單獨將你們倆作統計比較。


提示:不同實驗中 p<0.05 的意義不表示各實驗結果差異的大小,它只反映各實驗中原假設在統計學上不被認可的概率。


誤區二:沉迷統計學結果 忽視專業判斷

老師,我這次測量兩組患者的收縮壓分別為(126.0±3.1)mmHg、(133.0±2.9)mmHg,經統計檢驗後發現兩者的差異有統計學意義(p<0.05)。哈哈,這一次終於可以把文章發出去了!且慢!讓我們再仔細看一看你的數據。126mmHg 和 133mmHg 這兩組收縮壓完全在正常範圍內!你要用正常血壓之間差異的統計學顯著性來說明什麼問題呢?這個 p 值有實際的意義嗎?


提示:顯著性檢驗只是統計結論,判斷差別還要根據專業知識。這個過程在統計分析中是關鍵性的一步,但往往被很多醫生朋友們所忽略。


誤區三:當p>0.05 時,誤將結論絕對化

一般認為動脈血氧含量能影響氧運輸量,而本研究結果顯示吸 NO 前後血氧飽和度(SpO2)差異的 p>0.05,那我可以認為「動脈血氧含量對患者氧運輸量增加沒有影響」嗎?

這樣理解是不對的。這裡 p>0.05 並不代表「吸了 NO 前後的 SpO2 就一定無變化」, 只是尚且不能拒絕「動脈血氧含量對患者氧運輸量增加沒有影響」這個假設。

本研究沒有在統計學上觀察到動脈血氧含量對患者氧運輸量有影響,很可能是樣本量不足等原因導致統計效率低下。這就涉及到其他的統計學知識。


提示:p>0.05 時,差異無統計學意義,根據統計學原理可知,我們只是不能拒絕原假設,但並不認為原假設肯定就是百分百沒問題的。


本次「隨手學統計」主要闡述了 p 值的含義。簡而言之,p 值表示結果可以由抽樣誤差解釋的可能性。在醫學統計檢驗中,我們不僅要看 p 值,更需要關注真實差異是否足夠大,是否具有專業意義。同時,樣本量也是決定 p 值的關鍵因素,因為篇幅,不再贅述。


小結:

p 值只反映差異有無統計學意義;

下結論時應將統計學結果和專業情況結合起來;

p>0.05 時,說明統計學結果不能拒絕原假設,但並不認為原假設肯定成立。


相關焦點

  • 【統計】p值和FDR
    那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 二、統計檢驗與p值
    我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。有時候會有學生找我說,幫忙算個p值,我就會問,你的零假設是什麼?這句話等同於問「你想幹嘛?」,神奇的是,有些時候有些人就真的不知道自己想幹嘛!
  • 美國統計協會關於統計顯著性和p值的說明
    務實的考慮通常需要二元的、「是或否」的決策,但這並不意味著僅靠p值就可以確定⼀個決策的正確與否。「統計顯著性」(通常視為「p≤0.05」)被⼴泛⽤來作為宣告⼀項科學發現(或隱含的真理)的「許可證」,這導致了對科學過程的極⼤歪曲。(4)合理的推斷要求完備的報告和透明度。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    這個詞是不是有點不準確,但我可以理解,「簡化」?]一個結論的正確與否並不會因為研究者算出的P值大於還是小於0.05而改變[雖然原作很繞,但這句話吐槽還是很清楚的,它吐槽的是一種是否通過了類似0.05之類的二元類的方法:後文他的觀點是如果用P值的話,應該給出具體的大小。如果你改成「P值大小」,實際上把槽點扭曲了。]。研究者需要將很多因子納入考慮來作出科學推斷,包括研究設計、測量的質量、與研究對象有關的外部證據,以及分析數據時使用的假設的合理性等。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 統計︱P值-0.05就發表,不然就去死!
    Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 九成以上研究者或無法正確理解p值
    但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言還有需要更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。況且,由於p 值會因研究設計和操作的不同自然而言地有一定差異,這就意味著在不同的實驗中p值本就沒有可比性。
  • 驚爆| 美國頂級學術期刊宣布禁用p值【連載1】
    據說,一直以來,關於p值的爭論不斷,長文《看電影學統計:p值的陷阱》是2016年6月6日美國德州大學奧斯汀校區政府系林澤民教授在臺灣政大社科院的演講稿,他說,為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    點擊查看 【引言】北京大學統計學專家姚晨老師認為:只要是樣本研究,p值不能少(詳見本文【微點評】),山西大學統計學專家仇麗霞老師從「質性研究」和「量性研究」角度分析認為「目前,p值是抽樣研究結論推斷的『唯一』標準(詳見本文【微點評】)。看來我國醫學統計專家的意見比較統一。
  • 【p值之爭】史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 一篇要求重新定義P值界值的論文,炸起科學界百人論戰
    在一個更低的顯著性閾值要求下,需要更大的樣本量才能讓統計結果顯著,會讓許多實驗無法操作。再者,他說,「當科學如此多樣化的時候,為什麼要限制一個單一的p值標準?」 他和他的同事們在今年年初也投遞了一篇針鋒相對的論文,被《自然-人類行為》接受。與眾不同的是,這篇文章是全世界上百位科學家在谷歌文檔裡共同寫出來的。什麼是p值?P值是一個非常難掌握的概念。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 作為一名數據科學從業者,你應該知道的P值
    維基百科(Wikipedia)對p值的定義讓那些統計和數據科學領域的任何新手都感到望而生畏。關於p值的典型對話是這樣的:而且你只知道一些公式和約定,卻沒有如何系統的解釋什麼是P值的想法。那麼,我們如何一勞永逸地學習p值,並將其根深蒂固地牢記在心?
  • 聽說P界值要從0.05降到0.005?不,這不是真的不是真的
    P不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。P值是在假定兩樣本來自同一總體的前題下,隨機抽樣中獲得研究中這樣差別兩個樣本以及獲得比他們差別更大的抽樣結果‍的總可能性。不過面對一個數值,雖然它很直觀,但是我們仍然需要一個標準來做出判斷,到底要小到多少才叫可能性足夠小了呢。
  • 【論p】ASA關於統計意義和P值的聲明
    合適地選擇技術、恰當地進行分析以及正確解釋統計結論,在保證結論正確和確切表達結果的不確定性上也起了關鍵作用。許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    (即P值為0.0000003)然而,那時候我對p值、假設檢驗甚至統計顯著性都一無所知。接下來的事你猜對了。我用谷歌搜索了p-value這個詞,看了維基百科後我卻更困惑了…在統計學的假設檢驗中,對一個給定的統計模型來說,p值或概率值是一個特定的概率,即當原假設為真時,統計結果(例如兩個對照組中樣本均值差的絕對值)不小於實際觀測值的概率。