隨手學統計:繞不過的 p 值

2021-03-01 丁香說

在上一期的假設檢驗內容中,我們提到要記住 p<0.05 這個節點。那麼問題來了,各種檢驗中都有的 p 值究竟是什麼?當 p<0.05 時,統計結果蘊藏著怎樣的玄機?歡迎走進今天的「隨手學統計」,丁香調查帶你認識這個繞不過的 p 值。

首先,毋庸置疑,p 值是個概率。其真實的含義是當假設情形為真時,出現超出假設中的極端觀察結果的概率。


還沒完全看懂這個定義是在說什麼?沒關係,我們繼續用上期品茶女士的例子來說明,沒看過上一期的朋友們,可在微信中回復「品茶」進行查看。

原假設:我們認為品茶女士沒有品茶能力

觀察結果:品茶女士把 8 杯茶都品了出來

p 值:0.014

這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。

對,這個 p 值(概率)很小很小!所以根據小概率原理,Fisher 君毫無顧慮地把原假設推翻了。小概率原理簡單的說就是,一個事件如果發生的概率很小的話,那麼它在一次試驗中是幾乎不可能發生的,但在多次重複試驗中幾乎是必然發生的。統計學上一般認為,事件發生概率 p < 0.05 即為小概率事件。

當你為自己終於搞懂了什麼是原假設、什麼是 p 值而高興時,我們必須要在這個時候對你說一個很殘酷的事實,這麼多年來你也許把 p 值用錯了!

誤區一:誤把 p 值大小等同於差異大小

我用你的對照組也完成了一個對照試驗,我的 p 值 <0.01 誒,哈哈,我的 p 值比你小,說明我的藥效比你強!B 藥你說錯了哦,這裡的 p 值大小不能表示兩種藥效差異大小,只能表明你們與對照組的差異均有統計學上的顯著性。如果要知道你們之間藥效是否差異,還需要單獨將你們倆作統計比較。

提示:不同實驗中 p<0.05 的意義不表示各實驗結果差異的大小,它只反映各實驗中原假設在統計學上不被認可的概率。

誤區二:沉迷統計學結果 忽視專業判斷

老師,我這次測量兩組患者的收縮壓分別為(126.0±3.1)mmHg、(133.0±2.9)mmHg,經統計檢驗後發現兩者的差異有統計學意義(p<0.05)。哈哈,這一次終於可以把文章發出去了!且慢!讓我們再仔細看一看你的數據。126mmHg 和 133mmHg 這兩組收縮壓完全在正常範圍內!你要用正常血壓之間差異的統計學顯著性來說明什麼問題呢?這個 p 值有實際的意義嗎?

提示:顯著性檢驗只是統計結論,判斷差別還要根據專業知識。這個過程在統計分析中是關鍵性的一步,但往往被很多醫生朋友們所忽略。

誤區三:當p>0.05 時,誤將結論絕對化

一般認為動脈血氧含量能影響氧運輸量,而本研究結果顯示吸 NO 前後血氧飽和度(SpO2)差異的 p>0.05,那我可以認為「動脈血氧含量對患者氧運輸量增加沒有影響」嗎?

這樣理解是不對的。這裡 p>0.05 並不代表「吸了 NO 前後的 SpO2 就一定無變化」, 只是尚且不能拒絕「動脈血氧含量對患者氧運輸量增加沒有影響」這個假設。

本研究沒有在統計學上觀察到動脈血氧含量對患者氧運輸量有影響,很可能是樣本量不足等原因導致統計效率低下。這就涉及到其他的統計學知識。

提示:p>0.05 時,差異無統計學意義,根據統計學原理可知,我們只是不能拒絕原假設,但並不認為原假設肯定就是百分百沒問題的。

本次「隨手學統計」主要闡述了 p 值的含義。簡而言之,p 值表示結果可以由抽樣誤差解釋的可能性。在醫學統計檢驗中,我們不僅要看 p 值,更需要關注真實差異是否足夠大,是否具有專業意義。同時,樣本量也是決定 p 值的關鍵因素,因為篇幅,不再贅述。

小結:

p 值只反映差異有無統計學意義;

下結論時應將統計學結果和專業情況結合起來;

p>0.05 時,說明統計學結果不能拒絕原假設,但並不認為原假設肯定成立。


相關焦點

  • 統計 讓人糾結的統計學P值
    《自然》認為P值只是冰山一角,是「無效假設檢驗」。而根據數學和統計規律,影響P值大小的最重要因素是樣本量和差異大小。不得不承認,有很多統計和研究設計方法很成功,也非常有價值。P值計算是統計學分析的最後一個階段。在實踐中,在研究早期階段對數據進行分析對研究結果也非常重要,這種分析應該貫穿於從實驗設計到影響因素,能提前了解誤差的來源和性質,是來自幹擾因素,還是簡單的測量誤差,從而對實驗設計進行細微調整。(足夠小的)P值是非常容易獲得的目標,也是應用廣泛和容易被濫用的統計學標準。
  • 【統計】p值和FDR
    從這裡我們可以看到,p值其實是「假陽性率FPR」,通過表格的第一列可以計算出。p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解,在假設𝐻0成立的前提下,即先假設「兩組沒有差異」,比較兩組的差值,如果差值符合正態分布,p值越小,說明「兩組沒有差異」的概率越小,通常情況下,當p值小於0.05時,認為是小概率事件,即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1,「兩組有明顯差異」,就是我們經常在論文裡看到的陽性結果。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    [我懷疑「還原」這個詞是不是有點不準確,但我可以理解,「簡化」?]一個結論的正確與否並不會因為研究者算出的P值大於還是小於0.05而改變[雖然原作很繞,但這句話吐槽還是很清楚的,它吐槽的是一種是否通過了類似0.05之類的二元類的方法:後文他的觀點是如果用P值的話,應該給出具體的大小。如果你改成「P值大小」,實際上把槽點扭曲了。]。研究者需要將很多因子納入考慮來作出科學推斷,包括研究設計、測量的質量、與研究對象有關的外部證據,以及分析數據時使用的假設的合理性等。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 統計︱P值-0.05就發表,不然就去死!
    Fisher的具體做法是:2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。
  • P值不重要!P值不重要!!P值不重要!!!
    你們帶著哭腔,殊不知我是真哭了,我給每個人的回答基本都是「p值不重要,效應值才重要。」當然,有些傢伙說「p值>0.05,我就不活了,師兄」也是有辦法對付的(即使p值大於0.05,通過統計檢驗效率計算機模擬版塊也可以做出p很小很小哦,嘿嘿。)
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 醫學論文中統計報告要注意的諸多細節:p值、置信區間...
    1.2 p值略高於0.05,不是一種「趨勢」對於p=0.07這種情況,避免說「有達到統計學差異的趨勢」,或「接近統計顯著性」,因為p值不是在移動的。可以說,儘管我們看到一些證據表明接受新手術患者的反應率有所改善,但兩組間的差異並未達到傳統的統計學顯著性水平。
  • 自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(中英對照22k字附PDF發「自然p值統計錯誤」下載)
    下期文章全面介紹假設檢驗中p值的概念和統計學應用、論文分析和期刊使用情況;包括多個分析數據舉例和計算說明。自然《科學方法:統計錯誤》統計有效性的黃金標準P值並不可靠(21k字)目錄A科學方法:統計錯誤——P值,統計有效性的「黃金標準」,並不像許多科學家所假設的那樣可靠(20890字)離題了(P值的斷章取義)P值到底意味著什麼數值遊戲規則(嘗試改進P值)參考文獻作者信息參考文獻
  • 學點兒統計,長點兒腦子(3)
    承認自己不懂並不丟人,活到老學到老就是,不懂還亂逼逼就不對了。統計學有一個非常重要的概念:「p值」,表徵某變量是不是對某結果具有足夠重要的影響。科學研究的基本路數是先觀察,然後提出解釋,再驗證解釋,如果解釋行得通,看看能不能用來預測「未來」。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • P還是那個P,But美國統計協會到底說了啥?
    假設檢驗的前世今生    2016年3月7日,美國統計協會(ASA)在其官網http://amstat.tandfonline.com/上在線發布了 「美國統計協會關於P值的聲明:背景,過程及目的」,說明了一些前因後果、組織實施過程及目的和初衷。不過,更為重要的是另一個聲明:「美國統計協會關統計顯著性及P值的聲明」。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 統計檢驗假設的P值與檢驗水準α
    本文給大家普及一下檢驗假設中常用到的P值、檢驗水準α以及如何合理解釋。p值是在原假設(零假設)H0正確的前提下,出現觀察結果以及比之觀察結果更極端情形的概率,P值由相應統計模型計算而來,其計算根本不涉及備擇假設。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • qRT-PCR差異分析及P值計算
    P值(P-value),想必大家都不會陌生,它是用來判定假設檢驗結果的一個參數,說直白點就是P值代表了一種可能性,衡量的是隨機出錯的概率。在統計學中,一般要求P值小於0.05;如果P-value=0.05,意味著我們的實驗結果有5%的概率是隨機誤差引起的。
  • 白話空間統計之四:P值和Z值(中)
    P值和Z得分分別表什麼呢? p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件發生的可能性大小。在空間相關性的分析中,p值表示所觀測到的空間模式是由某一隨機過程創建而成的概率。比如我說,你計算出來的p值是1,那就表示你用於計算的這份數據,100%是隨機生成的了(當然,不可能是1的,0.5以上就也不得了)。
  • 【驚爆】 美國頂級學術期刊宣布禁用p值【連載1】
    據說,一直以來,關於p值的爭論不斷,長文《看電影學統計:p值的陷阱》是2016年6月6日美國德州大學奧斯汀校區政府系林澤民教授在臺灣政大社科院的演講稿,他說,為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。
  • 【p值之爭】 史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」
  • 【p值之爭】史丹福大學陸教授有話說
    觀察到的p-值是個統計量,也就是統計觀測值。自身有方差。有時看著p值很小,置信區間卻很寬。但所有的替代方案都會存在同樣的問題。所以p值是評價隨機影響的重要指標,是必要條件之一。但不是充分條件。只用p值決定科研成果是對p值的錯誤使用。醫生不會用一個指標去診斷疾病」。「臨床意義在先,統計學意義在後。無臨床意義的研究不需要統計驗證。」