JAMA:p值檢驗,你用對了嗎?

2020-11-29 生物谷

 

2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。

史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。

研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。

"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"斯坦福Meta-聯合創新中心主任、疾病預防和健康教授、醫學博士John Ioannidis說。這項研究將發表在3月15日JAMA雜誌中。

研究小組用自動搜索文本挖掘搜索生物醫學資料庫MEDLINE和PubMed Central,尋找數百萬計文章摘要中的p值檢驗,並手動篩查1000份摘要和100份全文。搜索的文章都是1990年到2015年發表的。

p值的普遍濫用--經常給可信的研究帶來錯誤--逐漸在學術界變為一件尷尬的事情,包心理學和生物醫學等領域。

比如對Nature,STAT和FiveThirtyEight的聲明就報導了p值的漏洞。3月7號,美國統計協會發表了一份聲明警告他們的濫用。其中聲明附帶的一則評論是波士頓大學流行病學家Kenneth Rothman的,他說:"這些問題很是致命的,可以肯定正因為科學家(和編輯、監管機構、記者和其他人)用顯著性檢驗解釋實驗結果,並因此沒有得到最有幫助的東西。"

研究小組從數百萬生物醫學文章摘要中統計得出,p值的報導從1990年的7.3%上升到2015年的15.6%。醫學核心期刊文章摘要中有33%使用p值,而隨機對照臨床試驗的一部分中,這個數據竟達到將近55%。

P值的含義?
P值是用來說明一個基本統計學問題。假設一個臨床試驗比較兩種藥物的治療效果,藥物A似乎比藥物比的療效高10%。這可能是因為藥物A確實更有效10%。或者在那次試驗中讓藥物A顯得更加有效。簡單來說,是藥物A幸運而已。那你怎麼知道到底是哪種情況?

P值評估的是"由於零假設是真,還得來這樣的數據"的可能性有多大--在這個例子中,零假設為真即藥物A和B的藥效沒有區別。所以舉例來講,如果藥物A和B的藥效相同,而你進行研究比較它們,得到p值是0.05,意思就是說藥物A有5%的可能性比藥物B的藥效強10%或更多。

"P值的確切定義是",該小組研究人員Ioannidis說,"如果零假設是正確的,觀察到這次實驗結果或一些更好結果的可能性。不幸的是,許多研究人員都誤以為p值代表零假設不正確的可能性或結果是真實的可能性。"

P值<真相
"P值並不是告訴你某些事情是否是真實的。如果你得到的p值為0.01,意思並不是說某些東西不真實的可能性有1%",Ioannids補充說,"p值為0.01可以代表結果20% 的真實性、80%的真實性或者0.1%的真實性--所有這些都可以有相同的p值。僅僅p值本身並不能告訴你結果的真實性。如果想真正評估結果的真偽性,應該用錯誤發現率和貝葉斯因子計算。
"

儘管p值的使用很受限,現在它竟然成為一個好的實驗設計的標誌。Ioannids與他的團隊發現,事實上摘要中的p值被武斷地定義為"統計顯著性"--通常設定為小於0.05。團隊發現96%的有p值的摘要都至少有一個這樣的"統計顯著性"p值。

Ionnidis說:"這表明選擇壓力傾向於更好的結果。事實上有這麼多顯著性結果是完全不現實的,不可能96%的檢驗假設都是顯著性的"。

有多大影響?

雖然報導實驗結果具有統計性顯著的文章越來越多,但很少有文章報導治療效果與空白對照組或安慰劑組有多大差別。比如假設有10000名患者服藥後在病症上跟另外10000名未服藥的患者有平均提高,但只提高了1%,那麼從p值得來的統計性顯著就沒有什麼實際意義。

796篇手動審查的論文中,只有111篇報導了效應量,18篇報導了置信區間(衡量效應大小的不確定性)。沒有文章報導貝葉斯因子或錯誤發生率,這兩個值是Ionnidis說更適合告訴我們是否觀察到的是否真實的指標。不到2%的摘要同時報導了效應量和置信區間。

在隨機抽取的99篇全文文章中,有55篇至少報導了一個p值,但只有4篇報導了所有效應量的置信區間,沒有一篇使用貝葉斯方法,只有一篇使用了錯誤發生率。

Ioannidis主張用更嚴格的方法分析數據,"改進的方式,是p值應該更選擇性地使用。使用時同時報導應效應量和置信區間。使用貝葉斯方法或錯誤發現率回答問題是一個很好的注意,比如'這個結果是真實的可能性有多大?'"(生物谷Bioon.com)

本文系生物谷原創編譯整理,歡迎轉載!點擊 獲取授權 。更多資訊請下載生物谷APP. 

生物谷推薦英文原文報導:Misleading p-values showing up more often in biomedical journal articles

相關焦點

  • 假設檢驗:使用p值來接受或拒絕你的假設
    它與原假設相反,替代假設和原假設一起覆蓋了總體參數的所有可能值。用H1表示。讓我們用一個例子來理解這一點:一家肥皂公司聲稱他們的產品平均殺死99%的細菌。為了檢驗這家公司的主張,我們將提出零和替代假設。
  • f檢驗的p值大於 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • f檢驗求p值 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • 卡方檢驗中的p值計算 - CSDN
    卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴展點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。
  • 你真的懂p值嗎? 說人話的統計學
    ►面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。
  • 二、統計檢驗與p值
    我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。有時候會有學生找我說,幫忙算個p值,我就會問,你的零假設是什麼?這句話等同於問「你想幹嘛?」,神奇的是,有些時候有些人就真的不知道自己想幹嘛!
  • 被Nature科學家封殺的P值,到底有什麼意義?
    P值在潛移默化地影響著我們的生活,那麼有沒有想過我們所依賴的P值到底可靠嗎?P值的表面意義是,當原假設為真時,檢驗統計量出現某不應該值所需的概率;而其實際意義則是,只需多小的概率就能出現拒絕原假設的檢驗統計值。
  • 隨手學統計:繞不過的 p 值
    在上一期的假設檢驗內容中,我們提到要記住 p<0.05 這個節點。那麼問題來了,各種檢驗中都有的 p 值究竟是什麼?
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    那時我對 p 值、假設檢驗甚至統計顯著一無所知。直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。
  • r語言的p值檢驗 - CSDN
    微信公眾號:醫學統計與R語言如果你覺得對你有幫助,歡迎轉發matrix(rnorm(1000* 6, 0, 3), 6) rvar = apply(rdata, 2, var) mean(rvar)結果1: [1] 8輸入2: var(rvar)結果2: [1] 32=2*81/5輸入3: library(ggplot2)p1
  • T檢驗與F檢驗,你分清楚嗎?
    在許多研究領域,0.05的p值通常被認為是可接受錯誤的邊界水平。 3.   T檢驗和F檢驗至於具體要檢定的內容,須看你是在做哪一個統計程序。舉一個例子,比如,你要檢驗兩獨立樣本均數差異是否能推論至總體,而行的t檢驗。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 統計︱P值-0.05就發表,不然就去死!
    ⑶統計學主要用三種α值來與P值比較(0.1;0.05;0.01),也可以計算出確切的P值,也有人用P <0.001,至於選擇哪個要看檢驗的應用領域。⑷顯著性檢驗只是統計結論。判斷差別還要根據專業知識。
  • P值之死
    為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。KarlPearson很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 【統計】p值和FDR
    在表格中可以表示為,為了檢驗的準確性,FP越小越好。那麼我們通常所說的p值的計算公式可以簡單寫成:p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例,所以它是針對單次統計推斷的一個置信度評估。
  • 為什麼卡方值是0,p值是1?
    ——《推拿》有個老師在做卡方檢驗的時候,做出來的卡方值是0,p值也接近1 了,自我感覺不太對,就來諮詢我,我索性把這個做一個統一的講解。(數據為亂編,如有雷同,純屬巧合。)這是SPSS錄入數據的界面,檢驗一下兩組之間性別人數是否有差異。
  • matlab t檢驗值_matlab t檢驗p值 - CSDN
    2012建模的題目是要求對葡萄酒品質進行評價,第一問是兩組葡萄酒的評價有沒有顯著性差異,用的是統計學中的假設T檢驗。xlsread('2012A_T1_processed.xls', 'T2_red_grape', 'D3:M272');X3=xlsread('2012A_T1_processed.xls', 'T1_white_grape', 'D3:M282');X4=xlsread('2012A_T1_processed.xls', 'T2_white_grape', 'D3:M282');%% 紅葡萄酒T檢驗計算過程
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。