聽說P界值要從0.05降到0.005?不,這不是真的不是真的

2020-12-05 騰訊網

P

不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。

首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:

看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。

當然還有更直白的表達:

(Political Analysis, 2018)

2018年1月22日,美國學術期刊《政治分析》宣布從2018年的開始的第26輯起禁用p值。其要義在於:政治分析將不再在回歸表或其他地方報告P值。造成這種變化的原因有很多,其中最重要的一個原因是:單純依靠p值本身,並不能提供支持特定模式或假設的證據。

當然,為p值操心的學者不光是他們。

今年初Daniel J. Benjemin 等72位學者出於對與0.05這個檢驗水準本身過於寬鬆的擔憂,建議將檢驗水準從0.05降低至0.005來遏制那些其實根本沒用的新療法的出現:

(Daniel J. Benjemin, 2018)

此後,美國醫學會雜誌(JAMA),發表了John P. A. Ioannidis的文章:

(John P. A. Ioannidis, 2018)

鑑於對p值存在廣泛的誤解,誤用和過度信任,為了控制假陽性結果的誕生,建議降低檢驗水準到0.005

你這是不想讓研究生畢業的節奏啊!

同樣的研究要驗證p

更重要的,既然知道問題來自於誤解和誤用,那不去解決這些根本問題,還是提議「權衡之策」:對「無辜」的p值本身下手,真的很好嗎?

P值是什麼?

我們組間差別的t檢驗為例:比如我們要驗證一種新的治療方法它的治療效果不同於傳統的治療方法。

P值是在假定兩樣本來自同一總體的前題下,隨機抽樣中獲得研究中這樣差別兩個樣本以及獲得比他們差別更大的抽樣結果‍的總可能性。

不過面對一個數值,雖然它很直觀,但是我們仍然需要一個標準來做出判斷,到底要小到多少才叫可能性足夠小了呢。所以,目前我們通用的標準是0.05,當P

這裡,0.05是我們能夠接受假陽性的水準,因為,它們二者的差異仍有微小的可能來自抽樣誤差,只是已經小到我們可以接受的水平。

所以p值本來是個界於0-1之間的數值,但是為了作出明確判斷,我們賦予了它一個界值。

其實這樣的情況挺多見,比如為了判斷誰是胖子,我們也得給BMI找個界值(BMI>24為超重,BMI>28為肥胖)是一樣的。只不過p值的界值更加「矚目」因為它似乎和研究的成敗聯繫在了一起。

沒有人會因為BMI是不是達到肥胖標準而苦惱不已。

但p=0.049和p=0.051則經常讓人感到是「冰火兩重天」

我們都學習過,p>0.05的結果尚無法支持任何結論,而且您大概也聽說過發表偏倚吧,陽性結果更容易給雜誌社接收和發表。

漸漸地,我們似乎不再介意p值本來的含義,取而代之,我們更關注他是不是能夠

正象很久以前,科學研究的成果沒有公共渠道發布,大牛們互相寫封信就算公布了。為了有個方便對公眾發布的渠道,就有了學術期刊,以方便成果分享。但漸漸的,能否被期刊認可發表,變成了對研究成果的衡量手段。雜誌本身也就比他誕生時的初衷承載了更多。

正所謂「能力越大,責任越大」

自從1925年Ronald Fisher提出p值並廣泛應用以來,P值同樣也承受著不可承受之重

為什麼這麼說呢?

其實臨床研究是一個連續的過程,統計分析與結果的解讀僅僅是其中的一個環節。對於科學命題的驗證,它的科學性考慮是從研究設計階段就開始的。在研究設計中我們會遭遇各種可能影響研究結果偏離真實情況的障礙。比如信息偏倚,選擇偏倚,混雜偏倚等等,如果信息的獲取已經偏離了實際情況,那麼我們無論把允許的假陽性水準降到多麼低,也沒有辦法獲得可靠的結果。而且接下來,研究執行過程的嚴謹性,數據的準確性,統計模型選擇的合理性,都影響著研究的質量與科學性。只是,這一切似乎都將通過p值表現出來並接受大家關注的目光。

由此,單純降低檢驗水準以獲得對假陽性結果控制的設想好像是:

「揚湯止沸+火上澆油」

並沒有對提高研究質量做出實質貢獻。

而且隨著檢驗水準更加極端,有可能增加假陰性的結果比例。比如下面的:

及下面情況中的:

很多上面「非常不可能」就會變成「還不能確定」。

如果以上所呈現的平均水平差異具有代表性,是真實的且具有臨床意義,那麼想獲得統計學驗證的方式就需要更大的樣本量。這意味著更多的人力,經費投入,以及研究結論的延遲獲得。

另一方面,從方法學角度看,自然科學在認識世界的過程中,往往需要首先對實際問題進行合理的簡化入手,以揭示基本規律。進而不斷地豐富發展以更好地逼近真實情況。在統計學的發展中,同樣需要首先從隨機化過程以及相應的多種分布特徵為基礎,認識最基本的統計學規律。並不斷前進。至今隨機模擬仍然是我們了解統計規律的重要手段。

然而面對現實統計問題時我們發現:理論分明而骨幹;現實多樣而豐滿。

將基於理想假設構建的方法應用於解決實際問題的時候,一定會遇到實際問題。

例如,將血液視為不可壓縮的無粘滯的牛頓流體,忽略流變學特徵分析冠脈血流,那麼分析結果的偏差可想而知。時至今日,血液流變學特徵仍然吸引著大量學者不斷探索和前進。

如同統計分析中,大量分析過程基於特定的分布以及隨機樣本構建,然而,實際數據卻往往沒那麼理想。

下圖來自十萬以上數據的年齡特徵直方圖,假設檢驗告訴我們:它來自正態分布的可能性很小。

同時,隨機抽樣在很多情況下幾乎也是無法實施的。

再如臨床常用的回歸分析,大多數情況下僅僅是利用統計學方法幫助我們了解臨床信息間共同變化的趨勢,而非以數學模型對臨床特徵給與精準表達。

所以我們更願意把統計分析看作我們了解世界助手,而不是唯一的「法寶」。

雖然我們會在研究過程中力求嚴謹,以符合設計原則,盡力獲取反映真實情況的信息。不過我們也深知,對自然規律的追尋並無止境。其實,這正是科學的魅力,我們一直走在探索和發現的路上。

綜上,客觀的評判研究結果應該從評價整個研究過程的嚴謹性科學性入手,而且在關注統計學結果的同時更應注重評價結果的臨床意義,並最終做出結論。

無論怎樣,統計學假設檢驗藉助相應的統計分布幫助我們在一定程度上認識數據特徵,了解科學規律。只是它常常被誤解並且一直默默的承受著這一切。

無論怎樣,我們還是用手繪的花盆並栽種花生綠化辦公環境,並送上我們對研究者的祝福。

(我們當然不希望檢驗水準有變啦,不然這花盆還得重畫,彩繪裡傾注的也是心血啊!

盧雙老友審讀, 多謝老朋友!

參考文獻:

Ioannidis JPA. The ProposaltoLower P Value Thresholds to .005. JAMA. 2018;319(14):1429-1430.

Benjamin DJ,Berger JO,Johannesson M, et al. Redefine statistical significance. Nature HumanBehaviour. 2018;2(1):6-10.

Wei Y, Chen F. Lowering the pvalue threshold. JAMA. 2018;320(9):934-935.

Hernandez I, Gellad W F, Good CB. Lowering the p value threshold. JAMA. 2018;320(9):935.

Wasserstein RL, Lazar NA. TheASA's Statement on p-Values: Context, Process, and Purpose. The AmericanStatistician. 2016;70(2):129-133

Wasserstein RL, Lazar NA. 方積乾譯, ASA關於p-值的聲明:背景、過程和目的. 中國衛生統計雜誌,2016;33(3): 548-552

相關焦點

  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 乾貨|統計學的P值危機
    此外,為了更好的重複性問題,也有學者通過複雜的統計模擬(主要是貝葉斯思想),建議將目前的顯著性「significant」閾值降到0.005,而之前的0.05隻有提示意義「suggestive」。那目前已發表的論文當中,那將近三分之一將要歸為「僅有提示意義」。。。
  • 一篇要求重新定義P值界值的論文,炸起科學界百人論戰
    圖片來源:BART VAN OVERBEEKE FOTOGRAFIE而讓萊肯斯抓狂的原因是:這篇論文建議降低在眾多實驗中使用的顯著性閾值,讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率,提高科學實驗的重現率。但是37歲的萊肯斯認為這是一個災難性的想法。
  • 驚爆| p值不是什麼?【連載3】
    【續昨】p值不是什麼?我本來放這部電影都是為了在教學上解釋 p 值的概念,可是後來當我注意到對於 p 值的爭議之後,覺得其實這一部電影也可以用來幫我們了解為什麼用 p 值來做統計推論有可能是錯的。上面這個表是大家都熟悉的。
  • 一篇要求重新定義P值的論文,炸起科學界百人論戰
    圖片來源:BART VAN OVERBEEKE FOTOGRAFIE而讓萊肯斯抓狂的原因是:這篇論文建議降低在眾多實驗中使用的顯著性閾值,讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率,提高科學實驗的重現率。
  • 更加嚴苛的統計學顯著性閾值來了,p<0.05好像要說再見了
    兩天前,Science網站上登了一篇來自Kelly Servick的評論,根據最新的一篇有72個作者將發表在Nature Human Behavior雜誌的文章,過去統計學顯著性閾值(p&
  • 九成以上研究者或無法正確理解p值
    這可能使得研究者一直糾結於自己研究的p值是否小於0.05,從而造成所謂的p值操縱(p-hacking)、發表偏見(publication bias)等一系列負面現象。但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言還有需要更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    (Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. )為了給某種科學主張或論斷提供佐證而把數據分析或科學評估[我懷疑「還原」
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    在等待明天推送的【論p】《中醫藥專家有話說》之前,敬請您還是先「硬著頭皮」把林老師的「偽陽性反機率」統計學「掃盲」讀完。至此,我們的【驚爆】系列將轉為【論p】,更多觀點交鋒,為君呈現,敬請關注!【續昨】偽陽性反機率的問題現在要詳細討論影響偽陽性反機率的因素,就是影響到「統計檢定是顯著的條件之下,虛無假設為真」這一個機率的因素。
  • 怎樣理解 p=0.06 的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 怎樣理解p=0.06的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    2、點擊右上角「 ··· 」即可分享內容到朋友圈。- 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    如果大多數學生都從這門課中記住一點,那可能就是「統計顯著性」和「p值」的概念。這兩個概念通常用於量化研究結果是否是偶然發生的問題。例如,某公司想要衡量兩個不同廣告投放到Facebook上的影響。他們發現,一個廣告吸引了10%的用戶點擊,而另一個廣告吸引了8%。
  • 「P值」背後那些不可不知的事兒
    ④ 羅又一細想,背脊發涼,萬一硬幣真的有問題,我做測試又沒能發現,豈不是著了她的道,這種錯誤叫做第二類錯誤,記為β;⑤ 假設硬幣是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是p值;⑥ 羅想起了費舍爾爺爺規定的 α = 0.05,(這個界限值的意思是說,根據約定俗稱的規定,在假設硬幣沒問題的情況下,得到不正常結果的概率最小為
  • 作為一名數據科學從業者,你應該知道的P值
    我們可以清楚地看到,如果我們遠離峰值,則值的出現會迅速減少,相應的概率也會減少,趨近於一個非常小的接近0的值。但是本文是關於p值的-那麼為什麼我們要看正態分布呢?好吧,考慮到我們上面討論的正態分布,請考慮如何定義P值。P值是上圖中紅點右側值的累計概率(曲線下的面積)。
  • 沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal
    論文標題:Viewing 「p」 through the lens of