P<0.05為何無統計學意義:多重性比較了解一下(上篇)

2021-01-20 腫瘤論壇

導讀:2019年11月,Journalof Clinical Oncology雜誌發表了NEJ-009研究的全部結果,OS分析顯示,吉非替尼聯合化療組的OS為50.9個月,單純吉非替尼組為38.8個月,P=0.021,兩條生存曲線明顯分開,但作者在結論中卻說,OS是陰性結果,OS的獲益需要進一步確認,這是為何?要想了解這個問題,首先要從多重性比較說起。

 

一、什麼是多重性比較?

關於多重性比較的定義,筆者舉個慄子可能會更加容易理解。比如,某研究欲比較新藥A,較當前標準治療藥物B,能否改善EGFR突變的晚期肺癌患者的預後,研究設計如下圖:



這一最常見的研究設計有幾個特點:


第一:只設定兩組。如果研究中設定多個治療組,如新藥組設定低、中、高三個不同劑量,每一個劑量組均需要和當前標準治療比較,則涉及到了多重性比較;

第二:只使用單個療效指標,即PFS。如果研究設定多個療效指標,如PFS和OS為共同主要終點,很顯然,又涉及多重性比較

第三:關於主要指標的原假設只有一個,即假設新藥治療較當前標準治療更好。如果這個研究設定多個原假設,如先進行非劣效檢驗,達到後在進行優效性檢驗,即研究為非劣效轉優效的設計,則主要指標的原假設就有兩個,又涉及多重性比較;

第四:只在一個時間點上進行統計推斷,即PFS的首次分析就是最後一次分析。如果為了提前了解藥物的療效而設定多次期中分析,又涉及到了多重性檢驗。

 

因此,多重性檢驗就是指同一個研究中,需要對多個檢驗假設分別進行統計推斷,而重複進行統計推斷的原因可能是出現了多個治療組、多個療效指標、多個原假設、多次中期分析等,其本質就是進行重複的統計檢驗。

 

二、多重性比較有何後果?

在臨床研究中,通常設定的顯著性水準是0.05,這裡的顯著性水準是什麼意思呢?他是指我們能接受的研究結果為假陽性可能的概率上限為0.05。比如最終得到的P值為0.03,說明犯I類錯誤(即得到假陽性結果)的概率為0.03,低於預設的0.05,由此認為本次試驗的陽性結果不太可能是假陽性;相反,如果P值等於0.1,高於預設的顯著性水準,則認為本次的陽性結果是由於抽樣誤差等原因導致的假陽性結果,由此認為研究失敗。

如果有一個臨床研究,共計進行了5次多重性比較,每一次的顯著性水準都設定為0.05,這就意味著單次獨立統計檢驗犯假陽性錯誤概率為0.05,很顯然,未犯假陽性錯誤概率為1-0.05=0.95,那麼5次檢驗中至少出現一次假陽性結論的概率為1-0. 955=0.226>>0.05,因此,通過這簡單的計算我們可以看到,多重性比較的直接後果就是,使得研究得到假陽性結果的可能呈現指數增長,統計學中稱之為I類錯誤膨脹(新的I類錯誤稱為全局I類錯誤,即文獻中所說的FWER)。

 

三、不同視角關注I類錯誤膨脹

既然多重性比較可以導致研究得到假陽性結果的可能大大增加,那麼誰會更加關注I類錯誤的控制呢?

我們知道,對II期臨床研究而言,主要目的是初步探索藥物的療效,如果有效,則進一步開展確證性III期臨床研究,因此,如果II期臨床研究沒有進行很好的I類錯誤控制,那麼III期臨床研究有可能基於II研究的假陽性結果展開,從而使廠家及研究者的投入打水漂,因此,II期臨床研究中,研究者及廠家更加注重I類錯誤控制;

對III期臨床而言,其主要目的是確認藥物的療效並提請藥物上市或擴大適應症,此時,研究如果沒有對I類錯誤進行有效控制,那麼監管部門有可能基於假陽性結果批准藥物上市,直接導致的後果就是患者接受實際無效的治療。因此,對於III期臨床研究而言,監管部門更加注重I類錯誤。


因此,在整個臨床研究中,不管是II期研究還是III期研究,I類錯誤校正是整個研究的核心之一。那如何進行I類錯誤校正,歡迎關注下期推送——P0.05為何無統計學意義:多重性比較了解一下(下篇)


相關焦點

  • 怎樣理解 p=0.06 的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 怎樣理解p=0.06的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 統計學中的P值與顯著性的意義
     二、統計學意義結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • 更加嚴苛的統計學顯著性閾值來了,p<0.05好像要說再見了
    兩天前,Science網站上登了一篇來自Kelly Servick的評論,根據最新的一篇有72個作者將發表在Nature Human Behavior雜誌的文章,過去統計學顯著性閾值
  • P接近0.05,可以有100種英文描述方法?!
    嘗試了各種合適的統計學方法,P值依然穩穩地略高於0.05,你應該得出結論「無統計學意義(non-significant)」,並這樣寫到文章裡。然而,對於很多作者來說,這並不是他們想尋找的答案:因為感覺發布「陰性結果」的文章要比「陽性結果」的文章難呀。很多人的解決方案就是採用由來已久的迂迴策略,將無統計學意義的結果裝扮地更有趣。
  • 統計︱P值-0.05就發表,不然就去死!
    .如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。.如果0.01<P值<0.05,說明較弱的判定結果,拒接假定的參數取值。.如果P值>0.05,說明結果更傾向於接受假定的參數取值。
  • 畫說統計 P>0.05 你到底要告訴我啥?
    在醫學研究中,統計學檢驗是驗證研究目的的重要手段。      0.05是常用的顯著性水平。
  • 多重比較Bonferroni校正太苛刻?如何解決?
    當研究者進行多次假設檢驗,儘管實際上沒有統計學意義,但總有一兩次能得到有意義的結果。傳統的假設檢驗是基於一個原假設得到的觀察樣本結果或更極端情況的概率。當進行多重比較時,傳統P值就不能代表基於原假設的真實概率了。  多重比較問題  幾乎所有科學研究都會面臨多重比較問題。常見的是,研究者不僅關注某個處理組與對照組的比較。
  • 你真的懂p值嗎? 說人話的統計學
    ►好好好,那咱們來舉個例子:假設明天就要宿舍衛生檢查了,可同住一屋的藍精靈和格格巫都不想搞衛生,在一番謙(si)讓(bi)之後,格格巫掏出一塊看起來很無辜的鋼蹦兒,提議這事兒交給老天爺決定:正面藍精靈做,反面他做。被格格巫坑過或試圖坑過不止一次的藍精靈心想,這鋼蹦兒會不會不太對勁,拋出來正反面的可能性不一樣大?於是藍精靈拿到鋼蹦兒,跑到牆角自己先拋了五遍,結果傻眼了——五遍都是正面!
  • StatQuest生物統計學 - 線性擬合的R2和p值
    ,了解了直線擬合和曲線擬合的一般方法,但是如何衡量線性擬合的效果呢?為何SS(mean)可以代表小鼠大小的總波動性?一組數據在不進行擬合的時候,可以使用平均值來衡量,所以所有點同mean之間的殘差平方和就是數據的總波動大小。
  • P<0.05就萬事大吉了嗎?別天真了!統計功效你造嗎?
    然而,要從數據中得到一個有說服力的結論,並不僅是追求p<0.05就可以了,我們還要考慮統計功效(Statistical Power),其中樣本量就是很重要的一個因素。低功效的實驗更容易得出虛假的結果,也就是說,你那個P<0.05沒啥卵用。統計功效是個什麼鬼?
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    - 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    普遍的問題 首先明確必須停止的事:我們不應該僅僅因為p值大於某個臨界值,比如0.05或者因為零在置信區間,而下結論說兩組之間『沒有差異』或者『沒有關聯』。也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。這些錯誤會浪費研究工作並誤導科學決策。
  • 統計學基礎遭質疑! p值、信賴區間為何被數百科學家連名反對?
    顯著性這一概念是支撐統計學發展的大廈。統計學課本中寫到:沒有統計顯著性則不能「證明」零假設(關於兩組之間無差或者兩個實驗組和對照組的假設)。同時,統計顯著性也不「證明」其他假設。三位統計學教授主張:反對統計學意義、停用 p 值為判斷標準。
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    本文經授權轉載自公眾號: 新智元(ID:AI_era),作者:新智元統計學白學了?最新一期Nature雜誌發表了三位統計學家的一封公開信,他們號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。
  • 隨手學統計:繞不過的 p 值
    提示:不同實驗中 p<0.05 的意義不表示各實驗結果差異的大小,它只反映各實驗中原假設在統計學上不被認可的概率。誤區二:沉迷統計學結果 忽視專業判斷老師,我這次測量兩組患者的收縮壓分別為(126.0±3.1)mmHg、(133.0±2.9)mmHg,經統計檢驗後發現兩者的差異有統計學意義(p<0.05)。哈哈,這一次終於可以把文章發出去了!
  • 統計學中的P值,「差異具有顯著性」和「具有顯著差異」
  • 被Nature科學家封殺的P值,到底有什麼意義?
    大家對0.05的顯著性水平比較認可,把p<0.05作為了一種比較公認的判斷標準,因而符合p<0.05的研究結果就比較容易得到發表)同時,文章指出,當區間估計包括嚴重的風險增加時,得出結論認為統計上不顯著的結果「無關聯」是荒謬的。聲稱這些結果與顯示相同觀察效果的早期結果形成對比同樣荒謬。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成 的。