導讀:2019年11月,Journalof Clinical Oncology雜誌發表了NEJ-009研究的全部結果,OS分析顯示,吉非替尼聯合化療組的OS為50.9個月,單純吉非替尼組為38.8個月,P=0.021,兩條生存曲線明顯分開,但作者在結論中卻說,OS是陰性結果,OS的獲益需要進一步確認,這是為何?要想了解這個問題,首先要從多重性比較說起。
一、什麼是多重性比較?
關於多重性比較的定義,筆者舉個慄子可能會更加容易理解。比如,某研究欲比較新藥A,較當前標準治療藥物B,能否改善EGFR突變的晚期肺癌患者的預後,研究設計如下圖:
這一最常見的研究設計有幾個特點:
第一:只設定兩組。如果研究中設定多個治療組,如新藥組設定低、中、高三個不同劑量,每一個劑量組均需要和當前標準治療比較,則涉及到了多重性比較;
第二:只使用單個療效指標,即PFS。如果研究設定多個療效指標,如PFS和OS為共同主要終點,很顯然,又涉及多重性比較
第三:關於主要指標的原假設只有一個,即假設新藥治療較當前標準治療更好。如果這個研究設定多個原假設,如先進行非劣效檢驗,達到後在進行優效性檢驗,即研究為非劣效轉優效的設計,則主要指標的原假設就有兩個,又涉及多重性比較;
第四:只在一個時間點上進行統計推斷,即PFS的首次分析就是最後一次分析。如果為了提前了解藥物的療效而設定多次期中分析,又涉及到了多重性檢驗。
因此,多重性檢驗就是指同一個研究中,需要對多個檢驗假設分別進行統計推斷,而重複進行統計推斷的原因可能是出現了多個治療組、多個療效指標、多個原假設、多次中期分析等,其本質就是進行重複的統計檢驗。
二、多重性比較有何後果?
在臨床研究中,通常設定的顯著性水準是0.05,這裡的顯著性水準是什麼意思呢?他是指我們能接受的研究結果為假陽性可能的概率上限為0.05。比如最終得到的P值為0.03,說明犯I類錯誤(即得到假陽性結果)的概率為0.03,低於預設的0.05,由此認為本次試驗的陽性結果不太可能是假陽性;相反,如果P值等於0.1,高於預設的顯著性水準,則認為本次的陽性結果是由於抽樣誤差等原因導致的假陽性結果,由此認為研究失敗。
如果有一個臨床研究,共計進行了5次多重性比較,每一次的顯著性水準都設定為0.05,這就意味著單次獨立統計檢驗犯假陽性錯誤概率為0.05,很顯然,未犯假陽性錯誤概率為1-0.05=0.95,那麼5次檢驗中至少出現一次假陽性結論的概率為1-0. 955=0.226>>0.05,因此,通過這簡單的計算我們可以看到,多重性比較的直接後果就是,使得研究得到假陽性結果的可能呈現指數增長,統計學中稱之為I類錯誤膨脹(新的I類錯誤稱為全局I類錯誤,即文獻中所說的FWER)。
三、不同視角關注I類錯誤膨脹
既然多重性比較可以導致研究得到假陽性結果的可能大大增加,那麼誰會更加關注I類錯誤的控制呢?
我們知道,對II期臨床研究而言,主要目的是初步探索藥物的療效,如果有效,則進一步開展確證性III期臨床研究,因此,如果II期臨床研究沒有進行很好的I類錯誤控制,那麼III期臨床研究有可能基於II研究的假陽性結果展開,從而使廠家及研究者的投入打水漂,因此,II期臨床研究中,研究者及廠家更加注重I類錯誤控制;
對III期臨床而言,其主要目的是確認藥物的療效並提請藥物上市或擴大適應症,此時,研究如果沒有對I類錯誤進行有效控制,那麼監管部門有可能基於假陽性結果批准藥物上市,直接導致的後果就是患者接受實際無效的治療。因此,對於III期臨床研究而言,監管部門更加注重I類錯誤。
因此,在整個臨床研究中,不管是II期研究還是III期研究,I類錯誤校正是整個研究的核心之一。那如何進行I類錯誤校正,歡迎關注下期推送——P<0.05為何無統計學意義:多重性比較了解一下(下篇)。