未達到主要終點時,通常會在特定患者亞組中探索可能的獲益;即使是在陽性試驗的情況下,也可用以確定治療特別有效或無效的患者子集。然而,不幸的是,它們經常被過度解讀或誤用,希望使一項失敗的研究死灰復燃。區分這些被過度解讀、誤用或計劃外的亞組分析與預先規定和精心設計的亞組分析至關重要。今天,跟大家翻譯分享一篇2010年發表在J Thorac Oncol的經典文獻《What a Clinician Ought to Know: Subgroup Analyses》,為臨床醫生提供如何適當解釋亞組分析的簡明指南。
一、什麼是亞組分析?
在隨機臨床試驗中,亞組分析指的是在根據基線特徵(如年齡、性別、組織學和種族)定義的患者亞組中評估特定終點(如總生存期)的治療效果(如風險比HR)。不建議根據隨機化後測量結果確定亞組,因為可能會影響患者分配至亞組的隨機化原則。
亞組分析有助於探索更可能從試驗性治療中獲益的患者亞組,從而從臨床試驗中獲得最大化信息。隨後,可根據這些結果生成新的假設和試驗。最終,這可能導致臨床實踐的變化。
此外,亞組分析還可用於評價總體治療效果在患者亞組之間是否一致,這通常被稱為「穩健性檢查」(robustness checking)。基於上述原因,監管機構支持進行適當的亞組分析。
二、亞組分析存在哪些問題?
亞組分析有兩個關鍵的統計學局限性。首先,它們經常統計效能不足(under-powered)。這是由於臨床試驗的樣本量計算通常僅考慮在所有隨機化患者(而非患者子集)中達到足夠的統計效能。因此,某一亞組(如性別)的一個子集(男性)與另一個子集(女性)中觀察到的治療效應是否存在顯著差異的交互效應檢驗通常效力不足。因此,亞組分析容易產生「假陰性」結果。
亞組分析的第二個主要局限性在於特別容易出現多重性(multiplicity)。多重性是指獲得「假陽性」結果的概率增加,即錯誤地得出治療組之間存在顯著差異的結論。換句話說,通過對主要終點進行多次亞組分析,這些比較中的一個或多個偶然產生顯著結果的可能性更大。例如,如果對主要終點進行10次比較,其中至少有一次得出假陽性結果的概率為40%。因此,當進行多個亞組分析時,單次比較中小於0.05的p值並不能提供充分的證據支持治療組之間存在顯著差異。
三、亞組分析可能導致哪些有害的後果?
亞組分析有時可用於「拯救」一項失敗的研究,即雖然未達到試驗的主要目的,但發現試驗組在特定患者亞組中顯著優於對照藥物。然而,正因於此,申辦方可能會對許多亞組進行計劃外的分析,以嘗試找到治療組顯著優於對照藥物的一個(或幾個)患者亞組,這通常被描述為「數據疏通(data dredging)」或「捕魚旅行(fishing trip)」。對亞組分析的誤讀可能導致啟動基於未經證實的假設的臨床研究,並最終造成對受試者健康的直接損害。這些有害後果的成本極高,但通過了解亞組分析的基本原理可以很容易地進行預防。
四、如何正確實施和解釋亞組分析?
為了適當進行和解釋亞組分析,首先需要確定是否預先規定了亞組分析。預先規定的亞組分析旨在進行假設檢驗;與之相反,計劃外(也稱為探索性、回顧性或事後)的亞組分析則生成新的假設並進行「穩健性檢查」。需要指出的是,兩者都可以提供有價值的信息,但原理和目的存在很大的差異。而且,只能根據預先規定的亞組分析才能得出結論性推論,或導致臨床實踐中的任何後續變化。
為了克服效能不足(把握度降低)和多重性的兩大統計學局限性,以下5個步驟概述了適當進行、解釋和報告預先規定的亞組分析的最佳方法:
1、在方案和/或統計分析計劃(SAP)中預先設定亞組分析
大多數情況下,應在方案中詳細記錄預先指定的亞組分析。但也可在數據揭盲前或開放性研究的首例患者訪視前在SAP中詳述。下表概述了預先規定亞組分析時應記錄的信息。
預先規定的亞組分析被認為更可信,因為它們是在任何數據檢查之前就計劃的。但是,預先規定或計劃外的亞組分析都傾向於多重性,即由於檢測上述多個亞組導致假陽性結果的概率增加。因此,僅預先規定亞組分析並不能使其自動有效:仍必須按照以下步驟適當進行、解釋和報告。
2、使用交互效應檢驗(Interaction Test)
交互效應檢驗是進行亞組分析最合適的統計方法,這一概念可用以下假設示例來說明:
圖1:什麼是交互效應檢驗?
假設臨床試驗中有兩個治療(Tx)組:Tx A組和Tx B。根據基線特徵定義的患者亞組也有兩個水平:男性和女性。連接圓圈和正方形的回歸線分別代表Tx A和Tx B治療延長總生存期的療效。因此,回歸線越高,死亡風險越高。
通過亞組每個水平的箭頭意指治療效應。如果回歸線平行,則治療效應和性別之間無交互效應(圖A),即男性的治療效果與女性相同。如果回歸線不平行或交叉(圖B和圖C),則治療效應和性別之間存在統計學顯著的交互效應,即男性的治療效果與女性存在顯著差異。
3、估計亞組每個水平的治療效應
交互效應檢驗通常作為回歸模型的一部分進行,而回歸模型的類型取決於分析的終點。Cox比例風險模型是分析臨床試驗中至事件時間終點的標準方法。因此,在該假設示例的情況下,使用Cox模型進行」治療-性別」交互效應檢驗,提供了亞組每個水平的HR(Tx A vs Tx B)、95%置信區間和相關p值。
圖2:通常使用森林圖顯示亞組分析結果。上圖是與圖1C中描述的交互效應示例相對應的結果。菱形代表HR的點估計值(Tx A vs Tx B),水平線代表95%置信區間。
應謹慎解釋亞組每個水平HR的相關p值。一個常見的錯誤是聲稱存在治療效應差異,因為與HR相關的p值在男性中具有統計學顯著性,但在女性中不具有顯著性。這是不正確的,因為僅有交互效應檢驗的p值才能確定在不同性別中觀察到的HR是否存在顯著差異。這是因為交互效應檢驗考慮了:(i)亞組不同水平患者的預後,例如,無論分配的治療如何,女性的總生存期可能優於男性;(ii)除組內變異性外,男性和女性之間的組間變異性。
4、使用確證性證據驗證亞組結果
為了證實單個臨床試驗的亞組結果,需要在獨立研究或薈萃分析中進一步驗證。需要強調的是,在得到確證性證據之前,亞組分析僅生成假設,在所有隨機化患者中觀察到的治療效果仍被視為亞組每個水平患者的最合適估計值。
5、負責任地報告結果
需要負責任地報告亞組結果,以便其他人能夠對其進行適當解釋。應在摘要和結論中強調所有隨機化患者的主要終點分析結果。此外,還應說明預先規定的亞組分析的名稱,並應明確說明預先規定和計劃外進行的亞組分析的數量。還應在當前確證性證據和科學文獻的背景下討論亞組分析結果的有效性。
上文所述概念適用於任何類型的終點,例如分類(應答者或非應答者)、連續(收縮壓)或至事件時間數據(總生存期)。下表總結了幫助臨床醫生正確解釋亞組分析的關鍵要點。
參考資料:
Barraclough H, Govindan R. Biostatistics primer: what a clinician ought to know: subgroup analyses. J Thorac Oncol. 2010 May;5(5):741-6.