初稿,請大家討論。
隨著精準醫學時代的到來,臨床預測模型在醫療診斷治療決策、病人預後管理以及公共衛生資源配置等方面的應用越來越多,其價值也愈發重要。開發臨床預測模型是一項複雜的系統工程,涉及研究問題、數據集、變量、模型以及結果報告諸多環節,儘管有眾多文獻討論過其中的方法學問題[1-5],《個體預後與診斷的多變量預測模型透明報告》(TRIPOD)研究組也給出了報告規範[6],但仍有很多臨床預測模型在方法學上存在缺陷。在本系列文章開篇文章的基礎上[7],本文將臨床預測模型建立的全過程歸納總結為8個步驟,並將其中的概念及重要原則做一系統介紹。
1 確立研究問題
並非所有的問題都適合用臨床預模型來回答,例如幹預/暴露措施的效應估與比較則適合用t檢驗/方差分析,卡方檢驗,Log-rank檢驗等統計學假設檢驗或者校正模型來回答。臨床預測模型適合回答疾病的診斷或預後相關問題,特別是哪些因素影響是否患有某病或是否發生某事件以及這些因素的組合如何準確的估計其患病或事件發生的概率。
2 選擇數據來源
不同的臨床預測模型問題適合用不同的研究設計數據來回答。對於診斷類問題,其預測因子與結局均在同一時點或很短的時間內,適合採用橫斷面研究數據構建診斷模型;對於預後類問題,其預測因子與結局有縱向的時間邏輯,適合採用隊列研究數據擬合預後模型。隨機對照臨床試驗可視為入選更為嚴格前瞻性隊列,因此也可用於建立預後模型,但在外推性受限。回顧性的隊列研究因其人群選擇偏倚和信息偏倚,不適合建立預後模型,但剿式病例對照或者病例隊列研究在罕見結局或者預測因子測量昂貴的研究中是經濟、可行的方案。
3 篩選預測變量
臨床預測模型中變量的篩選有三種策略:①基於文獻報導,②基於統計方法,③基於醫學認識。建立預測模型前,研究者應該系統檢索文獻,收集整理已經報導的預測因子以備用。目前並無廣泛認可的最優統計方法篩選預測因子,常見的預測因子篩選策略有兩種:全模型策略或者篩選模型策略。全模型策略是將所有的潛在因子納入統計模型,且不進行篩選。全模型策略的優勢是可以避免模型過度擬合以及預測因子的篩選偏倚[8],但在實踐操作中,全模型不好定義,研究者的認識、變量測量的質量以及數據集的樣本量等都會影響到最終預測因子變量清單的確定,且納入所有潛在的預測因子也不切實際。篩選模型策略是藉助統計模型評估預測因子與結局的關係,並基於一定的準則,比如P值,AIC/BIC值等來篩選變量。P
篩選預測模型的預測因子雖有各種統計方法[11],但任何預測模型的變量篩選,都不能完全依賴於統計方法,應該結合專業知識以及專業領域的經驗。此外,在確定預測模型的預測因子時,一些實際的因素,如指標測量的難易度、測量成本、以及應用的難易度等也因考慮在內。
4 處理預測變量
預測模型中,處理變量時首先可能遇到的問題就是缺失值。雖說處理缺失值最好的方法是防止出現缺失值,但缺失值是任何研究都無法迴避的問題。當缺失的樣本例數大時,直接剔除不僅可能引入選擇偏倚,而且導致把握度下降[4],因此,缺失值插補是一個重要的彌補方法[12]。缺失值插補可利用病人未缺失的所有變量信息去估計其缺失變量最有可能的值。此外,不同的變量類型在納入模型時,也需做不同的處理。分類變量的某些類的頻數過低時,應考慮將相近的類合併;連續變量通常假定為線性關係納入模型,但研究者應該藉助限制性立方樣條(Restricted Cubic Splines, RCS)函數或者多項式(Fractional Polynomials, FPs)考察非線性擬合是否更為合適,如J型或U型曲線[13-15]。雖然也有研究者將聯繫變量切割後納入模型中,這在後期將預測模型推向大眾應用時是可取的,但不推薦在模型建立初期採用此策略[1, 2]。此外,連續變量變化的尺度通常為1個單位(如1歲),但考慮到實際效應,研究者也應該嘗試其它尺度,比如1個標準差或者10個單位(如10歲)。
5 擬合預測模型
在模型擬合階段,研究者需要考慮以下問題:(1)數據集的劃分;(2)預測模型的選擇;(3)係數估計的算法。使用全部的數據擬合模型,建立預測模型,可以最大程度的利用樣本,但這樣的模型不穩定,「遷移」能力差,當場景稍有變動,模型的預測能力有可能發生變化。因此,擬合預測模型前,研究者通常將數據集劃分為訓練集和驗證集, 以訓練集數據擬合預測模型,以驗證集數據評估模型[16]。劃分模擬與驗證數據集時,常見的策略包括隨機拆分樣本、交叉驗證(Cross-validation)[17]以及Boostrap重抽樣[18]。選擇預測模型時,研究者需考慮變量類型及數據來源。二分類變量結局多適於診斷模型或短期的預後模型,常用Logistic回歸擬合;事件-時間變量多見於長期的預後模型,常用Cox回歸擬合。此外,若結局為罕見的事件,可用泊松回歸擬合,若結局為於連續變量,可用線性回歸擬合。係數估計時,線性回歸中常用最小二乘估計法,Logistic和Cox回歸常用最大似然(maximum likelihood, ML)估計法。一些新的估計技術,如shrinkage技術[19]、懲罰最大似然估計[20]、以及LASSO[21]算法的運用也日漸普遍。
6 評估預測模型
建立的預測模型需要評估其性能,以考察其可重複性以及外推性,因此,嚴格的預測模型評估過程包括了內部以及外部數據的驗證。當使用和訓練集同源的數據集時,稱之為內部驗證。常用的內部驗證方法包括隨機拆分驗證、交叉驗證以及Bootstrap重抽樣, 其中Boostrap重抽樣是目前業界最為推崇的內部驗證方法[18]。當使用和訓練集不同源的數據集時,稱之為外部驗證。外部驗證可採用不同時間、不同地域、不同時間及地域的數據集[22]。
無論是內部驗證還是外部驗證,均需要採用的一定的指標評估模型的性能。區分度(Discrimination)和校準度(Calibration)是兩個最常見的模型評價指標[23]。區分度是指模型區分是否患有待診斷的疾病(診斷模型)或是否發生預期的事件(預測模型)的能力,最常見的區分度刻畫指標如AUC,或者C統計量。校準度則是評估預測的概率與實際觀察到的概率的一致性,最常見的展現方式是校準度圖,即按預測的概率的10等份分人群,以每等份預測概率的均值為X軸,實際事件的比例為Y軸。理想的狀況下,校準度圖是一條截距為0,斜率為1的一條直線。關於模型的驗證,我們將在下一篇文章詳細討論,此處做簡要概念介紹。
7 呈現預測模型
為了讓臨床預測模型的得到更好的應用,研究者還需考慮模型的呈現方式。臨床預測模型本質上是預測因子的數學公式組合,為方便臨床應用,研究者常將不同的預測因子的取值賦予不同的評分,最終的累計得分對應一定的事件概率,此即危險因素評分。或者,依據得分高低劃分高危低危人群。若預測模型比較複雜,則可以EXCEL工具、網頁工具或者手機App等電子方式進行展示和應用。如預測10年ASVCD發生概率的工具(http://tools.acc.org/ASCVD-Risk-Estimator)。
8 報告研究結果
臨床預測模型最有效的分享和推廣方式便是在學術期刊上報告其結果。但此前很多臨床預測模型的報告質量堪憂,為此,《個體預後與診斷的多變量預測模型透明報告》(TRIPOD)從標題和摘要、介紹、方法、結果、討論以及其它七個方面,提出了22條檢查條目,以規範報告內容,提高研究質量[6]。研究者在撰寫研究報告時,可從http://www.tripod-statement.org/獲取更詳細的參考信息。
本文系統梳理了臨床預測模型建立的全過程,相關概念以及重要原則,以期為臨床研究者提供概念性的認知,指導臨床預測模型類研究。臨床預測模型涉及的統計方法和操作流程較多,我們將在後續的文章中做具體介紹。
參考文獻:
[1] Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation [J].Eur Heart J, 2014, 35(29): 1925-31.
[2] Lee YH, Bang H, Kim DJ. How to Establish ClinicalPrediction Models [J]. Endocrinol Metab (Seoul), 2016, 31(1): 38-44.
...
[23]Alba AC, Agoritsas T, Walsh M, et al. Discrimination and Calibration ofClinical Prediction Models: Users' Guides to the Medical Literature [J]. JAMA,2017, 318(14): 1377-84.