近年來,預測模型有點兒火,也著實可以理解。對未來「先知」,向來是人們追求的目標,古時稱為佔卜,現在謂之預測。疾病的發生、進展或者預後,我們一樣需要去對其進行預測,於是便出現了各式各樣的預測模型。隨著更大量數據的積累和各種算法的跟進,預測模型又有了「更多的原材料」和「更好的加工方法」。
預測的準不準,是評價預測模型好壞的關鍵。那麼準不準會受到哪些影響因素呢?個人覺得可能存在以下因素:1)對象與場景:即在哪些人中和何種環境下進行健康相關預測;2)指標和測量:即使用哪些指標進行預測,如對其進行測量;3)結局的選擇:即結局的測量以及金標準的選擇是否準確;4)算法的好壞:即模型採用的算法是否精當。5)現有的工具:預測模型研究的偏倚風險和適用性評估工具PROBAST。
1、對象與場景
我想建立一個工具:預測一個人什麼時候會得高血壓?我從我們醫院心內科選擇了1000名既往高血壓患者,打算隨訪10年,然後利用這些數據建立預測模型,預測健康人什麼時候會得高血壓。我如果這麼幹,你肯定說我瘋了。
關於研究對象和場景,就是要看你用來建立預測模型的研究對象和場景,是否「等同於」你未來需要應用的預測對象和場景。你在北極建模,你到赤道上去用模,我想大家都覺得這樣不合適。其實兩者間大致相等就行,不必完全一樣(這句是廢話,但我怕有人較真,說世界上沒有兩個完全一樣的西瓜。抱歉,後文中儘量少說廢話)
這樣在對象與場景中就涉及研究方案設計、研究對象選擇偏倚和疾病譜偏倚等問題。
2、指標和測量
用於預測的指標必須與預測的結局有關係,這事我覺得大家都能認可。同時預測的指標還不能完全等同於預測的結局,這個也好理解。我們總不能用血壓的測量數值去預測高血壓,對吧。
關鍵在於這些預測指標的測量是否標準化,比如採用統一的測量工具或手段、相同的測量間隔、恰當地盲法應用,同時注意某研究對象的測量結果缺失時應該放任不管,還是咋地?
3、結局的選擇
結局的選擇和測量要恰當。比如對膽結石的預測,採用膽囊造影來測量膽結石這一結局指標,就比手術證實膽結石要遜色一些,此種情況下不完美的測量方法導致不正確的估計。那如果採用手術證實的方法來測量膽結石呢,又會導致很多輕症患者並未得到證實,從而產生部分證實偏倚。那到底該選擇何種測量方法?這個還請相關領域多位專家來共同商定。
除此之外,對於結局測量失訪的研究對象應該如何處理?結局測量的時間點是否一致,如有的研究對象是1年後測量,有的是3年後測量?發生結局的人如果太少(如只有6個)怎麼辦?這些問題都值得研究者考慮。
4、算法的精當
預測指標有了,預測結局也選定了,那麼如何建立好預測指標和預測結局的關係就是模型成敗的關鍵了。好的算法能讓模型做到裡外都是人,就是對樣本(內)具有很好的解釋力度,對總體(外)也具有很好的應用價值。比如對結局指標是按照連續性數據來處理呢,還是按照分類變量來處理,還是按照分段函數來處理?是採用常用的回歸算法,還採用不同的機器學習算法呢?如上等等,都是問題。總之,算法千萬種,花哨不強求,思路若彩虹,結果自然牛。
5、現有的工具
國外同行業已總結了一個工具,叫預測模型研究的偏倚風險和適用性評估工具PROBAST。國內業界專家們也對次工具進行了詳細的介紹,詳見中華流行病學雜誌中《預測模型研究的偏倚風險和適用性評估工具解讀》一文。感興趣的讀者可以去下載閱讀。同時對此略作說明,偏倚風險評估工具和報告規範是兩件不同的事情,可簡單理解為:一個是看文章有沒有偏倚,一個是看文章寫得是否規範。
至此,本文討論了預測模型的偏倚風險相關問題,可略微總結為「對象場景要一樣,指標選擇求得當,結局選好要測準,算法最後添花樣」。顯然這些討論非常的不全面,作者也是拋磚引玉,僅供各位飯後消遣。