預測模型的偏倚風險考慮和PROBAST

2021-02-15 臨床流行病學和循證醫學

近年來,預測模型有點兒火,也著實可以理解。對未來「先知」,向來是人們追求的目標,古時稱為佔卜,現在謂之預測。疾病的發生、進展或者預後,我們一樣需要去對其進行預測,於是便出現了各式各樣的預測模型。隨著更大量數據的積累和各種算法的跟進,預測模型又有了「更多的原材料」和「更好的加工方法」。

預測的準不準,是評價預測模型好壞的關鍵。那麼準不準會受到哪些影響因素呢?個人覺得可能存在以下因素:1)對象與場景:即在哪些人中和何種環境下進行健康相關預測;2)指標和測量:即使用哪些指標進行預測,如對其進行測量;3)結局的選擇:即結局的測量以及金標準的選擇是否準確;4)算法的好壞:即模型採用的算法是否精當。5)現有的工具:預測模型研究的偏倚風險和適用性評估工具PROBAST。

1、對象與場景 

我想建立一個工具:預測一個人什麼時候會得高血壓?我從我們醫院心內科選擇了1000名既往高血壓患者,打算隨訪10年,然後利用這些數據建立預測模型,預測健康人什麼時候會得高血壓。我如果這麼幹,你肯定說我瘋了。

關於研究對象和場景,就是要看你用來建立預測模型的研究對象和場景,是否「等同於」你未來需要應用的預測對象和場景。你在北極建模,你到赤道上去用模,我想大家都覺得這樣不合適。其實兩者間大致相等就行,不必完全一樣(這句是廢話,但我怕有人較真,說世界上沒有兩個完全一樣的西瓜。抱歉,後文中儘量少說廢話)

這樣在對象與場景中就涉及研究方案設計、研究對象選擇偏倚和疾病譜偏倚等問題。

2、指標和測量

用於預測的指標必須與預測的結局有關係,這事我覺得大家都能認可。同時預測的指標還不能完全等同於預測的結局,這個也好理解。我們總不能用血壓的測量數值去預測高血壓,對吧。

關鍵在於這些預測指標的測量是否標準化,比如採用統一的測量工具或手段、相同的測量間隔、恰當地盲法應用,同時注意某研究對象的測量結果缺失時應該放任不管,還是咋地?

3、結局的選擇

結局的選擇和測量要恰當。比如對膽結石的預測,採用膽囊造影來測量膽結石這一結局指標,就比手術證實膽結石要遜色一些,此種情況下不完美的測量方法導致不正確的估計。那如果採用手術證實的方法來測量膽結石呢,又會導致很多輕症患者並未得到證實,從而產生部分證實偏倚。那到底該選擇何種測量方法?這個還請相關領域多位專家來共同商定。

除此之外,對於結局測量失訪的研究對象應該如何處理?結局測量的時間點是否一致,如有的研究對象是1年後測量,有的是3年後測量?發生結局的人如果太少(如只有6個)怎麼辦?這些問題都值得研究者考慮。

4、算法的精當

預測指標有了,預測結局也選定了,那麼如何建立好預測指標和預測結局的關係就是模型成敗的關鍵了。好的算法能讓模型做到裡外都是人,就是對樣本(內)具有很好的解釋力度,對總體(外)也具有很好的應用價值。比如對結局指標是按照連續性數據來處理呢,還是按照分類變量來處理,還是按照分段函數來處理?是採用常用的回歸算法,還採用不同的機器學習算法呢?如上等等,都是問題。總之,算法千萬種,花哨不強求,思路若彩虹,結果自然牛。

5、現有的工具

國外同行業已總結了一個工具,叫預測模型研究的偏倚風險和適用性評估工具PROBAST。國內業界專家們也對次工具進行了詳細的介紹,詳見中華流行病學雜誌中《預測模型研究的偏倚風險和適用性評估工具解讀》一文。感興趣的讀者可以去下載閱讀。同時對此略作說明,偏倚風險評估工具和報告規範是兩件不同的事情,可簡單理解為:一個是看文章有沒有偏倚,一個是看文章寫得是否規範。

 

至此,本文討論了預測模型的偏倚風險相關問題,可略微總結為「對象場景要一樣,指標選擇求得當,結局選好要測準,算法最後添花樣」。顯然這些討論非常的不全面,作者也是拋磚引玉,僅供各位飯後消遣。

相關焦點

  • 臨床預測模型:模型的建立
    回顧性的隊列研究因其人群選擇偏倚和信息偏倚,不適合建立預後模型,但剿式病例對照或者病例隊列研究在罕見結局或者預測因子測量昂貴的研究中是經濟、可行的方案。   3 篩選預測變量   臨床預測模型中變量的篩選有三種策略:①基於文獻報導,②基於統計方法,③基於醫學認識。
  • 多種機器學習和統計模型預測個體患者臨床風險並不一致
    多種機器學習和統計模型預測個體患者臨床風險並不一致 作者:小柯機器人 發布時間:2020/11/8 22:27:12 英國曼徹斯特大學Tjeerd Pieter van Staa團隊研究了多種機器學習和統計模型預測個體患者臨床風險的一致性
  • 多變量預測模型研究的報告指南:TRIPOD聲明
    臨床預測模型可以幫助臨床醫師評估患者發生某種疾病(診斷模型)或未來某一時間發生特定事件(預後模型)的可能性或風險,能夠輔助臨床醫師做出臨床決策。但是大多數證據表明,預測模型研究的報告質量較差。只有全面清晰的報告預測模型各個方面的信息,才能充分評估預測模型存在的偏倚風險和潛在有用性。
  • 地質地球所提出考慮結構面粗糙度影響的區域地震滑坡預測模型
    引入Newmark有限滑塊位移法來預測地震滑坡空間分布,是目前國際上應用最廣泛的地震滑坡空間預測模型。但Newmark模型未考慮巖體結構面的性狀對邊坡動力穩定性的控制作用,影響地震滑坡空間預測的精度,無法滿足地震防災減災的要求。
  • 神經影像個體差異預測模型的十個簡單規則
    例如,考慮一下人類神經成像中的「維數詛咒(curse of imensionality)」:特徵(例如體素、功能連接)通常超過樣本(例如參與者、試驗),增加了過擬合的風險(請參見Rule #1),並使模型解釋複雜化。
  • 預測氣候風險,模型越簡單反而越準確?
    為獲取更多的地球系統細節,研究人員不斷將氣候學的計算模型優化,使其越來越複雜。但美國「物理學組織」網站9月25日報導,賓夕法尼亞州立大學的一個研究小組指出:較簡單的模型能夠更好地對不確定性事件進行採樣並評估其發生概率,可能是用於風險評估的更好選擇。
  • 上海交大團隊提出基於信號通路的肝癌風險預測模型
    該研究基於發現的13個與肝癌生存顯著相關的信號通路並構建了肝癌風險預測模型,在異質性(heterogeneity)較高的肝癌的多個數據集中取得了較高的預測精度,並且與新近發表的基於深度學習框架的預測模型進行了多方面的比較,表明了基於信號通路水平特徵的模型在預測腫瘤風險方面的優勢。博士生法博濤為論文第一作者,俞章盛教授為通訊作者。
  • 新的模型旨在預測2型糖尿病患者心血管疾病的風險
    赴美醫療服務機構和生元國際了解到,來自雪梨大學工程學院項目管理學院的研究人員開發了一個模型,旨在預測ii型糖尿病患者患心血管疾病的風險。該模型被發現具有較高的預測精度,其範圍為79%至88%。然而,誰將開發它並不總是明確的,測試和監測可能是耗時和昂貴的。」
  • 模型越簡單,越能準確預測某些氣候風險
    為獲取更多的地球系統細節,研究人員不斷將氣候學的計算模型優化,使其越來越複雜。但美國「物理學組織」網站9月25日報導,賓夕法尼亞州立大學的一個研究小組指出:較簡單的模型能夠更好地對不確定性事件進行採樣並評估其發生概率,可能是用於風險評估的更好選擇。
  • 電子病歷在再入院風險預測模型開發與驗證中的應用
    電子病歷在再入院風險預測模型開發與驗證中的應用 作者:小柯機器人 發布時間:2020/4/14 13:36:49 美國密西根大學醫學院Elham Mahmoudi研究組,對電子病歷在再入院風險預測模型開發與驗證中的應用進行了系統回顧
  • 固定效應模型與隨機效應模型的差別
    緊接前期介紹的固定效應模型與隨機效應模型,今天,我們主要聊聊兩者之間的差別。從假設來看,兩種模型的差別在於: 相應的,固定效應模型得出的結果為「真實值估計值」,而隨機效應模型得出的結果為「真實值平均值的估計值」。這也是源於各自的假設不同。兩者均是得出真實值平均值的估計值,差別是固定效應模型的真實值只有一個,所以得出的結果為真實值的估計值。
  • 預測模型告訴你:哪些兒童有肥胖風險—新聞—科學網
    7月16日,《科學報告》在線發表了一項來自煙臺市疾病預防控制中心的研究,該研究提出一個提前5年預測中國兒童體重指數(BMI)模型,準確率達70%。
  • 財務風險預警模型構建實證分析
    【摘要】財務風險預警模型可以從定量角度客觀準確判斷企業的財務危機程度,網絡的普及對此頗具影響。本文採用實證方法,選取了5個財務指標作為模型變量,構建了一個基於極值原理的Fisher線性判別模型,並對該模型進行了實證檢驗。結果表明,該模型具有較好的對企業財務狀況和風險狀況進行評價預警的能力。
  • 穩定幣2.0:經濟基礎和風險模型
    首先,我們將現有的經濟模型與完全不同的監管系統相匹配。接下來,我們描述了在非共同市場中出現的獨特風險,並開發了一個模型框架,將經濟學和計算機科學中的現有模型結合起來。我們進一步討論這個模型框架如何適用於各種加密經濟系統,包括跨鏈協議、抵押貸款和去中心化交易。這些獨特的風險產生了尚未回答的研究問題,這些問題將構成未來去中心化金融研究的關鍵。
  • 兩個預測模型比較,再教你一招IDI
    NRI主要用於在設定好的切點水平下,例如某個指標的診斷界值,或高、中、低風險劃分的界值等,來判斷和比較新、舊模型的預測能力是否有所提高,在實際的臨床應用中容易計算,也容易理解。而Pnew,non-events、Pold,non-events表示在非患者組中,新模型和舊模型對於每個個體預測疾病發生概率的平均值,兩者相減表示預測概率減少的量,對於非患者來說,預測患病的概率越低,模型越準確,因此差值越小則提示新模型越好。
  • 「專家視角」中國汙染場地的風險評估-以模型預測為基礎的策略
    在這個計劃中,由於經濟能力限制,中國政府將重點放在汙染土壤的風險管理,而不是汙染土壤的全局修復。總之,對公眾健康造成嚴重威脅的或者具有很高的商業價值的一些汙染場地會被清理乾淨,而其他汙染場地會根據風險評估嚴格控制土地使用。採取的措施、修復和使用控制都會基於風險評估的結果來進行。
  • 固定效應模型與隨機效應模型
    大部分的Meta分析需要選擇固定效應模型與隨機效應模型對數據進行合併。本期,我們就介紹下固定效應模型與隨機效應模型這些事。
  • 隨訪78個月,仁濟醫院完成世界首個間質性肺病風險預測模型
    日前,國際著名醫學雜誌《胸》(CHEST)在線發表上海交通大學醫學院附屬仁濟醫院風溼科鮑春德教授團隊的最新研究成果:無肌病性皮肌炎相關間質性肺疾病的死亡風險預測模型(FLAIR模型)。這是國際上第一個用於預測此種疾病死亡風險的模型,它的建立不僅有助於早期識別高危患者,更重要的是可以根據該風險分層為患者提供精準的治療方案,有利於大大降低患者死亡率。據鮑春德介紹,無肌病性皮肌炎(ADM)是一種罕見但病死率極高的自身免疫性疾病,好發於東亞人群。
  • 新冠病毒傳播與溫度和緯度相關?模型預測社區傳播危險地區或北移
    3月9日,美國馬裡蘭大學和伊朗的研究人員在SSRN預印版平臺發表論文,分析了溫度和緯度與COVID-19的相關性,並通過簡化的天氣模型預測COVID-19的潛在擴散,幫助公共衛生工作集中在監測和遏制上。