多種機器學習和統計模型預測個體患者臨床風險並不一致

2020-11-22 科學網

作者：

小柯機器人

發布時間：2020/11/8 22:27:12

英國曼徹斯特大學Tjeerd Pieter van Staa團隊研究了多種機器學習和統計模型預測個體患者臨床風險的一致性。2020年11月4日，該研究發表在《英國醫學雜誌》上。

為了評估機器學習和統計技術在預測個體水平和群體水平心血管疾病風險方面的一致性，以及審查對風險預測的影響，1998年1月1日至2018年12月31日，研究組進行了一項縱向隊列研究。

研究組使用在英格蘭391種常規實踐中註冊的360萬患者的數據，均有相關住院記錄和死亡記錄。模型性能包括在具有可比性的模型之間對相同患者的鑑別、校準和個體風險預測的一致性。研究組使用了19種不同的預測技術，包括12個機器學習模型，3個Cox比例風險模型，3個參數生存模型和1個邏輯模型。

各種模型具有相似的群體水平性能。但是，在不同類型的機器學習和統計模型之間以及組內，對心血管疾病個人風險的預測差異很大，尤其是在風險較高的患者中。QRISK3預測的風險為9.5-10.5％的患者在隨機森林中的風險為2.9-9.2％，在神經網絡中的風險為2.4-7.2％。

QRISK3和神經網絡之間的預測風險差異在–23.2％和0.1％之間。忽略審查的模型大大低估了心血管疾病的風險。使用QRISK3心血管疾病風險高於7.5％的223815位患者中，有57.8％的患者在使用另一種模型時，心血管疾病風險低於7.5％。

研究結果表明，儘管模型性能相似，但各種模型對同一患者的風險預測卻大不相同。在不考慮審查的情況下，不應將邏輯模型和常用的機器學習模型直接用於長期風險預測。

附：英文原文

Title: Consistency of variety of machine learning and statistical models in predicting clinical risks of individual patients: longitudinal cohort study using cardiovascular disease as exemplar

Author: Yan Li, Matthew Sperrin, Darren M Ashcroft, Tjeerd Pieter van Staa

Issue&Volume: 2020/11/04

Abstract:

Objective To assess the consistency of machine learning and statistical techniques in predicting individual level and population level risks of cardiovascular disease and the effects of censoring on risk predictions.

Design Longitudinal cohort study from 1 January 1998 to 31 December 2018.

Setting and participants 3.6 million patients from the Clinical Practice Research Datalink registered at 391 general practices in England with linked hospital admission and mortality records.

Main outcome measures Model performance including discrimination, calibration, and consistency of individual risk prediction for the same patients among models with comparable model performance. 19 different prediction techniques were applied, including 12 families of machine learning models (grid searched for best models), three Cox proportional hazards models (local fitted, QRISK3, and Framingham), three parametric survival models, and one logistic model.

Results The various models had similar population level performance (C statistics of about 0.87 and similar calibration). However, the predictions for individual risks of cardiovascular disease varied widely between and within different types of machine learning and statistical models, especially in patients with higher risks. A patient with a risk of 9.5-10.5% predicted by QRISK3 had a risk of 2.9-9.2% in a random forest and 2.4-7.2% in a neural network. The differences in predicted risks between QRISK3 and a neural network ranged between –23.2% and 0.1% (95% range). Models that ignored censoring (that is, assumed censored patients to be event free) substantially underestimated risk of cardiovascular disease. Of the 223815 patients with a cardiovascular disease risk above 7.5% with QRISK3, 57.8% would be reclassified below 7.5% when using another model.

Conclusions A variety of models predicted risks for the same patients very differently despite similar model performances. The logistic models and commonly used machine learning models should not be directly applied to the prediction of long term risks without considering censoring. Survival models that consider censoring and that are explainable, such as QRISK3, are preferable. The level of consistency within and between models should be routinely assessed before they are used for clinical decision making.

DOI: 10.1136/bmj.m3919

Source: https://www.bmj.com/content/371/bmj.m3919

相關焦點

謝國彤:疾病預測的機器學習、深度學習和經典回歸方法

腦卒中預測模型和腦卒中或死亡預測模型的 H-L 統計量分別為 7.6 和 6.5，腦卒中預測模型的 AUC 為 0.66，而腦卒中或死亡預測模型的 AUC 為 0.70。基於機器學習方法的疾病預測儘管傳統的回歸方法在疾病預測方面有廣泛的應用，但這些方法在預測準確度和模型可解釋方面，都仍有提升的空間。
新的模型旨在預測2型糖尿病患者心血管疾病的風險

赴美醫療服務機構和生元國際了解到，來自雪梨大學工程學院項目管理學院的研究人員開發了一個模型，旨在預測ii型糖尿病患者患心血管疾病的風險。該模型被發現具有較高的預測精度，其範圍為79%至88%。這項研究展示了機器學習在醫學上的潛力，通過使用複雜的患者數據集，並將它們彙編起來，找出導致疾病發生可能性更高的風險因素。全世界有近5億人患有2型糖尿病，這是一種進行性疾病，身體會對胰島素的正常作用產生抗性。
從這篇22分+文章入手,帶你深度探討臨床預測模型研究思路

實際上，研究的先行者們早已經考慮到並構建了方法學來解決這個問題——臨床預測模型。在臨床工作中，我們也時常會用到預測模型來評價患者的風險，如經典預測10年心血管事件風險的Framingham risk score和指導房顫患者抗凝的CHA2DS2-VASc評分。
電子病歷在再入院風險預測模型開發與驗證中的應用

電子病歷在再入院風險預測模型開發與驗證中的應用作者：小柯機器人發布時間：2020/4/14 13:36:49 美國密西根大學醫學院Elham Mahmoudi研究組，對電子病歷在再入院風險預測模型開發與驗證中的應用進行了系統回顧
預測模型的偏倚風險考慮和PROBAST

疾病的發生、進展或者預後，我們一樣需要去對其進行預測，於是便出現了各式各樣的預測模型。隨著更大量數據的積累和各種算法的跟進，預測模型又有了「更多的原材料」和「更好的加工方法」。預測的準不準，是評價預測模型好壞的關鍵。那麼準不準會受到哪些影響因素呢？
臨床預測模型:模型的建立

開發臨床預測模型是一項複雜的系統工程，涉及研究問題、數據集、變量、模型以及結果報告諸多環節，儘管有眾多文獻討論過其中的方法學問題[1-5]，《個體預後與診斷的多變量預測模型透明報告》（TRIPOD）研究組也給出了報告規範[6]，但仍有很多臨床預測模型在方法學上存在缺陷。在本系列文章開篇文章的基礎上[7]，本文將臨床預測模型建立的全過程歸納總結為8個步驟，並將其中的概念及重要原則做一系統介紹。
我國科學家揭示環狀RNA在預測II/III期結腸癌患者復發風險預測中的...

約60%患者初次診斷時已發展為局部晚期（II/III期），即使手術順利切除後仍有20-30%的復發風險。因此，對II/III期結腸癌患者的精確風險分層是術後治療策略的關鍵所在。目前的分期方法在預測II/III期結腸癌患者的復發風險方面有一定的局限。環狀RNA（circRNA）是一種新型的非編碼RNA，伴隨高通量測序技術的發展和進步，越來越多的環狀RNA被證實參與多種生物學功能，影響腫瘤的發生發展。
論文中統計報告的注意事項:多因素模型和診斷試驗

然而，這種完全依賴現有數據的變量選擇方法在回歸模型的建立過程中並不可取，可能會增加過度擬合的風險，並使許多統計量（如95% CI）受到高度質疑。逐步選擇法應該限定於特定情況，比如在模型建立的初期，對哪些變量可能是預測變量知之甚少的時候。
兩個預測模型比較,再教你一招IDI

NRI主要用於在設定好的切點水平下，例如某個指標的診斷界值，或高、中、低風險劃分的界值等，來判斷和比較新、舊模型的預測能力是否有所提高，在實際的臨床應用中容易計算，也容易理解。其中Pnew,events、Pold,events表示在患者組中，新模型和舊模型對於每個個體預測疾病發生概率的平均值，兩者相減表示預測概率提高的變化量，對於患者來說，預測患病的概率越高，模型越準確，因此差值越大則提示新模型越好
神經影像個體差異預測模型的十個簡單規則

儘管成千上萬的研究論文已經對腦-行為關聯進行了建模，但是這些模型往往是解釋性的。不幸的是，由於解釋性分析的目的是識別與表型測量有關的神經影像學測量，因此此類分析通常不能泛化到新個體，並且臨床有效性不足。為了解決這一局限性，研究人員開始建立可根據神經影像數據預測表型個體差異的預測模型。因為模型是使用獨立的數據定義和驗證的，所以它們有望提高我們發現可泛化的大腦-行為關聯的能力。
上海交大團隊提出基於信號通路的肝癌風險預測模型

該研究基於發現的13個與肝癌生存顯著相關的信號通路並構建了肝癌風險預測模型，在異質性（heterogeneity）較高的肝癌的多個數據集中取得了較高的預測精度，並且與新近發表的基於深度學習框架的預測模型進行了多方面的比較，表明了基於信號通路水平特徵的模型在預測腫瘤風險方面的優勢。博士生法博濤為論文第一作者，俞章盛教授為通訊作者。
論文中統計報告的注意事項:多因素模型和診斷試驗|協變量|統計學|...

然而，這種完全依賴現有數據的變量選擇方法在回歸模型的建立過程中並不可取，可能會增加過度擬合的風險，並使許多統計量（如95% CI）受到高度質疑。逐步選擇法應該限定於特定情況，比如在模型建立的初期，對哪些變量可能是預測變量知之甚少的時候。
正確理解臨床試驗中的風險比(HR)

在腫瘤學隨機臨床試驗（RCT）中，經常使用風險比（HR）來估計至事件發生時間終點的治療效果，如總生存期（OS）和無進展生存期（PFS）。HR提供了整個研究期間試驗組和對照組之間風險率比值的估計值。而風險率指的是研究中每個治療組在短時間間隔內發生關注事件（包括死亡、繼續監測或停止監測）的患者比例。
ISCD和IOF關於骨質疏鬆骨折風險評估(FRAX)臨床應用的共識

胥曉明引言FRAX是一種以電腦為基礎的運算程序，應用較易獲得的臨床危險因子評估個體在10年內的骨折概率，有助於臨床醫師檢出高危骨折患者。雖然有證據表明煙齡和吸菸量可以對骨折的風險產生影響，但無法將其量化。跌倒是骨折的危險因素，但在目前的FRAX模型下不能作為一個輸入變量。有經常跌倒病史的患者的骨折風險可能被低估，但目前尚無法將其量化。既往骨折的次數與未來骨折風險之間有一定相關性，FRAX可低估有多次骨折史患者的骨折概率。
《在線速遞》人工智慧模型或可預測急性腎損傷

早期預測在醫療決策方面發揮重要作用，約11％住院死亡是由於未能及時識別病情的惡化並給予相應治療。為實現這一目標，需要對患者的風險因素進行持續更新和準確預測，並在個體層面上提供儘可能多的背景資料和足夠的時間以採取行動。我們開發了一種深度學習模型，用於對患者病情惡化風險的持續預測。
學術前沿 | 基於gene-pair差異評分的機器學習預測AML發病風險

研究背景針對有大量臨床表徵信息的轉錄組或表達晶片數據，採用機器學習工具從其中挖掘對疾病預測或預後的標記基因是一種比較流行的研究方法
JAMA Psychiatry:機器學習法識別自殺未遂風險因素

據《柳葉刀》2018年的發表數據顯示，抑鬱症的全球發病率約為6%，而終生患病風險為15-18%，也就是說每5個人就有1人在一生中的某個時候經歷過抑鬱症。其中，有近一半生活在東南亞地區和西太平洋地區，包括印度和中國。而近年來，因抑鬱症導致的自殺也是越來越頻繁。
前沿研究丨COVID-19患者臨床結局改善可能性的預測列線圖模型

導語近日，浙江大學李蘭娟院士課題組基於新冠肺炎患者的臨床數據，科學地構建了一個可用於早期預測新冠肺炎患者預後的、定量的列線圖模型。作為臨床決策工具之一，列線圖模型的構建對於臨床工作具有重要的指導意義。這項成果能夠將成功抗擊新冠肺炎的診療經驗準確、有效地分享給其他國家，助力抗擊疫情。
最新成年人群癌症預測模型:基於中國健康與營養調查(CHNS)數據!

而腫瘤風險預測對於提高人群健康水平、降低患者經濟負擔意義重大。但隨著醫療大數據的產生，傳統的統計預測方法逐漸無法滿足需求，有必要嘗試開展機器學習等新方法在腫瘤預測領域的應用。將研究對象按2∶1分為訓練集和測試集，基於逐步Logistic回歸分析的變量篩選策略，在訓練集上分別建立逐步Logistic回歸、支持向量機、XGboost腫瘤患病風險預測模型，並在測試集上進行驗證。通過比較各模型受試者工作特徵曲線（ROC曲線）下面積（AUC），分析各模型預測腫瘤患病風險的性能。
歷史回顧丨新一代多基因模型預測亞裔早期激素敏感型乳腺癌患者術...

這是全球首次在大樣本的亞裔乳腺癌患者中，尤其是50歲以前的病人，驗證了多基因表達技術對不同淋巴結轉移早期激素敏感型乳腺癌患者，術後發生遠處轉移和死亡風險的預測能力。而今常見各種商業化多基因表達模型，主要根據歐美人群的50歲以上的病人基因表達結果統計而成，對於亞洲人群且為停經前的婦女的適用性問題仍有爭議。關於中國女性乳腺癌多基因檢測的大型臨床研究仍然很少，尚未積累足夠臨床證據支持多基因檢測在我國的應用標準。

多種機器學習和統計模型預測個體患者臨床風險並不一致

相關焦點

謝國彤:疾病預測的機器學習、深度學習和經典回歸方法

新的模型旨在預測2型糖尿病患者心血管疾病的風險

從這篇22分+文章入手,帶你深度探討臨床預測模型研究思路

電子病歷在再入院風險預測模型開發與驗證中的應用

預測模型的偏倚風險考慮和PROBAST

臨床預測模型:模型的建立

我國科學家揭示環狀RNA在預測II/III期結腸癌患者復發風險預測中的...

論文中統計報告的注意事項:多因素模型和診斷試驗

兩個預測模型比較,再教你一招IDI

神經影像個體差異預測模型的十個簡單規則

上海交大團隊提出基於信號通路的肝癌風險預測模型

論文中統計報告的注意事項:多因素模型和診斷試驗|協變量|統計學|...

正確理解臨床試驗中的風險比(HR)

ISCD和IOF關於骨質疏鬆骨折風險評估(FRAX)臨床應用的共識

《在線速遞》人工智慧模型或可預測急性腎損傷

學術前沿 | 基於gene-pair差異評分的機器學習預測AML發病風險

JAMA Psychiatry:機器學習法識別自殺未遂風險因素

前沿研究丨COVID-19患者臨床結局改善可能性的預測列線圖模型

最新成年人群癌症預測模型:基於中國健康與營養調查(CHNS)數據!

歷史回顧丨新一代多基因模型預測亞裔早期激素敏感型乳腺癌患者術...