最新成年人群癌症預測模型:基於中國健康與營養調查(CHNS)數據!

2020-12-07 騰訊網

2015年中國惡性腫瘤發病率約285.83/10萬,死亡率約為170.05/10萬,惡性腫瘤發病率、死亡率近十幾年來分別保持3.9%、2.5%的增幅,疾病負擔呈持續上升趨勢。而腫瘤風險預測對於提高人群健康水平、降低患者經濟負擔意義重大。但隨著醫療大數據的產生,傳統的統計預測方法逐漸無法滿足需求,有必要嘗試開展機器學習等新方法在腫瘤預測領域的應用。

研究方法

數據來源於中國健康與營養調查(CHNS),以我國12個地區(黑龍江、遼寧、湖南、山東、貴州、江蘇、廣西、湖北、河南、北京、上海和重慶)城鄉成年(≥18歲)常住居民為對象,經過數據清理,最終納入研究對象19 410例。將研究對象按2∶1分為訓練集和測試集,基於逐步Logistic回歸分析的變量篩選策略,在訓練集上分別建立逐步Logistic回歸、支持向量機、XGboost腫瘤患病風險預測模型,並在測試集上進行驗證。通過比較各模型受試者工作特徵曲線(ROC曲線)下面積(AUC),分析各模型預測腫瘤患病風險的性能。

研究結果

19 410例研究對象中,被診斷為腫瘤患者262例(1.35%)。訓練集(n=12 919)中含有174例腫瘤患者,測試集(n=6 491)含有88例腫瘤患者。逐步Logistic回歸分析、支持向量機、XGboost在測試集中預測成年人群患腫瘤的正確率分別為72.96%(95%CI:71.86%,74.04%)、99.54%(95%CI:99.34%,99.69%)、70.05%(95%CI:68.92%,71.16%),AUC分別為76.75%(95%CI:72.35%,81.14%)、86.32%(95%CI:81.64%,91.00%)、79.03%(95%CI:74.96%,83.10%)。支持向量機、XGboost預測成年人群患腫瘤的AUC與Logistic回歸模型比較,差異有統計學意義(Z值分別為-2.519、-2.138,P值分別為0.012、0.032);XGboost預測成年人群患腫瘤的AUC低於支持向量機,差異有統計學意義(Z=2.081,P=0.037)。

研究結論

支持向量機相較於逐步Logistic回歸分析預測成年人群腫瘤患病風險的正確率、靈敏度、特異度、AUC等指標較好,而XGboost未見明顯優勢,但考慮到逐步Logistic回歸分析操作的便捷性和可解釋性優勢,建議在腫瘤風險預測方面,採用支持向量機與逐步Logistic回歸分析相結合的模式。

小編寄語

前面介紹的腫瘤患病風險預測模型表現出較高的預測正確率及穩健性,可以提前給予腫瘤風險預警,從而可根據風險指標開展精準健康幹預,為腫瘤預防提供一定的臨床指導和幫助。但本研究也有一定局限性,例如進入模型的特徵未包含生化指標、環境指標、飲食攝入情況等因素。在大數據的背景下,利用數據挖掘處理海量多源健康數據,建立預測效能高、訓練速度快的模型是醫療領域的重要方向。

相關焦點

  • 柳葉刀:年輕癌症倖存者晚年出現嚴重健康問題風險高於普通人群
    《柳葉刀-腫瘤學》(The Lancet Oncology)近期發表一項觀察性研究,發現與普通人群相比,青春期或成年早期確診癌症的倖存者發生過早死亡的風險更高。
  • 基於ctDNA脫落量預測腫瘤大小,新模型有望用於癌症早篩!
    然而,對於特定的腫瘤類型,ctDNA是否可以用來預測癌症早期腫瘤的大小,進而輔助早期診斷,目前還未有統一的研究框架。 近日,史丹福大學研究人員建立了一個數學模型,該模型可根據患者血液中的ctDNA脫落量來預測非小細胞肺癌(NSCLC)腫瘤的大小。
  • 這幾年,中國人的健康狀況有何變化?最新數據
    ,覆蓋全國31個省(區、市)近6億人口,現場調查人數超過60萬,具有國家和省級代表性,根據監測結果編寫形成《中國居民營養與慢性病狀況報告(2020年)》。報告結果顯示,近年來,隨著健康中國建設和健康扶貧等民生工程的深入推進,我國營養改善和慢性病防控工作取得積極進展和明顯成效。主要體現以下幾個方面: 一是居民體格發育與營養不足問題持續改善,城鄉差異逐步縮小。居民膳食能量和宏量營養素攝入充足,優質蛋白攝入不斷增加。
  • Nature深度用數據模型預測可怕結果
    研究人員將人群分為三種主要狀態:易感人群(susceptible,S)、已感染人群(infected,I)、恢復健康人群(recover,R)或死亡人群,試圖了解人群如何在這三種狀態之間轉化。最基礎的SIR模型做出了一些基本假設。例如,人群是充分而均勻地混合在一起的;感染者在死亡或康復之前都具有相同的感染性,因此每個人被同一個感染者傳染的機率都相同。
  • JTD重磅 | 鍾南山院士團隊最新研究:基於SEIR優化模型和AI模型對...
    近日,鍾南山院士團隊在Journal of Thoracic Disease發表「基於SEIR優化模型和AI對公共衛生幹預下的中國COVID-19暴發趨勢預測」的文章。該研究預測了COVID-19疫情全國在2月下旬達到高峰,4月底趨於平緩。
  • 從《中國居民營養與慢性病狀況報告(2020年)》看健康挑戰
    2015-2019年,國家衛生健康委組織中國疾病預防控制中心、國家癌症中心、國家心血管病中心開展了新一輪的中國居民慢性病與營養監測,覆蓋全國31個省(區、市)近6億人口,現場調查人數超過
  • 前沿最熱點:人工智慧+微生物組,真能預測死亡和癌症?
    人工智慧能夠幫助我們更好地了解這些數據背後的生物學秘密。比如個性化營養初創公司 Viome 就正在利用獨有的 AI 算法分析腸道微生物組數據,為用戶提出更合理的飲食建議。 (關於 Viome 公司的更多信息,《腸道產業》曾報導過:腸道菌群+人工智慧,這家公司殺出一條血路!)
  • 中國癌症大數據深度分析:西南地區癌症發病率最高
    圖表2:2015年中國居民主要疾病死亡率及死因構成[5]或許抽象的數據無法讓你直接感知到癌症的威脅,那麼我們不妨模擬一個家庭模型,看一看在最極端的情況下,中國人群的患癌風險。據《中國甲狀腺癌發病趨勢分析》[10],電離輻射是迄今為止甲狀腺癌最明確的危險因素,並且中國女性的甲狀腺癌粗發病率已經從1988年的2.71/10萬上升至2009年的10.09/10萬,0-64歲累積發病率[11]也從1988年的0.17%上升到2009年的0.6%,上升趨勢非常明顯。最新的《2015年中國癌症統計數據》顯示,甲狀腺癌已成為女性30歲以前被診斷出最普遍的癌症。(注意!
  • 新數據來了!中國成年女性平均體重59千克 女性標準體重計算及引發...
    新數據來了!中國成年女性平均體重59千克 女性標準體重計算及引發肥胖原因分析時間:2020-12-23 19:21   來源:贏家財富網   責任編輯:沫朵 川北在線核心提示:原標題:新數據來了!中國成年女性平均體重59千克 女性標準體重計算及引發肥胖原因分析 中國成年女性平均體重59千克不知道大家看到是覺得重還是不重,關於體重這個問題在女同胞的話題是經常會提到的話題,而具體數量多少是一個秘密。現在以瘦為美審美標準對於體重有問題   原標題:新數據來了!
  • CA:最新全球癌症統計數據
    中國醫院管理案例評選,醫院卓越管理實踐大秀場。點擊查看 報告中的資料是基於國際癌症研究機構(IARC)公布的2012年GLOBOCAN的全球癌症發病率和死亡率獲得的。利用2012年GLOBOCAN的數據,並通過癌症登記點數據所估算的全球癌症新發例數為1410萬,癌症死亡例數為820萬。多年來,癌症負擔逐漸向欠發達國家(less developed countries)轉移,這些地區的癌症新發例數約佔全球57%,癌症死亡例數佔全球的65%。
  • 營養與健康所等建立MAnorm2計算模型
    近期,Genome Research在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普夥伴計算生物學研究所)研究員邵振課題組的方法學論文——MAnorm2 for quantitatively comparing groups of ChIP-seq samples,報導了其開發的新一代
  • 基於ctDNA脫落量預測腫瘤大小,新模型有望用於癌症早篩
    然而,對於特定的腫瘤類型,ctDNA是否可以用來預測癌症早期腫瘤的大小,進而輔助早期診斷,目前還未有統一的研究框架。近日,史丹福大學研究人員建立了一個數學模型,該模型可根據患者血液中的ctDNA脫落量來預測非小細胞肺癌(NSCLC)腫瘤的大小。研究小組認為,該模型可以應用在不同臨床場景中,為多種癌症提供理論評估,包括常規篩查和監測癌症復發。
  • 前沿熱點:微生物組如何預測癌症發生和轉歸?
    微生物組的失衡可能是許多健康問題(如癌症、糖尿病等)的「兇手」,而這意味著它或許能夠成為某些健康問題的晴雨表。今天,我們特別關注人體微生物組在預測癌症方面的進展,並介紹一家利用血液中的微生物特徵預測癌症的企業,希望本文能夠為相關的產業人士和各位讀者帶來一些啟發與幫助。
  • 三分之一的年輕癌症倖存者45歲之前會患重疾!
    但是至今為止,尚未出現針對年輕癌症倖存者(survivors of young adult cancers)晚期發病情況和慢性健康狀況的研究與分析,也沒有提出對這類倖存者的監測需求。只有一些基於健康登記處的全國性數據的研究,分析了不同年齡段癌症倖存者的晚期發病率和死亡率。
  • Nature子刊:最新研究有望預測哪些人更容易患癌症
    解讀最新科學前沿科研公路社出品現代科學已經證明,癌症本質上是一種基因病,由致癌基因激活或抑癌基因失活引起,除了內源性因素外,外界環境因素的影響,在癌症發生過程中也佔據著很大因素,而這些外界環境因素,一般被稱為致癌物。當然,接觸致癌物,並不一定會導致癌症的發生,因為還要看這個人的基因因素。
  • 大數據時代,到底能否選出免疫治療的獲益人群?
    本研究旨在確定影響治療應答預測的最重要的附加因素。該研究分析了癌症和腫瘤基因圖譜(TCGA)中21種不同癌種的全外顯子組測序和RNA測序數據。並發現:TMB、預計CD8+ T細胞豐度(eCD8T)和PD-1 mRNA高表達片段(fPD1)組成的三變量模型顯著提高了不同癌種中PD-1/PD-L1治療的應答預測潛力。
  • 營養與健康所等開發新的定量蛋白質組數據差異分析計算模型
    8月13日,國際學術期刊Cell Discovery 在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普計算生物學研究所)邵振課題組研究論文「MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes
  • 營養與健康所等建立MAnorm2計算模型---中國科學院
    近期,Genome Research在線發表了中國科學院上海營養與健康研究所中科院計算生物學重點實驗室(馬普夥伴計算生物學研究所)研究員邵振課題組的方法學論文——MAnorm2 for quantitatively comparing groups of ChIP-seq samples,報導了其開發的新一代MAnorm2計算模型。
  • 2015中國癌症統計數據:發病率上升,死亡率下降
    因為中國人口多(13.7 億人),先前的國家發病率和死亡率評估都限制在上世紀 90 年代的小樣本或基於特定的年份。這份調查通過國家中央癌症登記處的高質量數據,對 72 個地區基於人群的癌症登記(2009-2011)進行分析,樣本代表了 6.5%的人口,用以估計 2015 年新病例和癌症死亡的人數。
  • DS-8201a靶向治療獲益人群預測增添精準定位新手段
    主任醫師,教授,博士生導師 國家抗腫瘤藥物臨床應用監測專委會秘書長 國家腫瘤質控中心乳腺癌專委會副主委 國家癌症中心乳腺癌篩查與早診早治規範委員會秘書長 健康中國行動推進委員會入庫專家