學術前沿 | 基於gene-pair差異評分的機器學習預測AML發病風險

2021-02-15 仁東醫學

研究背景

針對有大量臨床表徵信息的轉錄組或表達晶片數據,採用機器學習工具從其中挖掘對疾病預測或預後的標記基因是一種比較流行的研究方法。最高評分基因對是一種實現分類的研究策略,從已有的數據中尋找每對基因的相對表達量,每對之中會有一個基因的表達量高於另一個。選擇的最佳的一個或N個可用於預測的gene pair就是Top-scoring pair方法。

TSP方法

CytoPred基於這個TSP的決策樹方法從大量的表達矩陣中篩選能對AML(急性髓細胞性白血病)治療和預後的基因marker, 結果得到的gene pairs能很好的預測AML病人的生存期和預後效果,針對治療效果好的患者靈敏度97.09%, 特異性91.74,對於療效差或中等的患者靈敏度98.27%, 特異性為99.27%。

數據來源

數據來源:13個數據集(11組晶片數據,2組RNAseq數據),晶片數據平臺版本GPL96,GPL570。TCGA的RNAseq的臨床數據從Broad的Firehose獲取,https://gdac.broadinstitute.org/, 晶片數據的臨床信息採用R包GEOquery獲取。

Cytogenetic Risk劃分

由於TSP decision trees只能處理二分類問題,所以對AML的細胞遺傳風險進行了調整,將Intermediate和poor合併為Int_poor一類,good保留為good類。GEO樣本數據表型信息示例如下:

構建決策樹

數據分析流程如下:

最佳決策樹和預測結果

最終的決策樹由7對基因的表達差異構成,如下:

Gene1

Gene2

Greater

RPS3

MPO

MPO

TSPAN32

CCDC9

CCDC9

GABRE

ADD2

GABRE

PGM1

CAMK1D

CAMK1D

ST18

AVIL

ST18

RUNX3

PMP22

PMP22

RUNX1T1

CLEC16A

RUNX1T1

當TSP decision tree中,gene pair的差異存在時,形成一次判斷,對病人的cytogenetic risk進行一次分類。當七對基因都作為判斷標準,進行七次判斷,最終的結果為最佳。

各個基因功能信息如下:

CytoPred預測的準確度

Fig.1 The mosaic plot for combined results from training, test and independent validation data sets using CytoPred

Fig.2 Bar plot representing performance of CytoPred over an individual set of samples used for training, test and independent validation in int_poor and good class.

Fig.3 CytoPred prediction outcome in test, training and validation sets.

三個驗證數據集使用CytoPred預測的good與Int_poor總體生存曲線與實際的臨床信息的比較(紅色折線為good,綠色折線為Int_poor)

 CytoPred可以很好的預測AML的細胞遺傳風險和預後效果,在RNAseq和基因晶片數據的基礎上通過機器學習的方法篩選得到的少量的基因marker可以幫助設計成本更低、效果也較好的診斷和預後產品。

參考文獻:

CytoPred: 7-gene pair metric for AML cytogenetic risk prediction

Genomic and epigenomic landscapes of adult de novo acute myeloid leukemia

Simple decision rules for classifying human cancers from gene expression profiles 

相關焦點

  • 中國人群肺癌遺傳因素新成果 風險評分助力精準篩查
    這項前瞻性隊列研究由南京醫科大學沈洪兵教授團隊領銜,北京大學公共衛生學院、中山大學腫瘤防治中心、復旦大學附屬腫瘤醫院、中國醫學科學院腫瘤醫院等多家學術機構共同參與。通過以上數據,研究團隊確定了與非小細胞肺癌發病風險顯著相關的19個遺傳易感位點,其中包括6個本研究新發現的易感位點。結合所有已報導過的遺傳變異和此次新發現的易感位點,研究團隊構建了中國人群肺癌多基因遺傳風險評分(PRS)。
  • 【學術前沿】陳良怡/王靜敏團隊合作利用活細胞超解析度成像預測...
    【學術前沿】陳良怡/王靜敏團隊合作利用活細胞超解析度成像預測佩梅病臨床疾病表型以及篩選精準對症藥物 2020-09-10 16:58 來源:澎湃新聞·澎湃號·政務
  • 多種機器學習和統計模型預測個體患者臨床風險並不一致
    多種機器學習和統計模型預測個體患者臨床風險並不一致 作者:小柯機器人 發布時間:2020/11/8 22:27:12 英國曼徹斯特大學Tjeerd Pieter van Staa團隊研究了多種機器學習和統計模型預測個體患者臨床風險的一致性
  • 【學術前沿】張世華課題組提出解決單細胞轉錄組數據高度缺失及...
    >JMCB科學前沿分享生命發現,走近科學前沿。單細胞轉錄組測序(single-cell RNA-seq)能夠獨立地提供每個細胞的基因表達圖譜,這樣就可以揭示各個細胞間的微小差異,找到單個細胞的獨特性,對於我們理解細胞的起源、功能、發育等有著至關重要的作用。
  • 易生信-宏基因組積微學術論壇:基於大數據整合準確預測土壤的枯萎病發生
    第一期有幸邀請到南農沈其榮教授團隊的袁軍副教授將於2020 年 8 月 19 日分享其發表於ISME的一篇純生信分析文章:基於大數據整合準確預測土壤的枯萎病發生。演講題目:擴增子大數據整合與機器學習在預測土傳病害方面的研究關鍵詞:擴增子,機器學習,土傳病害,鐮刀菌枯萎病,整合分析演講時間:2020 年 8 月 19 日 20:00-21:00
  • 基於功能磁共振和機器學習的疼痛神經標誌研究進展
    然而實際臨床情況複雜多樣,金標準評估法仍有一些局限性:其一是客觀性不足,人體對疼痛的感覺在不同時間會受不同認知、記憶狀態影響,長期疼痛病人還會產生痛覺過敏,這些情況會使評估結果不準確;其二是對治療有效性的敏感度不高,僅當病人初始評分和療後評分有一定差異時,才可確認治療的有效性;其三是不利於對部分病人群體的診斷,如嬰兒、老人、意識不清或有認知障礙的病人無法提供準確的評分報告。
  • ESG投資實證研究:組合有效前沿與資產定價歸因之一
    因此,茲需在實證研究方面來彌合或者解釋了這兩類文獻之間的論據和論證差異。為了調和這些相反的學術觀點,本篇論文的三位作者提出了一種理論(即ESG-SR 有效前沿),該理論不僅顯示了基於ESG的投資選擇的潛在成本和收益,而且解釋了ESG是如何影響投資組合選擇和均衡資產價格的。此外,本篇論文通過實證估計了ESG對組合選擇和均衡價格的影響的程度大小。
  • 用機器學習做信用評分
    信用評分節省時間而且容易解讀,所以就被開發出來服務這些目的。 產生信用分的過程稱為信用評分,它被廣泛應用於許多行業特別是銀行業。銀行通常用信用分決定誰應該授信、授信額度是多少、使用什麼樣的操作策略去避免信用風險。
  • 「機器學習+DNA測試」成新優生學的技術利器|獨家
    圖丨密西根州立大學物理學家 Stephen HsuGenomic Prediction 公司希望通過分析極其細微的基因差別,進而預測由這些差別累積導致的患病風險、人格差異、身高體貌等特徵。其實這種「多基因風險評分」已經被直接用於針對用戶的基因測試,比如 23andMe 所提供的肥胖機率報告。
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    基於經典回歸方法的疾病預測傳統的疾病風險預測主要基於 Cox 比例風險回歸模型(簡稱 Cox 模型)及邏輯回歸模型。例如,[Wang et al. 2003] 發表於 JAMA 的文章利用 Cox 模型,基於弗雷明漢(Framingham)心臟研究來建立房顫患者發生腦卒中及死亡的風險預測模型,方法流程見圖 1。
  • 【學術前沿】焦建偉團隊從腦發育角度探討抑鬱症可能的發病機理和...
    【學術前沿】焦建偉團隊從腦發育角度探討抑鬱症可能的發病機理和治療策略 2020-05-17 03:00 來源:澎湃新聞·澎湃號·政務
  • 腫瘤DNA可預測AML/MDS患者復發風險
    中心點:異基因移植後持續檢測血清循環腫瘤DNA (ctDNA)可預測AML和MDS的復發。檢測ctDNA(包括DNMT3A、TET2和ASXL1)的預測價值,可媲美於匹配的BM中的持續性突變的預測價值。
  • 我國科學家揭示環狀RNA在預測II/III期結腸癌患者復發風險預測中的...
    約60%患者初次診斷時已發展為局部晚期(II/III期),即使手術順利切除後仍有20-30%的復發風險。因此,對II/III期結腸癌患者的精確風險分層是術後治療策略的關鍵所在。目前的分期方法在預測II/III期結腸癌患者的復發風險方面有一定的局限。環狀RNA(circRNA)是一種新型的非編碼RNA,伴隨高通量測序技術的發展和進步,越來越多的環狀RNA被證實參與多種生物學功能,影響腫瘤的發生發展。
  • JAMA Psychiatry:機器學習法識別自殺未遂風險因素
    機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。近年來也被廣泛用於醫學領域。
  • 抽個血,就能預測「抗磷脂症候群」患者血栓風險?
    圖1:一項歐洲多中心研究中1000位APS患者發病時的症狀表現[1]此外,研究發現APS患者10年總死亡率高達9.3%。最常見的死亡原因就是嚴重血栓形成事件,包括心肌梗塞、中風和肺栓塞[2]。02血栓如何形成?血小板要活化!
  • 基因拷貝數可預測食管癌發病的可能性
    基因拷貝數可預測食管癌發病的可能性 作者:小柯機器人 發布時間:2020/9/9 17:15:10 英國劍橋大學Rebecca C.
  • 大數據趨勢預測靠譜嗎?德國研究者用1.7萬篇arXiv論文預測機器學習...
    選自arXiv作者:Steffen Eger 等機器之心編譯參與:路大量研究者在預印本網站 arXiv 上發表前沿研究,那麼基於 arXiv 判斷研究趨勢是否可行呢?近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。
  • 免疫相關lncRNA預測模型想發7分+,你需要這樣分析
    鑑定差異表達的irlncRNA在已知的免疫相關基因和lncRNA之間進行共表達分析,在總共的808個irlncRNA中,102個為差異表達irlncRNA(DEirlncRNA)(圖1A),其中75個上調表達而27個下調表達(圖1B)。圖1使用DEirlncRNA對建立風險評估模型 3.
  • 人工智慧視域下機器學習的教育應用與創新探索
    結合對近年來國外基於真實數據的機器學習教育應用案例研究成果的梳理和歸納,發現目前機器學習教育應用主要集中在學生建模、學生行為建模、預測學習行為、預警失學風險、學習支持和評測和資源推薦等六大方面。從跨界、技術和教學三個層面出發,基於智慧教育的框架對機器學習的教育應用與創新提出了相關建議。一、引言智能革命浪潮正席捲全球。
  • JNCI 述評:增加果蔬攝入量能降低 ER 陰性的乳腺癌的發病風險
    在JNCI 1月的期刊上,Jung等人進行了一個大型、長期的前瞻性匯集性研究——主要針對飲食和腫瘤發病風險之間的聯繫進行探究,該研究結果顯示果蔬攝入總量對乳腺癌發病風險沒有顯著影響。