研究背景
針對有大量臨床表徵信息的轉錄組或表達晶片數據,採用機器學習工具從其中挖掘對疾病預測或預後的標記基因是一種比較流行的研究方法。最高評分基因對是一種實現分類的研究策略,從已有的數據中尋找每對基因的相對表達量,每對之中會有一個基因的表達量高於另一個。選擇的最佳的一個或N個可用於預測的gene pair就是Top-scoring pair方法。
TSP方法
CytoPred基於這個TSP的決策樹方法從大量的表達矩陣中篩選能對AML(急性髓細胞性白血病)治療和預後的基因marker, 結果得到的gene pairs能很好的預測AML病人的生存期和預後效果,針對治療效果好的患者靈敏度97.09%, 特異性91.74,對於療效差或中等的患者靈敏度98.27%, 特異性為99.27%。
數據來源
數據來源:13個數據集(11組晶片數據,2組RNAseq數據),晶片數據平臺版本GPL96,GPL570。TCGA的RNAseq的臨床數據從Broad的Firehose獲取,https://gdac.broadinstitute.org/, 晶片數據的臨床信息採用R包GEOquery獲取。
Cytogenetic Risk劃分
由於TSP decision trees只能處理二分類問題,所以對AML的細胞遺傳風險進行了調整,將Intermediate和poor合併為Int_poor一類,good保留為good類。GEO樣本數據表型信息示例如下:
構建決策樹
數據分析流程如下:
最佳決策樹和預測結果
最終的決策樹由7對基因的表達差異構成,如下:
Gene1
Gene2
Greater
RPS3
MPO
MPO
TSPAN32
CCDC9
CCDC9
GABRE
ADD2
GABRE
PGM1
CAMK1D
CAMK1D
ST18
AVIL
ST18
RUNX3
PMP22
PMP22
RUNX1T1
CLEC16A
RUNX1T1
當TSP decision tree中,gene pair的差異存在時,形成一次判斷,對病人的cytogenetic risk進行一次分類。當七對基因都作為判斷標準,進行七次判斷,最終的結果為最佳。
各個基因功能信息如下:
CytoPred預測的準確度
Fig.1 The mosaic plot for combined results from training, test and independent validation data sets using CytoPred
Fig.2 Bar plot representing performance of CytoPred over an individual set of samples used for training, test and independent validation in int_poor and good class.
Fig.3 CytoPred prediction outcome in test, training and validation sets.
三個驗證數據集使用CytoPred預測的good與Int_poor總體生存曲線與實際的臨床信息的比較(紅色折線為good,綠色折線為Int_poor)
CytoPred可以很好的預測AML的細胞遺傳風險和預後效果,在RNAseq和基因晶片數據的基礎上通過機器學習的方法篩選得到的少量的基因marker可以幫助設計成本更低、效果也較好的診斷和預後產品。
參考文獻:
CytoPred: 7-gene pair metric for AML cytogenetic risk prediction
Genomic and epigenomic landscapes of adult de novo acute myeloid leukemia
Simple decision rules for classifying human cancers from gene expression profiles