使用ESTIMATE來對轉錄組表達數據根據stromal和immune細胞比例估算腫瘤純度

2021-03-01 生信技能樹

文章發表於 (2013).
"Inferring tumour purity and stromal and immune cell admixture from expression data."
Nature Communications doi:10.1038/ncomms3612.

ESTIMATE (Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data) is a tool for predicting tumor purity, and the presence of infiltrating stromal/immune cells in tumor tissues using gene expression data. ESTIMATE algorithm is based on single sample Gene Set Enrichment Analysis and generates three scores:

1) stromal score (that captures the presence of stroma in tumor tissue),

2) immune score (that represents the infiltration of immune cells in tumor tissue), and

3) estimate score (that infers tumor purity).

預先處理了所有的TCGA數據

只需要根據每個樣本的表達矩陣來計算3個得分,The website presents the scores for all TCGA tumor types. 

在其網站上面可以直接下載整個分析結果哦

R語言包

安裝如下:

library(utils)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos=rforge, dependencies=TRUE)
library(estimate)
help(package="estimate")

運行R包自帶的測試數據

library(estimate)
OvarianCancerExpr <- system.file("extdata", "sample_input.txt",
                                package="estimate")
read.table(OvarianCancerExpr)[1:4,1:4]
filterCommonGenes(input.f=OvarianCancerExpr,
                 output.f="OV_10412genes.gct",
                 id="GeneSymbol")
estimateScore(input.ds = "OV_10412genes.gct",
             output.ds="OV_estimate_score.gct",
             platform="affymetrix")
plotPurity(scores="OV_estimate_score.gct", samples="s516",
          platform="affymetrix")
scores=read.table("OV_estimate_score.gct",skip = 2,header = T)
rownames(scores)=scores[,1]
scores=t(scores[,3:ncol(scores)])
scores

可以看到很簡單的代碼,首先把txt文檔裡面的表達矩陣讀入R裡面轉為gct格式,然後對gct格式的input表達矩陣使用estimateScore得到計算好的3個score值並且保存到本地文件。值如下:

    StromalScore ImmuneScore ESTIMATEScore TumorPurity
s516   -281.81487    171.5411     -110.2737   0.8316075
s518   -426.14692    105.3890     -320.7580   0.8483668
s519    -57.14977   -365.2374     -422.3871   0.8561698
s520   1938.82379   2339.0707     4277.8944   0.3314725
s521   -671.64710    147.6183     -524.0288   0.8637832
s522   1458.13837   1176.8159     2634.9543   0.5472110
s523   -268.89216   -928.4953    -1197.3875   0.9092887
s525    973.42289   1320.0869     2293.5098   0.5884565
s526    552.64161   2162.4612     2715.1029   0.5373262
s527   -709.33568   1312.8416      603.5059   0.7689656

最後一個 plotPurity函數,根據保存好的文件來挑選對應的樣本進行可視化,出圖如下:

其實對大部分使用該包的的文章來說,需要的反而是該包定義的2個基因集,stromal 和 immune , 列表是:

StromalSignature    estimate    DCN PAPPA   SFRP4   THBS2   LY86    CXCL14  FOXF1   COL10A1 ACTG2   APBB1IP SH2D1A  SULF1   MSR1    C3AR1   FAP PTGIS   ITGBL1  BGN CXCL12  ECM2    FCGR2A  MS4A4A  WISP1   COL1A2  MS4A6A  EDNRA   VCAM1   GPR124  SCUBE2  AIF1    HEPH    LUM PTGER3  RUNX1T1 CDH5    PIK3R5  RAMP3   LDB2    COX7A1  EDIL3   DDR2    FCGR2B  LPPR4   COL15A1 AOC3    ITIH3   FMO1    PRKG1   PLXDC1  VSIG4   COL6A3  SGCD    COL3A1  F13A1   OLFML1IGSF6 COMP    HGF GIMAP5  ABCA6   ITGAM   MAF ITM2A   CLEC7A  ASPN    LRRC15  ERG CD86    TRAT1   COL8A2  TCF21   CD93    CD163   GREM1   LMOD1TLR2   ZEB2    C1QB    KCNJ8   KDR CD33    RASGRP3 TNFSF4  CCR1    CSF1R   BTK MFAP5   MXRA5   ISLR    ARHGAP28    ZFPM2   TLR7    ADAM12  OLFML2B ENPP2   CILP    SIGLEC1 SPON2   PLXNC1  ADAMTS5 SAMSN1  CH25H   COL14A1 EMCN    RGS4    PCDH12  RARRES2 CD248   PDGFRB  C1QA    COL5A3  IGF1    SP140TFEC   TNN ATP8B4  ZNF423  FRZB    SERPING1    ENPEP   CD14    DIO2    FPR1    IL18R1  HDC TXNDC3  PDE2A   RSAD2   ITIH5   FASLG   MMP3    NOX4    WNT2    LRRC32  CXCL9   ODZ4    FBLN2   EGFL6   IL1B    SPON1   CD200
ImmuneSignature    estimate    LCP2    LSP1    FYB PLEK    HCK IL10RA  LILRB1  NCKAP1L LAIR1   NCF2    CYBB    PTPRC   IL7R    LAPTM5  CD53    EVI2BSLA    ITGB2   GIMAP4  MYO1F   HCLS1   MNDA    IL2RG   CD48    AOAH    CCL5    LTB GMFG    GIMAP6  GZMK    LST1    GPR65   LILRB2  WIPF1   CD37    BIN2    FCER1G  IKZF1   TYROBP  FGL2    FLI1    IRF8    ARHGAP15    SH2B3   TNFRSF1B    DOCK2   CD2 ARHGEF6 CORO1A  LY96    LYZ ITGAL   TNFAIP3 RNASE6TGFB1 PSTPIP1 CST7    RGS1    FGR SELL    MICAL1  TRAF3IP3    ITGA4   MAFB    ARHGDIB IL4R    RHOH    HLA-DPA1    NKG7    NCF4    LPXN    ITK SELPLG  HLA-DPB1    CD3D    CD300A  IL2RB   ADCY7   PTGER4  SRGN    CD247   CCR7    MSN ALOX5AP PTGER2  RAC2    GBP2    VAV1    CLEC2B  P2RY14  NFKBIAS100A9    IFI30   MFSD1   RASSF2  TPP1    RHOG    CLEC4A  GZMB    PVRIG   S100A8  CASP1   BCL2A1  HLA-E   KLRB1   GNLY    RAB27A  IL18RAP TPST2   EMP3    GMIP    LCK IL32    PTPRCAP LGALS9  CCDC69  SAMHD1  TAP1    GBP1    CTSS    GZMH    ADAM8   GLRX    PRF1    CD69    HLA-B   HLA-DMA CD74    KLRK1   PTPRE   HLA-DRA VNN2    TCIRG1  RABGAP1L    CSTA    ZAP70   HLA-F   HLA-G   CD52    CD302   CD27

我不想賺你的錢,不行嗎? (推薦閱讀)

腫瘤數據分析工具節選( 搞目錄太浪費時間,請自己搜索)

相關焦點

  • estimate 算法計算轉錄組數據的腫瘤純度
    1.方法介紹ESTIMATE算法,可以根據表達數據估計腫瘤樣本的基質分數(stromal score )和免疫分數(immune score),用於代表基質和免疫細胞的存在。兩個分數相加即得到estimate score,可用於估計腫瘤純度。
  • 基於Seurat結果推斷單細胞群腫瘤純度之ESTIMATE
    Inferring tumour purity and stromal and immune cell admixture from expression data.,NC,3013單細胞轉錄組是揭示細胞異質性的的有力武器,鑑於腫瘤的異質性,這一點在腫瘤樣本中表現尤為突出。
  • ESTIMATE使用
    根據基因表達數據,如何評估腫瘤組織中免疫細胞浸潤情況呢?
  • 單細胞轉錄組高級分析四:scRNA數據推斷CNV
    本專題將介紹一些單細胞轉錄組的高級分析內容:多樣本批次校正、轉錄因子分析、細胞通訊分析、基因集變異分析和更全面的基因集富集分析。不足之處請大家批評指正,歡迎添加Kinesin微信交流探討!inferCNV是大名鼎鼎的broad研究所開發的,可以使用單細胞轉錄組數據分析腫瘤細胞CNV。
  • 譜系依賴性基因表達程序影響結直腸癌的免疫圖譜
    譜系依賴性基因表達程序影響結直腸癌的免疫圖譜 作者:小柯機器人 發布時間:2020/5/27 14:37:38 韓國三星基因組研究所Woong-Yang Park和比利時魯汶天主教大學
  • 單細胞數據高級分析——解碼細胞通信網絡
    CellPhoneDB的輸入scRNA-seq數據中應包含有counts定量數據和細胞類型注釋信息,具有相同細胞類型注釋的細胞以細胞狀態聚合在一起(圖a)。     CellPhoneDB 根據一種細胞類型中受體的表達和另一種細胞類型中配體的表達,預測兩種細胞狀態之間豐富的配體-受體相互作用。
  • B細胞和三級淋巴結構促進免疫治療反應
    B細胞和三級淋巴結構促進免疫治療反應 作者:小柯機器人 發布時間:2020/1/16 16:58:08 美國德克薩斯大學MD安德森癌症中心Jennifer A. Wargo和Beth A.
  • 湯富酬/付衛合作揭示結直腸癌腫瘤微環境細胞的遺傳變異
    這些細胞通過與癌上皮細胞之間複雜的相互作用影響了腫瘤的發生和進展。近年來單細胞轉錄組測序等技術已經被廣泛應用到腫瘤微環境研究中,但是這些微環境細胞究竟被癌細胞馴化到何種程度,特別是腫瘤微環境細胞是否發生了遺傳改變等問題仍然沒有得到深入研究。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    納米孔單細胞全長轉錄組reads與參考序列比對表 使用AlignQC (v2.0.4) 對單個細胞比對結果進行評估,並繪製基因和轉錄本的飽和曲線(圖5),共檢測到12,658個基因,其中完整的基因有7,787個,曲線趨近飽和,可進一步用於後續的定量分析。
  • Nat Commun:使用基因表達數據來比較實驗室癌症模型和真實腫瘤
    2021年1月9日訊/生物谷BIOON/---從腫瘤細胞中生長出來並在實驗室條件下培養的癌細胞系是癌症研究的支柱。它們為癌症基因組學和生物學提供了寶貴的見解,但由於一些原因,科學家們往往難以將基於癌細胞系的實驗數據與其互補腫瘤的數據進行比較,也難以選擇最佳的癌細胞系來模擬特定的腫瘤類型。
  • :DNA應激和p53影響腫瘤細胞TOLL樣受體表達
    6月6日,Cancer Research在線報導,腫瘤細胞中DNA應激和p53狀態可差異性影響TOLL樣受體固有免疫家族的表達。轉錄因子p53調節包括TOLL樣受體(TLR)在內的固有免疫相關基因的表達。這提示p53也調節人類免疫反應。TLR家族構成識別病原相關的分子模式(PAMPs)的細胞膜糖蛋白,介導固有免疫反應。
  • ...DISC:使用半監督深度學習推斷單細胞轉錄組的基因表達和結構
    「dropout」事件使單細胞轉錄組中的基因表達變形並導致錯誤地分類細胞類型。儘管插補可以在某種程度上改善基因表達和下遊分析,但也不可避免地會引入額外的噪聲。本文開發了DISC,這是一種新型的深度學習網絡,具有半監督學習功能,可以推斷出因「dropout」事件而被遮蓋的基因結構和表達。在十個實際數據集上與七種最新的插補方法相比,DISC始終優於其他方法。
  • 空間轉錄組測序用於免疫治療研究
    而出現這種不良反應的原因部分歸因於腫瘤微環境(TME)的動態組成。在這裡,腫瘤細胞,浸潤的免疫細胞和間質之間的複雜相互作用以及免疫細胞群的位置和密度會影響疾病的進展和對治療的反應。因此,理解腫瘤的空間信息至關重要,因為可視化腫瘤與介導免疫監視的各種細胞之間的相互作用將增進我們對致病機制和潛在藥物的了解。
  • 靶向治療誘導的肺癌進化:單細胞轉錄組分析
    2020年5月Hae-Ock Lee和Myung-Ju Ahn的團隊對44個肺癌病人原發灶、胸膜液、淋巴結或腦轉移的腫瘤樣本進行單細胞測序,發現了一種與肺癌轉移密切相關的癌細胞亞型,基質細胞和免疫細胞創造了促腫瘤和免疫抑制的微環境,增強了我們對轉移性肺癌分子和細胞動力學的理解(Kim, N,2020)。
  • 靶向單細胞多組學方法,可在低深度下同時檢測蛋白表達和低豐度轉錄組
    通常,轉錄組的表達水平要比蛋白質低得多,而蛋白質的動態表達範圍則較大,拷貝數跨度約為6-7個數量級,轉錄本拷貝數跨度約為2個數量級。平行檢測蛋白質表達和轉錄組數據方法的開發,如CITE-seq、REAP-seq,解決了僅評估轉錄組所固有的一些限制,但也幾乎使每個單細胞的測序深度增加了一倍。
  • 科學家揭示整合單細胞和群體細胞轉錄組數據推斷細胞分化時間的作用
    該研究通過開發計算工具包(iCpSc)用於整合單細胞和群體細胞轉錄組數據,來預測細胞分化過程中單細胞的分化時間和路徑,並通過基因調控網絡分析尋找重要調控因子和信號通路。單細胞轉錄組測序技術作為強大的方法應用於分析發育和重編程過程的細胞異質性。分析細胞間異質性的關鍵目標就是尋找未知的細胞狀態或重構細胞譜系的發育軌跡。
  • 科學家繪製出小鼠和人類αβT細胞發育的表觀基因組和轉錄組整合圖譜
    科學家繪製出小鼠和人類αβT細胞發育的表觀基因組和轉錄組整合圖譜 作者:小柯機器人 發布時間:2020/11/27 14:20:02 近日,美國國立衛生研究院Rémy Bosselut及其小組繪製出小鼠和人類αβT細胞發育的表觀基因組和轉錄組整合圖譜
  • 病理組學的套路可以這麼發!還發到了Nature子刊
    還記得在三十六策中,酸菜老師總結在基礎科研中有四大金剛,分別是基因組學,轉錄組學,蛋白組學,以及代謝組學。而在近年來,隨著各個領域中大數據的迅速興起,人工智慧這一新興領域也得以快速發展,各種組學技術和分析算法的開發也同樣進入了快車道。其中,人工智慧在影像診斷和病理分析領域中的應用更是得到了廣泛的關注。通過計算機來進行圖像特徵的提取與分析,進而輔助臨床診斷,具有較高的診斷準確性。
  • 抑制轉錄因子HIF-1α能夠增強NK細胞活性
    抑制轉錄因子HIF-1α能夠增強NK細胞活性 作者:小柯機器人 發布時間:2020/5/25 21:19:58 德國海德堡大學Adelheid Cerwenka課題組利用單細胞RNA測序發現,抑制轉錄因子HIF-1α能夠增強NK