預後分析總能玩出新花樣,不久之前生信人公眾號推過診斷模型+預後模型的文章,預後風險評分中包含預後相關lncRNA和mRNA的也不少,今天這篇文章通過與疾病相關基因突變分組篩選差異的lncRNA和mRNA,構建共表達網絡,然後分別構建了mRNA風險評分+lncRNA風險評分,踐行了好事成雙的大道理。希望讀後你能有所啟發
High Expression of the SH3TC2-DT/SH3TC2 Gene Pair Associated With FLT3 Mutation and Poor Survival in Acute Myeloid Leukemia: An Integrated TCGA Analysis
急性髓系白血病中SH3TC2-DT/SH3TC2基因對的高表達與FLT3突變和低生存率相關:一項完整的TCGA分析
Fms樣酪氨酸激酶3(FLT3)突變是急性髓細胞性白血病(AML)中最常見的突變之一。但是,FLT3突變對生存的影響目前還沒有被充分研究,並且其致白血病的機制仍在進一步研究中。那麼該研究的目的就是識別FLT3突變AML中的差異表達基因(DEG),並找到其表達水平與預後相關的關鍵DEG,隨後進行了一系列的分析。讓我們一起來看一看作者都做了哪些研究吧~
一.材料和方法
1.1數據收集與預處理
該研究的工作流程圖如圖1所示。從TCGA中下載了151種人類AML樣本的數據,包括從IlluminaHiSeq_RNASeq平臺獲得的RNA測序數據和臨床隨訪數據,包括年齡,生存時間等。
圖1.流程圖
1.2 識別差異表達的lncRNA和mRNA
TCGA-LAML數據集由43個FLT3突變AML和108個FLT3野生型AML樣本組成。使用R包「 edgeR」來篩選FLT3突變體和FLT3野生型樣本之間的差異表達基因(DEG)。使用FDR來矯正多重假設檢驗的q值。FC≥2以及矯正後的P<0.05具有統計學意義。根據人類基因組GRCh38.93將 基因 ID轉換為基因symbol。使用R包「gplots」對DElncRNA和DEmRNA繪製了火山圖。
1.3 功能富集分析
使用R包「 clusterProfiler」進行KEGG分析。使用GSEA來鑑定SH3TC2-DT或SH3TC2高表達表型顯著富集的基因集。
1.4加權基因共表達網絡分析
使用R包WGCNA來構建DEG的共表達模塊。應用平均連鎖法和pearson相關性對TCGA-LAML的樣本進行聚類。基因i和j之間的加權鄰接矩陣定義為aij = | Cij | β(aij:基因i和基因j之間的鄰接關係,Cij:pearson相關性,β:閾值= 4)。將鄰接矩陣轉換成拓撲重疊矩陣(TOM)。最後,利用DynamicTreeCut算法構建平均連鎖層次聚類樹狀圖,將表達相似的基因分為相同的模塊。為了確定每個模塊的臨床意義,計算了基因意義(GS)來量化單個基因與臨床特徵的關聯。模塊重要性(MS)定義為模塊特徵基因(MEs)與基因表達譜之間的關聯。然後將不同的MEs與臨床特徵相關聯。
1.5 COX比例風險回歸分析
通過單變量Cox比例風險回歸評估每個黃色模塊基因的預後意義。然後,應用多變量Cox回歸分析從與預後相關的lncRNA構建一個3-lncRNA預後風險模型。對於mRNA來說,首先進行了最小絕對收縮和選擇算子(LASSO)回歸分析來選擇mRNA。然後,應用多元Cox回歸分析從選定的mRNA構建3-mRNA預後風險模型。根據風險評分中位數,將AML樣本分為高風險和低風險組。通過Kaplan–Meier分析來鑑定風險模型的預後價值。通過R包「 survivalROC」繪製ROC曲線來評估風險模型的預測準確性。通過多變量Cox回歸分析的結果繪製了列線圖以預測總體生存期(OS)。
1.6 SH3TC2-DT / SH3TC2基因對分析
對於單基因來說,應用t檢驗進行差異表達分析,應用Logistic回歸來分析SH3TC2-DT / SH3TC2表達與臨床特徵之間的關聯。為了預測SH3TC2的靶標,通過R包「edgeR」分析了SH3TC2高表達組(n = 76)和SH3TC2低表達組(n = 75)之間的DEG。然後,通過DAVID的「 Protein_Interactions」功能下的「 UCSC_TFBS」模塊對DEGs列表進行注釋。識別了DEG中顯著富集的轉錄因子(TFs)並應用Cytoscape進行了可視化。
從Vizome和TCGA下載BeatAML數據集的RNA測序數據和臨床隨訪數據,來驗證FLT3-ITD和FLT3-野生型AML之間SH3TC2-DT / SH3TC2的差異表達。同樣地計算DEG。應用GSE37642-GPL570 AML數據集來驗證SH3TC2表達水平與OS之間的關聯。根據SH3TC2的中位表達值,將136個AML樣本分為兩組。應用Kaplan–Meier曲線比較SH3TC2表達高低兩組樣本之間的OS。以上的這些統計檢驗和繪圖都是通過R和GraphPad Prism 7.0進行。
二.結果展示
2.1 FLT3-突變型和FLT3-野生型AML之間的DEmRNA和DElncRNAs
作者應用R包「 edgeR」對FLT3野生型AML和FLT3突變AML之間進行差異表達分析,共識別到差異表達的619個lncRNA(113個上調和506個下調)和1,428個mRNA(194個上調和1,234個下調)(圖2A,B) 。KEGG分析顯示DEmRNAs富集到與腫瘤發生密切相關的通路,如Wnt信號通路,PI3K-Akt信號通路和Ras信號通路(圖2C),表明FLT3突變在AML發病機制中的可能作用。
圖2. 在FLT3突變體和FLT3野生型AML之間識別DElncRNA和DEmRNA
2.2 加權共表達網絡的構建及與生存相關的模塊的識別
應用R包「 WGCNA」來構建DEG的共表達模塊,並進一步確定與預後相關的模塊。通過平均連鎖和Pearson相關性的方法對TCGA-LAML樣本進行聚類(圖3A)。軟閾值參數設置為β= 4(圖3B)。
圖3. 層次聚類樹和軟閾值估計
合併具有高度相似性的模塊後,通過平均連鎖層次聚類(圖4A)生成了總共27個模塊,模塊的基因數目大小從31到327個不等。其中非共表達的基因被分組為「灰色」模塊,並排除在進一步的分析中。隨機選擇的400個DEGs的熱圖顯示每個模塊中共表達基因的高度拓撲重疊(圖4B)。特徵基因鄰接熱圖顯示了27個共表達模塊之間的關係(圖4C)。最後,確定了這些模塊與臨床特徵之間的相關性(圖4D)。
圖4. 共表達基因和模塊與性狀關係的網絡構建
其中黃色模塊與骨髓高白細胞(WBC)計數和胚細胞百分比相關,但與年齡,性別,突變計數,細胞遺傳風險或分子遺傳風險無關。並且該模塊與較差的無病生存期(DFS)和OS有較高的關聯,因此選擇進行進一步的分析。
2.3黃色模塊中每個基因的預後意義
通過單變量Cox比例風險回歸,黃色模塊中共有43個基因與OS顯著相關。其中,12個lncRNA和31個mRNA的高表達與OS較差相關(圖5)。然後對這些lncRNA和mRNA進行進一步的構建lncRNA或mRNA預後風險模型。
圖5.基於黃色模塊中基因表達的生存分析
2.4 lncRNA預後風險模型的建立
通過多變量Cox比例風險回歸分析,作者建立了3-lncRNA預後風險模型來預測AML患者的OS,風險評分=(0.006899×SH3TC2-DT的表達值)+(0.00026×AF064858.1的表達值) +(0.016446×AL133353.1的表達值)(表1)。其中SH3TC2-DT是與預後最相關的lncRNA(表1)。
表1. lncRNA預後風險評分模型
根據風險評分的中位數,148例患者被分為高危(N = 74)和低危(N = 74)組(圖6A–C)。高危患者的OS顯著更低(圖6D)。多因素Cox回歸分析顯示,年齡和lncRNA風險評分是影響OS的獨立預後因素。lncRNA風險評分對生存的影響較大(圖6E)。ROC曲線下的面積為0.664,表明該風險模型具有較高的預測價值(圖6F)。繪製Nomogram以可視化多元Cox回歸分析的結果(圖6G)。此外,Kaplan–Meier曲線還證實這三個lncRNA是OS的預測指標(圖5A–C)。
圖6.lncRNA的Cox比例風險回歸分析
2.5 mRNA預後風險模型的建立
為了提高預後風險模型的預測準確性,首先進行了LASSO回歸分析,並從黃色模塊中具有預後價值的31個mRNA中選擇了四個mRNA(SH3TC2,ENPP2,TMEM273和PRDM16)進行進一步分析。通過多變量Cox比例風險回歸分析,確定了一個3-mRNA預後風險模型來預測AML病例中的OS,風險評分=(0.000612×SH3TC2的表達值)+(0.000507×ENPP2的表達值)+( 0.000277×TMEM273的表達值)(表2)。
表2.mRNA預後風險評分模型
同樣地,根據風險評分的中位數,148例患者被分為高危(N = 74)和低危(N = 74)組(圖7A–C)。高危組患者的OS率顯著更低(圖7D)。多因素Cox回歸分析顯示,年齡,白細胞計數,分子風險和mRNA風險評分是影響OS的獨立預後因素。mRNA風險評分對生存的影響更大(圖7E)。ROC曲線下的面積為0.744,表明該風險模型具有較高的預測價值(圖7F)。最後,繪製Nomogram以可視化多元Cox回歸分析的結果(圖7G)。此外,Kaplan–Meier曲線還證實了這三種mRNA是OS的預測指標(圖5D–F)。
圖7.mRNA的Cox比例風險回歸分析
2.6 SH3TC2-DT / SH3TC2基因對是AML的獨立預後因素
在這一部分作者研究了SH3TC2-DT和SH3TC2表達的臨床意義。該研究表明,SH3TC2-DT和SH3TC2在FLT3突變AML樣本中協同高表達(圖8A,9A),表明SH3TC2-DT可能在AML發病過程中調節SH3TC2表達。並且SH3TC2-DT或SH3TC2的高表達與OS差有關(圖8B,9B)。兩者的ROC曲線都顯示出較高的預測值(圖8C,9C)。多變量Cox回歸分析顯示SH3TC2-DT和SH3TC2表達均為獨立的預後因素(圖8D,9D)。此外,應用邏輯回歸分析將SH3TC2-DT / SH3TC2基因對與臨床特徵相關聯,發現SH3TC2-DT和SH3TC2的高表達均與較高的WBC計數,分子遺傳風險以及FLT3突變有關。SH3TC2的高表達也與年齡有關(表3、4)。
表3. SH3TC2-DT表達與臨床特徵之間的關聯(logistic回歸)
表4. SH3TC2表達與臨床特徵之間的關聯(logistic回歸)
GSEA顯示,伴有FLT3-ITD的AML基因集在SH3TC2-DT和SH3TC2高表達表型中富集(圖8E、9E)。
圖8. SH3TC2-DT表達與總生存率和基因集富集的關係
圖9. SH3TC2表達與總生存率和基因集富集的關
作者發現與幹細胞特性或白血病發生相關的TF顯著富集於SH3TC2高表達組和SH3TC2低表達組之間的DEG,表明這些TF 可能是AML中SH3TC2的潛在靶標(圖10)。
圖10. TFs 調控網絡
最後就是驗證部分了,作者分析了BeatAML(Vizome)數據集,發現SH3TC2-DT和SH3TC2在FLT3突變AML中均顯著高表達。此外, GSE37642-GPL570還顯示,SH3TC2的高表達與AML中OS差有關。
好啦,這篇文章的內容就這麼多啦~總結一下文章是總-分-總的模式:1、篩選FLT3野生型和突變型白血病差異因子,構建lncRNA、mRNA共表達網絡,篩選預後marker;2、分別構建lncRNA、mRNA預後風險評分模型;3、篩選疾病關鍵的lncRNA-mRNA調控軸生存分析;4、外部數據驗證。內容該有的都有,故事完整連貫,再加點其它分析(eg:浸潤、免疫治療等)就更完美了。話不多說心動嗎,心動不如行動: