題目:Construction and Validation of a 9-Gene Signature for PredictingPrognosis in Stage III Clear CellRen
譯名:預測Ⅲ期透明細胞腎癌預後的9基因信號的構建與驗證
目的
建立一個多基因信號,以幫助更好地III期腎細胞癌(RCC)患者的預後進行預測。
方法
★從GEO資料庫中下載GSE53757數據集,包括14對癌症和正常組織的表達數據,從TCGA資料庫中下載16對mRNA,表達譜數據(下載的是RNA-seq測序數據,需要提取mRNA數據)。
★差異表達分析,對共同差異表達基因進行進一步分析。
★對TCGA中選擇腎癌Ⅲ期病例 (N=122)進性lasso cox回歸,篩選和建立預後多基因信號。在FUSCC資料庫中選擇腎癌Ⅲ期病例(N=77)對多基因信號進行驗證。
★對所有病例(N=199)預測總體生存時用C-index和time-dependent ROC檢驗多基因信號的有效性。
結果
1.TCGA和GEO兩個數據集中共找到1370個差異表達基因。
2. Lasso cox 回歸模型找到9個mRNA,構建分類器將腎癌III期病人分為高風險組和低風險組,在TCGA患者(N122)中、FUSCC患者 (N=77)中、以及TCGA和FUSCC所有患者(N = 199)中預後差異非常顯著(p<0.01)。
3.對完整數據(N=199)進行多因素cox比例回歸,發現9個基因信號分類的風險組、診斷時的年齡、pNstage、ISUP grade為總體生存的獨立的預後因子。
腎癌是全世界最常見的泌尿系腫瘤之一,2018年美國估計有近65 340例新病例和14 970人死亡。腎細胞癌的發病率(RCC)在中國也在增加。目前,預後預測主要是根據RCC患者的病理分期。
目前,臨床上推薦採用腫瘤轉移(TNM)分類系統進行腫瘤分期。然而,各亞組之間存在看明顯的生存差異。四型腎感患者(T3NOM0,5年生存率:20-70%;T1-3N1MO,5年生存率:0-20%)(5)。雖然UICC/AICC TNM分期系統的最新版本(第8版)已經發布,但這個問題仍然存在,未解決,從而限制了該系統在判斷預後方面的應用,以指導臨床實踐。因此,需要有更好的信號來幫助預測III期腎癌患者的預後。
此外,III期RCC患者的全身治療仍在發展中。幾項研究聲稱,在手術後接受索拉非尼或舒尼替尼的III期患者有更好的療效。與安慰劑相比,無疾病生存期(DFS),但總生存期(OS)相似。據報導,PazopanibNivolumumab在轉移性RCC患者中有效,局部晚期腎癌患者的輔助治療安慰劑沒有顯示出保護作用。佐劑和新佐劑nivolumab臨床試驗仍在進行中,但希望它們能顯示出良好的效果。ipilimumab的使用也可能是有希望的。因此,建立更準確的III期腎癌患者預後分類系統,對指導更好的管理策略具有重要意義。
病人和公共資料庫
GSE53757、14對癌症和正常組織樣品。
TCGA資料庫(通過UCSU-Xena下載)level3 mRNA數據,16對腎癌III期患者癌症和癌旁組織樣品。
●TCGA中122例腎癌III期患者有完整的臨床和生存信息,訓練集。
FUSCC資料庫中77例接受根治性腎切除術的患者,驗證集。
●共研究就199名腎癌III期患者基因表達數據和臨床信息。
公共數據的處理
★GEOquery包下載晶片數據、gcrma包對數據進行標準化.
★探針ID轉換為EntrezGenelD,多個探針匹配到一個EntrezGenelD,取均值。
識別差異表達基因
★對GEO數據使用paired t-test識別差異基因,並用FDR矯正p-value,p-value < 0.01並且[logFC|>1為差異表達
基因、TCGA數據做同樣分析(也可以用limma包),取共同差異表達基因。
RNA提取、反轉錄、qRT-PCR
在FUSCC驗證集中提取77名患者的總RNA,進行RT-PCR,以ATCB基因作為內參基因,ACt表示基因的表達水平,△Ct(A gene)= Ct(A gene) - Ct(ATCB gene),Ct值越大表示模板的初始濃度越低,也就是gene的表達量越低。所以△Ct值越高,初始表達量越低。
風險得分計算和統計分析(TCGA數據)
生存時間:
data of surgery to the date of death
last follow-up
差異表達基因篩選:
lasso cox 回歸(R-glmnet包)對差異表達基因進行篩選,減少差異表達基因的數量,並且得到篩選後的基因的回歸係數。
★ 根據風險得分將患者分組:
☉根據篩選後的基因的表達量和患者總生存時間,通過X-tile軟體,對篩選後的每個基因分別尋找最佳cutoffs。
☉然後根據各自cutoffs,將篩選的基因分為高表達基因和低表達基因,一般高表達基因用1表示,低表達基因用0表示。
☉根據每個基因的回歸係數與表達狀態(高/低表達)計算每個患者的風險得分,使用風險得分中位數將患者分為高風險組和低風險組。
生存分析:
使用KM法驗證高風險組和低風險組的患者生存時間是否有差異,生存信息來自TCGA資料庫患者和FUSCC資料庫患者,分別對訓練集(TCGA) 驗證集(FUSCC),整合數據(TCGA + FUSCC)進行生存分析。
COX回歸分析:驗證風險組是否為獨立預後因子。
Time dependent ROC:在每個數據集中評估風險得分的預測準確度。
C-index:表示一些預後因子的影響。
歡迎關注公眾號啟帆醫學BioSCI, 創始人之一為留美海歸生物醫學博士,經過數年積累,匯聚了大批國內外頂級名校的教授、博士、博士後以及其他科研人員等強大人脈資源。公眾號專注於生物醫學研究、科研課題設計、SCI論文寫作等領域的知識梳理和資料分享,為廣大醫務工作者提供便利。