一文學會使用TCGA資料庫的網絡分析工具——KRAB ZNF explorer
癌症基因組圖譜(The Cancer Genome Atlas,TCGA)早已在全世界廣為知曉,這項計劃包含了人類全部癌症的基因組變異圖譜,通過數據挖掘能夠很好地了解癌症發生和發展的機制,是腫瘤研究中重要的資料庫。然而,因為其數據集規模較大,複雜度較高,下載數據進行分析困難較多,很多小夥伴在下載TCGA數據時就因為諸多因素而無從下手。於是,GEPIA等基於TCGA資料庫的可視化網絡平臺給我們帶了極大的便利,能夠簡單快速的預測或分析繪圖。今天我又為大家帶來一款2020年最新的基於TCGA資料庫的網絡分析工具——KRAB ZNF explorer(http://mi2.mini.pw.edu.pl:8080/KRAB_ZNF/)。
這款工具是發表於今年2月的生信老牌期刊Bioinformatics,2019年最新影響因子5.61。題名為「KRAB ZNF explorer(KRAB ZNF explorer – the online tool for the exploration of the tranomic profiles of KRAB-ZNF factors in The Cancer Genome Atlas)」。作者是波蘭首都華沙大學的Cylwa,Biecek等人。
期刊信息
背景知識
KRAB-ZNFs(Krüppel-associated box domain zinc finger proteins):是最大的鋅指蛋白家族,也是最大的表觀遺傳抑制劑。這些蛋白在細胞信號轉導、細胞生長、分化中起到重要作用。KRAB-ZNFs家族中的一些成員也參與癌症的發生發展。然而,大多數krabb - znf因子的功能仍不清楚或缺乏特徵。KRAB-ZNFs參與癌症發展,因此可能支持未來探索krabi - znf作為生物標誌物或抗癌靶點在患者管理機制中的功能和潛在效用的研究。
這個平臺收錄了381種KRAB-ZNF在30多種TCGA癌症中的功能,揭示KRAB-ZNF家族因子參與癌症的新的線索,能夠進行的主要分析包括:
1)正常和腫瘤樣品之間KRAB-ZNF基因的比較分析;
2)KRAB-ZNF表達與各種臨床病理參數的相關性;
3)患者存活率與KRAB-ZNF基因表達之間的聯繫的分析和可視化;
4)分析KRAB-ZNF表達與CpG甲基化狀態之間的關係;
5)分析正常和腫瘤樣品中KRAB-ZNF基因的同工型表達;
6)正常組織中KRAB-ZNF表達的比較分析
下面我們就來逐一展示這個神器的各種功能吧。
操作演示
「Expression in Normal vs Tumor」 分析模塊使用的是標準化的RNA-seq數據,使用錯誤發現率(FDR)校正的Student t檢驗,可以在癌症和正常組織之間進行差異表達分析。 用戶可以從 數據可以可視化為箱線圖。 此外,還會生成帶有所需比較的t檢驗結果的表格,並可以下載該表格。首先我們點擊「Expression in Normal vs Tumor」,接下來在頁面左邊,選擇感興趣的KRAB-ZNF因子和癌症類型。我們以ZNF195在LUSC中的表達為例,設定相應參數。網頁自動運行,界面右方會得到結果圖片和數據,下拉頁面可以下載tiff, pdf, eps三種格式圖片,以及csv, txt格式數據。
KRAB-ZNF表達與各種臨床病理參數的相關性
「Clinical Parameters」模塊可以顯示所選KRAB-ZNF因子與不同臨床參數之間的相關性。同樣使用帶有FDR校正功能的Student t檢驗來評估獨立亞組在臨床變量和分子參數方面的差異。並通過箱式圖和帶有t檢驗結果的列表展示相應結果。該模塊有助於了解所選腫瘤的不同組織學類型之間基因表達的差異。如果某些類型與顯著的低基因表達或高基因表達有關,那麼相應的箱形圖將發生變化。每個箱線圖顯示中位數和四分位數表達(框的邊界),最小和最大表達以及離群值。 結果箱式圖比較了所選亞型中所選基因的表達水平。底部表格顯示了相同比較的描述性統計數據和t檢驗結果。
我們仍以LUSC cohort,ZNF195基因為例,在腫瘤亞組「subtype」一欄,有「expression subtype」, 「gender」, 「histological type」, 「smoking history」,「pathologic M」 , 「pathologic T」, 「pathologic N」 等亞組分類可以選擇。然後設置linear scale 或者log scale, 以及對scale minimum ,font size進行設定,就可以在界面右邊得到可供下載的結果圖片和數據。
「Survival Analysis」模塊是生存分析,提供了以下三個分析模式。
可以比較每個KRAB-ZNF在高表達和低表達組之間的個體存活率。我們可以通過表達中位值,或者使用最大選擇的等級統計信息來確定分割的最佳切割點,這兩種方式選擇分類為高或低表達水平。並通過最大秩統計和對數秩檢驗的p值熱圖可視化切割點選擇,比較各組之間的生存分布。除了繪圖外,它還提供可下載的表格以及對數排名的測試結果。 使用survminer軟體包進行生存分析,繪製Kaplan-Meier曲線。並可以各種格式下載並具有其他可自定義功能。我們以基因KRBA2在LUSC隊列中的生存分析為例,並以系統默認參數進行設定,在界面右邊出現Kaplan-Meier曲線以及基因表達的分布。可以下載png, pdf, eps, tiff四種格式。另外還可以繪製所選基因熱圖;生成log-rank檢驗表格。
在「Methylation and Expression」模塊中,我們可以分析KRAB-ZNF表達與CpG甲基化之間的相關性。分析使用了t檢驗以評估兩組患者之間每個CpG島的甲基化差異。 將患者以每個KRAB-ZNF和癌症隊列中最高(最高10%)和最低(最低10%)表達水平分組。同樣可下載結果表格。列表顯示了針對每個隊列進行的KRAB-ZNF因子高表達(前10%)和低表達(下10%)組之間甲基化水平差異的t-檢驗(p值經過FDR調整)的結果,並與基因分開。這裡有可能很耗時,因為系統需要處理所有的CpG島。
在「Isoforms Expression」模塊中,通過以下方式分析同工型表達。首先,對於每個隊列,可以分別生成一張表格,其中t檢驗的結果分析了正常組織和癌組織之間同工型表達的差異。 其次,對於選定的隊列和基因,用戶可以查看並下載顯示每個同工型表達譜的箱線圖。 第三,可以繪製所選基因和同類人群中同工型表達的百分比。 最後,該應用程式會生成所有同類群組的同工型表達圖。
我們點擊「Isoforms expression normal vs cancer test」,選擇目的基因合癌症類型後,點擊「Generate output」首先可以生成每個隊列中正常組織和腫瘤組織異構體表達t檢驗的結果表格,如下圖所示。
另外,對於選中的隊列和基因,用戶可以下載每個異構體的表達箱式圖,顯示了正常和癌症組織中所選基因同工型的表達差異。通過箱式圖有助於了解哪些異構體表達不同。
此外,還可以繪製異構體在選中的基因和隊列中的表達百分比,也可以繪製在所有隊列中的表達條形圖。
在「Expression in Normal Tissue」模塊中,可以選擇一系列KRAB-ZNF因子,繪製在所有正常組織中的表達熱圖,以及基因表達的箱線圖,和下載相關的統計數據。有助於了解多個基因(行)在不同的腫瘤(列)中差異表達。
小結
該項分析平臺相比於其他如GEPIA等基於TCGA資料庫的泛癌研究平臺來講,更專注於KRAB-ZNFs家族的300多基因,分析的也更加深入,功能及數據下載也比較全面,對於研究KRAB ZNFs這個最大的表觀遺傳抑制劑家族提供了很好的分析方式。同時,構建此類針對部分基因的資料庫,在分析結果上相對更加垂直,也為我們創造更多的生信挖掘工具提供了很好的思路和方向。該項研究將使KRAB-ZNFs家族在癌症和癌症相關表觀遺傳學機制中的作用得到更全面的表徵。
參考文獻
[1] Cylwa Rafał,Kiełczewski Kornel,Machnik Marta et al. KRAB ZNF explorer-the online tool for the exploration of the tranomic profiles of KRAB-ZNF factors in The Cancer Genome Atlas.[J] .Bioinformatics, 2020, 36: 980-981.
[2] Marcin Kosinski and Przemyslaw Biecek (2019). RTCGA: The Cancer Genome Atlas Data Integration. R package version 1.14.0. https://rtcga.github.io/RTCGA
[3] Marta Machnik, Rafal Cylwa, Kornel Kielczewski, Przemyslaw Biecek, Triantafillos Liloglou, Andrzej Mackiewicz, and Urszula Oleksiewicz (2019). The expression signature of cancer-associated KRAB-ZNF factors identified in TCGA pan-cancer transcriptomic data.. Mol Oncol. 2019 Apr;13(4):701-724. doi: 10.1002/1878-0261.12407.
後臺私信領取福利
—END—