高分生信必備的TCGA資料庫一站式分析神器!真捨不得告訴你

2020-11-11 解螺旋

一文學會使用TCGA資料庫的網絡分析工具——KRAB ZNF explorer

癌症基因組圖譜(The Cancer Genome Atlas,TCGA)早已在全世界廣為知曉,這項計劃包含了人類全部癌症的基因組變異圖譜,通過數據挖掘能夠很好地了解癌症發生和發展的機制,是腫瘤研究中重要的資料庫。然而,因為其數據集規模較大,複雜度較高,下載數據進行分析困難較多,很多小夥伴在下載TCGA數據時就因為諸多因素而無從下手。於是,GEPIA等基於TCGA資料庫的可視化網絡平臺給我們帶了極大的便利,能夠簡單快速的預測或分析繪圖。今天我又為大家帶來一款2020年最新的基於TCGA資料庫的網絡分析工具——KRAB ZNF explorer(http://mi2.mini.pw.edu.pl:8080/KRAB_ZNF/

這款工具是發表於今年2月的生信老牌期刊Bioinformatics,2019年最新影響因子5.61。題名為「KRAB ZNF explorer(KRAB ZNF explorer – the online tool for the exploration of the tranomic profiles of KRAB-ZNF factors in The Cancer Genome Atlas)」。作者是波蘭首都華沙大學的Cylwa,Biecek等人。

期刊信息

背景知識

KRAB-ZNFs(Krüppel-associated box domain zinc finger proteins):是最大的鋅指蛋白家族,也是最大的表觀遺傳抑制劑。這些蛋白在細胞信號轉導、細胞生長、分化中起到重要作用。KRAB-ZNFs家族中的一些成員也參與癌症的發生發展。然而,大多數krabb - znf因子的功能仍不清楚或缺乏特徵。KRAB-ZNFs參與癌症發展,因此可能支持未來探索krabi - znf作為生物標誌物或抗癌靶點在患者管理機制中的功能和潛在效用的研究。

這個平臺收錄了381種KRAB-ZNF在30多種TCGA癌症中的功能,揭示KRAB-ZNF家族因子參與癌症的新的線索,能夠進行的主要分析包括:


1)正常和腫瘤樣品之間KRAB-ZNF基因的比較分析;

2)KRAB-ZNF表達與各種臨床病理參數的相關性;

3)患者存活率與KRAB-ZNF基因表達之間的聯繫的分析和可視化;

4)分析KRAB-ZNF表達與CpG甲基化狀態之間的關係;

5)分析正常和腫瘤樣品中KRAB-ZNF基因的同工型表達;

6)正常組織中KRAB-ZNF表達的比較分析


下面我們就來逐一展示這個神器的各種功能吧。


操作演示

正常組織和癌症組織KRAB-ZNF表達的比較分析

「Expression in Normal vs Tumor」 分析模塊使用的是標準化的RNA-seq數據,使用錯誤發現率(FDR)校正的Student t檢驗,可以在癌症和正常組織之間進行差異表達分析。 用戶可以從 數據可以可視化為箱線圖。 此外,還會生成帶有所需比較的t檢驗結果的表格,並可以下載該表格。首先我們點擊「Expression in Normal vs Tumor」,接下來在頁面左邊,選擇感興趣的KRAB-ZNF因子和癌症類型。我們以ZNF195在LUSC中的表達為例,設定相應參數。網頁自動運行,界面右方會得到結果圖片和數據,下拉頁面可以下載tiff, pdf, eps三種格式圖片,以及csv, txt格式數據。

KRAB-ZNF表達與各種臨床病理參數的相關性

「Clinical Parameters」模塊可以顯示所選KRAB-ZNF因子與不同臨床參數之間的相關性。同樣使用帶有FDR校正功能的Student t檢驗來評估獨立亞組在臨床變量和分子參數方面的差異。並通過箱式圖和帶有t檢驗結果的列表展示相應結果。該模塊有助於了解所選腫瘤的不同組織學類型之間基因表達的差異。如果某些類型與顯著的低基因表達或高基因表達有關,那麼相應的箱形圖將發生變化。每個箱線圖顯示中位數和四分位數表達(框的邊界),最小和最大表達以及離群值。 結果箱式圖比較了所選亞型中所選基因的表達水平。底部表格顯示了相同比較的描述性統計數據和t檢驗結果。


我們仍以LUSC cohort,ZNF195基因為例,在腫瘤亞組「subtype」一欄,有「expression subtype」, 「gender」, 「histological type」, 「smoking history」,「pathologic M」 , 「pathologic T」, 「pathologic N」 等亞組分類可以選擇。然後設置linear scale 或者log scale, 以及對scale minimum ,font size進行設定,就可以在界面右邊得到可供下載的結果圖片和數據。

生存分析

「Survival Analysis」模塊是生存分析,提供了以下三個分析模式。

可以比較每個KRAB-ZNF在高表達和低表達組之間的個體存活率。我們可以通過表達中位值,或者使用最大選擇的等級統計信息來確定分割的最佳切割點,這兩種方式選擇分類為高或低表達水平。並通過最大秩統計和對數秩檢驗的p值熱圖可視化切割點選擇,比較各組之間的生存分布。除了繪圖外,它還提供可下載的表格以及對數排名的測試結果。 使用survminer軟體包進行生存分析,繪製Kaplan-Meier曲線。並可以各種格式下載並具有其他可自定義功能。我們以基因KRBA2在LUSC隊列中的生存分析為例,並以系統默認參數進行設定,在界面右邊出現Kaplan-Meier曲線以及基因表達的分布。可以下載png, pdf, eps, tiff四種格式。另外還可以繪製所選基因熱圖;生成log-rank檢驗表格。


KRAB-ZNF表達與DNA甲基化的相關性

在「Methylation and Expression」模塊中,我們可以分析KRAB-ZNF表達與CpG甲基化之間的相關性。分析使用了t檢驗以評估兩組患者之間每個CpG島的甲基化差異。 將患者以每個KRAB-ZNF和癌症隊列中最高(最高10%)和最低(最低10%)表達水平分組。同樣可下載結果表格。列表顯示了針對每個隊列進行的KRAB-ZNF因子高表達(前10%)和低表達(下10%)組之間甲基化水平差異的t-檢驗(p值經過FDR調整)的結果,並與基因分開。這裡有可能很耗時,因為系統需要處理所有的CpG島。

KRAB-ZNF異構體分析

在「Isoforms Expression」模塊中,通過以下方式分析同工型表達。首先,對於每個隊列,可以分別生成一張表格,其中t檢驗的結果分析了正常組織和癌組織之間同工型表達的差異。 其次,對於選定的隊列和基因,用戶可以查看並下載顯示每個同工型表達譜的箱線圖。 第三,可以繪製所選基因和同類人群中同工型表達的百分比。 最後,該應用程式會生成所有同類群組的同工型表達圖。

我們點擊「Isoforms expression normal vs cancer test」,選擇目的基因合癌症類型後,點擊「Generate output」首先可以生成每個隊列中正常組織和腫瘤組織異構體表達t檢驗的結果表格,如下圖所示。

另外,對於選中的隊列和基因,用戶可以下載每個異構體的表達箱式圖,顯示了正常和癌症組織中所選基因同工型的表達差異。通過箱式圖有助於了解哪些異構體表達不同。

此外,還可以繪製異構體在選中的基因和隊列中的表達百分比,也可以繪製在所有隊列中的表達條形圖。

KRAB-ZNF在正常組織中的對比分析

在「Expression in Normal Tissue」模塊中,可以選擇一系列KRAB-ZNF因子,繪製在所有正常組織中的表達熱圖,以及基因表達的箱線圖,和下載相關的統計數據。有助於了解多個基因(行)在不同的腫瘤(列)中差異表達。

小結

該項分析平臺相比於其他如GEPIA等基於TCGA資料庫的泛癌研究平臺來講,更專注於KRAB-ZNFs家族的300多基因,分析的也更加深入,功能及數據下載也比較全面,對於研究KRAB ZNFs這個最大的表觀遺傳抑制劑家族提供了很好的分析方式。同時,構建此類針對部分基因的資料庫,在分析結果上相對更加垂直,也為我們創造更多的生信挖掘工具提供了很好的思路和方向。該項研究將使KRAB-ZNFs家族在癌症和癌症相關表觀遺傳學機制中的作用得到更全面的表徵。


參考文獻

[1] Cylwa Rafał,Kiełczewski Kornel,Machnik Marta et al. KRAB ZNF explorer-the online tool for the exploration of the tranomic profiles of KRAB-ZNF factors in The Cancer Genome Atlas.[J] .Bioinformatics, 2020, 36: 980-981.

[2] Marcin Kosinski and Przemyslaw Biecek (2019). RTCGA: The Cancer Genome Atlas Data Integration. R package version 1.14.0. https://rtcga.github.io/RTCGA

[3] Marta Machnik, Rafal Cylwa, Kornel Kielczewski, Przemyslaw Biecek, Triantafillos Liloglou, Andrzej Mackiewicz, and Urszula Oleksiewicz (2019). The expression signature of cancer-associated KRAB-ZNF factors identified in TCGA pan-cancer transcriptomic data.. Mol Oncol. 2019 Apr;13(4):701-724. doi: 10.1002/1878-0261.12407.

後臺私信領取福利

—END—

相關焦點

  • 生信分析幫你湊!學會深度挖掘快速發文章
    這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • lnRNA生信一站式分析神器!差異表達臨床分析ceRNA網絡
    一文學會集美貌與實力於一身的TANRIC資料庫嗨,小夥伴們大家好!~每周給大家分享一個資料庫實操教程!這次給大家帶來的是一款集lncRNA注釋和表達信息、可視化和臨床相關分析等多種功能~啊~不~是才華與美貌於一身的TANRIC資料庫使用方法,不要走開哦~!
  • CNS 一作大神:這個生信分析方法帶你不做實驗快速發論文!
    這是一篇完全基於生物信息學分析的文章,文章的思路:分析 TCGA 資料庫中的數據——利用 R 語言的 WGCNA 包——結合在線工具——發表文章。 不得不說,生信分析類文章最近兩年井噴式發表。在國內生信類文章幾乎能媲美同級別的基礎研究型文章,且普通的雜誌對生信分析很友好,容易接納。
  • ​腫瘤差異分析、互作分析神器,這個資料庫到底有多好用?
    說來都是一把辛酸淚,曾經小編在做TCGA差異分析的時候,相比較腫瘤各分期與正常的差異以及腫瘤各分期之間的差異,得做好多次差異分析,實在不忍心看到解螺旋的小夥伴們跟小編一樣經歷這樣的心累感,今天小編向大家介紹一個超級省心的資料庫CRN,相信大家使用了這個資料庫之後,對於TCGA腫瘤的差異分析和互作分析減少一點點心累感。
  • 啟動子序列提取-EPD真核生物啟動子資料庫!
    DNA/mRNA結構示意圖啟動子序列的查找在實際生信分析中,一般取轉錄組起始位置前1500-2000bp作為啟動子區域序列,擁有生信技能的人提取及批量提取某些基因啟動子序列簡直就是小菜一碟;但是對於生信小白來說就難上青天了
  • 生信圖文鑑賞與解析:LASSO分析
    橘子,生信組技術支持,特徵描述:
  • 一個預後六張圖,這個寶藏資料庫,真捨不得拿出來!
    ——《史記·老莊申韓列傳》各位小夥伴們,大家好,我是火,最近看生信文章的時候注意到了一個在許多研究腫瘤的文獻中都出現過的深藏若虛,然江湖地位又舉足輕重的資料庫—PrognoScan資料庫,今天來跟大家嘮嘮這個資料庫的神奇之處,為何它獨得眾多腫瘤SCI預後分析的青睞。答應我看完之後一定要用上它,好嘛?形容PrognoScan資料庫深藏若虛是因為它的界面實在是簡單直接,一目了然。
  • Annolnc:一站式lncRNA查詢資料庫
    AnnoLnc2框架AnnoLnc(http://annolnc.cbi.pku.edu.cn)就是一個系統地注釋新的人類lncRNA的一站式網站。該網站具有直觀的Web界面,可用於通過桌面和行動裝置進行交互式分析,程式設計師可以通過標準的基於JSON的Web服務APIs進一步將AnnoLnc集成到他們的分析流程中。 AnnoLnc2網站操作便捷,用戶可通過一個三步驟的操作運行AnnoLnc2,並查看詳細的注釋結果,以及批量下載所有的注釋結果。具體如下。
  • 把tcga大計劃的CNS級別文章標題畫一個詞雲
    在三年前我就整理並且製作了TCGA腫瘤資料庫知識圖譜視頻教程,一年半前免費公布在生信技能樹的B站,現在勉勉強強也快有兩萬的觀看量。閱讀量如下:視頻目錄是:P1-TCGA-101-課程介紹-需要哪些背景知識P2-TCGA-102-課程導讀-如何使用我的github代碼P3-TCGA-103--TCGA資料庫大有作用-不僅僅是灌水P4-TCGA-201-背景介紹及網頁工具大全P5-TCGA-202-其它資料庫介紹
  • TCGA資料庫任意腫瘤任意基因,隨意分析
    4 任意一個基因在任意一個腫瘤,或腫瘤的某種特徵中的生存分析讀取數據 這一步耗時較長(如果這個過程你的電腦hold不住了,可以直接用後面整理好的數據,開始作圖)rm(list = ls())library(tidyverse)#讀取數據ALLdata <- data.table::fread("tcga_RSEM_gene_tpm",data.table = F)ALLdata[1:5,1:5]
  • 這幾本生信入門書籍你不能不知,附下載連結
    >基因組學相關的書籍:                                                                   基因組學概論這本書比較全面系統的介紹了  DNA、蛋白質序列和結構、基因組、蛋白質組、轉錄組和系統生物學內容,也分別對原核生物、真核生物
  • 高分純生信SCI套路【WGS分析實體瘤】
    作者根據組織的來源分析了每種癌症中的基因突變負荷。 小編只是給大家做了簡單介紹,如果你要對它進行深入探究,不妨下載這篇文獻仔細閱讀,相信從中你會有所新發現。
  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    猜你還想看◆生信分析:你可以更美一些:SnapGene Viewer軟體序列可視化操作◆生信分析:這個R包不太冷系列——GOplot(功能富集繪圖)◆生信分析:10行代碼讓你的相關性圖貌美如花◆生信分析:對話百年名畫--文章繪圖配色高級又簡單!
  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    (4)在Ensembl資料庫下載物種的GFF文件前面我們講到了在NCBI資料庫中下載物種基因組注釋GFF文件,其實我們還可以在Ensembl資料庫中下載物種的注釋文件,而且在Ensembl中下載的GFF文件更加標準,使用起來更方便。
  • 如何進行血清外泌體的miRNA標誌物的生信數據挖掘?本文告訴你研究套路!
    EVs的其中一個重要的應用就是可以作為標誌物用於疾病的診斷,血清的外泌體在體內循環,可以作為無創標誌物去分析,是一個很好的研究方向。而通過生物信息學手段挖掘疾病標誌物已經有很多文章,那麼外泌體的標誌物又怎樣去通過生信分析呢?在這裡,總結了最近剛剛發表的幾篇血清外泌體的RNA標誌物文章,分析其中用到的思路,工具和研究套路。
  • 單基因生信分析2--下遊分析
    前期小王子已經更過單基因生信分析--差異分析&生存分析,今天,小王子跟大家一起學習如何進行下遊挖掘,也就是本期主打的單基因下遊富集通路,以下以
  • 【金猿產品展】Yonghong Z-Suite——一站式大數據分析平臺
    .,10大類百餘項特徵的新突破,Yonghong Z-Suite V9.0 都會帶給您: ●廣泛的數據源接口 添加數據源,方便用戶配置並保存資料庫連接信息,避免重複輸入資料庫連接信息的麻煩。
  • TCGA生存分析快捷通道——不會編程也能信手拈來!
    公眾號後臺回復【生信】,免費領取價值但是對於想要研究腫瘤的醫學生來說,不會R語言編程是個痛點;今天給大家介紹幾款在線生存分析資料庫,方便大家研究基因表達與生存的關係。網址:http://www.oncolnc.org/OncoLnc收集了TCGA中21種腫瘤,共8647個病人的生存數據,以及對應的mRNA和miRNA的表達譜數據。
  • 沒錯,你就缺一個這樣的circular RNA資料庫
    中科院上海生科院計算生物所——德國馬普計算生物學夥伴研究所楊力教授團隊發布了升級版的circular RNA資料庫CIRCpediav2,該結果發表在學術期刊《Genomics Proteomics Bioinformatics》上。
  • TCGA數據下載 | TCGAbiolinks、gdc-client、UCSC、官網等方式下載TCGA數據
    作為目前最大的癌症基因信息資料庫,TCGA的全面不僅僅體現在眾多癌型上,還體現在多組學數據,包括基因表達數據、miRNA表達數據、拷貝數變異、DNA甲基化、SNP,而相對於GEO資料庫,TCGA最大的優勢是豐富且規範的臨床數據,以及針對每種癌型的大樣本量。