一文學會集美貌與實力於一身的TANRIC資料庫
嗨,小夥伴們大家好!~每周給大家分享一個資料庫實操教程!
這次給大家帶來的是一款集lncRNA注釋和表達信息、可視化和臨床相關分析等多種功能~啊~不~是才華與美貌於一身的TANRIC資料庫使用方法,不要走開哦~!
TANRIC資料庫
TANRIC全稱為The Atlas of non-coding RNA in Cancer,即腫瘤非編碼RNA地圖集,由MDAnderson團隊開發並於2015年發表在Cancer Research雜誌。
該資料庫對來自TCGA(The Cancer Genome Atlas)和CCLE(Cancer Cell Line Encyclopedia)等資料庫的20種癌症超過8000個樣品的RNA-seq數據集進行整合和深度分析,包含三大類數據,分別為lncRNA注釋信息,RNA-Seq數據和profiling數據。
TANRIC提供查詢和分析兩大功能,提供每個樣品lncRNA表達量信息,可供分析表達量與臨床指標、耐藥性和預後相關性,可以針對候選lncRNA(已注釋或任何用戶自定義lncRNA)與功能基因mRNA或miRNA之間的相關性進行預測,還提供不同腫瘤中lncRNA表達譜的Heatmap可視化結果。
關於TANRIC資料庫前戲結束,接下來,點擊網址https://bioinformatics.mdanderson.org/public-software/tanric/,進入正餐時刻。
小貼士:推薦Chrome和火狐瀏覽器,弘毅親測這兩款瀏覽器訪問比較順利,另外還可以試試360瀏覽器
進入MDAnderson官網主頁,首先映入眼帘的是該資料庫的基本信息,可以看到上次更新時間是在2019年12月,目前為2.0版本,截止2020年8月份被引次數為297次,本著投桃報李的感恩心情,小夥伴們使用TANRIC時別忘記引用圖中的參考文獻哦!~
常見問題需要注意的一點是,TANRIC是基於BAM文件並使用RPKM值來量化lncRNA表達水平的。
TANRIC資料庫功能及操作演示
點擊https://www.tanric.org,進入TANRIC資料庫主頁,左邊欄:Help為資料庫基本功能視頻演示;About為當前版本信息和更新時間;News為歷史版本信息;FAQ常見問題;Resources為外部資料庫連結(TCGA和CCLE);Credits和Contact為資料庫維護和開發團隊信息。在使用TANRIC資料庫之前,小夥伴們可以點擊Help查看使用方法演示,當然,也可以選擇跟著弘毅的腳步,一起尋幽探密哈~
一、數據概覽與下載
點擊Home進入TANRIC功能頁面,點擊Summary進入資料庫概覽,可以看到全部的腫瘤數據集正常組和腫瘤組各自的樣本數目,點擊Show查看詳細信息。
點擊Download進入資料庫下載頁面,在感興趣的腫瘤數據集前面打勾,然後點擊Download可以下載得到壓縮文件,解壓可見lnRNA表達譜文件TCGA-BLCA-rnaexpr.tsv和數據描述信息TCGA-BLVA-rnaexpr-META.tsv文件。
二、查詢與分析功能
1、My lncRNA功能模塊
點擊My lncRNA進入功能頁面,依次選擇腫瘤類型、輸入感興趣的lncRNA名稱、樣本類型、臨床數據和組學數據關聯分析,然後點擊Submit提交,該頁面各項設置具體含義可參看下圖。
說明:對於很多新的lncRNA暫時未被NCBI等資料庫收錄和注釋,TANRIC提供針對lncRNA外顯子位置信息進行查詢的方式,以HOTAIR為例:可以下拉菜單選擇Query by Annotation,檢索已注釋lncRNA,輸入內容為「HOTAIR」;也可以在下拉菜單選擇Query by position,檢索lncRNA外顯子位置信息,輸入內容為HOTAIR的4個外顯子區域信息「chr12:54356092-54357908; 54359748-54359867; 54360060-54360161; 54362401-54362698」。兩種方式查詢結果一致。
以乳腺癌為例,查詢HOTAIR信息,選擇所有樣本,勾選全部的臨床數據和組學數據分析,點擊Submit,進度條走到100%,可以查看檢索結果。
結果欄中第1項lncRNA expr.,展示lncRNA在不同樣本中表達量的log2轉換值,可根據Position/Annotation和Sample ID檢索感興趣的條目,可根據Sample ID將所有樣本分組,再將對應的表達量值輸入Graphpad Prism或其他軟體進行繪圖。
結果欄第2項Diff.subtype,展示根據不同臨床特徵或基因組特徵的分層分析結果,提供P值,點擊「+」可展示箱圖,滑鼠懸停可看具體統計信息。如圖,第一行為HOTAIR在不同AJCC病理分型的乳腺癌組織中表達情況,P值0.456,表示組間無顯著性差異。
結果欄第3項Survival,生存分析結果,展示lncRNA表達水平與患者總生存期的相關性,提供基於單變量Cox比例風險模型的P值和通過Kaplan-Meier圖進行對數秩檢驗的P值兩種結果。
結果欄第4~6和8項,分別是lncRNA表達與SCNA(基因拷貝數變異)、mRNA、蛋白和miRNA表達水平之間的相關性,提供P值,點擊「+」可展示相關性點圖。以mRNA為例,根據Correlation或P-value排序,相關性係數最高為0.864,P<0.05,表示lncRNA表達水平與HOXC11 mRNA呈較強正相關關係。
說明:隨著RNA調控機制研究的深入,ceRNA(competing endogenous RNAs)假說逐漸被廣泛認可,即micRNA通過結合mRNA導致編碼基因表達抑制,而ceRNA可以競爭性結合micRNA來調節編碼基因表達。文獻報導顯示,大量lncRNA可以發揮ceRNA功能。TANRIC這部分數據提供lncRNA與每個micRNA或mRNA之間的相關性結果,可據此推斷潛在的與lncRNA直接作用的RNA,作為ceRNA調控機制研究的候選分子。
結果欄第7項,展示不同基因突變型和野生型組織中lncRNA表達水平,提供P值,點擊「+」可展示箱圖。如圖,第一行,P<0.05,表示PCNT基因突變型患者組織中HOTAIR表達水平顯著高於PCNT野生型患者。
2、LncRNAs in cell lines功能模塊
該模塊與My LncRNA類似,區別在於CCLE資料庫僅提供細胞係數據,沒有臨床預後等相關信息,在此不做贅述。
3、Analyze all lncRNAs功能模塊
點擊Analyze all lncRNAs進入功能頁面,Genomic/Proteomic Data Analysis欄可輸入感性趣的基因和miRNA,其餘設置基本同前,選擇感興趣的腫瘤類型,然後點擊Submit提交。
以乳腺癌為例,查詢該數據集中與A1BG和has-let-7a-1表達相關的lncRNA信息,勾選全部的臨床數據和組學數據分析,點擊Submit,進度條走到100%,可以查看檢索結果。
結果欄第1項lncRNA expr.,展示該數據集中不同lncRNA表達量的log2轉換值,可根據Position/Annotation檢索感興趣的結果;第2~3項Diff.subtype,分別展示不同lncRNA在各種臨床特徵或基因組特徵的分層分析和生存分析結果,基本同前。如下圖,生存分析結果的第一行,可見Cox P-value和Log-Rank P-value均小於0.05,表示該lncRNA高表達與乳腺癌預後差相關。
第4項Corr.SCNA,說明該數據集查詢到2條lncRNA的表達水平與A1BG基因拷貝數變異存在較弱的正相關關係;第5項Corr.mRNA,說明該數據集查到5條lncRNA的表達水平與A1BG基因mRNA表達存在較弱的正相關關係;
第6~8項無返回結果,說明該數據集中沒有查詢到與A1BG蛋白表達和基因突變存在相關性的lncRNA,也沒查到與has-let-7a-1表達存在相關性的lncRNA;
4、Visualization功能模塊
選擇感興趣的腫瘤數據集,可以得到該數據集差異表達前100、200和500的lnRNA的熱圖,K=2,3,4,5分別代表分2,3,4,5個cluster。選擇其中一個點擊進入,點擊最上欄可進行個性化設置,右上角Misc可下載PDF格式圖片。
文獻單圖復現
文章Figure1B展示的是,通過TANRIC資料庫分析The Cancer Genome Atlas中不同病理分型的乳腺癌患者組織中TMPO-AS1表達差異。
單圖復現如下:進入TANRIC資料庫主頁,點擊My lncRNA進入功能頁面,腫瘤類型選擇乳腺癌,輸入TMPO-AS1,樣本類型選擇ALL,臨床關聯分析全選,然後點擊Submit提交,進度到100%,查看結果欄第2項Diff.subtype,其中第二行即為本文結果。
這張圖看著極其不美,畢竟我們解螺旋的小夥伴都要培養高taste,那麼,返回My lncRNA功能頁面,樣本類型選擇Normal_like,其餘設置不變,然後點擊Submit提交。
首先,查看結果第1項lncRNA expr.,展示lncRNA TMPO-AS1在Normal_like樣本中表達量的log2轉換值,同樣的方法可以得到LumA、LumB、Basalt和Her2組各自所含樣本的TMPO-AS1表達量log2轉換值,全部複製粘貼進Graphpad如下。
Graphpad Prism繪製箱圖,首先進行細節修繕,然後做差異統計分析,再添加差異性標籤結果如下。
文獻案例二:PMID: PMID: 29941860,IF=4.556分
文章Figure1D~F通過TANRIC資料庫分析TCGA中ER-positive/ER-negative,PR-positive/PR-negative和5種病理類型乳腺癌患者組織中ITGB2-AS1的表達差異,方法同前不再贅述。
本文論證的是ITGB2-AS1通過互補配對的方式上調ITGB2 mRNA表達進而促進表型。Figure4B展示了通過TANRIC資料庫分析ITGB2-AS1和ITGB2 mRNA表達相關性結果。
單圖復現如下:點擊Analyze all lncRNAs進入功能頁面,Genomic/Proteomic Data Analysis欄輸ITGB2,選擇乳腺癌,其餘設置基本同前,然後點擊Submit提交,查看檢索結果欄第5項Corr.mRNA,可見該數據集查到與ITGB2基因mRNA表達存在相關關係的234條lncRNA。
ITGB2-AS1編號為ENSG00000227039.2,檢索可知該lncRNA正是234條lncRNA其中一條,相關係數為0.434,P值<0.05,二者具有較弱的正相關關係,點擊「+」查看相關性點圖。
好啦,關於TANRIC資料庫加餐就到這裡啦!欲知更多生信知識,我們相約「挑圈聯靠」公眾號~下期再見了~~!
後臺私信領取福利
—END—