lnRNA生信一站式分析神器!差異表達臨床分析ceRNA網絡

2020-11-11 解螺旋

一文學會集美貌與實力於一身的TANRIC資料庫

嗨,小夥伴們大家好!~每周給大家分享一個資料庫實操教程!

這次給大家帶來的是一款集lncRNA注釋和表達信息、可視化和臨床相關分析等多種功能~啊~不~是才華與美貌於一身的TANRIC資料庫使用方法,不要走開哦~!

TANRIC資料庫

TANRIC全稱為The Atlas of non-coding RNA in Cancer,即腫瘤非編碼RNA地圖集,由MDAnderson團隊開發並於2015年發表在Cancer Research雜誌。

該資料庫對來自TCGA(The Cancer Genome Atlas)和CCLE(Cancer Cell Line Encyclopedia)等資料庫的20種癌症超過8000個樣品的RNA-seq數據集進行整合和深度分析,包含三大類數據,分別為lncRNA注釋信息,RNA-Seq數據和profiling數據。


TANRIC提供查詢和分析兩大功能,提供每個樣品lncRNA表達量信息,可供分析表達量與臨床指標、耐藥性和預後相關性,可以針對候選lncRNA(已注釋或任何用戶自定義lncRNA)與功能基因mRNA或miRNA之間的相關性進行預測,還提供不同腫瘤中lncRNA表達譜的Heatmap可視化結果。

關於TANRIC資料庫前戲結束,接下來,點擊網址https://bioinformatics.mdanderson.org/public-software/tanric/,進入正餐時刻。

小貼士:推薦Chrome和火狐瀏覽器,弘毅親測這兩款瀏覽器訪問比較順利,另外還可以試試360瀏覽器

進入MDAnderson官網主頁,首先映入眼帘的是該資料庫的基本信息,可以看到上次更新時間是在2019年12月,目前為2.0版本,截止2020年8月份被引次數為297次,本著投桃報李的感恩心情,小夥伴們使用TANRIC時別忘記引用圖中的參考文獻哦!~

常見問題需要注意的一點是,TANRIC是基於BAM文件並使用RPKM值來量化lncRNA表達水平的。

TANRIC資料庫功能及操作演示

點擊https://www.tanric.org,進入TANRIC資料庫主頁,左邊欄:Help為資料庫基本功能視頻演示;About為當前版本信息和更新時間;News為歷史版本信息;FAQ常見問題;Resources為外部資料庫連結(TCGA和CCLE);Credits和Contact為資料庫維護和開發團隊信息。在使用TANRIC資料庫之前,小夥伴們可以點擊Help查看使用方法演示,當然,也可以選擇跟著弘毅的腳步,一起尋幽探密哈~

一、數據概覽與下載

點擊Home進入TANRIC功能頁面,點擊Summary進入資料庫概覽,可以看到全部的腫瘤數據集正常組和腫瘤組各自的樣本數目,點擊Show查看詳細信息。

點擊Download進入資料庫下載頁面,在感興趣的腫瘤數據集前面打勾,然後點擊Download可以下載得到壓縮文件,解壓可見lnRNA表達譜文件TCGA-BLCA-rnaexpr.tsv和數據描述信息TCGA-BLVA-rnaexpr-META.tsv文件。

二、查詢與分析功能


1、My lncRNA功能模塊

點擊My lncRNA進入功能頁面,依次選擇腫瘤類型、輸入感興趣的lncRNA名稱、樣本類型、臨床數據和組學數據關聯分析,然後點擊Submit提交,該頁面各項設置具體含義可參看下圖。

說明:對於很多新的lncRNA暫時未被NCBI等資料庫收錄和注釋,TANRIC提供針對lncRNA外顯子位置信息進行查詢的方式,以HOTAIR為例:可以下拉菜單選擇Query by Annotation,檢索已注釋lncRNA,輸入內容為「HOTAIR」;也可以在下拉菜單選擇Query by position,檢索lncRNA外顯子位置信息,輸入內容為HOTAIR的4個外顯子區域信息「chr12:54356092-54357908; 54359748-54359867; 54360060-54360161; 54362401-54362698」。兩種方式查詢結果一致。

以乳腺癌為例,查詢HOTAIR信息,選擇所有樣本,勾選全部的臨床數據和組學數據分析,點擊Submit,進度條走到100%,可以查看檢索結果。

結果欄中第1項lncRNA expr.,展示lncRNA在不同樣本中表達量的log2轉換值,可根據Position/Annotation和Sample ID檢索感興趣的條目,可根據Sample ID將所有樣本分組,再將對應的表達量值輸入Graphpad Prism或其他軟體進行繪圖。

結果欄第2項Diff.subtype,展示根據不同臨床特徵或基因組特徵的分層分析結果,提供P值,點擊「+」可展示箱圖,滑鼠懸停可看具體統計信息。如圖,第一行為HOTAIR在不同AJCC病理分型的乳腺癌組織中表達情況,P值0.456,表示組間無顯著性差異。

結果欄第3項Survival,生存分析結果,展示lncRNA表達水平與患者總生存期的相關性,提供基於單變量Cox比例風險模型的P值和通過Kaplan-Meier圖進行對數秩檢驗的P值兩種結果。

結果欄第4~6和8項,分別是lncRNA表達與SCNA(基因拷貝數變異)、mRNA、蛋白和miRNA表達水平之間的相關性,提供P值,點擊「+」可展示相關性點圖。以mRNA為例,根據Correlation或P-value排序,相關性係數最高為0.864,P<0.05,表示lncRNA表達水平與HOXC11 mRNA呈較強正相關關係。


說明:隨著RNA調控機制研究的深入,ceRNA(competing endogenous RNAs)假說逐漸被廣泛認可,即micRNA通過結合mRNA導致編碼基因表達抑制,而ceRNA可以競爭性結合micRNA來調節編碼基因表達。文獻報導顯示,大量lncRNA可以發揮ceRNA功能。TANRIC這部分數據提供lncRNA與每個micRNA或mRNA之間的相關性結果,可據此推斷潛在的與lncRNA直接作用的RNA,作為ceRNA調控機制研究的候選分子。

結果欄第7項,展示不同基因突變型和野生型組織中lncRNA表達水平,提供P值,點擊「+」可展示箱圖。如圖,第一行,P<0.05,表示PCNT基因突變型患者組織中HOTAIR表達水平顯著高於PCNT野生型患者。

2、LncRNAs in cell lines功能模塊

該模塊與My LncRNA類似,區別在於CCLE資料庫僅提供細胞係數據,沒有臨床預後等相關信息,在此不做贅述。


3、Analyze all lncRNAs功能模塊

點擊Analyze all lncRNAs進入功能頁面,Genomic/Proteomic Data Analysis欄可輸入感性趣的基因和miRNA,其餘設置基本同前,選擇感興趣的腫瘤類型,然後點擊Submit提交。

以乳腺癌為例,查詢該數據集中與A1BG和has-let-7a-1表達相關的lncRNA信息,勾選全部的臨床數據和組學數據分析,點擊Submit,進度條走到100%,可以查看檢索結果。

結果欄第1項lncRNA expr.,展示該數據集中不同lncRNA表達量的log2轉換值,可根據Position/Annotation檢索感興趣的結果;第2~3項Diff.subtype,分別展示不同lncRNA在各種臨床特徵或基因組特徵的分層分析和生存分析結果,基本同前。如下圖,生存分析結果的第一行,可見Cox P-value和Log-Rank P-value均小於0.05,表示該lncRNA高表達與乳腺癌預後差相關。

第4項Corr.SCNA,說明該數據集查詢到2條lncRNA的表達水平與A1BG基因拷貝數變異存在較弱的正相關關係;第5項Corr.mRNA,說明該數據集查到5條lncRNA的表達水平與A1BG基因mRNA表達存在較弱的正相關關係;

第6~8項無返回結果,說明該數據集中沒有查詢到與A1BG蛋白表達和基因突變存在相關性的lncRNA,也沒查到與has-let-7a-1表達存在相關性的lncRNA;

4、Visualization功能模塊

選擇感興趣的腫瘤數據集,可以得到該數據集差異表達前100、200和500的lnRNA的熱圖,K=2,3,4,5分別代表分2,3,4,5個cluster。選擇其中一個點擊進入,點擊最上欄可進行個性化設置,右上角Misc可下載PDF格式圖片。

文獻單圖復現

文獻案例一:PMID: 32437068,IF=4.966分

文章Figure1B展示的是,通過TANRIC資料庫分析The Cancer Genome Atlas中不同病理分型的乳腺癌患者組織中TMPO-AS1表達差異。

單圖復現如下:進入TANRIC資料庫主頁,點擊My lncRNA進入功能頁面,腫瘤類型選擇乳腺癌,輸入TMPO-AS1,樣本類型選擇ALL,臨床關聯分析全選,然後點擊Submit提交,進度到100%,查看結果欄第2項Diff.subtype,其中第二行即為本文結果。

這張圖看著極其不美,畢竟我們解螺旋的小夥伴都要培養高taste,那麼,返回My lncRNA功能頁面,樣本類型選擇Normal_like,其餘設置不變,然後點擊Submit提交。

首先,查看結果第1項lncRNA expr.,展示lncRNA TMPO-AS1在Normal_like樣本中表達量的log2轉換值,同樣的方法可以得到LumA、LumB、Basalt和Her2組各自所含樣本的TMPO-AS1表達量log2轉換值,全部複製粘貼進Graphpad如下。

Graphpad Prism繪製箱圖,首先進行細節修繕,然後做差異統計分析,再添加差異性標籤結果如下。

文獻案例二:PMID: PMID: 29941860,IF=4.556分

文章Figure1D~F通過TANRIC資料庫分析TCGA中ER-positive/ER-negative,PR-positive/PR-negative和5種病理類型乳腺癌患者組織中ITGB2-AS1的表達差異,方法同前不再贅述。

本文論證的是ITGB2-AS1通過互補配對的方式上調ITGB2 mRNA表達進而促進表型。Figure4B展示了通過TANRIC資料庫分析ITGB2-AS1和ITGB2 mRNA表達相關性結果。

單圖復現如下:點擊Analyze all lncRNAs進入功能頁面,Genomic/Proteomic Data Analysis欄輸ITGB2,選擇乳腺癌,其餘設置基本同前,然後點擊Submit提交,查看檢索結果欄第5項Corr.mRNA,可見該數據集查到與ITGB2基因mRNA表達存在相關關係的234條lncRNA。

ITGB2-AS1編號為ENSG00000227039.2,檢索可知該lncRNA正是234條lncRNA其中一條,相關係數為0.434,P值<0.05,二者具有較弱的正相關關係,點擊「+」查看相關性點圖。

好啦,關於TANRIC資料庫加餐就到這裡啦!欲知更多生信知識,我們相約「挑圈聯靠」公眾號~下期再見了~~!

後臺私信領取福利


—END—

相關焦點

  • 高分生信必備的TCGA資料庫一站式分析神器!真捨不得告訴你
    5)分析正常和腫瘤樣品中KRAB-ZNF基因的同工型表達;6)正常組織中KRAB-ZNF表達的比較分析下面我們就來逐一展示這個神器的各種功能吧「Expression in Normal vs Tumor」 分析模塊使用的是標準化的RNA-seq數據,使用錯誤發現率(FDR)校正的Student t檢驗,可以在癌症和正常組織之間進行差異表達分析。
  • 生信分析幫你湊!學會深度挖掘快速發文章
    優秀的數據能夠幫助臨床醫生更順利地發文章,但是臨床醫生常常沒時間做實驗,更多的是從病歷裡或者資料庫裡收集數據,導致數據單薄很難支撐文章內容。 這個時候需要的是生信分析——深度的數據挖掘和分析處理,可以幫助臨床醫生不耗費大量的時間通過實驗攢數據,而是通過數據處理得到自己想要的信息,更快速地發文章。 學習哪種生信分析的工具?
  • 生信圖文鑑賞與解析:LASSO分析
    橘子,生信組技術支持,特徵描述:
  • ​腫瘤差異分析、互作分析神器,這個資料庫到底有多好用?
    通過對不同分析之間進行差異分析,我們能夠更好的看清楚哪些分子在早晚期腫瘤發生變化,從而能夠為生信的進一步分析和基礎實驗驗證提供方向。頁面的右下框展示的是我們前面選擇比較差異分析的結果,這裡包括差異基因,差異lncRNA,mRNA和lncRNA的共表達網絡分析以及搜索功能,所有的分析結果我們都可以點擊CSV下載到本地進行讀入R語言進行進一步的篩選和作圖,當然我們也可以點擊
  • 單細胞RT-PCR表達量數據也可以差異分析
    研究者們首先通過流式預先把細胞分類,分成:basal/stem, luminal, and luminal progenitor cells這3群細胞,如下所示:流式細胞分選首先看了看3群細胞的不同病人的表達量差異情況,一般來說,做差異分析的話,組內差異肯定是要小於組間差異
  • CNS 一作大神:這個生信分析方法帶你不做實驗快速發論文!
    這是一篇完全基於生物信息學分析的文章,文章的思路:分析 TCGA 資料庫中的數據——利用 R 語言的 WGCNA 包——結合在線工具——發表文章。 不得不說,生信分析類文章最近兩年井噴式發表。在國內生信類文章幾乎能媲美同級別的基礎研究型文章,且普通的雜誌對生信分析很友好,容易接納。
  • peak差異分析的工具那麼多,如何選擇?
    歡迎關注」生信修煉手冊」!
  • 高分純生信SCI套路【WGS分析實體瘤】
    作者根據組織的來源分析了每種癌症中的基因突變負荷。 之所以向大家介紹這篇文章,是覺得這種思路在生信分析的文章中可以借鑑。基因的選擇可以通過臨床上疾病中基因突變的概率來進行篩選,然後大家可以構建兩層PPI網絡,進行GO、GSEA、KEGG分析。如果後續能從別的數據包中得到表達量的驗證或者是自己在臨床樣本中進行驗證,那整篇論文的內容將會更加豐富。
  • 差異基因表達分析(上)
    公共資料庫當然,如果你要研究一個基因的功能時,不要先急著去花錢找公司測序,先去一些基因表達公共資料庫找找看:http://www.ebi.ac.uk/arrayexpress/https://www.ncbi.nlm.nih.gov/geo/差異表達(differential expression,DE)基因分析通過研究基因的差異表達,我們可以發現
  • 單基因生信分析2--下遊分析
    前期小王子已經更過單基因生信分析--差異分析&生存分析,今天,小王子跟大家一起學習如何進行下遊挖掘,也就是本期主打的單基因下遊富集通路,以下以
  • R語言mRNA差異表達分析
    上一篇文章介紹的是mRNA數據的整理,整理完就開始介紹的是如何用R語言來做差異表達分析,繼續碼字。
  • 甲基化晶片數據的差異分析
    今天是生信星球陪你的第612天   大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~   這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!花花寫於2020-5-1,去年今天籤了勞動合同,正式工作一周年啦~紀念一下。感謝曾老闆!
  • 聊個天就把生存分析給做了?
    前些天我和我的學徒們在生信技能樹分享了教程:人人都可以學會生存分析(學徒數據挖掘),提到根據公共資料庫(比如TCGA)的信息來檢查具體的某個或者某幾個基因的生存意義已經是非常簡單了,只需要很簡單的資料庫網頁工具認知,或者一點點代碼能力。
  • scRNA-seq數據差異基因表達分析的有效方法有哪些?
    scRNA-seq數據差異基因表達分析的有效方法有哪些?我們知道RNA-seq即轉錄組測序,是某個物種或者特定細胞類型產生的所有轉錄本的集合,而單細胞RNA測序(single-cell RNA-seq,簡稱scRNA-seq)則是以單個細胞為特定研究對象,提取其mRNA進行逆轉錄並進行高通量測序分析,可體現出個體細胞內表達水平的具體變化,目前已廣泛應用在生物學、醫藥研發、臨床醫學等各個領域。
  • 肩袖損傷後脂肪浸潤基因表達譜及關鍵通路的生物信息學分析
    脂肪浸潤多發生在肩袖撕裂後1年內,萎縮的肌肉組織被脂肪組織替代,並向鄰近組織侵襲,影響肌肉及肌腱的質量及力學特性。目的:旨在探索肩袖損傷後關鍵基因的表達差異,確定其功能和機制通路,為肩袖損傷脂肪浸潤的病理變化機制提供理論依據。方法:通過GEO資料庫獲取GSE93661晶片篩選差異表達基因,採用GO、KEGG分析脂肪浸潤的潛在機制。
  • 如何進行血清外泌體的miRNA標誌物的生信數據挖掘?本文告訴你研究套路!
    EVs的其中一個重要的應用就是可以作為標誌物用於疾病的診斷,血清的外泌體在體內循環,可以作為無創標誌物去分析,是一個很好的研究方向。而通過生物信息學手段挖掘疾病標誌物已經有很多文章,那麼外泌體的標誌物又怎樣去通過生信分析呢?在這裡,總結了最近剛剛發表的幾篇血清外泌體的RNA標誌物文章,分析其中用到的思路,工具和研究套路。
  • SBC ceRNA晶片的潛在轉錄調控機制和臨床應用方向
    而全基因組分析發現增強子和超級增強子可以普遍進行轉錄,產生eRNA和SE-lncRNA。它們都具有組織表達特異性,而且在影響增強子活性和其他不同機制來調控著基因表達。 這兩年eRNA和SE-lncRNA的轉錄調控作用越來越受到關注,而其在不同生理或疾病狀態下調控作用和機制研究開展的還比較少。
  • 看圖說話|LASSO分析
    橘子,生信組技術支持,特徵描述:生信分析實操僅做過數據下載和差異分析
  • 全轉錄組高通量數據挖掘與疾病表型關聯分析-從入門到精通8晚訓練營
    時間安排課程表介紹第一周 周一19:00~22:00生信簡介生物信息介紹高通量:測序及晶片介紹非編碼RNA的機制、調控模式(miRNA、lncRNA與circRNA)經典生信SCI文章的解讀,了解TCGA資料庫、GEO 資料庫這些公共數據的挖掘獲得創新結論並發文章的思路。
  • 真的有必要發一大堆meta分析或者純生信數據挖掘SCI嗎?
    記得四川大學華西臨床醫學有位博士在個人簡介寫上了以第一作者或者共同第一作者發表SCI論文46篇,很多外行人看著46篇SCI這個數字會覺得這個學生很優秀,科研能力特別牛。但是懂行的人不會只看這個數字,還會看文章裡面有多少篇是論著,有多少篇是meta分析、綜述、comments、letter等等,期刊影響因子,被引用的次數,通過這些就可以看出真正是否有料。