甲基化分析實戰,將你的數據用在刀刃上!

2021-02-21 挑圈聯靠

領悟生信文章邏輯之美,小夥伴們大家好呀,我是風間琉璃。上一周我們品讀了2020年10月發表在《Frontiers in oncology》雜誌上的文章「A Novel Promoter CpG-Based Signature for Long-Term Survival Prediction of Breast Cancer Patients」。作者使用CHAMP包進行篩選差異的甲基化位點。還沒看上一期推文的同學們請看一遍,看過的同學可以複習一遍。「2020年了!!這樣的文章也能發近5分!」。因為接下來我們會使用CHAMP包來適當復現文章中的流程。很精彩,不要錯過喔~

首先我們需要下載相關的甲基化數據以及表型(phenotype)數據。進入xena官網(https://xena.ucsc.edu/),選擇數據集進行下載。如果不想自己找的同學沒關係,我提供了下載地址。乳腺癌甲基化數據集下載連結(https://xenabrowser.net/datapages/?dataset=TCGA-BRCA.methylation450.tsv&host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443)。表型數據下載連結(https://xenabrowser.net/datapages/?dataset=TCGA-BRCA.GDC_phenotype.tsv&host=https%3A%2F%2Fgdc.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443)。在讀取之前注意,我們R語言的工作路徑一定要和我們文件的目錄一致,才能進行以下步驟。
library(tidyverse)data_beta=read_tsv(file = "TCGA-BRCA.methylation450.tsv")data_samp=read_tsv(file = "phenotype.tsv")

dim(data_beta)dim(data_samp)class(data_beta)class(data_samp)table(data_samp$sample_type.samples)tissue=c("Primary Tumor","Solid Tissue Normal")data_samp=data_samp[data_samp$sample_type.samples%in%tissue,]pdata=data_samp[,c("submitter_id.samples" ,"sample_type.samples")]ID=intersect(pdata$submitter_id.samples, colnames(data_beta))pdata=pdata[pdata$submitter_id.samples%in%ID,] dim(pdata)names(pdata) <- c("sample_name","sample_group")data_samp <- pdatanames(data_beta)[1]="CpG"data_beta=column_to_rownames(data_beta,"CpG") data_beta=data_beta[,ID]save(data_beta,data_samp,file = "methylation.rds")

接下來,我們需要開始將清潔數據導入CHAMP包中。
#加載數據和包library(ChAMP)library(tidyverse)#######################load("methylation.rds")#data_samp$Sample_Group <- if_else(data_samp$sample_group=="Primary Tumor",                                 data_samp$Sample_Group <- "T",                                 data_samp$Sample_Group <- "C")data_samp <- as.data.frame(data_samp)#####data_order=data_beta[,data_samp$sample_name]data_order=as.matrix(data_order)sum(is.na(data_order))#data_order=data_order+0.00001#myLoad=champ.filter(beta = data_order,pd = data_samp)#############################################################save(myLoad,file="meth_load.rds")## # myNorm <- champ.norm(beta=myLoad$beta,arraytype="450K",cores=100)# # save(myNorm,file="meth_norm.rds")# ##champ.QC()#myDMP <- champ.DMP(beta = myLoad$beta ,pheno=myLoad$pd$Sample_Group)########################################查看我們的分析結果head(myDMP[[1]])##############################myDMR <- champ.DMR(beta=myLoad$beta,pheno=myLoad$pd$Sample_Group,method="Bumphunter")#查看差異甲基化區域#head(myDMR$BumphunterDMR)

(1)adj.P<0.05,delta |β|>0.2(2)位於啟動子區域(5』-UTR, TSS200, TSS1500 and 1stExon),那我們開始把。
feature_pro=c("1stExon","5'UTR","TSS1500","TSS200")data_dif <- myDMP[[1]] %>% filter(adj.P.Val<0.05&abs(deltaBeta)>0.2)data_dif <- data_dif[data_dif$feature%in%feature_pro,]

最後我們一共得到8778個位點,和作者的10088個差異甲基化位點有1000多個甲基化位點的差異,這可能是因為我們並沒有做標準化這一步(數據量太大了,跑不了。。。。) 接下來我們繪製Figure 1B的熱圖。
library(pheatmap)ann_col <- data_sampann_col$Sample_Group <- if_else(data_samp$sample_group=="Primary Tumor",                                 data_samp$Sample_Group <- "Tumor",                                 data_samp$Sample_Group <- "Normal")ann_col <- ann_col %>% column_to_rownames(var = "sample_name") %>% dplyr::select(-sample_group) %>%dplyr::select(-case_submitter_id) %>%  arrange(Sample_Group)data_heat=data_beta[rownames(data_dif),rownames(ann_col)]pheatmap(data_heat,color =colorRampPalette(c("navy", "white",
"firebrick3"))(10),cluster_rows = F,cluster_cols = F, legend = F,show_rownames = F,show_colnames = F,annotation_col = ann_col)


歡迎大家關註解螺旋生信頻道-挑圈聯靠公號~



相關焦點

  • 甲基化晶片數據的差異分析
    我不是大神,但我可以縮短你走彎路的半年~   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~   這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!花花寫於2020-5-1,去年今天籤了勞動合同,正式工作一周年啦~紀念一下。感謝曾老闆!
  • 用DNA甲基化數據測算生物年齡(Horvath Clock)
    、Horvath、表觀遺傳今天我們就來詳細地講一下,這個Horvath的用甲基化數據,來測你的生物年齡的具體方法,那麼我們首先來看一下,這個他的論文,這個論文,他是這邊確實是2013年的,2013年的時候寫的這個論文我們可以在這個公開的網站上都可以看到,DNA methyltion age of human tissues and cell types,就是這個DNA甲基化的年齡,針對這個人類的
  • DNA及RNA甲基化數據分析、課題設計與基金寫作學習班學習班 2020年...
    鑑於DNA/RNA甲基化具有重要的臨床研究意義,我們特別邀請到在該領域擁有豐富經驗的專家老師為大家詳細的介紹DNA/RNA甲基化的研究內容、研究方向及課題思路,並通過培訓使學員熟練的掌握甲基化相關課題的數據獲得和分析過程,迅速成為表觀遺傳領域的主力軍。
  • 如何用DNA甲基化數據測算生物年齡(Horvath Clock)
    如何用DNA甲基化數據測算生物年齡(Horvath Clock)
  • 腫瘤相關的甲基化高通量數據介紹
    在人的基因組中大約有2800萬個CpG位點,高通量技術的誕生使得全基因組範圍內的甲基化分析成為可能。提及高通量技術很容易聯想到兩類,即晶片與測序,兩者各自都有優缺點。在早期,甲基化分析僅僅局限於富含CpG的基因組區域,隨著技術發展已經有多種技術擴展至整個基因組範圍了,話不多說直接上圖。
  • DNA甲基化——甲基化DNA PCR & NGS 分析試劑盒
    大量研究表明,DNA甲基化能引起染色質結構、DNA構象、DNA穩定性及DNA與蛋白質相互作用方式的改變,從而控制基因表達。一、DNA甲基化修飾相關產品DNA甲基化修飾研究手段——DNA亞硫酸鹽轉化,使用亞硫酸氫鈉將胞嘧啶轉化為尿嘧啶,而5-甲基胞嘧啶(5-mC)保持完整。
  • m6A(RNA甲基化修飾)課題思路介紹及熱點方向分析
    國家自然基金支持情況既代表國家宏觀層面對學術研究的導向性,也可以反映出當前學術研究的熱點方向,我們以國家自然科學基金中標項目分析m6A甲基化研究。這一學科比例分步也體現出m6A甲基化研究在腫瘤研究中的重要意義,也是我們公司選擇MeRIP-seq與RNA-seq數據整合分析在腫瘤相關研究的定位依據。圖3.m6A與腫瘤相關國自然課題學科分類(科學網資料庫) 以上結果看著非常喜人,但是在具體的實施過程中,就會面對很多現實的問題需要取捨。
  • 甲基化晶片數據的一些質控指標
    成功下載了數據而且導入了R裡面,按照道理應該是要直奔主題搞差異分析啦,但是呢,我強調過很多次,甲基化信號值矩陣是有它的特殊性,雖然分析流程與mRNA那樣的表達晶片總體上是一致,幾個細節還是要注意的。最重要的是 Sample_Group 列,表明你需要把你的甲基化信號矩陣如何分組後續進行差異分析。其次是 Sentrix_ID,Sentrix_Position兩列,決定你的idat文件名前綴。
  • 生命學院楊雪瑞課題組通過多組學大數據分析全面闡述DNA甲基化組...
    生命學院楊雪瑞課題組通過多組學大數據分析全面闡述DNA甲基化組參與的腫瘤基因表達調控網絡清華新聞網3月27日電 3月19日,清華大學生命科學學院楊雪瑞課題組在《細胞報導》(Cell Reports)發表大隊列腫瘤多組學數據的深度整合分析工作:癌症特異性轉錄調控網絡對啟動子DNA甲基化組的依賴(Dependency
  • 6mA甲基化-DNA甲基化研究新熱點
    1.總量鑑定:即通過斑點雜交(Dot blot)、質譜-色譜聯用(LC-MS)等技術檢測樣品DNA中具有6mA甲基化修飾的A鹼基佔總A鹼基的比值,進而推測樣本6mA修飾程度。:1)單次基因組測序,既可以輸出位點6mA修飾數據,還能夠輸出5mC甲基化,可以獲得更全面的基因組甲基化數據。
  • Python數據實戰分析之定量和定性數據分析
    數據分析中關於數據的部署數據分析的最後一步——部署,旨在展示結果,也就是給出數據分析的結論。若應用場景為商業,部署過程將分析結果轉換為對購買數據分析服務的客戶有益的方案。若應用場景為科技領域,則將成果轉換為設計方案或科技出版物。
  • 鑑定癌症新方法DNA甲基化450K數據(下)
    DNA甲基化是一種經過充分研究的遺傳修飾,可調節真核生物的基因轉錄。其替代已被認為是癌症發展的重要組成部分。在這項研究中,使用《癌症基因組圖譜》中的DNA甲基化450k數據來評估DNA甲基化數據對30種癌症類型的癌症分類的有效性。採用一種新的高維數據選擇方法(超過45萬個)。首先引入方差過濾以減少尺寸,然後使用遞歸特徵消除(RFE)進行特徵選擇。
  • 提高數據分析能力,你不得不看的33本書|推薦收藏
    《Excel這麼用就對了》推薦理由:所涉及的具體內容包括排序、篩選、函數公式、數據透視表、圖表、宏與VBA 等功能應用,並結合大量的企業應用實例,以圖文並茂的方式將解決思路和操作過程逐一呈現。三、數據分析思維1.
  • 基因甲基化檢測方法有哪些
    不過也存在一定的缺陷,你要預先知道待測片段的DNA序列,並設計出好的引物,這至關重要。另外,若存在亞硫酸氫鹽處理不完全的情況,那可能導致假陽性。 亞硫酸氫鹽處理+測序 這種方法一度被認為是DNA甲基化分析的金標準。
  • 單細胞中3D基因組結構和DNA甲基化的同步分析
    單細胞中3D基因組結構和DNA甲基化的同步分析 作者:小柯機器人 發布時間:2019/9/10 15:16:34 美國索爾克生物研究所的Joseph R. Ecker和Jesse R.
  • 一文學會DNA甲基化-450K分析
    問題或建議,請公眾號留言;如果你覺得本教程對你有幫助,歡迎讚賞按照生信技能樹論壇教程所提供的教程450K甲基化晶片數據處理傳送門,為例進行數據下載晶片的處理流程一般就是:數據讀入——數據過濾——數據校正——下遊分析。
  • 簡化基因組數據分析實戰(一)
    Stacks就是目前比較通用的分析流程,能用來構建遺傳圖譜,處理群體遺傳學,構建進化發育樹。這篇教程主要介紹如何使用Stacks分析基於酶切的二代測序結果,比如說等RAD-seq,分析步驟為環境準備,原始數據質量評估, 多標記數據分離,序列比對(無參則需要進行contig de novo 組裝),RAD位點組裝和基因分型,以及後續的標記過濾和格式轉換。
  • 基於DNA甲基化的分子亞型構建發5+分
    文章背景本文研究的疾病是結腸腺癌(Colon Adenocarcinoma,COAD),分析的數據是TCGA-COAD隊列的甲基化晶片數據,RNA-seq數據以及臨床數據。作者想要通過對COAD組織甲基化晶片的分析,根據樣本的甲基化水平將其區分為不同的分子亞型;並且基於COAD患者癌組織甲基化水平建立預後預測模型,以改善對COAD預後的評估。
  • DNA甲基化 |「雙面間諜」或將為癌症治療帶來新思路!
    點擊查看 作者:Echo 來源:轉化醫學網在DNA「字母表」中,除了四個主要鹼基A、T、C、G之外,還有「第五」鹼基:5-甲基胞嘧啶(5-mC),其在決定基因和其他DNA元件打開或關閉上起著不同程度的作用。
  • 12月在線資料庫匯總|資料庫|甲基化|DNA|標誌物|預測|分析|-健康界
    2. 微生物和病毒相關資料庫在這個部分,總共發表了7個有關的資料庫。其中和新冠有關的資料庫有兩個。3. DNA相關資料庫在DNA相關的資料庫當中,一共有5個相關的資料庫發表。其中包括和變異注釋資料庫,還包括DNA甲基化資料庫。