我是如何發現850K甲基化晶片和EPIC的區別

2021-03-02 生信技能樹

有粉絲求助,她做850K甲基化晶片數據處理的時候,使用champ流程,然後報錯非常詭異,是Failed CpG Fraction,各種查資料都無法解決,我讓她複製粘貼報錯的關鍵信息,如下:

[ Section 3: Use Annotation Start ]

  Reading 850K Annotation >>

  Fetching NEGATIVE ControlProbe.
    Totally, there are 613 control probes in Annotation.
    Your data set contains 556 control probes.

  Generating Meth and UnMeth Matrix
    Extracting Meth Matrix...
      Totally there are 485512 Meth probes in 850K Annotation.
      Your data set contains 485512 Meth probes.
    Extracting UnMeth Matrix...
      Totally there are 485512 UnMeth probes in 850K Annotation.
      Your data set contains 485512 UnMeth probes.

  Generating beta Matrix
  Generating M Matrix
  Generating intensity Matrix
  Calculating Detect P value
  Counting Beads
[ Section 3: Use Annotation Done ]
---
中間省略
---
[ Section 2: Filtering Start >>

  Filtering Detect P value Start
    The fraction of failed positions per sample
    You may need to delete samples with high proportion of failed probes:

         Failed CpG Fraction.
sample1                 NaN
sample2                NaN 
---後面省略一些樣本
Error in if (any(numfail >= SampleCutoff)) { : 
  missing value where TRUE/FALSE needed

也幫忙去各種檢索,但確實沒有好的解決方案,就讓她發過來2個G的原始數據和代碼,認真檢查了好久,看起來就是我的教程的代碼,一模一樣啊!

myLoad <- champ.load("raw/",arraytype="850K")

而且我看了她關於"raw/"文件夾下的idat文件,以及製作好的'raw/sample_sheet.csv'文件,都是合格的。沒辦法,我只好看champ.load函數的幫助文檔了:

champ.load(directory = getwd(),
           method="ChAMP",
           methValue="B",
           autoimpute=TRUE,
           filterDetP=TRUE,
           ProbeCutoff=0,
           SampleCutoff=0.1,
           detPcut=0.01,
           filterBeads=TRUE,
           beadCutoff=0.05,
           filterNoCG=TRUE,
           filterSNPs=TRUE,
           population=NULL,
           filterMultiHit=TRUE,
           filterXY=TRUE,
           force=FALSE,
           arraytype="450K")

剛開始一直看不出問題所在,但是最後注意到了:

arraytype 這個參數的選擇是:
Choose microarray type is "450K" or "EPIC".(default = "450K")

也就是說,沒有850K這個選項,有意思,於是我修改了代碼,如下:

#myLoad <- champ.load("raw/",arraytype="850K")
myLoad <- champ.load("raw/",arraytype="EPIC")

確實解決了這個報錯,成功運行champ流程,載入idat文件後的日誌如下:

 Filtering probes with a detection p-value above 0.01.
    Removing 3813 probes.
    If a large number of probes have been removed, ChAMP suggests you to identify potentially bad samples

  Filtering BeadCount Start
    Filtering probes with a beadcount <3 in at least 5% of samples.
    Removing 22027 probes

  Filtering NoCG Start
    Only Keep CpGs, removing 2889 probes from the analysis.

  Filtering SNPs Start
    Using general EPIC SNP list for filtering.
    Filtering probes with SNPs as identified in Zhou's Nucleic Acids Research Paper 2016.
    Removing 95451 probes from the analysis.

  Filtering MultiHit Start
    Filtering probes that align to multiple locations as identified in Nordlund et al
    Removing 11 probes from the analysis.

  Filtering XY Start
    Filtering probes located on X,Y chromosome, removing 16655 probes from the analysis.

  Updating PD file

  Fixing Outliers Start
    Replacing all value smaller/equal to 0 with smallest positive value.
    Replacing all value greater/equal to 1 with largest value below 1..
[ Section 2: Filtering Done ]

 All filterings are Done, now you have 725072 probes and 24 samples.

很有意思哦,850K甲基化晶片和EPIC的差異是?我明明是在各種教程及文檔,看到850K甲基化晶片和EPIC是同一個晶片的不同表述而已:

Illumina公司提供了一個更強大的甲基化分析平臺:Illumina InfiniumMethylationEPIC BeadChip (DNA甲基化850K晶片),不但包含了原450K晶片90%以上的位點,並額外增加了增強子區的350,000個位點,可以對正常樣本和FFPE樣本單個CpG位點進行定量甲基化檢測,該晶片是目前最適合甲基化圖譜分析研究的全基因組DNA甲基化晶片。850K晶片覆蓋了全基因組853,307個CpG位點,全面覆蓋CpG島、啟動子、編碼區及增強子。覆蓋CpG島、RefSeq基因、ENCODE開放染色質、ENCODE轉錄因子結合位點、FANTOM5增強子區域。

這就是很神奇了,但我又不是公司客服,懶得去探索了。

甲基化教程目錄甲基化晶片視頻課程免費在B站

《甲基化晶片(450K或者850K)數據處理 》

教學視頻免費在:https://www.bilibili.com/video/BV177411U7oj

課程配套思維導圖:https://mubu.com/doc/1cwlFgcXMg

甲基化晶片相關資料,https://share.weiyun.com/42a9e78c2dd5367f3427e86c5c99baa1 按需下載,不要整個文件夾全部下載

表觀全部資料,https://share.weiyun.com/5tg6pIn 同樣是按需下載,不要整個文件夾全部下載

當然了,如果你完全看不懂這些,說明你可能需要手把手教學,考慮一下生信技能樹官方入門學習班哦!

文末友情推薦

要想真正入門生物信息學建議務必購買全套書籍,一點一滴攻克計算機基礎知識,書單在:什麼,生信入門全套書籍僅需160 。如果大家沒有時間自行慢慢摸索著學習,可以考慮我們生信技能樹官方舉辦的學習班:

如果你課題涉及到轉錄組,歡迎添加一對一客服:詳見:你還在花三五萬做一個單細胞轉錄組嗎?

號外:生信技能樹知識整理實習生招募,長期招募,也可以簡單參與軟體測評筆記撰寫,開啟你的分享人生!另外,:絕大部分生信技能樹粉絲都沒有機會加我微信,已經多次滿了5000好友,所以我開通了一個微信好友,前100名添加我,僅需150元即可,3折優惠期機會不容錯過哈。我的微信小號二維碼在:0元,10小時教學視頻直播《跟著百度李彥宏學習腫瘤基因組測序數據分析》

相關焦點

  • 學一學DNA甲基化晶片分析流程
    來自:我是如何發現850K甲基化晶片和EPIC的區別850K甲基化晶片和EPIC是同一個晶片的不同表述而已:Illumina公司提供了一個更強大的甲基化分析平臺:Illumina InfiniumMethylationEPIC BeadChip (DNA甲基化850K晶片),不但包含了原450K晶片90%以上的位點,並額外增加了增強子區的
  • 甲基化的一些基礎知識
    同樣的,早期研究以晶片為主,從成本的角度來看,也是晶片為主,但是測序數據更豐富。甲基化晶片 可選的甲基化晶片產品就少很多,絕大部分是illumina公司產品的,從27K到450K到850K甲基化晶片。比較好的介紹是:Illumina  琪先生  2018-07-17的 一文了解 MethylationEPIC 850K 甲基化晶片Infinium MethylationEPIC BeadChip晶片包含了原先的Infinium Methylation450 BeadChip晶片90%以上的內容,這種選擇可提供一種廣泛、全面的甲基化組圖譜。
  • 五分鐘學會甲基化晶片處理,快上車!!!
    傳送到上期戳這裡:手把手教你甲基化分析——甲基化CHAMP包的使用(一)步驟回顧:1.數據導入(champ.import),包括甲基化位點篩選(champ.filter)和缺失值的插補(champ.impute)
  • 基因晶片技術未來大有可為
    目前基因晶片主要應用於疾病的診斷與治療和藥物研究兩大方向, 在疾病的診斷與治療方面如遺傳病相關基因的定位、腫瘤或其他重大疾病易感性篩查、早期診斷、感染性疾病的診斷和耐藥菌株檢測; 在藥物研究方面如新藥開發、對藥物的毒性評價和調查藥物處理細胞後基因的表達情況。經過20年的探索和發展,基因晶片技術已經積累了大量數據、以其快速、準確、高通量的特點推動了生命科學、醫學和檢驗檢疫等領域的發展。
  • 研究發現衣藻中去甲基化酶CMD1催化以維生素C為底物的5mC去甲基化...
    目前的研究表明,DNA甲基化與基因組印記、X染色體失活、轉座因子抑制、衰老和癌症發生等密切相關,因此是表觀遺傳學研究的重點和熱點之一。CpG二核苷酸中的胞嘧啶上第5位碳原子在甲基化轉移酶(DNMTs)的催化下,發生甲基化的形成5mC。目前發現5mC廣泛分布於原核與真核生物中。
  • Science述評: m6Am甲基化酶的新發現——揭開m6Am的神秘面紗
    m6A甲基化被證明是動態可逆的,包括甲基化轉移酶、去甲基化酶和甲基化閱讀蛋白等共同參與。其中甲基化轉移酶包括METTL3/14、WTAP和KIAA1429等,主要作用就是催化mRNA上腺苷酸發生m6A修飾。而去甲基化酶包括FTO和ALKHB5,作用是對已發生m6A修飾的鹼基進行去甲基化修飾。
  • ecRNA:決定神經元DNA的甲基化和去甲基化一種特殊的RNA
    DNA甲基化是最常見的一種表觀遺傳學修飾。近年來人們意識到,神經元DNA的甲基化動態與大腦的記憶形成有關,這一過程受到了嚴格的調控。Alabama大學和Purdue大學的研究人員發現,神經元DNA的甲基化和去甲基化取決於一種特殊的RNA,ecRNA(extra-coding RNA)。
  • 研究發現腫瘤鈣信號通路受高甲基化調控
    DNA甲基化嚴密調控著基因的表達,在腫瘤發生發展過程中發揮著重要作用。腫瘤抑制基因啟動子區往往發生DNA高甲基化,而癌基因啟動子區則呈現出低甲基化。因此,異常的DNA甲基化通常被作為腫瘤診斷、分類和治療的重要分子標記。
  • 甲基化研究綜述
    本文目的在於向對此領域有興趣的同學們進行簡單的科普。我會時不時地更新(今後在更新的時候可能也會對之前發布的內容進行修改),對此問題感興趣的童鞋可以關注這個問題,歡迎隨時和我討論!有不完善和錯誤的地方,歡迎指出和批評!1 概述DNA中鹼基的化學修飾近年來一直是生命科學領域研究的熱點之一。
  • Nat Genet | 組蛋白H3K4me3,H3K27me3和DNA甲基化共同決定基因表達命運
    MLL2介導的H3K4me3通過拮抗轉錄異質性修飾H3K27me3和DNA甲基化,調控基因表達的機制。SET1A/B複合體可激活DNA 5mC甲基化酶DNMT1【15,16】,而DNA甲基化又與PRC複合體介導的H3K27me3修飾相關,因此研究者檢測了敲低MLL2和SET1A/B後5mC和H3K27me3的變化。
  • 甲基化文獻分享
    所以,就找了些中文文獻來作為科普,學習下相關甲基化知識。說實話,看完這3篇文獻,我覺得還是很有收穫的,被科普了很多知識。相信大家也能從中學習到一些知識。文獻來自中國知網:1.m6A RNA 甲基化修飾異常在腫瘤中的作用2.表觀遺傳學調控骨骼細胞功能的研究進展3.急性白血病 m6A 甲基化研究進展不想自己下載的可以公眾號回覆:「甲基化科普」拿到我下好的文獻。
  • 比較遠古與現代人的甲基化圖譜
    對遠古DNA進行測序已經幫助科學家們了解將現代人與他們已滅絕的最近親族尼安德特人與丹尼索瓦人分開的遺傳改變;如今,據一項新的報告,科學家們也已經更好地理解了表觀遺傳學是如何影響這些群組之間的差異的。表觀遺傳學調控可改變基因的表達方式,但它並非通過改變基礎的DNA序列,而是通過包括DNA甲基化等過程來影響基因的。
  • 導入不含CpG島的DNA讓抵抗甲基化的CpG島發生甲基化
    這種新的技術被用來構建與結腸癌相關的表觀基因組突變模型和讓源自安格爾曼症候群(Angelman syndrome, AS)患者的幹細胞甲基化模式恢復正常。安格爾曼症候群是一種罕見的神經退行性疾病,經常被誤診為自閉症。除了構建表觀遺傳疾病模型和治療這些疾病之外,這種技術也有望研究人類發育和生物學特徵。
  • 英特爾蒸發850億,微軟為何要自研晶片
    ,用於運行該公司雲服務的伺服器和個人電腦,加入全行業減少對英特爾依賴的趨勢。 媒體稱微軟正在為其運行雲計算服務和Surface系列個人計算機的伺服器設計自己的晶片。有知情人士透露,這家全球最大的軟體公司正在通過ARM.設計一款用於數據中心的處理器,同時,也在考慮為Surface系列個人電腦配備另一種晶片。 受該消息影響,周五收盤,英特爾大跌6.3%,市值蒸發130.77億美元,約合850億元人民幣。
  • DNA及RNA甲基化數據分析與課題設計學習會 (11月30-12月1日 周末 上海)
    其實更多的粉絲已經跨越了入門階段,急需高級技巧,所以我們開闢了單細胞天地公眾號,不過仍然是有我抽不出精力研發的科研前沿,比如DNA及RNA甲基化數據分析與課題設計,所以我推薦專業團隊來提供這個服務,報名方式見文末!
  • DNA甲基化調控m6A甲基化影響番茄果實成熟 | m6A專題
    作為一種動態和可逆的轉錄後修飾,其通過RNA甲基化轉移酶複合物(METTL3、METTL14和WTAP等)獲得,而去除m6A修飾則是由去RNA甲基化酶FTO和ALKBH5介導。在植物中,m6A甲基化的甲基化轉移酶和去甲基化酶最早在模式植物擬南芥中得到鑑定,並發現m6A可以調節幹細胞命運(案例解析:擬南芥m6A甲基化酶FIP37調控莖尖分生組織發育 | m6A專題),成花轉變(案例解析:擬南芥去甲基化酶ALKBH10調控成花轉變 | m6A專題)和毛狀體分枝(案例解析:m6A-YTH組件調控擬南芥葉片發育時間和形態發生 | m6A專題)。
  • DNA甲基化是什麼?
    在這裡,筆者簡單區分一下一些易於混淆的概念以及介紹一下DNA甲基化發現的歷史。 首先,我們來區分幾個常見概念:DNA甲基化、胞嘧啶甲基化、5mC。 DNA甲基化是指在DNA上添加甲基基團(CH3)。(註:有時候羥甲基化也被稱之為DNA甲基化,但這種稱謂並不是很嚴謹,不推薦)  圖1 5mC與6mA的化學式接下來,我們來簡單梳理一下DNA甲基化發現的歷史:1925年,5mC首次由Johnson和Coghill兩人在結核菌核酸的水解產物中被發現[1]。
  • M6A(RNA甲基化修飾)課題思路介紹及熱點方向分析
    圖1.m6A文獻發表數(Pubmed資料庫)研究發現,作為基因轉錄及轉錄後調控的重要作用方式,m6A修飾參與調節生物體中多種生物學過程,與多種疾病發生、發育具有顯著相關。m6A在細胞加速mRNA代謝和翻譯,以及在細胞分化、胚胎發育和壓力應答等過程中起重要作用。m6A除了分布在mRNA中,也出現在很多非編碼RNA中,如:環狀RNA、LncRNA等。
  • 學習筆記:抑鬱與甲基化
    ,文章主體分為上課的具體內容與我的感悟與收穫,這篇文章主要講甲基化對人的一些影響,文章內容主要是筆記形式,內容僅供大家參考。甲基化反應涉及到許多重要的生理過程,包括基因的表達和蛋白質的合成。當甲基供體不足時,人體的甲基化就會偏低。低甲基化可能造成許多問題,包括能量代謝紊亂和肝臟的損傷。
  • Nature & Cell:中美科學家重磅級發現!RNA甲基化修飾或能促進機體...
    ,而移除甲基化基團的蛋白質被稱為「橡皮擦」,要使得甲基化能夠產生一定的生物學效應,就必須有「解讀器」蛋白質來識別這種變化並與之相結合。近日,一項刊登在國際雜誌Nature上的研究報告中,來自芝加哥大學、濱州大學和中國上海科技大學的科學家們通過聯合研究發現,YTH蛋白家族成員—Ythdf1在機體學習和記憶形成過程中扮演重要的角色,YTH蛋白家族能夠特異性地識別m6A,研究者表示,利用CRISPR/Cas9基因編輯技術敲除小鼠機體中的Ythdf1後,就能夠促進m6A修飾的信使RNA對機體的學習活動產生反應