DNA 甲基化(BS-seq)分析軟體之 HOME

2021-02-21 獅山生信

HOME: a histogram based machine learning approach for effective identification of differentially methylated regions[1]

雖然軟體發的期刊影響因子不高,但是是 Ryan lister 實驗室成員發表的。此實驗室 [2] 發表過不少高水平期刊文章。Genome Research、Nature Communications、Genome Biology、Current Opinion in Plant Biology、elife 等等。其中此文章的一作 Akanksha Srivastava 發表期刊如下:

Eichten SR, Stuart T, Srivastava A, Lister R, Borevitz JO (2016) *DNA methylation profiles of diverse Brachypodium distachyon aligns with underlying genetic diversity. *Genome Research 10.1101/gr.205468.116. [pdf](https://genome.cshlp.org/content/26/11/1520.full.pdf+html[3]), pubmed[4]

Narsai R#, Gouil Q, Secco D, Srivastava A, Karpievitch YV, Liew LC, Lister R, Lewsey MG#, Whelan J (2017) *Extensive transcriptomic and epigenomic remodelling occurs during Arabidopsis thaliana germination. *Genome Biology 10.1186/s13059-017-1302-3[5], pdf[6]

Srivastava A, Karpievitch YV, Eichten SR, Borevitz JO, Lister R (2019) *HOME: A histogram based machine learning approach for effective identification of differentially methylated regions. *BMC Bioinformatics 10.1186/s12859-019-2845-y[7], pdf[8]

不難看出此一作主要是從事分析 DNA 甲基化這一塊工作的,常年與其他人合作(感覺有點慘,分析的大都就是這樣與人合作基本拿不到排名第一的一作)。此工具就是將其之前發表的兩篇文章中的內容整個起來的,包括 16 年 Genome Research 中的 DNA 甲基化的時間序列分析。

把文章看了一遍,我覺得有必要把這一段內容先貼出來 HOME

HOME(histogram of methylation)是用於鑑別差異 DNA 甲基化區域(DMR)鑑定的 python包。該方法使用甲基化特徵的直方圖和線性支持向量機(SVM)來從全基因組亞硫酸氫鹽測序(WGBS)數據中鑑定 DMR。HOME 可以識別成對和時間序列 DMR(有或沒有重複都可以)。

安裝

HOME 是為 python 2.7 編寫的,並在 Linux 系統上進行了測試。建議在安裝 HOME 包之前先為 python 2.7 設置虛擬環境。作者這裡提供了怎麼創建虛擬環境,哈哈,不是通過 conda 而是 **virtualenv[9]**(virtualenv is a tool to create isolated Python environments)
virtualenv -p <path_to_python2.7> <env_name>

source <env_name>/bin/activate

pip install git+https://github.com/ListerLab/HOME.git

or

git clone https://github.com/ListerLab/HOME.git
cd ./HOME
pip install -r requirements.txt
python setup.py install

git clone https://github.com/ListerLab/HOME.git
cd ./HOME
conda env create    *assuming the conda environment is activated and R is already installed in it*
source activate HOMEenv
python setup.py install

輸入文件

# 染色體名  位點  鏈方向  DNA甲基化類型  甲基化的C的數目  總的胞嘧啶C的數目
# Chromosome number, position, strand, type (CG/CHG/CHH) where H is anything but G, methylated reads and total number of reads.
chr1 15814 + CG 12 14
chr1 15815 - CG 15 21
chr1 15816 - CHG 1 9
chr1 15821 - CHH 7 22
chr1 15823 - CHH 0 2
chr1 15825 - CHH 11 19

需要注意,作者的說明書有點不用心啊。是 sample_file_CG.txt 而不是 csv 結尾,並且裡面作者提供的是如下,我們需要將其改為全路徑。sed 's/\.\//\/public\/home\/qliu\/biosoft\/HOME\//g' sample_file_CG.txt
sample1 ./testcase/CG/sample1_r1.txt    ./testcase/CG/sample1_r2.txt
sample2 ./testcase/CG/sample2_r1.txt    ./testcase/CG/sample2_r2.txt
sample3 ./testcase/CG/sample3_r1.txt    ./testcase/CG/sample3_r2.txt

sample1 /public/home/qliu/biosoft/HOME/testcase/CG/sample1_r1.txt       /public/home/qliu/biosoft/HOME/testcase/CG/sample1_r2.txt
sample2 /public/home/qliu/biosoft/HOME/testcase/CG/sample2_r1.txt       /public/home/qliu/biosoft/HOME/testcase/CG/sample2_r2.txt
sample3 /public/home/qliu/biosoft/HOME/testcase/CG/sample3_r1.txt       /public/home/qliu/biosoft/HOME/testcase/CG/sample3_r2.txt

尋找差異 DMR

HOME-pairwise  -t [CG/CHG/CHH/CHN/CNN]  -i [sample_file_fullpath]  -o [output_directorypath]

運行路徑一定要在HOME文件目錄下即:/public/home/qliu/biosoft/HOME/,否則會報錯 Fatal error: cannot open file './scripts/HOME_R.R': No such file or directory, 不知道是我沒掌握精髓還是這個太。。
HOME-pairwise -t CG -i /public/home/qliu/biosoft/HOME/testcase/sample_file_CG.txt -o ./pairwise_CG_outputpath
# 運行結果
Preparing the DMRs from HOME
GOOD LUCK !
DMRs for sample1_VS_sample2_10 done
DMRs for sample1_VS_sample2_13 done
DMRs for sample1_VS_sample2_12 done
DMRs for sample1_VS_sample3_10 done
DMRs for sample1_VS_sample3_12 done
DMRs for sample1_VS_sample3_13 done
DMRs for sample2_VS_sample3_12 done
DMRs for sample2_VS_sample3_10 done
DMRs for sample2_VS_sample3_13 done

HOME 的默認參數相對寬鬆。要以更嚴格的設置運行 HOME,請將默認參數更改為以下或更高:

HOME-pairwise  -t CG  -i  /public/home/qliu/biosoft/HOME/testcase/sample_file_CG.txt -o ./pairwise_stringent_CG_outputpath --delta 0.2 --minc 5 
# 運行結果
Preparing the DMRs from HOME
GOOD LUCK !
DMRs for sample1_VS_sample2_13 done
DMRs for sample1_VS_sample2_10 done
DMRs for sample1_VS_sample2_12 done
DMRs for sample1_VS_sample3_13 done
DMRs for sample1_VS_sample3_10 done
DMRs for sample1_VS_sample3_12 done
DMRs for sample2_VS_sample3_13 done
DMRs for sample2_VS_sample3_10 done
DMRs for sample2_VS_sample3_12 done
Congratulations the DMRs are ready

結果比較,好吧這裡沒區別,應該是示例數據問題。但是這裡很好的是運行過程中是分染色體分別進行運行,加快了運行進程。

# 由於示例文件只提供了三條染色體的甲基化信息所以後面只有三條染色體的結果:
[CG]cut -f 1 sample1_r1.txt |sort |uniq -c
   2998 10
   2999 12
   2999 13

[sample1_VS_sample2]$ wc -l ./*
  3 ./HOME_DMRs_10.txt
  3 ./HOME_DMRs_12.txt
  3 ./HOME_DMRs_13.txt
  9 total

[sample1_VS_sample2]$ wc -l ./*
  3 ./HOME_DMRs_10.txt
  3 ./HOME_DMRs_12.txt
  3 ./HOME_DMRs_13.txt
  9 total


# pairwise_stringent_CG_outputpath:HOME_DMRs_12.txt (END)
chr     start   end     status  numC    mean_Meth1      mean_Meth2      delta   avg_coverage1   avg_coverage2   len
12      122818  123202  hyper   14      0.9421879271112584      0.1152926299222629      0.8268952971889956      60      60      384
12      179697  180225  hyper   9       0.9698766175534637      0.12380942497017339     0.8460671925832903      58      62      528

# HOME_pairwise_DMRs:HOME_DMRs_12.txt (END)
chr     start   end     status  numC    mean_Meth1      mean_Meth2      delta   avg_coverage1   avg_coverage2   len
12      122818  123202  hyper   14      0.9421879271112584      0.1152926299222629      0.8268952971889956      60      60      384
12      179697  180225  hyper   9       0.9698766175534637      0.12380942497017339     0.8460671925832903      58      62      528

還可以進行時間序列 DNA 甲基化分析

這裡,Max_delta 是比較樣品中的最大平均甲基化差異。置信度得分考慮了 C的長度,數量和 SVM得分。值越高表示 DMR越自信,也就是可信度越高。Comb1-n 表示每種樣品組合的成對比較。它報告 start:end:state:每個成對比較的 delta。
[HOME]$ HOME-timeseries  -t CG -i /public/home/qliu/biosoft/HOME/testcase/sample_file_CG.txt -o ./time_CG_outputpath
Preparing the DMRs from HOME
GOOD LUCK !
DMRs for 13 done
DMRs for 10 done
DMRs for 12 done
Congratulations the DMRs are ready

# 可以看到此文件中包含了兩兩相互比較的三種情況得到的結果。
# Timeseries_HOME_DMR_10.txt (END)
chr     start   end     numC    len     max_delta       confidence_scores       sample1_VS_sample2      sample1_VS_sample3      sample2_VS_sample3
10      122795  123264  17      469     0.6694115959991053      0.3984762292738861      122795:123264:hypo:0.669        122795:123264:hypo:0.353        122795:123264:hyper:0.318
10      179697  180278  11      581     0.7046148506166738      0.3052977823501635      179697:180278:hypo:0.705        179697:180278:hypo:0.348        179697:180278:hyper:0.36

參數翻譯 - -

HOME-pairwise

參數默認功能-sc --scorecutoff0.1每個胞嘧啶 C 位點的分類打分-p --pruncutoff0.1從兩端檢查連續 Cs 的 SVM 分數以細化邊界-npp -–numprocess8運行的線程數-ml --minlength50輸出的 DMR 的最小長度-ncb --numcb5輸出的 DMR 分離時所需要包含的少胞嘧啶 C 的數目-md -–mergedist500如果兩個 DMR 之間的舉例小於 500 就合併為一個 DMR-prn --prunningC3number of consecutives Cs to be considered for pruning for boundary refinement2(翻譯拿不準)-ns --numsamplesall被用來計算 DMR 的樣本,默認是所有-sp --startposition1st position在進行 timeseries DMR 計算時候放置為第一個的樣本開始位置-BSSeeker2 --BSSeeker2Falseinput CGmap file from BSSeeker2-mc --minc3一個 DMR 中最少包含的胞嘧啶 C 的數目-sin --singlechromFalse單染色體的並行計算;npp 將用於每條染色體的並行運行-d --delta0.1得到 DMR 的最小要求的平均 DNA 甲基化差異-wrt --withrespecttoall用於 DMR 的樣品要求與特定樣品成對比較-Keepall --KeepallFalse保持所有胞嘧啶位置存在於至少一個重複中看到BSSeeker2我是不咋喜歡的,要不是參數說明太詳細了,畢竟我是bismark死忠粉。

HOME-timeseries

參數默認功能-sc --scorecutoff0.5每個胞嘧啶 C 位點的分類打分-npp -–numprocess5運行的線程數-ml --minlength50輸出的 DMR 的最小長度-ns --numsamplesall被用來計算 DMR 的樣本,默認是所有-sp --startposition1st position在進行 timeseries DMR 計算時候放置為第一個的樣本開始位置-BSSeeker2 --BSSeeker2Falseinput CGmap file from BSSeeker2-mc --minc4一個 DMR 中最少包含的胞嘧啶 C 的數目-d --delta0.1得到 DMR 的最小要求的平均 DNA 甲基化差異-sin --singlechromFalse單染色體的並行計算;npp 將用於每條染色體的並行運行-Keepall --KeepallFalse保持所有胞嘧啶位置存在於至少一個重複中從參數來看一般默認即可。參考資料[1]

HOME: a histogram based machine learning approach for effective identification of differentially methylated regions: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2845-y

[2]

此實驗室: http://listerlab.org/publications.html

[3]

pdf: https://genome.cshlp.org/content/26/11/1520.full.pdf+html

[4]

pubmed: http://www.ncbi.nlm.nih.gov/pubmed/?term=DNA+methylation+profiles+of+diverse+Brachypodium+distachyon+aligns+with+underlying+genetic+diversity

[5]

10.1186/s13059-017-1302-3: https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1302-3

[6]

pdf: https://genomebiology.biomedcentral.com/track/pdf/10.1186/s13059-017-1302-3?site=genomebiology.biomedcentral.com

[7]

10.1186/s12859-019-2845-y: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2845-y

[8]

pdf: https://bmcbioinformatics.biomedcentral.com/track/pdf/10.1186/s12859-019-2845-y

[9]

virtualenv: https://virtualenv.pypa.io/en/latest/

相關焦點

  • DNA及RNA甲基化數據分析、課題設計與基金寫作學習班學習班 2020年...
    理論  第一天下午  1:30-  17:00  DNA甲基化晶片及測序數據分析  DNA甲基化晶片及測序分析常用軟體介紹。  DNA甲基化晶片及測序數據分析策略。  DNA甲基化晶片及測序分析圖表解讀。  差異甲基化鑑定、注釋及富集分析。
  • DNA甲基化研究方法(測序法)
    >1) 重亞硫酸鹽測序  該方法可以從單個鹼基水平分析基因組中甲基化的胞嘧啶。http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4188980/pdf/emss-60510.pdf5)TET輔助的重亞硫酸鹽測序(TAB-seq)  TAB-seq採用葡萄糖亞胺與5』羥甲基胞嘧啶(5』hmC)作用來保護免受TET蛋白的氧化。
  • 12月在線資料庫匯總|資料庫|甲基化|DNA|標誌物|預測|分析|-健康界
    關於甲基化相關的這個資料庫:MethHC 2.0是一個更新過的資料庫。主要可以用來查找在癌症當中甲基化和表達的相關性的分析。在12個資料庫裡面,有一個miRNA靶點預測的資料庫。7. 其他資料庫這次還有4個和以上都沒多大關係的資料庫。
  • 基因研究新突破:科學家揭開DNA甲基化之謎
    甲基化是由一種叫做甲基轉移酶的酶來完成的,這種酶以特定的模式用甲基修飾DNA,在DNA上形成表觀遺傳層。 到目前為止,科學家們還沒有努力分辨出哪種酶負責哪種模式。有了這些知識,你就可以用人工甲基化體構建生物模型,模仿你想要引入DNA的菌株的甲基化模式。這樣你可以確保「生存」介紹了DNA,」專家說,本文的第一作者Torbj rn lsh j從導航系統Biosustain詹森。 當科學家們試圖將外來DNA引入宿主生物,例如細菌或酵母時,常常會遇到甲基化的問題。
  • 中藥調控DNA甲基化修飾的研究思路
    本文先通過高糖誘導小鼠腎繫膜mes13細胞構建了糖尿病腎病的小鼠體外細胞模型,隨機分成3組:LG(低糖)、HG(高糖)和TIIA組(藥物),分析了丹參酮IIA對糖尿病腎病的影響。隨後進行了DNA測序和甲基化測序,並進行了一系列的生物信息學分析(包括差異基因篩選、差異甲基化分析、DNA甲基化和下遊RNA表達之間的相關性和IPA分析),最後還進行了簡單的實驗驗證。
  • Nature:基於DNA甲基化的早期癌症檢測
    研究人員在上周的《Nature》雜誌上介紹了一種基於免疫沉澱的實驗方案,能夠分析少量循環遊離DNA的甲基化組,從而檢測不同類型癌症所對應的大規模 DNA 甲基化變化,包括早期胰腺腫瘤。相比之下,大規模的表觀遺傳改變(如 DNA 甲基化)則沒有類似的約束,它們是不同類型的組織和癌症所特有的,因此在檢測和分類早期癌症患者上可能具有更大的作用。為此,研究人員開發出一種基於免疫沉澱的靈敏技術,以分析少量循環遊離DNA中的甲基化組。
  • DNA甲基化——甲基化DNA PCR & NGS 分析試劑盒
    即未甲基化的胞嘧啶殘基被脫氨成尿嘧啶,甲基化的胞嘧啶(5-mC)殘基不受影響,這使PCR擴增可將尿嘧啶視為胸腺嘧啶,將5-mC或5-hmC識別為胞嘧啶。 這樣便能夠區分甲基化和未甲基化的胞嘧啶殘基,從而提供有關DNA甲基化區域的單核苷酸解析度信息。要成功地進行DNA甲基化研究,必須進行完全轉化,並減少通常由於嚴酷的化學反應而導致的DNA降解量。
  • 【表觀遺傳學基礎】BS技術生物信息分析流程及原理
    隨著測序技術的發展,從原來的PE50,到highseq2000的PE75、PE100,再到現在的X TEN的PE150,如果酶切的片段短,很容易就會測通,導致大量的數據浪費,而檢測的位點數卻並沒有增加。隨著測序讀長逐步增加,數據浪費的問題也就越發嚴重,這也是現在很多測序服務公司不推廣RRBS的原因。
  • 朱冰課題組揭示DNA甲基化維持的動態過程和調控等機制
    然而,由於方法和技術的限制,DNA甲基化維持的效率、動態過程及其相關調控因素研究得並不清楚。這項工作首先建立了研究DNA甲基化動態維持過程的新方法Hammer-seq。此方法結合了EdU(胸腺嘧啶類似物)標記新合成DNA鏈、點擊化學反應在EdU位點添加biotin標籤、Streptavidin免疫沉澱以及Hairpin亞硫酸鹽全基因組甲基化測序等技術。Hammer-seq可以測定單個DNA分子內新舊CpG的甲基化狀態,從而不僅可以測定甲基化的維持速率,還可以測定維持中可能伴隨發生的從頭甲基化事件。
  • 6mA甲基化-DNA甲基化研究新熱點
    2.高通量測序:又可以細分為兩類1)6mA-IP-seq(使用6mA抗體抓取帶有該修飾的DNA片段,進行測序)為代表的區域鑑定手段,可以將6mA修飾位置鎖定在幾十bp大小的範圍內。2)三代測序(Pacbio、Nanopore平臺)為代表的單鹼基鑑定方法,可以準確檢測位點是否發生6mA修飾。
  • 生物物理所揭示DNA甲基化維持的動態過程和調控等機制
    哺乳動物細胞的DNA甲基化主要發生在CpG二核苷酸對的C(胞嘧啶)上,並在有絲分裂過程中得以相對穩定的維持,這對細胞保持譜系特性有著重要的意義。然而,由於方法和技術的限制,DNA甲基化維持的效率、動態過程及其相關調控因素研究得並不清楚。這項工作首先建立了研究DNA甲基化動態維持過程的新方法Hammer-seq。
  • 科學網—新單細胞DNA甲基化測序技術可應用於不同物種
    本報訊 華中農業大學玉米研究團隊開發了一種能廣泛應用於不同物種組織、不依賴於DNA甲基化狀態的單細胞DNA甲基化測序技術
  • m6A(RNA甲基化修飾)課題思路介紹及熱點方向分析
    國家自然基金支持情況既代表國家宏觀層面對學術研究的導向性,也可以反映出當前學術研究的熱點方向,我們以國家自然科學基金中標項目分析m6A甲基化研究。這一學科比例分步也體現出m6A甲基化研究在腫瘤研究中的重要意義,也是我們公司選擇MeRIP-seq與RNA-seq數據整合分析在腫瘤相關研究的定位依據。圖3.m6A與腫瘤相關國自然課題學科分類(科學網資料庫) 以上結果看著非常喜人,但是在具體的實施過程中,就會面對很多現實的問題需要取捨。
  • 北京基因組所發現RNA m6A選擇性甲基化機制
    科研人員採用m6A-seq技術進行了水稻愈傷與葉片兩個不同組織全轉錄組m6A的深度測序,並利用自主開發的軟體MeRIP-PF鑑定和繪製了水稻的首個m6A  此外,在對數據的深度分析中,研究人員發現,m6A的甲基化存在組織或細胞的特異性和選擇性。
  • 開發出cfMeDIP–seq技術,最低僅需1ng血漿cfDNA就可...
    2018年11月15日/生物谷BIOON/---在一項新的研究中,在加拿大瑪嘉烈公主癌症中心研究員Daniel De Carvalho博士的領導下,一個研究團隊以血液樣本作為測試對象,將「液體活檢」、甲基化分析和機器學習相結合,開發出一種靈敏的基於免疫沉澱的測試方法來分析少量血漿循環遊離DNA(cell-free DNA, cfDNA)中的甲基化組(methylome
  • 10種DNA甲基化測序技術,你知道幾個?
    其中,5』甲基胞嘧啶(5mC) 的甲基化是一個非常重要的表觀遺傳學修飾事件,該事件能夠調控基因活性,並影響著如細胞分化、轉錄調控和染色質重塑等生物學過程。隨著下一代測序技術(NGS)技術的發展,使我們能夠從全基因組水平來分析5』甲基胞嘧啶及組蛋白修飾等事件,由此能夠發現很多傳統的基因組學研究所不能發現的東西,這就是所謂的「DNA甲基化測序」!
  • 生物物理所揭示DNA甲基化維持的動態過程和調控機制及其對衰老和...
    哺乳動物細胞的DNA甲基化主要發生在CpG二核苷酸對的C(胞嘧啶)上,並在有絲分裂過程中得以相對穩定的維持,這對細胞保持譜系特性有重要意義。由於方法和技術的限制,關於DNA甲基化維持的效率、動態過程及其相關調控因素的研究尚不充分。  該工作建立了研究DNA甲基化動態維持過程的新方法Hammer-seq。
  • Alpha助力DNA甲基化表型調控新發現
    DNA甲基化(DNA methylation)是指在DNA甲基化轉移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5'碳位共價鍵結合一個甲基基團。這兩種疾病具有相同的臨床特徵,這就非常有意思了:這預示著組蛋白修飾和DNA甲基化修飾可能存在機制上的關聯性。
  • 基於納米孔測序開發同步檢測CpG甲基化和染色質可及性的新方法
    ——nanoNOMe-seq。通過對四種人類細胞系進行分析,研究團隊構建了包括CpG甲基化和染色質可及性等信息的人類表觀基因組圖譜,並揭示了乳腺癌細胞和非癌細胞之間的甲基化和染色質可及性差異。基於該技術,研究團隊首先對已有的nanopolish軟體進行優化,使其能夠同時準確檢測CpG甲基化和GpC甲基化。然後應用GpC甲基轉移酶外源性標記開放染色質,利用納米孔技術對細胞進行NOMe-seq測序,即nanoNOMe-seq分析。
  • RNA m6A選擇性甲基化機制獲進展
    2012年,高通量測序與抗體免疫沉澱相結合方法(MeRIP-seq或m6A-seq)的提出,使得大規模檢測m6A修飾成為可能。近兩年,通過在人、小鼠、酵母和擬南芥等系統內的研究,在甲基化動態調控機制的方面取得了較大的進展,並發現m6A可能會直接或間接影響mRNA的出核轉運、翻譯和降解等。