本文是《ATAC-Seq 分析流程》的 Motif 分析部分,本文 PWM 部分有許多公式,公眾號對公式支持很不友好,我乾脆那部分截圖放上來了,閱讀效果差些。
峰注釋能夠提供峰可能影響的基因和功能區域,但這不夠直接解釋開放區域的作用機制。開放區域可能被轉錄因子結合從而調控了基因的表達,轉錄因子結合的特定序列稱之為 motif, 結合的位點稱為 TFBS(TF binding sites),轉錄因子可以允許 TFBS 有一定的可塑性(variations/flexible),所以 motif 序列不完全是固定死的。Motif 大部分不長,6-12 bp 左右。人類大約有 1600 個轉錄因子,其中超過 2/3 已鑑定了 Motif.
Motif 一般有 2 種模式,一是迴文序列,比如 CACGTG 其反向互補序列也是 CACGTG. 二是 2 段保守序列被一段非保守序列分隔,這往往是因為結合的轉錄因子是二聚體,分別識別 2 段保守序列。
Motif 的分析是容易受假陽性困擾的,這稱為無效定理(Futility Theorem)。比如說往往在基因組序列中觀察到大量的潛在轉錄因子結合位點,其中很少是真正起作用的,大部分預測的轉錄因子結合位點是無效的。
HOMER
軟體安裝方法在 Homer Software and Data Download. 安裝後將 homer/bin 目錄添加到 PATH 環境變量。
安裝第三方軟體,包括 Ghostscript, WebLogo, blat.
安裝需要的包。先查看有哪些可以下載的包。
perl ./configureHomer.pl -list
# 只展示少部分結果作為舉例
Version Installed Package Version Description
SOFTWARE
+ homer v4.11.1 Code/Executables, ontologies, motifs for HOMER
ORGANISMS
+ human-o v6.3 Homo sapiens (human) accession and ontology information
- hydra v6.3 Hydra vulgaris (hydra) accession and ontology information
- anemone v6.3 Nematostella vectensis (anemone) accession and ontology information
- yeast-o v6.3 Saccharomyces cerevisiae (yeast) accession and ontology information
包分為 4 大類 SOFTWARE, ORGANISM, PROMOTER, GENOME 其中 SOFTWARE 就是 homer 自己。有些包有 -p/-o/-g 後綴就是因為同名,增加一個後綴做區分。
-p - PROMOTER
-o - ORGANISM
-g - GENOME
用 -install 命令安裝。
perl ./configureHomer.pl -install mm9
ATAC-seq 分析得到峰後就可以用 findMotifsGenome.pl 根據峰的位置進行 Motif 富集的分析。HOMER 自動分析已知 Motif 和新發現(de novo)Motif 的富集,還將新發現 Motif 和已知的進行對比。
findMotifsGenome.pl ${GenrichDir}/KO.narrowPeak hg38 ${MotifDir} -size 200
這是個封裝的腳本,運行後自動進行許多步驟的分析。主要有前期處理,包含序列提取、背景提取、Normalization 等等,然後是進行新 Motif 的發現分析,然後是已知 Motif 的分析,最後輸出結果。
輸出主要是 2 個網頁 homerResults.html, knownResults.html 分別是新發現的 motif 及已知 motif 的結果,同名目錄下有相應的 Motif PFM 和 Sequence logo 圖片;所有的 Motif PFM 在 homerMotifs 開頭的文本文件。
$ ls
homerMotifs.all.motifs homerMotifs.motifs8 knownResults motifFindingParameters.txt
homerMotifs.motifs10 homerResults knownResults.html seq.autonorm.tsv
homerMotifs.motifs12 homerResults.html knownResults.txt
HOMMER 的 Motif 主要分為 3 類。
ChIP-Seq Transcription Factor Motifs, 來自於 CHIP-Seq 數據的轉錄因子 Motif.
Promoter Motifs, 分析啟動子區得到的 Motif.
General Factors X & Y (i.e. GFX & GFY), 尚不清楚與之結合的轉錄因子。
MEME-Chip
跟 HOMMER 一樣,MEME-Chip 也是封裝了 Motif 發現、Motif 富集分析、和已知 Motif 比較分析、輸出結果等步驟的腳本。
MEME-Chip 用輸入的序列最中間 100bp 進行 Motif 的發現分析,用輸入序列的全長進行 Motif 的富集分析。
MEME-Chip 建議使用等長序列。可以選擇去峰中心上下 250bp 共 500bp 進行分析。
awk -v FS="\t" -v OFS="\t" '{midpos=$2+$10;print $1,midpos-250,midpos+250;}' \
KO.narrowPeak > KO.MEME.bed
輸入的是序列,所以從上面 bed 文件用 bedtools 從參考基因組提取序列。
bedtools getfasta -fo ${Genrich}/KO.MEME.fasta -fi ${GRCh38} -bed ${Genrich}/KO.MEME.bed
meme-chip -meme-maxw 30 -oc ${MEMEDir}/KO -db ${MotifDb} ${GenrichDir}/KO.MEME.fasta
MEME-Chip 輸出結果在 meme.html 查看,非常界面友好。
參考資料
Yan, Feng, et al. "From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis." Genome biology 21.1 (2020): 22.
Zia, Amin, and Alan M. Moses. "Towards a theoretical understanding of false positives in DNA motif finding." BMC bioinformatics 13.1 (2012): 1-9.
Van Loo, Peter, and Peter Marynen. "Computational methods for the detection of cis-regulatory modules." Briefings in bioinformatics 10.5 (2009): 509-524.
Wasserman, Wyeth W., and Albin Sandelin. "Applied bioinformatics for the identification of regulatory elements." Nature Reviews Genetics 5.4 (2004): 276-287.
Xia, Xuhua. "Position weight matrix, gibbs sampler, and the associated significance tests in motif characterization and prediction." Scientifica 2012 (2012).
Lambert, Samuel A., et al. "The human transcription factors." Cell 172.4 (2018): 650-665.
Das, Modan K., and Ho-Kwok Dai. "A survey of DNA motif finding algorithms." BMC bioinformatics. Vol. 8. No. S7. BioMed Central, 2007.
https://davetang.org/muse/2013/10/01/position-weight-matrix/
http://homer.ucsd.edu/homer/motif/index.html
http://meme-suite.org/doc/meme-chip.html
Ma, Wenxiu, William S. Noble, and Timothy L. Bailey. "Motif-based analysis of large nucleotide data sets using MEME-ChIP." Nature protocols 9.6 (2014): 1428-1450.