ATAC-Seq Motif 富集分析

2021-02-20 BeeBee生信

    本文是《ATAC-Seq 分析流程》的 Motif 分析部分,本文 PWM 部分有許多公式,公眾號對公式支持很不友好,我乾脆那部分截圖放上來了,閱讀效果差些。

    峰注釋能夠提供峰可能影響的基因和功能區域,但這不夠直接解釋開放區域的作用機制。開放區域可能被轉錄因子結合從而調控了基因的表達,轉錄因子結合的特定序列稱之為 motif, 結合的位點稱為 TFBS(TF binding sites),轉錄因子可以允許 TFBS 有一定的可塑性(variations/flexible),所以 motif 序列不完全是固定死的。Motif 大部分不長,6-12 bp 左右。人類大約有 1600 個轉錄因子,其中超過 2/3 已鑑定了 Motif.

    Motif 一般有 2 種模式,一是迴文序列,比如 CACGTG 其反向互補序列也是 CACGTG. 二是 2 段保守序列被一段非保守序列分隔,這往往是因為結合的轉錄因子是二聚體,分別識別 2 段保守序列。

    Motif 的分析是容易受假陽性困擾的,這稱為無效定理(Futility Theorem)。比如說往往在基因組序列中觀察到大量的潛在轉錄因子結合位點,其中很少是真正起作用的,大部分預測的轉錄因子結合位點是無效的。

HOMER
    軟體安裝方法在 Homer Software and Data Download. 安裝後將 homer/bin 目錄添加到 PATH 環境變量。
    安裝第三方軟體,包括 Ghostscript, WebLogo, blat.
    安裝需要的包。先查看有哪些可以下載的包。

perl ./configureHomer.pl -list
# 只展示少部分結果作為舉例
Version Installed       Package Version Description                                                                                                                                          
SOFTWARE
+       homer   v4.11.1 Code/Executables, ontologies, motifs for HOMER
ORGANISMS
+       human-o v6.3    Homo sapiens (human) accession and ontology information
-       hydra   v6.3    Hydra vulgaris (hydra) accession and ontology information
-       anemone v6.3    Nematostella vectensis (anemone) accession and ontology information
-       yeast-o v6.3    Saccharomyces cerevisiae (yeast) accession and ontology information

    包分為 4 大類 SOFTWARE, ORGANISM, PROMOTER, GENOME 其中 SOFTWARE 就是 homer 自己。有些包有 -p/-o/-g 後綴就是因為同名,增加一個後綴做區分。

-p - PROMOTER

-o - ORGANISM

-g - GENOME

用 -install 命令安裝。

perl ./configureHomer.pl -install mm9

    ATAC-seq 分析得到峰後就可以用 findMotifsGenome.pl 根據峰的位置進行 Motif 富集的分析。HOMER 自動分析已知 Motif 和新發現(de novo)Motif 的富集,還將新發現 Motif 和已知的進行對比。

findMotifsGenome.pl ${GenrichDir}/KO.narrowPeak hg38 ${MotifDir} -size 200

    這是個封裝的腳本,運行後自動進行許多步驟的分析。主要有前期處理,包含序列提取、背景提取、Normalization 等等,然後是進行新 Motif 的發現分析,然後是已知 Motif 的分析,最後輸出結果。
    輸出主要是 2 個網頁 homerResults.html, knownResults.html 分別是新發現的 motif 及已知 motif 的結果,同名目錄下有相應的 Motif PFM 和 Sequence logo 圖片;所有的 Motif PFM 在 homerMotifs 開頭的文本文件。

$ ls
homerMotifs.all.motifs  homerMotifs.motifs8  knownResults       motifFindingParameters.txt
homerMotifs.motifs10    homerResults         knownResults.html  seq.autonorm.tsv
homerMotifs.motifs12    homerResults.html    knownResults.txt

HOMMER 的 Motif 主要分為 3 類。

ChIP-Seq Transcription Factor Motifs, 來自於 CHIP-Seq 數據的轉錄因子 Motif.

Promoter Motifs, 分析啟動子區得到的 Motif.

General Factors X & Y (i.e. GFX & GFY), 尚不清楚與之結合的轉錄因子。

MEME-Chip
    跟 HOMMER 一樣,MEME-Chip 也是封裝了 Motif 發現、Motif 富集分析、和已知 Motif 比較分析、輸出結果等步驟的腳本。
    MEME-Chip 用輸入的序列最中間 100bp 進行 Motif 的發現分析,用輸入序列的全長進行 Motif 的富集分析。

    MEME-Chip 建議使用等長序列。可以選擇去峰中心上下 250bp 共 500bp 進行分析。

awk -v FS="\t" -v OFS="\t" '{midpos=$2+$10;print $1,midpos-250,midpos+250;}' \
KO.narrowPeak > KO.MEME.bed

    輸入的是序列,所以從上面 bed 文件用 bedtools 從參考基因組提取序列。

bedtools getfasta -fo ${Genrich}/KO.MEME.fasta -fi ${GRCh38} -bed ${Genrich}/KO.MEME.bed
meme-chip -meme-maxw 30 -oc ${MEMEDir}/KO -db ${MotifDb} ${GenrichDir}/KO.MEME.fasta

    MEME-Chip 輸出結果在 meme.html 查看,非常界面友好。

參考資料
Yan, Feng, et al. "From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis." Genome biology 21.1 (2020): 22.
Zia, Amin, and Alan M. Moses. "Towards a theoretical understanding of false positives in DNA motif finding." BMC bioinformatics 13.1 (2012): 1-9.
Van Loo, Peter, and Peter Marynen. "Computational methods for the detection of cis-regulatory modules." Briefings in bioinformatics 10.5 (2009): 509-524.
Wasserman, Wyeth W., and Albin Sandelin. "Applied bioinformatics for the identification of regulatory elements." Nature Reviews Genetics 5.4 (2004): 276-287.
Xia, Xuhua. "Position weight matrix, gibbs sampler, and the associated significance tests in motif characterization and prediction." Scientifica 2012 (2012).
Lambert, Samuel A., et al. "The human transcription factors." Cell 172.4 (2018): 650-665.
Das, Modan K., and Ho-Kwok Dai. "A survey of DNA motif finding algorithms." BMC bioinformatics. Vol. 8. No. S7. BioMed Central, 2007.
https://davetang.org/muse/2013/10/01/position-weight-matrix/
http://homer.ucsd.edu/homer/motif/index.html
http://meme-suite.org/doc/meme-chip.html
Ma, Wenxiu, William S. Noble, and Timothy L. Bailey. "Motif-based analysis of large nucleotide data sets using MEME-ChIP." Nature protocols 9.6 (2014): 1428-1450.

相關焦點

  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs
    HOMER 最初設計的目的用於ChIP-Seq peaks 中尋找富集motifs 。4.3 計算peak 對應序列GC/CpG含量4.4 根據設定的大小準備背景序列用於尋找motif 區域大小使用("-size <#>")設置。HOMER 一般選取基因TSS +/- 50kb區域分成設定大小;然後計算這些背景序列GC/CpG% 儲存起來用於後續分析。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(一)
    SnapATAC簡介SnapATAC (Single Nucleus Analysis Pipeline for ATAC-seq) 是一個能夠快速、準確和全面分析單細胞ATAC-seq數據的R包,它可以對單細胞ATAC-seq數據進行常規的數據降維、聚類和批次校正分析,鑑定遠端調控元件並預測其調控的靶基因,調用chromVAR軟體進行motif分析
  • Chip-seq分析:HOMER尋找motif
    參考:生信技能樹激活chipseq環境HOMER 是一套用於Motif查找和二代數據分析的工具
  • MEME:motif分析的綜合性工具
    MEME是一個motif分析的工具箱,提供了多種相關工具,網址如下http://meme-suite.org/index.html根據分析目的和功能,將相關工具劃分成了以下4大類別1.MoMo常見的應用場景是根據chip_seq等數據獲取到的peak序列,挖掘這些序列中存在的模式特徵。
  • Chip-seq簡介
    染色質免疫共沉定技術,可以研究生物體內DNA與蛋白質的相互作用,首先在活細胞內固定DNA與蛋白結合的複合體,然後用蛋白特異性的抗體,通過抗原抗體特異性結合的免疫學手段捕獲該複合體,然後洗脫蛋白質,得到與目的蛋白結合的DNA片段,將富集到的DNA片段進行上機測序,即形成了一套成熟的分析流程,稱之為chip-seq, 就是將傳統的chip技術和高通量測序結合起來,對應的英文如下
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    最近刷視頻看到了b站jimmy老師又更新了ATAC-seq系列教學指引,趕緊花幾天時間follow了一遍!而且把我自己學習筆記分享給大家,視頻的話,文末的閱讀原文直達免費學習哈!雖然視頻錄製是兩年前,但是絲毫不影響學習體驗!
  • 五分鐘帶你了解ATAC-seq測序
    ATAC-seq利用DNA轉座酶技術實現染色質可及性分析。DNA轉座酶可以將自身結合的一段序列隨機插入到基因組中。在ATAC-seq試驗中,細胞或組織樣本在核質分離後,將細胞核單獨收集在一起,並通過轉座酶對核內的染色質進行打斷。緊密包裹的染色質DNA不會受到轉座酶的打斷,而開放區域的染色質DNA會被轉座酶隨機插入並打斷。
  • 差異基因富集分析及作圖
    前面介紹了怎麼分析差異基因,那麼肯定需要對差異基因進行功能富集分析,今天simplify老師來給大家介紹一下怎麼做差異基因富集分析。
  • 新品首發| 更精準的m6Am甲基化修飾測序m6Am-Exo-seq,限時八折!
    為推動表觀轉錄修飾m6Am的研究,表觀生物最新開發m6Am-Exo-seq測序技術(Exo即核酸外切酶),大幅降低樣本要求量,可以在全轉錄組範圍(mRNA及lincRNA)高效準確的鑑定m6Am的修飾位點及豐度變化。
  • IF10+發文攻略——轉錄組+ATAC
    ATAC-seq之後我們就可以得到檢測到的染色質開放區域,該區域就可以與其對應的motif(轉錄因子)相結合,從而調控下遊基因的表達。 那ATAC與轉錄組應該如何進行關聯分析呢?首先,我們要針對不同樣本進行ATAC-seq和轉錄組測序,獲得樣本的染色質開放peaks和基因的表達信息;第二步:計算ATAC-seq和轉錄組數據的相關性;第三步:獲得差異開放區域的差異基因,並進行富集分析等功能方面的研究;第四步:對相關的轉錄因子進行挖掘,研究轉錄因子的調控網絡。
  • 一文讀懂表觀遺傳學研究利器——ATAC-seq技術及應用丨深度長文
    DNase-seq 檢測染色質可及性分析[2] 總的來說,DNase-seq在確定基因組上活性的調控元件方面表現可靠、強大,不需要其他表觀遺傳研究的先驗性信息。但對轉錄因子的印記分析的可靠性需要深入研究。
  • 玩轉基因組瀏覽器之利用IGV查找motif結合位點
    motif在基因組上結合位點的查找是生信分析中的一項基本技能,在轉錄因子的chip_seq, m6A_seq等落雨都有廣泛應用,之前也寫了很多的文章來介紹motif本文以最近非常火熱的RNA甲基化測序m6A_seq為例,來展示下IGV的motif結合位點查找功能, 眾所周知,m6A修飾位點的motif序列為RRACH, 通過peak calling我們可以識別到包含
  • ...學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq...
    生命學院張強鋒課題組利用深度學習人工智慧算法分析單細胞ATAC-seq數據清華新聞網10月12日電 10月8日,清華大學生命學院的張強鋒課題組在《自然·通訊》(Nature Communications)上發表題為「SCALE方法基於隱特徵提取進行單細胞ATAC-seq數據分析」(SCALE method for
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    表觀基因組測序技術,如染色質免疫共沉澱測序(CHIP-seq)和轉座酶開放染色質高通量測序(ATAC-seq),使我們能夠通過檢測特定的染色質狀態及其相應的轉錄因子,在時間和空間維度上剖析細胞和組織的基因組調控格局。隨著染色質免疫共沉澱晶片(CHIP-chip)技術的發展,大量的表觀基因組分析技術已經出現,如CHIP-seq、DNase I超靈敏位點測序(DNase-seq)、ATAC-seq等。
  • 缺什麼來什麼,單細胞ATAC的數據有救了!
    以下洲更開始表演:使用ArchR分析單細胞ATAC-seq數據(第1章)第1章: ArchR基礎入門這一章將會介紹如何導入數據,如何構建Arrow文件,這是後續ArchR分析的基礎。先從Github上下載項目到本地, 大約有262Mbgit clone https://github.com/GreenleafLab/ArchR.git然後在 R裡面進行安裝BiocManager::install(c("nabor","motifmatchr
  • 論文寫作丨基於單細胞RNA-seq構建基因調控網絡如何發7分+SCI
    題目:Single-cell RNA-seq dissects the intratumoral heterogeneity of triple negative breast cancer based on gene regulatory networks基於單細胞RNA-seq構建基因調控網絡分析三陰性乳腺癌瘤內異質性三陰性乳腺癌(TNBC)是具有高度瘤內異質性的乳腺癌亞型
  • 如何做GO和KEGG富集分析(GSEA)?
    我們做完RNA-seq差異基因表達分析後,一個頭疼的問題就是如何完成GO和KEGG的富集分析。