ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs

2021-02-20 生物信息學習


 findMotifsGenome.pl: 在基因組區域中尋找富集Motifs

HOMER 最初設計的目的用於ChIP-Seq peaks 中尋找富集motifs 。

命令

findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]

1. 設定尋找motif 的區域大小  (-size # or -size given, default: 200)
如果想在提供的peak中尋找motifs,使用參數-size given。然而,對於轉錄因子peaks,大多數motifs 被發現位於peak 中心 +/- 50-75 bp的範圍內,所以最好根據peak 的大小將尋找motif的區域設為固定值。

2. 輸入文件格式
格式:HOMER peak/Positions 文件和BED 格式文件

HOMER peak文件有至少5列:

BED 格式文件至少有6列:

Peak/Position 和 BED兩種格式之間可以相互轉換,使用Homer自帶腳本:pos2bed.pl 或bed2pos.pl

3. 自定義背景
因為HOMER 使用一個不同的motif 尋找算法,因此使用不同的背景會產生不同的結果。例如,如果將某種實驗的peak與另一種實驗peak相比較,可以再創建一個peak/BED文件(參數:"-bg <peak/BED file>"),將會對背景進行移除GC-bias操作和自動標準化。

4. findMotifsGenome.pl工作流程
4.1 確認peak/BED 文件
4.2 根據peak/BED 文件提取序列,過濾掉序列中N >70%的序列。
4.3 計算peak 對應序列GC/CpG含量
4.4 根據設定的大小準備背景序列
用於尋找motif 區域大小使用("-size <#>")設置。HOMER 一般選取基因TSS +/- 50kb區域分成設定大小;然後計算這些背景序列GC/CpG% 儲存起來用於後續分析。

4.5 隨機選擇背景區域用於尋找motif
因為HOMER 使用一個不同的motif 尋找算法,它需要使用背景序列區域作為對照。默認情況下,HOMER 可能選擇50000 或 peaks總數兩倍的隨機背景序列,可以使用參數-N <#>自定義。HOMER 會選擇和目標數據一致GC 含量分布的序列作為背景序列。例如,目標序列是GC高含量的,那麼背景序列也會如此。
設定-bg <peak/BED file>自定義背景,

4.6 序列差異自動標準化
自動標準化是HOMER 用以移除由短寡聚序列引進的序列偏好性,主要用於消除某些特定基因組序列、實驗誤差和測序偏好引起的不平衡。HOMER 假定目標數據和背景序列在1-mers, 2-mers, 3-mers, etc上是沒有差異的。短寡聚序列長度是通過參數-nlen <#>設定。一個例子,目標數據和背景序列中 A's是一樣的;先計算目標序列中各種短寡聚序列的偏好性,然後調整每條背景序列的權重來標準化這些偏好性,當然權重矯正是按照較小的步長一步一步進行矯正。如果目標序列富含A,那麼背景序列中富含A的序列權重高於A含量一般的序列。

4.7 檢查已知motifs富集情況
HOMER 會檢索已知 motifs 在目標序列和背景基因富集情況。結果輸出到文件:knownResults.html

4.8 重頭預測motif
默認情況,HOMER 尋找長度為 8, 10, 和12 bp的motifs ,可以通過-len <#,#,#>自定義。

5 findMotifsGenome.pl結果文件

homerMotifs.motifs<#> : 對應各個長度的motif結果

homerMotifs.all.motifs : 各個長度的motif結果合併到了一起

motifFindingParameters.txt :  文件保存了程序運行參數

knownResults.txt : 已知motif 的富集結果

seq.autonorm.tsv : 短核苷酸自動矯正情況

homerResults.html : 重新預測的motif 的富集結果

peakMotifs.output

homerResults/ directory: 對應homerResults.html中結果

knownResults.html : 已知motif 的富集結果

knownResults/ directory: 對應knownResults.html 中結果

6 Interpreting motif finding results
7 motif 尋找的一些重要參數

Masked vs. Unmasked Genome ("-mask" or hg18 vs. hg18r)
一般使用masked 版本

Region Size ("-size <#>", "-size <#>,<#>", "-size given", default: 200)
-size -300,100:peak上遊100bp,下遊300bp區域。根據不同的實驗數據選擇。

Motif length ("-len <#>" or "-len <#>,<#>,...", default 8,10,12)
如果要尋找長Motif ,建議先尋找短的Motif(<15bp);尋找長的Motif 耗時和佔據大量計算機資源,建議減小尋找Motif 的區域,例如"-len 20 -size 50"。

Mismatches allowed in global optimization phase ("-mis <#>", default: 2)
允許錯配可以提升靈敏度,如果尋找12-15 bp Motif ,可以設置3-4bp的錯配。

Number of motifs to find ("-S <#>", default 25)
並不是越多越好。

Normalize CpG% content instead of GC% content ("-cpg")
考慮到HOMER 可能卡在CGCGCGCG這樣的motifs。

Region level autonormalization ("-nlen <#>", default 3, "-nlen 0" to disable)
消除短寡聚核苷酸引入的不平衡。

Motif level autonormalization (-olen <#>, default 0 i.e. disabled)
對Region level autonormalization參數的補充。

User defined background regions ("-bg <peak file of background regions>")
自定義背景序列

Hypergeometric enrichment scoring ("-h")
findMotifsGenome.pl默認使用二項式分布對motifs打分,這是因為背景序列遠遠多於目標序列時,運算比較快。當背景序列比較少的時候,建議使用超幾何檢驗的方法。

Find enrichment of individual oligos ("-oligo")
輸出寡聚核苷酸富集情況到文件oligo.length.txt

Force findMotifsGenome.pl to re-preparse genome for the given region size ("-preparse").

Only search for motifs on + strand ("-norevopp")

Search for RNA motifs ("-rna")

Mask motifs ("-mask <motif file>")

Optimize motifs ("-opt <motif file>")

Dump FASTA files ("-dumpFasta")
根據peak文件輸出 target.fa 和 background.fa

8. findMotifsGenome.pl使用實例:
8.1 數據包準備

$perl configureHomer.pl -list
$perl configureHomer.pl -install mm10

8.2 構建HOMER Peak/Positions 文件
#input.test.bed

#peakName #chromsome #startingPosition #endPosition #strand

1   chr2    5214158 5215219 +2   chr2    8345384 8345769 +3   chr2    8647810 8648265 +4   chr2    8943836 8944187 +5   chr2    10036538    10036796    +6   chr3    12362628    12362865    +7   chr3    13105367    13105590    +8   chr3    15619314    15619600    +9   chr3    19819943    19820193    +10  chr3    22236595    22236910    +


8.3 運行程序

$ perl findMotifsGenome.pl input.test.bed mm10 /homerResult/ -size 200 -len 8,10,12

常用參數:-bg:自定義背景序列-size: 用於motif尋找得片段大小,默認200bp;-size given 設置片段大小為目標序列長度;越大需要得計算資源越多-len:motif大小設置,默認8,10,12;越大需要得計算資源越多-S:結果輸出多少motifs, 默認25-mis:motif錯配鹼基數,默認2bp-norevopp:不進行反義鏈搜索motif-nomotif:關閉重投預測motif-rna: 輸出RNA motif,使用RNA motif資料庫-h:使用超幾何檢驗代替二項式分布-N:用於motif尋找得背景序列數目,default=max(50k, 2x input);耗內存參數

參考:
Finding Enriched Motifs in Genomic Regions

往期精彩:

ChIP-Seq數據挖掘系列-1: Motif 分析(1) - HOMER 安裝

ChIP-Seq數據挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟

我們創建了生物信息學習交流群,如需進群,請長按下方二維碼,添加管理員微信(禁廣告)。

溫馨提示:添加管理員微信時請備註姓名/學校/專業


相關焦點

  • ATAC-Seq Motif 富集分析
    峰注釋能夠提供峰可能影響的基因和功能區域,但這不夠直接解釋開放區域的作用機制。開放區域可能被轉錄因子結合從而調控了基因的表達,轉錄因子結合的特定序列稱之為 motif, 結合的位點稱為 TFBS(TF binding sites),轉錄因子可以允許 TFBS 有一定的可塑性(variations/flexible),所以 motif 序列不完全是固定死的。
  • Chip-seq簡介
    染色質免疫共沉定技術,可以研究生物體內DNA與蛋白質的相互作用,首先在活細胞內固定DNA與蛋白結合的複合體,然後用蛋白特異性的抗體,通過抗原抗體特異性結合的免疫學手段捕獲該複合體,然後洗脫蛋白質,得到與目的蛋白結合的DNA片段,將富集到的DNA片段進行上機測序,即形成了一套成熟的分析流程,稱之為chip-seq, 就是將傳統的chip技術和高通量測序結合起來,對應的英文如下
  • Chip-seq分析:HOMER尋找motif
    參考:生信技能樹激活chipseq環境HOMER 是一套用於Motif查找和二代數據分析的工具
  • ChIP-Seq數據中包含了spike-in怎麼分析
    其中的每一步都是一點點探索出來的什麼是Chip-Seq中的spike-in可以參考:https://www.activemotif.com/catalog/1091/chip-normalizationChIP-Seq方便了在基因組區域對轉錄因子結合位點以及組蛋白轉錄後修飾的探索,但技術本身是半定量的,不能準確地比較樣本與樣本的結合豐度。
  • 綜述科普|染色質調控區域的研究:對CHIP-seq和ATAC-seq發展的深入思考
    最早應用於大規模表觀遺傳學分析的技術是染色質免疫共沉澱(CHIP),然後是微陣列基因晶片雜交(chip)(CHIP-chip),它使科學家能夠在全基因組範圍內檢測DNA-蛋白質的相互作用。CHIP-chip是基於微陣列雜交技術,在高密度晶片上種植覆蓋一個基因組或特定區域的大量探針。但該方法存在解析度低、探針設計要求較多、信號偏差大、難以廣泛應用於更多物種等缺點。
  • MEME:motif分析的綜合性工具
    MoMo常見的應用場景是根據chip_seq等數據獲取到的peak序列,挖掘這些序列中存在的模式特徵。Motif Enrichment這部分工具用於分析已知的motif在輸入序列上的富集情況,包含的工具列表如下CentriMoAMESpaMoGOMo常見的應用場景是根據ATAC_seq的peak序列,分析在這些序列中出現富集的已知
  • ChIP-seq在全基因組範圍內檢測與組蛋白、轉錄因子互作的DNA區段
    在全基因組範圍內檢測與組蛋白、轉錄因子互作的DNA區段。這需要染色質免疫共沉澱技術ChIP結合第二代測序技術(高通量測序),組合起來就是ChIP-seq。(3)從匹配到基因組上的短序列中進行富集區域的掃描。通常掃描到的富集區即被認為是蛋白質與DNA相互結合的區域(也有假陽性位點等的影響)。(4)對掃描到的富集區做深度分析,包括基因,GO注釋,利用基因瀏覽器進行可視化瀏覽,研究與基因結構的關係等。
  • 玩轉基因組瀏覽器之利用IGV查找motif結合位點
    motif在基因組上結合位點的查找是生信分析中的一項基本技能,在轉錄因子的chip_seq, m6A_seq等落雨都有廣泛應用,之前也寫了很多的文章來介紹motif本文以最近非常火熱的RNA甲基化測序m6A_seq為例,來展示下IGV的motif結合位點查找功能, 眾所周知,m6A修飾位點的motif序列為RRACH, 通過peak calling我們可以識別到包含
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • 何愛彬研究組開發高通量單細胞ChIP-seq技術——CoBATCH並解析多...
    研究基因表達調控與細胞命運決定的機制,最直接的證據是特定染色質區域與蛋白的相互作用,然而,高效的單細胞染色質免疫共沉澱測序(scChIP-seq)技術尚未出現。常規ChIP-seq技術需要使用超聲打斷交聯的基因組片段,然後用特異性抗體富集含有目的蛋白結合的基因組片段,並將目的DNA片段純化後,添加接頭進行建庫測序。這一系列操作使得ChIP-seq需要百萬個細胞作為起始材料。
  • 論文寫作丨基於單細胞RNA-seq構建基因調控網絡如何發7分+SCI
    文章利用GEO資料庫中三陰性乳腺癌患者的單細胞轉錄組數據構建基因調控網絡並得到關鍵基因ETV6,分析ETV6基因的功能多樣性。最近的研究結果表明,TNBC患者可能是由不同的分子亞型的細胞組成的。此外,基於單細胞轉錄組(scRNA-seq)構建的基因調控網絡(GRNs)對研究關鍵調控因子十分重要。作者使用scRNA-seq數據對TNBC患者構建了全面的基因調控機制網絡。使用scRNA-seq分析CNV並鑑定出545個惡性細胞。基於RAM50模型鑑定惡性細胞的亞型。細胞間通訊分析表明巨噬細胞在腫瘤微環境中起到重要作用。
  • 一庫在手,Chip測序分析不再愁 —ChIP-Atlas公共資料庫
    網址如下 :https://chip-atlas.org/   整合了所有峰調用(Peak call)數據,可以可視化指定基因組位點的組蛋白修飾和轉錄調節因子(TRs)的結合位點。我們可以輸入一系列基因的名稱,然後分析他們是否受到共同的轉錄或者表觀遺傳因子調節。
  • 表觀轉錄組學-m6A簡介
    WritersRNA甲基化轉移酶,由多種蛋白亞基構成的複合物,識別靶標RNA,使其發生m6A修飾,已經明確的亞基包括METTL3, METTL14, WTAP等。2.研究轉錄組m6A修飾有多種技術,示意如下圖a表示m6A-seq, 和chip_seq類似的技術,
  • 染色質免疫共沉澱(ChIP)技術
    這種技術廣泛應用於檢測特定基因調節蛋白結合在基因組中的具體位置或者基因調節區域和蛋白的修飾是否相關。。因其能真實、完整地反映結合在DNA序列上的靶蛋白的調控信息,是目前基於全基因組水平研究DNA-蛋白質相互作用的標準實驗技術,日益成為研究真核細胞中轉錄調控情況的重要途徑。
  • 我國科學家實現單細胞表觀組學新突破:兩種革新單細胞ChIP-seq技術...
    這兩項技術分別於2019年8月27日在Molecular Cell和2019年9月3日在Nature Cell Biology在線發表。研究論文題目分別為「CoBATCH for high-throughput single-cell epigenomic profiling」和「Profiling chromatin state by single-cell itChIP-seq」。
  • 如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據
    原標題:如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據 在我們平時的科研中,常常需要知道自己研究的基因組區段是否位於一些調控元件上,如enhancer,promoter或者特定蛋白結合位點(如TFBS)等。
  • Nature & Cell:利用新技術ChIP-exo發掘重要性基因調節蛋白
    Franklin Pugh和研究生Ho Sung Rhee是利用稱作核酸外切酶(exonuclease)的分子工具切除沒有被其中一種基因調節蛋白結合的DNA序列來開始這一研究過程的。他們然後測定了每個仍然保持蛋白結合的DNA束(DNA bundle)的核苷酸序列,即DNA的四種主要鹼基(用單字母表示為A,T,C和G)組成的序列。
  • 差異基因富集分析及作圖
    前面介紹了怎麼分析差異基因,那麼肯定需要對差異基因進行功能富集分析,今天simplify老師來給大家介紹一下怎麼做差異基因富集分析。
  • peak差異分析的工具那麼多,如何選擇?
    對於ATAC_seq, chip_seq等抗體富集型文庫而言,peak calling是分析的第一步。通過peak calling,可以得到抗體富集的區域,這些區域有對應的生物學功能,在chip_seq中,可以是轉錄因子結合區或者發生組蛋白修飾的區域,ATAC中對應的就是開放染色質區域。