Chip-seq分析:HOMER尋找motif

2021-03-02 生物空間站

參考:生信技能樹

激活chipseq環境

HOMER 是一套用於Motif查找和二代數據分析的工具

(http://homer.ucsd.edu/homer/introduction/configure.html)

它主要用於ChIP-seq和promoter分析,但也可以用於核酸序列的motif分析問題。

HOMER進行motif分析時,需要兩個數據集:

1.感興趣的目標序列,如ChIP-seq分析中的peak文件

2.背景序列,如ChIP-seq分析中的物種全基因組序列

安裝homer

conda install -c bioconda homer

找到homer安裝位置,進入

which homer
cd ~/miniconda3/envs/chipseq/share/homer

 裡面有個pl文件

HOMER軟體的配置:

可以使用 configureHOMER.pl 腳本下載所需數據。

安裝mm10小鼠注釋信息(人是hg19)

perl ~/miniconda3/envs/chipseq/share/homer/configureHomer.pl  -install mm10
perl configureHomer.pl -remove mm10

# 下載成功後會多出

 ~/miniconda3/envs/chipseq/share/homer/data/genomes/mm10 文件夾

# 這個文件夾取決於你把homer這個軟體安裝到了什麼地方

進入peaks目錄,裡面有bed文件(由於之前伺服器壞了,我這裡上傳了2個電腦存的bed文件)

cd ~/data/epi/chipseq/GSE34518/peak

看一下bed文件長什麼樣

測試一下代碼

for id in ~/data/epi/chipseq/GSE34518/peaks/*.bed;doecho $idfile=$(basename $id )sample=${file%%.*} echo $sample  awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' $id >homer_peaks.tmp done

查看一下生成的homer_peaks.tmp文件

這是homer軟體要求的格式

需要使用 findMotifsGeome.pl 腳本

for id in ~/data/epi/chipseq/GSE34518/peaks/*.bed;doecho $idfile=$(basename $id )sample=${file%%.*} echo $sample  awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' $id >homer_peaks.tmp  
findMotifsGenome.pl homer_peaks.tmp mm10 ${sample}_motifDir -len 8,10,12annotatePeaks.pl homer_peaks.tmp mm10 1>${sample}.peakAnn.xls 2>${sample}.annLog.txtdone

把上面的代碼保存為腳本runMotif.sh,然後運行:nohup bash runMotif.sh 1>motif.log &

過程很慢了 估計個把小時要

不僅僅找了motif,還順便把peaks注釋了一下。得到的後綴為peakAnn.xls 的文件就可以看到和使用R包注釋的結果是差不多的。

得到motifDir目錄

將該目錄下所有文件下載到本地,打開homerResults.html 文件

相關焦點

  • ATAC-Seq Motif 富集分析
    /configureHomer.pl -install mm9    ATAC-seq 分析得到峰後就可以用 findMotifsGenome.pl 根據峰的位置進行 Motif 富集的分析。HOMER 自動分析已知 Motif 和新發現(de novo)Motif 的富集,還將新發現 Motif 和已知的進行對比。
  • ChIP-Seq數據挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
    HOMER 通過比較兩個序列集,再使用ZOOPS scoring (zero or one occurrence per sequence)和超幾何檢驗進行富集分析。HOMER主要被用於 ChIP-Seq 和 promoter 分析,但是核酸序列motif尋找問題都可以嘗試使用HOMER。
  • 一篇文章學會ChIP-seq分析(上)
    寫在前面:《一篇文章學會ChIP-seq分析(上)》《一篇文章學會ChIP-seq分析(下)》為生信菜鳥團博客相關文章合集,共九講內容。帶領你從相關文獻解讀、資料收集和公共數據下載開始,通過軟體安裝、數據比對、尋找並注釋peak、尋找motif等ChIP-seq分析主要步驟入手學習,最後還會介紹相關可視化工具。
  • 九月學徒ChIP-seq學習成果展(6萬字總結)(下篇)
    motif背景motif是比較有特徵的短序列,會多次出現的,一般認為它的生物學意義重大,做完CHIP-seq分析之後,一般都會尋找motif 。motif最先是通過實驗的方法發現的,換句話說,不是說有了ChIP-seq才有了motif分析,起始很早人們就開始研究motif了!例如,'TATAAT』 box在1975年就被pribnow發現了,它與上遊的『TTGACA’motif是RNA聚合酶結合位點的特異性序列。
  • Motif分析,從生信到生物學意義
    用什麼數據進行Motif分析3.1 數據類型常規的高通量結合位點的測序數據如:ChIP-seq,ATAC-seq,m6A_seq,DAP-seq等等;(關於這些個測序數據取樣、使用、分析注意事項等內容,
  • ChIP-seq經典文章(上)植物篇
    分析過程:總的來說這篇文章很好的補充了前人的研究,重要的是他的實驗設計很規範值得我們借鑑,現在我們針對作者所使用的ChIP-seq和RNA-seq這套組合拳式技術進行分析。首先是RNA-seq。的分析,ChIP-seq的分析原理在之前的分享中我們已經介紹過,現在我們就把所講的知識運用到這裡來。
  • ChIP-Seq數據中包含了spike-in怎麼分析
    其中的每一步都是一點點探索出來的什麼是Chip-Seq中的spike-in可以參考:https://www.activemotif.com/catalog/1091/chip-normalizationChIP-Seq方便了在基因組區域對轉錄因子結合位點以及組蛋白轉錄後修飾的探索,但技術本身是半定量的,不能準確地比較樣本與樣本的結合豐度。
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。3)信息分析 RNA-seq數據分析:mapping至玉米基因組(軟體TopHat2.0.6)、DEGs分析、LncRNA分析(軟體PhyloCSF) CHIP-seq數據分析
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • 在 R 裡面就能做全套的 ChIP-seq ?
    分析11.1  從基因組中獲得 Peaks 區間的DNA序列11.2  使用 BCRANK 發現 Motif12 版本信息13 基金參考文獻背景:什麼是 ChIP-seq 根據維基百科解釋, ChIP-seq 全稱為 Chromatin immunoprecipitation followed by sequencing , 中譯為染色質免疫沉澱
  • 表觀之植物非生物脅迫|ChIP+RNA-seq+Y1H/Y2H多組學聯合揭示擬南芥中耐鹽機制
    擬南芥SALK_152004(AtHSFA7b突變株)和Columbia ecotype(WT)ChIP-qPCR、ChIP-seq、Y1H、Y2H、RNA-seq脯氨酸及可溶糖含量、脯氨酸合成基因AtP5CS1 和 AtP5CS2、含水量、根葉中的K+和Na+離子及其比例、Na+和K+離子泵相關基因—NHX1、NHX2、NHX3、NHX6、SOS、SOS2和SOS3、SOD和POD及GST酶活等,證實AtHSFA7b對植物耐鹽其作用並且影響一些與耐鹽相關的酶、離子等活性3、AtHSFA7b對E-box類似序列有結合偏好性ChIP-seq
  • TCGA計劃的ATAC-seq數據發布
    通過對410個腫瘤樣本的23種腫瘤類型(其中386個樣本有技術重複)進行ATAC-seq分析,共繪製出796個染色質可及性圖譜,鑑定到 562,709個調控元件,即ATAC-seq數據分析中對peaks數目統計,共有562,709個可重複
  • 一個ChIP-seq實戰
    徵稿郵箱:glb-biotech@zju.edu.cn詳情閱覽:一手科研開花,一手賺錢零花   本次講解選取的文章是為了探索PRC1,PCR2這樣的蛋白複合物,不是轉錄因子或者組蛋白的CHIP-seq,請注意區別!
  • ATAC-Seq 分析流程
    ,MACS2 進行一個個樣本分析,後續再合併峰區域。    ATAC-seq 要用 --nomodel 參數,-g 要根據自己測序物種選擇。\*_peaks.narrowPeak 是 narrowPeak 格式結果;*_summits.bed 是包含頂峰(Peak summit)的位置信息的 BED 格式文件,適合用於 motif 的分析。    對於有重複的實驗來說,也許想要將得到的 peak 進行合併,可以用 bedtools merge 命令。下面的命令順便去除了不想要的部分結果,只保留常染色體和性染色體。
  • R包ggseqlogo 繪製seq logo圖
    簡介在生物信息分析中,經常會做序列分析圖(sequence logo),這裡的序列指的是核苷酸(DNA/RNA鏈中)或胺基酸(在蛋白質序列中)。
  • 一庫在手,Chip測序分析不再愁 —ChIP-Atlas公共資料庫
    ChIP-Atlas集成了海量的公共ChIP測序資源,涵蓋了提交給NCBI,DDBJ或ENA的SRA(序列讀取檔案)的幾乎所有公共ChIP-seq數據
  • 怎樣用HOMER算出的P-value畫出CNS級別的泡泡圖?
    $ file summary_ATAC_seq_motif.xlsx                                                                                     summary_ATAC_seq_motif.xlsx: Microsoft Excel 2007+這是一個Excel
  • 如何寫一篇家族分析文章(一)—家族分析文章的研讀
    之前的RAN-seq數據也用於表達注釋,用MCScanX軟體獲得線性關係和WGD重複事件(定位在重複染色體上且在線性block中出現的重複基因)。當兩個基因在基因組中是連續的,考慮是串聯重複。多序列比對的結果:進化樹及分類的圖:結合進化樹做了一個柱形圖:2.4蛋白特性及保守的motif的分析
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    一篇RNA-seq分析流程的綜述,全面而詳細!深度好文,可用來反覆閱讀。初學者用於把握RNA-seq真箇流程及各個流程選擇上的差異。已經開始學習者可用來查缺補漏和發現新的分析角度。A survey of best practices for RNA-seq data analysis摘要:沒有任何一個RNA-seq分析流程可適用於所有的轉錄組分析。
  • 單細胞ATAC分析搞不懂?看過這篇文章就明白了
    通過定義peak、窗口、調控元件(TF motif 、TSS等)產生 cell-feature 矩陣。由於不同細胞類型存在特異的 TF 的 motif 或 k-mers 的信息,因此一些分析流程用此信息注釋細胞類型。基因組區域可以用公共資料庫(如cisBP、JASPAR、HOMER)的已知 TF motif進行注釋,還能使用 motif 匹配 k-mers 進行無監督注釋。