參考:生信技能樹
激活chipseq環境
HOMER 是一套用於Motif查找和二代數據分析的工具
(http://homer.ucsd.edu/homer/introduction/configure.html)
它主要用於ChIP-seq和promoter分析,但也可以用於核酸序列的motif分析問題。
HOMER進行motif分析時,需要兩個數據集:
1.感興趣的目標序列,如ChIP-seq分析中的peak文件
2.背景序列,如ChIP-seq分析中的物種全基因組序列
安裝homer
conda install -c bioconda homer找到homer安裝位置,進入
which homer
cd ~/miniconda3/envs/chipseq/share/homer裡面有個pl文件
HOMER軟體的配置:
可以使用 configureHOMER.pl 腳本下載所需數據。
安裝mm10小鼠注釋信息(人是hg19)
perl ~/miniconda3/envs/chipseq/share/homer/configureHomer.pl -install mm10
perl configureHomer.pl -remove mm10# 下載成功後會多出
~/miniconda3/envs/chipseq/share/homer/data/genomes/mm10 文件夾
# 這個文件夾取決於你把homer這個軟體安裝到了什麼地方
進入peaks目錄,裡面有bed文件(由於之前伺服器壞了,我這裡上傳了2個電腦存的bed文件)
cd ~/data/epi/chipseq/GSE34518/peak看一下bed文件長什麼樣
測試一下代碼
for id in ~/data/epi/chipseq/GSE34518/peaks/*.bed;doecho $idfile=$(basename $id )sample=${file%%.*} echo $sample awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' $id >homer_peaks.tmp done查看一下生成的homer_peaks.tmp文件
這是homer軟體要求的格式
需要使用 findMotifsGeome.pl 腳本
for id in ~/data/epi/chipseq/GSE34518/peaks/*.bed;doecho $idfile=$(basename $id )sample=${file%%.*} echo $sample awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' $id >homer_peaks.tmp
findMotifsGenome.pl homer_peaks.tmp mm10 ${sample}_motifDir -len 8,10,12annotatePeaks.pl homer_peaks.tmp mm10 1>${sample}.peakAnn.xls 2>${sample}.annLog.txtdone把上面的代碼保存為腳本runMotif.sh,然後運行:nohup bash runMotif.sh 1>motif.log &
過程很慢了 估計個把小時要
不僅僅找了motif,還順便把peaks注釋了一下。得到的後綴為peakAnn.xls 的文件就可以看到和使用R包注釋的結果是差不多的。
得到motifDir目錄
將該目錄下所有文件下載到本地,打開homerResults.html 文件