歡迎關注」生信修煉手冊」!
對於ATAC_seq, chip_seq等抗體富集型文庫而言,peak calling是分析的第一步。通過peak calling,可以得到抗體富集的區域,這些區域有對應的生物學功能,在chip_seq中,可以是轉錄因子結合區或者發生組蛋白修飾的區域,ATAC中對應的就是開放染色質區域。
上述各種測序研究的對象都是基因的表達調控,peak calling幫助我們得到調控片段的染色體位置,可以構建潛在的調控網絡。眾所周知,基因表達調控是一個動態變化的過程,不同生長階段,不同實驗條件的樣本間,其調控元件是會存在差異的,而研究這個動態過程,其意義更加重大,對應到數據上,peak caling之後,我們要做的就是peak 的差異分析。
peak差異分析的工具很多,不同軟體的結果不盡相同,如何選擇是一個難題。在下列文章中,以chip_seq數據為例,針對已經發表的多個peak差異分析工具進行了探索
文章連結如下
http://bioinfo.sibs.ac.cn/shaolab/pdf/2017%20quantitative%20biology;%20review%20of%20chipseq%20differential%20binding%20analysis.pdf
peak 差異分析與peak caling的結果緊密相依,在上述文獻中,將peak差異分析總結為了兩大類,示意如下
第一類,類似轉錄組差異分析的策略,首先基於peak calling的結果,統計peak區域在各個樣本中的表達量,然後進行歸一化,差異分析;第二類,採用了隱馬可夫模型,將基因組的區域分為了非差異,上調,下調3種不同狀態,構建3種狀態間的轉移矩陣,二者最大的區別就在於第二類的軟體不需要依賴已有的peak calling結果。
在實驗設計中,還需要考慮到一個因素就是生物學重複,雖然大多數實驗都是有生物學重複的,但是沒有生物學重複的情況也不可避免,這在選擇對應的分析軟體時要充分考慮。為了方便選取,文獻中整理了如下所示的決策樹
首先明確是是否基於已有的peak區域進行分析,如果不基於已有的peak區域,可以選擇滑動窗口或者隱馬可夫模型, 其中基於滑動窗口的軟體如下
diffReps
PePr
基於隱馬可夫模型的軟體如下
ChIPDiff
ODIN
THOR
如果基於已有的peak結果進行分析,則需要根據有無生物學重複進行判斷,如果沒有生物學重複,可以選擇MAnorm或者GFOLD軟體,如果有生物學重複,而且統計的是raw count格式的表達量,則可以用轉錄組中常用的edgeR, DESeq進行差異分析,如果不是raw count, 則可以用DBChip, ChIPComp, voom來進行分析。
在文章中,說明了用edgeR和DESeq進行peak 差異分析的理由,將peak看做是RNA_seq中的基因,則其定量方式和差異分析可以通用。另外,文章中還提到一種很有啟發的差異分析思路,用macs和scier等peak caling軟體進行差異分析,這些軟體的常規用法是比較實驗樣本和input樣本的差異,進行peak calling, 在用其進行差異分析時,將對照組的樣本看做input, 將實驗組的樣本設置為case, 然後進行peak calling,最終鑑定到的區域,可以看做是兩組間的差異peak 區域。
這篇文章發表的比較早,一些些的差異peak分析軟體沒有包括進來,比如DiffBind, macs2的差異peak 分析功能,後續在詳細介紹各個軟體的用法。
原創不易,歡迎收藏,點讚,轉發!生信知識浩瀚如海,在生信學習的道路上,讓我們一起並肩作戰!本公眾號深耕耘生信領域多年,具有豐富的數據分析經驗,致力於提供真正有價值的數據分析服務,擅長個性化分析,歡迎有需要的老師和同學前來諮詢。轉發本文至朋友圈,後臺私信截圖即可加入生信交流群,和小夥伴一起學習交流。
掃描下方二維碼,關注我們,解鎖更多精彩內容!