ChIP-seq和ATAC-seq基礎知識(視頻)

2021-12-25 聯川生物

前言:後天我們的多組學文獻精讀會分享一篇有關染色質可接近性的文章,考慮到大部分人可能對其中的一些概念還不了解,所以今天我們就來提前學習一下有關ChIP-seq和ATAC-seq的一些基礎知識。

(視頻講者:張健教授團隊張月明)

啟動子、增強子的概念

什麼是基序(motif)

什麼是染色質可接近性

什麼是組蛋白修飾

研究染色質可接近性的測序技術

啟動子是RNA 聚合酶識別、結合和啟動轉錄的一段DNA 序列,一般位於轉錄起始位點的上遊。增強子是能強化轉錄起始的一段DNA序列。

增強子和啟動子的關係:增強子是通過啟動子來增加轉錄的。

有效的增強子可以位於基因的5』端,也可位於基因的3』端,有的還可位於基因的內含子中。可以看到增強子和調控的基因的關係相對於啟動子和其調控的基因要複雜得多。所以在下周的另一篇有關染色質可接近性的文章中,作者預測增強子和基因之間的關聯時用到了一項技術——HiChIP。

在這裡我們就簡單介紹一下什麼是HiChIP:以啟動子和增強子為例,我們已經知道他們倆是可以通過轉錄因子這個蛋白產生相互作用的,我們用一些試劑將他們這種相互作用在細胞內固定下來,然後將染色質打斷,加上特定的接頭,使這些斷裂的末端可以相互連接,然後再用靶向目標轉錄因子的抗體將他們拉下來,將DNA和蛋白分離,送DNA去測序,我們就可以知道哪些染色質之間存在相互作用了。也就是說,知道了增強子和啟動子之間的聯繫,又通過啟動子和靶基因的聯繫,我們就可以知道增強子可以調節哪些基因了。

轉錄因子在與DNA序列結合時,其結合位點的序列是具有一定的特異性的。個人認為基序可以理解為不同轉錄因子結合的DNA序列的一個模式。為什麼說是一個模式?因為基序並不是特指某一段DNA的具體序列信息。如下圖所示是同一個轉錄因子在多個基因上的結合位點的序列信息:

如果我們要用一段序列來描述以上所有的序列的鹼基組成,我們就把這一段序列稱之為一致性序列。既然如此,我們就需要一個統一的規則來進行這個轉換。下圖是IUPAC標準的鹼基表示法,不同字母對應的鹼基如下所示:

有了這個規則,我們就可以將上述例子表示為如下的一致性序列,也就是我們理解的基序(motif):

染色體/質的結構:真核生物的核DNA並不是裸露的,上面有組蛋白相結合。DNA一圈一圈地纏繞在組蛋白上,形成串珠式的結構。進一步摺疊、濃聚,便形成染色體,不具有轉錄活性。

染色質可接近性:DNA的複製和轉錄,都需要將DNA的高級結構打開。但是並不需要將整個DNA全部打開,只需要打開需要表達基因的那一部分即可。而這一個過程,主要由染色體組蛋白的修飾來實現的。這部分鬆散的染色質被稱為開放染色質(open chromatin)或可接近性染色質(accessible chromatin)。染色質的可接近性也可以翻譯為可及性或可獲得性。染色質一旦打開,就允許一些調控蛋白(比如轉錄因子和輔因子)與之相結合,並發揮相應的作用。

組蛋白包含五個組分,按照分子量由大到小分別稱為H1、H3、H2A、H2B和H4。組蛋白修飾是指組蛋白在相關酶作用下發生甲基化、乙醯化、磷酸化、腺苷酸化、泛素化、ADP核糖基化等修飾的過程。

我們需要簡單了解以下4點:

在這裡,我們主要講解4種相關的測序技術:ChIP-seq、DNase-seq、MNase-seq、ATAC-seq。當然除了這四種技術,也還有其他的,感興趣的可以自行了解。

ChIP全稱:染色質免疫共沉澱(Chromatin immunoprecipitation ,ChIP),seq表示測序。

原理:首先通過染色質免疫共沉澱技術(ChIP)特異性地將目的蛋白及其結合的DNA片段一起拉下來,並對DNA進行純化與文庫構建;然後對富集得到的DNA片段進行高通量測序。再將獲得的數百萬條序列精確定位到基因組上,從而獲得全基因組範圍內與組蛋白、轉錄因子等互作的DNA序列信息。

ChIP的實驗流程:DNA與蛋白質交聯→超聲裂解→免疫沉澱→PCR擴增→測序(如下圖所示)

此圖來自Y叔的公眾號:biobabble(點擊可達原文)

ChIP的分析流程:

(1) 質控

(2) 序列比對:將原始的fastq序列文件mapping 到參考基因組上,生成 sam 格式文件(個人理解比對就是知道每條reads在參考基因組的具體位置,即在哪一條染色體的哪個位置)。下圖是使用IGV查看比對的結果,圖中看到的這些峰就是我們常說的peaks,最後一組是對照組。

(3) peak calling:尋找peak出現的位置,而這些位置可能就是我們感興趣的靶蛋白結合的位點。以下兩張圖顯示的是ChIP peak在TSS位點上的富集情況。

下圖中的0點即為TSS位點,橫坐標表示的是基因組的位置(TSS位點上下遊3000bp的範圍)。紅色表示富集程度。可以看到這些peaks在TSS位點上顯著富集。

下圖攜帶的信息和上圖是一致的(網上找的圖片,像素不佳,望見諒)。橫軸依然是基因組的位置,中間表示TSS位點,縱軸表示peaks的數目。可以看到peaks也是在TSS位點上顯著富集的。

(4) peaks注釋:個人理解為尋找ChIP peaks所對應的靶基因。

(5) 下遊分析:pathway富集分析、尋找motif、結合其他組學數據.

原理:DNase-seq使用了限制性內切酶(DNase I)對樣品進行了處理。在染色質壓縮區域,DNA鏈被緻密結構很好地保護起來,使得內切酶無法接近,只能切割開放區域的DNA。同樣的,在開放區域,纏繞在核小體上的DNA被核小體結構所保護,只有核小體之間的DNA序列能夠被DNase I切割,這些區域內能夠被DNase切割的位點也被稱為DHS,即DNase超敏感位點。

這種測序方法和DNase-seq原理類似,但是探測的區域是互補的。因為MNase-seq使用的酶是限制性外切酶,將不受保護的區域統統切除,只留下核小體上纏繞的DNA序列。

以上兩種方法把切割完的DNA拿來測序,和已知的全基因組序列相比較,就能發現被切掉的是哪些地方,沒有被切掉的地方又在哪裡,從而獲知開放的染色質區域。但這兩種方法都需要限制性酶,具有序列的特異性,所以缺點是切割下來的片段都不是完整的開放染色質信息。

我們需要先理解一個概念:轉座是指一段DNA片段從DNA 的一個位點移到另一個位點。通過轉座酶來實現,也是需要插入位點的染色質是開放的。

原理:ATAC-seq使用改造的Tn5轉座酶,將轉座DNA(已知DNA序列)設計為接頭,隨機插入染色質的開放區域。開放染色質都具有轉座酶敏感性,所以他可以得到完整的開放染色質的區域。再利用已知序列的標籤進行PCR後送去測序,就知道哪些區域是開放染色質了。ATAC-seq中的峰,往往是啟動子、增強子序列,以及一些反式調控因子結合的位點。

ATAC-seq有一個特點:兩個接頭置換出來的有可能是開放性染色質的區域,也有可能是轉錄因子上的DNA序列。這一點從上圖中就可以看出來。所以在ATAC-seq的峰中,既有對應開放性染色質的,也有對應核小體的DNA片段上的。

ATAC-seq的實驗流程:裂解細胞獲得細胞核→使用Tn5轉座酶酶切並純化,最後回收DNA片段→PCR擴增→測序。

ATAC-seq的分析流程:

1、數據預處理

(1)比對前質量控制:FastQC可用於在測序數據中可視化鹼基質量得分、GC含量、序列長度分布等。

(2)原始序列比對:將過濾的read比對到參考基因組。

(3)比對後處理和質量控制:

比對後處理就是去除重複序列和細胞器序列。

通常,成功的ATAC-seq實驗應生成片段大小分布圖(從bam文件得到),其具有遞減的和周期性的峰,對應於無核小體區域(NFR)(<100 bp)和單核、雙核和三核小體(~200, 400,600鹼基對)。因為大多數的Linker DNA的大小介於10-80bp之間,所有得到的大多數片段都會是小於100bp的(前面那段毛毛刺刺的,密度又很高的)。而每個Nucleosome的DNA大小為180bp左右,加上兩邊插入進的冗餘,我們會得到大約200bp長度是mono-nucleosome的DNA。如果是兩個Nucleosome之間的片段的話,就是400bp左右。依此類推。如下圖是典型的ATAC-seq片段大小分布圖。

無核小體區域的片段應該在基因的轉錄起始位點(TSS)周圍富集,而核小體結合區域的片段應該在TSS處被形成低谷,TSS周圍的側翼區域會稍微富集。可以使用工具ATACseqQC進行評估。

2、Peak-calling:也就是從比對得到BAM文件中找出reads的覆蓋區,也就是那個峰出現的位置。

3、高級分析

(1)peak差異分析:尋找不同分組之間的差異peaks

(2)peak注釋:峰的注釋可將染色質的可及性與基因調控聯繫起來。通常,峰會被注釋到最接近的基因或調控元件。獲得最接近的基因之類的基因列表後,還可以使用GO,KEGG和Reactome等資料庫進行功能富集分析。

(3)motif富集分析:得到每個peak region裡motif的位置和頻率,再和隨機背景或其它條件比較,就可以做motif的富集分析。

(4)footprint分析:ATAC-seq中的footprint是指一個TF結合在DNA上,阻止Tn5切割,在染色質開放區域留下一個相對缺失的位置。而TF周圍的組蛋白因為TF造成的空間的推擠反而形成了開放度比較高的區域。

(5) 核小體定位分析:分析核小體的結合區域。

ATAC-seq數據與多組學數據整合:

通過聯合轉錄組測序結果,看ATAC上測到的一些開放性高的DNA序列區域,是否對應的轉錄本表達量也有增加,也可以找到對應的轉錄本相關基因的上遊調控序列,從而從整體上分析從DNA到RNA的轉錄過程。進一步對基因進行功能分析,再結合實驗表型進行討論,我們就可以理清楚表觀調控-表達-功能-表型這樣一個過程的相關機制。

ATAC測序≠ChIP-seq。ATAC測序之後也需要做ChIP-seq來做進一步的驗證,通過ChIP的測序結果,來進一步對ATAC所預測到的一些轉錄因子結合區域是否真的有轉錄因子結合進行驗證。

已證明在整個基因組上核小體的定位影響DNA的甲基化狀態,從同一個DNA分子得到DNA甲基化和核小體的定位可以使我們能夠更好地了解DNA甲基化和核小體定位是如何共同控制染色質的可接近性。

參考資料:

http://www.doc88.com/p-7724823223635.html

https://www.plob.org/article/18583.html

https://www.jianshu.com/p/68f99d4bcb7b

https://mp.weixin.qq.com/s/vgXrscsUkfYdC5qt_PUNlw

https://www.jianshu.com/p/a7b6ce208f98?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin

https://www.jianshu.com/p/2b8e2ea26665

https://zhuanlan.zhihu.com/p/31924355

https://zhuanlan.zhihu.com/p/49461012

https://www.jianshu.com/p/32b2fab75c24

http://www.biomarker.com.cn/archives/13555

http://qiubio.com/new/book/

參考文獻:

Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3

相關焦點

  • 一篇文章學會ChIP-seq分析(上)
    寫在前面:《一篇文章學會ChIP-seq分析(上)》《一篇文章學會ChIP-seq分析(下)》為生信菜鳥團博客相關文章合集,共九講內容。帶領你從相關文獻解讀、資料收集和公共數據下載開始,通過軟體安裝、數據比對、尋找並注釋peak、尋找motif等ChIP-seq分析主要步驟入手學習,最後還會介紹相關可視化工具。
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • ATAC-Seq 分析流程
    如果有樣本重複,會給每個重複的 p 值和合併後的 p 值,以及是否顯著差異。下面的命令順便去除了不想要的部分結果,只保留常染色體和性染色體。    DiffBind 我覺得主要存在兩個問題,一是用取所有峰區域併集作為總的峰區域,二是無法確定 RNA-seq 分析軟體的假設前提是否在 ATAC-seq 成立,比如說 RNA-seq 是不會大量低豐度基因的,但是 ATAC-seq 是會大量低豐度的峰 Reads.
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    最近刷視頻看到了b站jimmy老師又更新了ATAC-seq系列教學指引,趕緊花幾天時間follow了一遍!而且把我自己學習筆記分享給大家,視頻的話,文末的閱讀原文直達免費學習哈!雖然視頻錄製是兩年前,但是絲毫不影響學習體驗!
  • ATAC-seq分析乾貨-2
    第一:peak位點附近的正負鏈上reads分布相同;第二:reads分布的中心點和peak的中心點存在偏移,如果將reads的位置移動一定的距離之後,正負鏈的中心重合,上下成對稱分布。用泊松相關係數來分析正負鏈測序深度的相關性,當正負鏈的中心點重合時,相關係數最高,可以有效衡量偏移過程。由此,可以得到偏移距離和相關係數之間的對應關係。
  • chip_seq質量評估之cross correlation
    chip_seq數據的質控是非常重要的,本文介紹數據質控的一個重要指標之一corss correlation。這個概念首發於以下文獻Design and analysis of ChIP-seq experiments for DNA-binding proteins發表在nature biotechnology上,網址如下https://www.nature.com/articles/nbt.1508在該文章中對chip_seqs數據分析的完整pipeline
  • ChIP-seq數據分析課程學習筆記之背景知識
    首先視頻免費共享在B站:【生信技能樹】Chip-seq測序數據分析ChIP-SEQ實戰演練的素材:連結:https://share.weiyun.com/53CwQ8B 密碼:ju3rrh, 包括一些公司PPT,綜述以及文獻ChIP-SEQ 實戰演練的思維導圖:文檔連結:https://mubu.com/doc/11taEb9ZYg 密碼:wk29
  • ATAC-Seq Motif 富集分析
    /configureHomer.pl -install mm9    ATAC-seq 分析得到峰後就可以用 findMotifsGenome.pl 根據峰的位置進行 Motif 富集的分析。HOMER 自動分析已知 Motif 和新發現(de novo)Motif 的富集,還將新發現 Motif 和已知的進行對比。
  • 生信自學網好課:chip-seq生物信息分析高清完整
    chip-seq生物信息分析高清完整,好課低價分享(有需要的找我)如果需要
  • TCGA計劃的ATAC-seq數據發布
    逆向收費讀文獻社群(第二年通知)今天是大年初三,給大家帶來的是TCGA計劃的ATAC-seq數據發布,希望你能學到知識。今天的文獻解讀有點特殊,雖然該文章在我2019年的48篇精品解讀文獻列表中!導讀染色質的可及性(chromatin accessibility)通常理解為開放染色質(open chromatin),指緻密的核小體結構被破壞後,啟動子、增強子、絕緣子、沉默子等順式調控元件和反式作用因子可以接近的區域,與真核生物的轉錄調控密切相關。目前研究染色質的可及性的方法有DNase-Seq,MNase-Seq,FAIRE-seq和ATAC-seq。
  • ChIP-seq基礎入門傳送門
    視頻在連結: http://pan.baidu.com/s/1jIQFGSA 密碼:48uj本次其實已經有不少人已經完成了,優秀作業如下:step1:計算機資源的準備這個跟轉錄組對計算資源的要求是大同小異的,最好是有mac或者linux系統,8G+的內存,500G的存儲即可。
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。研究思路: 1)取材: Opaque2突變型(實驗組)和野生型(對照組)純合玉米授粉15天後的胚乳,每種3個生物學重複2)建庫測序:RNA-seq和CHIP-seq 平臺:Illumina HiSeq 2500
  • ChIP-seq數據比對注意事項
    我不是大神,但我可以縮短你走彎路的半年~   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~   這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!豆豆寫於2020.5.6首先是ChIP-seq分析的前言介紹部分:1:了解ChIP-seq的實驗流程2:繼續了解ChIP-seq3:關於ChIP-seq的實驗對照與偏差來源4:ChIP-seq的實驗設計補充
  • 在 R 裡面就能做全套的 ChIP-seq ?
    R包systemPipeR 1.19.0內容目錄(我自己加的)背景:什麼是 ChIP-seq1  簡單介紹1.1 背景和目標1.2 實驗設計2   工作環境2.1  生成工作流程環境2.2 運行工作流程2.2.1 在計算節點運行 R3  Read 預處理3.1  targets 文件提供的實驗定義3.2  Read 質量篩選與修剪3.3  FASTQ 質量報告4
  • ChIP-seq經典文章(上)植物篇
    設計與方法:研究者運用多組學的方法,從轉錄水平和代謝水平解析了TB1調控玉米分櫱的分子機理。首先作者主要使用的是玉米自交系B73(對照組)和TB1突變的B73植株(實驗組)的腋芽組織,一部分提取RNA用於mRNA-seq,另一部分用於ChIP-seq。
  • ChIP-seq實驗 超詳細解讀!手把手教會你!
    ChIP-seq中的「seq」指的是一般/標準重測序文庫構建。ChIP-seq的主要難點在於免疫共沉澱時使用的抗體是否好用以及是否能夠提取到足量且完整的細胞核。2.ChIP-seq與抗體選擇(1)抗體的質量選擇。
  • seq2seq 的 keras 實現
    這個結構最重要的地方在於輸入序列和輸出序列的長度是可變的,可以用於翻譯,聊天機器人,句法分析,文本摘要等。Encoder–Decoder 結構?Decoder 在 t 時刻的隱藏層狀態 ht 由 ht−1,yt−1,c 決定:yt 是由 ht,yt−1,c 決定:f 和 g 都是激活函數,其中 g 函數一般是 softmax。
  • 五分鐘帶你了解ATAC-seq測序
    Greenleaf和Howard Y. Chang實驗室共同開發的用於研究染色質可及性/開放性的方法。目前,通過ATAC-seq方法發表的文章數量呈持續增長中。真核生物中的核小體是染色質的基本結構單位。DNA與組蛋白結合後形成核小體,核小體再進一步摺疊壓縮後最終形成染色質。
  • Seq2seq框架下的文本生成
    雖然在Decoder的輸入上有差別,但結構上兩者都將Encoder-Decoder結構應用在翻譯場景中,並由此開始,seq2seq框架在機器翻譯,對話生成等領域中佔據重要位置。另外,前者首次提出GRU結構,後者採用Beam Search改善預測結果,這些都成為如今seq2seq框架的基礎技術元素。
  • 一個ChIP-seq實戰
    徵稿郵箱:glb-biotech@zju.edu.cn詳情閱覽:一手科研開花,一手賺錢零花   本次講解選取的文章是為了探索PRC1,PCR2這樣的蛋白複合物,不是轉錄因子或者組蛋白的CHIP-seq,請注意區別!