前言:後天我們的多組學文獻精讀會分享一篇有關染色質可接近性的文章,考慮到大部分人可能對其中的一些概念還不了解,所以今天我們就來提前學習一下有關ChIP-seq和ATAC-seq的一些基礎知識。
(視頻講者:張健教授團隊張月明)
啟動子、增強子的概念
什麼是基序(motif)
什麼是染色質可接近性
什麼是組蛋白修飾
研究染色質可接近性的測序技術
啟動子是RNA 聚合酶識別、結合和啟動轉錄的一段DNA 序列,一般位於轉錄起始位點的上遊。增強子是能強化轉錄起始的一段DNA序列。
增強子和啟動子的關係:增強子是通過啟動子來增加轉錄的。
有效的增強子可以位於基因的5』端,也可位於基因的3』端,有的還可位於基因的內含子中。可以看到增強子和調控的基因的關係相對於啟動子和其調控的基因要複雜得多。所以在下周的另一篇有關染色質可接近性的文章中,作者預測增強子和基因之間的關聯時用到了一項技術——HiChIP。
在這裡我們就簡單介紹一下什麼是HiChIP:以啟動子和增強子為例,我們已經知道他們倆是可以通過轉錄因子這個蛋白產生相互作用的,我們用一些試劑將他們這種相互作用在細胞內固定下來,然後將染色質打斷,加上特定的接頭,使這些斷裂的末端可以相互連接,然後再用靶向目標轉錄因子的抗體將他們拉下來,將DNA和蛋白分離,送DNA去測序,我們就可以知道哪些染色質之間存在相互作用了。也就是說,知道了增強子和啟動子之間的聯繫,又通過啟動子和靶基因的聯繫,我們就可以知道增強子可以調節哪些基因了。
轉錄因子在與DNA序列結合時,其結合位點的序列是具有一定的特異性的。個人認為基序可以理解為不同轉錄因子結合的DNA序列的一個模式。為什麼說是一個模式?因為基序並不是特指某一段DNA的具體序列信息。如下圖所示是同一個轉錄因子在多個基因上的結合位點的序列信息:
如果我們要用一段序列來描述以上所有的序列的鹼基組成,我們就把這一段序列稱之為一致性序列。既然如此,我們就需要一個統一的規則來進行這個轉換。下圖是IUPAC標準的鹼基表示法,不同字母對應的鹼基如下所示:
有了這個規則,我們就可以將上述例子表示為如下的一致性序列,也就是我們理解的基序(motif):
染色體/質的結構:真核生物的核DNA並不是裸露的,上面有組蛋白相結合。DNA一圈一圈地纏繞在組蛋白上,形成串珠式的結構。進一步摺疊、濃聚,便形成染色體,不具有轉錄活性。
染色質可接近性:DNA的複製和轉錄,都需要將DNA的高級結構打開。但是並不需要將整個DNA全部打開,只需要打開需要表達基因的那一部分即可。而這一個過程,主要由染色體組蛋白的修飾來實現的。這部分鬆散的染色質被稱為開放染色質(open chromatin)或可接近性染色質(accessible chromatin)。染色質的可接近性也可以翻譯為可及性或可獲得性。染色質一旦打開,就允許一些調控蛋白(比如轉錄因子和輔因子)與之相結合,並發揮相應的作用。
組蛋白包含五個組分,按照分子量由大到小分別稱為H1、H3、H2A、H2B和H4。組蛋白修飾是指組蛋白在相關酶作用下發生甲基化、乙醯化、磷酸化、腺苷酸化、泛素化、ADP核糖基化等修飾的過程。
我們需要簡單了解以下4點:
在這裡,我們主要講解4種相關的測序技術:ChIP-seq、DNase-seq、MNase-seq、ATAC-seq。當然除了這四種技術,也還有其他的,感興趣的可以自行了解。
ChIP全稱:染色質免疫共沉澱(Chromatin immunoprecipitation ,ChIP),seq表示測序。
原理:首先通過染色質免疫共沉澱技術(ChIP)特異性地將目的蛋白及其結合的DNA片段一起拉下來,並對DNA進行純化與文庫構建;然後對富集得到的DNA片段進行高通量測序。再將獲得的數百萬條序列精確定位到基因組上,從而獲得全基因組範圍內與組蛋白、轉錄因子等互作的DNA序列信息。
ChIP的實驗流程:DNA與蛋白質交聯→超聲裂解→免疫沉澱→PCR擴增→測序(如下圖所示)
此圖來自Y叔的公眾號:biobabble(點擊可達原文)
ChIP的分析流程:
(1) 質控
(2) 序列比對:將原始的fastq序列文件mapping 到參考基因組上,生成 sam 格式文件(個人理解比對就是知道每條reads在參考基因組的具體位置,即在哪一條染色體的哪個位置)。下圖是使用IGV查看比對的結果,圖中看到的這些峰就是我們常說的peaks,最後一組是對照組。
(3) peak calling:尋找peak出現的位置,而這些位置可能就是我們感興趣的靶蛋白結合的位點。以下兩張圖顯示的是ChIP peak在TSS位點上的富集情況。
下圖中的0點即為TSS位點,橫坐標表示的是基因組的位置(TSS位點上下遊3000bp的範圍)。紅色表示富集程度。可以看到這些peaks在TSS位點上顯著富集。
下圖攜帶的信息和上圖是一致的(網上找的圖片,像素不佳,望見諒)。橫軸依然是基因組的位置,中間表示TSS位點,縱軸表示peaks的數目。可以看到peaks也是在TSS位點上顯著富集的。
(4) peaks注釋:個人理解為尋找ChIP peaks所對應的靶基因。
(5) 下遊分析:pathway富集分析、尋找motif、結合其他組學數據.
原理:DNase-seq使用了限制性內切酶(DNase I)對樣品進行了處理。在染色質壓縮區域,DNA鏈被緻密結構很好地保護起來,使得內切酶無法接近,只能切割開放區域的DNA。同樣的,在開放區域,纏繞在核小體上的DNA被核小體結構所保護,只有核小體之間的DNA序列能夠被DNase I切割,這些區域內能夠被DNase切割的位點也被稱為DHS,即DNase超敏感位點。
這種測序方法和DNase-seq原理類似,但是探測的區域是互補的。因為MNase-seq使用的酶是限制性外切酶,將不受保護的區域統統切除,只留下核小體上纏繞的DNA序列。
以上兩種方法把切割完的DNA拿來測序,和已知的全基因組序列相比較,就能發現被切掉的是哪些地方,沒有被切掉的地方又在哪裡,從而獲知開放的染色質區域。但這兩種方法都需要限制性酶,具有序列的特異性,所以缺點是切割下來的片段都不是完整的開放染色質信息。
我們需要先理解一個概念:轉座是指一段DNA片段從DNA 的一個位點移到另一個位點。通過轉座酶來實現,也是需要插入位點的染色質是開放的。
原理:ATAC-seq使用改造的Tn5轉座酶,將轉座DNA(已知DNA序列)設計為接頭,隨機插入染色質的開放區域。開放染色質都具有轉座酶敏感性,所以他可以得到完整的開放染色質的區域。再利用已知序列的標籤進行PCR後送去測序,就知道哪些區域是開放染色質了。ATAC-seq中的峰,往往是啟動子、增強子序列,以及一些反式調控因子結合的位點。
ATAC-seq有一個特點:兩個接頭置換出來的有可能是開放性染色質的區域,也有可能是轉錄因子上的DNA序列。這一點從上圖中就可以看出來。所以在ATAC-seq的峰中,既有對應開放性染色質的,也有對應核小體的DNA片段上的。
ATAC-seq的實驗流程:裂解細胞獲得細胞核→使用Tn5轉座酶酶切並純化,最後回收DNA片段→PCR擴增→測序。
ATAC-seq的分析流程:
1、數據預處理
(1)比對前質量控制:FastQC可用於在測序數據中可視化鹼基質量得分、GC含量、序列長度分布等。
(2)原始序列比對:將過濾的read比對到參考基因組。
(3)比對後處理和質量控制:
比對後處理就是去除重複序列和細胞器序列。
通常,成功的ATAC-seq實驗應生成片段大小分布圖(從bam文件得到),其具有遞減的和周期性的峰,對應於無核小體區域(NFR)(<100 bp)和單核、雙核和三核小體(~200, 400,600鹼基對)。因為大多數的Linker DNA的大小介於10-80bp之間,所有得到的大多數片段都會是小於100bp的(前面那段毛毛刺刺的,密度又很高的)。而每個Nucleosome的DNA大小為180bp左右,加上兩邊插入進的冗餘,我們會得到大約200bp長度是mono-nucleosome的DNA。如果是兩個Nucleosome之間的片段的話,就是400bp左右。依此類推。如下圖是典型的ATAC-seq片段大小分布圖。
無核小體區域的片段應該在基因的轉錄起始位點(TSS)周圍富集,而核小體結合區域的片段應該在TSS處被形成低谷,TSS周圍的側翼區域會稍微富集。可以使用工具ATACseqQC進行評估。
2、Peak-calling:也就是從比對得到BAM文件中找出reads的覆蓋區,也就是那個峰出現的位置。
3、高級分析
(1)peak差異分析:尋找不同分組之間的差異peaks
(2)peak注釋:峰的注釋可將染色質的可及性與基因調控聯繫起來。通常,峰會被注釋到最接近的基因或調控元件。獲得最接近的基因之類的基因列表後,還可以使用GO,KEGG和Reactome等資料庫進行功能富集分析。
(3)motif富集分析:得到每個peak region裡motif的位置和頻率,再和隨機背景或其它條件比較,就可以做motif的富集分析。
(4)footprint分析:ATAC-seq中的footprint是指一個TF結合在DNA上,阻止Tn5切割,在染色質開放區域留下一個相對缺失的位置。而TF周圍的組蛋白因為TF造成的空間的推擠反而形成了開放度比較高的區域。
(5) 核小體定位分析:分析核小體的結合區域。
ATAC-seq數據與多組學數據整合:
通過聯合轉錄組測序結果,看ATAC上測到的一些開放性高的DNA序列區域,是否對應的轉錄本表達量也有增加,也可以找到對應的轉錄本相關基因的上遊調控序列,從而從整體上分析從DNA到RNA的轉錄過程。進一步對基因進行功能分析,再結合實驗表型進行討論,我們就可以理清楚表觀調控-表達-功能-表型這樣一個過程的相關機制。
ATAC測序≠ChIP-seq。ATAC測序之後也需要做ChIP-seq來做進一步的驗證,通過ChIP的測序結果,來進一步對ATAC所預測到的一些轉錄因子結合區域是否真的有轉錄因子結合進行驗證。
已證明在整個基因組上核小體的定位影響DNA的甲基化狀態,從同一個DNA分子得到DNA甲基化和核小體的定位可以使我們能夠更好地了解DNA甲基化和核小體定位是如何共同控制染色質的可接近性。
參考資料:
http://www.doc88.com/p-7724823223635.html
https://www.plob.org/article/18583.html
https://www.jianshu.com/p/68f99d4bcb7b
https://mp.weixin.qq.com/s/vgXrscsUkfYdC5qt_PUNlw
https://www.jianshu.com/p/a7b6ce208f98?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin
https://www.jianshu.com/p/2b8e2ea26665
https://zhuanlan.zhihu.com/p/31924355
https://zhuanlan.zhihu.com/p/49461012
https://www.jianshu.com/p/32b2fab75c24
http://www.biomarker.com.cn/archives/13555
http://qiubio.com/new/book/
參考文獻:
Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3