正好在總結這方面的東西,藉此機會給大家分享一下甲基化相關的知識。
之前曾經看到過幾個關於甲基化的問題,但是沒有人能夠系統地對這類問題進行回答。本文目的在於向對此領域有興趣的同學們進行簡單的科普。
我會時不時地更新(今後在更新的時候可能也會對之前發布的內容進行修改),對此問題感興趣的童鞋可以關注這個問題,歡迎隨時和我討論!有不完善和錯誤的地方,歡迎指出和批評!
1 概述
DNA中鹼基的化學修飾近年來一直是生命科學領域研究的熱點之一。其中,胞嘧啶第5位碳原子上的甲基化動態修飾研究得較為深入。早在上世紀中葉,科學家就發現DNA胞嘧啶可以被甲基化修飾,修飾之後的鹼基稱為「5-甲基胞嘧啶(5-methylcytosine)」,簡稱為5mC。後來,又陸續發現了發生在同一個碳原子上的其它修飾,並且這些修飾之間可以相互轉化(如圖 1所示)。
<img src="https://pic2.zhimg.com/348f4b2c6e81ef622d9e2196f540d965_b.png" data-rawheight="159" data-rawwidth="822" class="origin_image zh-lightbox-thumb" width="822" data-original="https://pic2.zhimg.com/348f4b2c6e81ef622d9e2196f540d965_r.png">圖 1
圖 1
如上圖所示,C可以被DNMT(DNA甲基轉移酶)轉化為5mC,5mC可以被TET(一種DNA去甲基化酶)依次轉化為5hmC、5fC、5caC,最後由TDG/BER介導的鹼基修復機制重新生成C,完成整個循環。
上面的一段話簡直講得太籠統了。下面要講得稍微詳細一點。首先講一下甲基化的過程,也就是在胞嘧啶的5『碳原子上面加上一個甲基的過程。甲基化的過程主要是由DNAmethyltransferase也就是DNMT來承擔的。在真核生物細胞內,不同的物種之間DNMT的數目和結構稍有不同,但大體上具有一定的同源性(圖 2)。
<img src="https://pic1.zhimg.com/55e257f3bbebd76f1e1f049afb9f9390_b.png" data-rawheight="518" data-rawwidth="648" class="origin_image zh-lightbox-thumb" width="648" data-original="https://pic1.zhimg.com/55e257f3bbebd76f1e1f049afb9f9390_r.png">圖 2  DNMT
圖 2
人類細胞中的情況和老鼠(Mus musculus)中的情況差不多,也是DNMT1、DNMT2、DNMT3A/B和DNMT3L等構成。其中,DNMT1的功能主要是在DNA複製的時候維持DNA的甲基化,DNMT3A、DNMT3B的功能主要是DNA的從頭甲基化,而DNMT3L不具有甲基化功能,它對 DNMT3A 和DNMT3B的催化活性具有調節作用。
在哺乳動物體細胞染色體當中,有一種序列中CG含量比較高,並且CG成對出現,我們把這種CG成對密集出現的序列叫做CpG島。哺乳動物體細胞的DNA胞嘧啶甲基化主要發生在CpG島當中(這種規律在植物細胞當中不存在,下文講的主要是動物細胞DNA甲基化)。在動物的某些較為特殊的細胞當中,如卵母細胞、胚胎肝細胞和成熟的神經細胞當中,CpG島以外的甲基化現象同樣非常顯著。不同的細胞甲基化水平千差萬別,功能多種多樣。
如圖3所示:
<img src="https://pic1.zhimg.com/5948406f22f2676003d0c7ae6e5c0138_b.png" data-rawheight="432" data-rawwidth="1082" class="origin_image zh-lightbox-thumb" width="1082" data-original="https://pic1.zhimg.com/5948406f22f2676003d0c7ae6e5c0138_r.png">圖 3
圖 3
H1細胞為胚胎幹細胞,IMR90細胞為人胚肺成纖維細胞。左圖中的上下兩個餅圖可以看出,在幹細胞裡面非CpG區域的甲基化水平相對較高。左邊的b圖可以看出,在OCT4基因附近,CG原件甲基化水平比IMR90低,而CHG和CHH序列的甲基化水平較高。右圖可以看出,總體上來說,乾性較強的細胞中,非CG甲基化水平較高。
下圖(圖 4)說明了mCG和mCH與神經細胞生長發育的關係。
<img src="https://pic3.zhimg.com/2fdf5db6913a609a2c77850efde0ecb2_b.png" data-rawheight="359" data-rawwidth="1095" class="origin_image zh-lightbox-thumb" width="1095" data-original="https://pic3.zhimg.com/2fdf5db6913a609a2c77850efde0ecb2_r.png">圖 4
圖 4
在神經元細胞當中,mCH的含量比非神經元細胞的含量高很多,在人的神經元當中更甚,mCH的佔比甚至超過了mCG。左圖可以看出mCH和mCG的分布都有一定的位點特異性。從以上兩個例子可以看出,DNA甲基化與細胞的生長發育、基因的選擇性表達有著密切的關係。
目前為止,研究較為深入的是CpG島甲基化,非CpG甲基化的功能和調控我們幾乎對其一無所知。人類細胞中大約有28 million個 CpGs,體細胞的CpG島有60-80%被甲基化修飾。
2 甲基化和去甲基化的機制
DNA甲基化的過程發現較早。具體說來,DNMT3A和DNMT3B,負責 de novo methylation,即把原來沒有發生甲基化修飾的DNA雙鏈進行修飾。在DNA複製的過程中,由於其半保留複製的特性,新合成的兩條雙鏈各有一半保留了模板的甲基化胞嘧啶,而新合成的那另外一條單鏈則沒有被修飾。DNMT1的作用就是去識別DNA中那條被修飾的單鏈的甲基化位點,把沒有被甲基化修飾的那條新合成的單鏈進行修飾,故稱之為 maintenance methylation。(圖 5)
<img src="https://pic4.zhimg.com/1b32ef876ca33f05384e6f606d7092b7_b.png" data-rawheight="430" data-rawwidth="652" class="origin_image zh-lightbox-thumb" width="652" data-original="https://pic4.zhimg.com/1b32ef876ca33f05384e6f606d7092b7_r.png">圖 5
圖 5
對DNA去甲基化過程的研究則相對來講起步較晚。其實在很早之前,人們已經能夠觀察到DNA當中甲基化水平的變化並且成功純化出了甲基化酶,然而去甲基化相關的蛋白質一直沒能發現。正如上圖所示,去甲基化一共有兩條途徑,active demethylation 和 passive demethylation。在DNA合成的過程中,如果DNMT1不能結合到DNA上去,那麼合成的DNA當中5mC的含量便會降低,這種去甲基化的活動是由DNA複製來完成的,因此稱為「被動去甲基化」。那麼是否存在一些蛋白質能夠把5mC變成C,行使「主動」去甲基化功能呢?
2000年前後的數十年時間裡,世界各地的科研工作者卯足了勁,都想成為第一個發現去甲基化酶的人,然而,事與願違,不止一次有人宣稱他們發現了這個去甲基化酶,然而後來事實證明他們是錯的。這種情況一直持續到2009年,發表在CNS上的一系列paper宣告了TET去甲基化酶的發現。關於這段有趣的歷史,科學網有篇博文值得一讀:科學網—表觀遺傳學的一段多彩歷史(+後續)。
2009年-2011年的一系列文章表明,DNA主動去甲基化的過程較為複雜,這個過程需要幾步反應(圖 6):
<img src="https://pic4.zhimg.com/cdbba0ccd5fa02857b3cca85c759f9bf_b.png" data-rawheight="461" data-rawwidth="781" class="origin_image zh-lightbox-thumb" width="781" data-original="https://pic4.zhimg.com/cdbba0ccd5fa02857b3cca85c759f9bf_r.png">
TET的作用主要是把5mC轉化成5hmC,5fC和5caC,此後再經過一些額外的途徑將這些中間產物轉化為C(TDG-BER蛋白介導的過程)。
需要注意的是,本節所講的「DNA甲基化和去甲基化的機制」均為諸多觀點當中的一種觀點,肯定有其不足之處,表觀遺傳學尚處在初步研究階段,隨著人類認知的進步,現行的觀點會被逐漸修改甚至推倒重來。比如上面提到的三種DNMT在甲基化過程中所起到的作用隨著研究的深入也有必要進行一些調整。最新的研究表明,這並不是一個完善的模型。研究發現,DNMT1在從頭甲基化的過程中也扮演著重要的角色,維持甲基化的過程中DNMT3也發揮了重要的作用;此外,在細胞分裂之前DNA複製的過程中,甲基化似乎也沒有之前認為的被那麼精確地保留。2014年,Trends in Biochemical Science 雜誌上面有人提出了一種「隨機DNA甲基化模型」,可以看做是對現行的理論的一些修正(Jeltsch, A. and R.Z. Jurkowska, New concepts in DNA methylation. Trends in Biochemical Sciences, 2014. 39(7): p. 310-318.)。
3 DNA甲基化對基因的調控作用
這一部分來講DNA甲基化修飾對基因表達的調節。曾經有其他專業的兄弟問我,說DNA甲基化是抑制基因表達還是促進基因表達?這個問題並不好回答,首先是因為DNA甲基化形式多樣,不同的類別作用不同,另外就是這個領域相對較為年輕,很多問題都還沒有得到較為完善的回答,可能對於一種情況會有不同的研究結論,總之,問題多多,因而大家看完這部分可能又會有數不清的問題出現。
為了避免乏味的說教,我先從自己專業的角度來舉個例子。
在下目前主要研究一些和腫瘤相關的熱點內容。先放兩張圖:
<img src="https://pic3.zhimg.com/28f18cc297dea561eed2b325190add96_b.png" data-rawwidth="770" data-rawheight="264" class="origin_image zh-lightbox-thumb" width="770" data-original="https://pic3.zhimg.com/28f18cc297dea561eed2b325190add96_r.png">圖 7 (Jaiswal, S., et al., Age-related clonal hematopoiesis associated with adverse outcomes. N Engl J Med, 2014. 371(26): p. 2488-98.)
圖 7 (Jaiswal, S., et al., Age-related clonal hematopoiesis associated with adverse outcomes. N Engl J Med, 2014. 371(26): p. 2488-98.)
<img src="https://pic3.zhimg.com/20363c12166f3684a142e35cfaf3278e_b.png" data-rawwidth="638" data-rawheight="283" class="origin_image zh-lightbox-thumb" width="638" data-original="https://pic3.zhimg.com/20363c12166f3684a142e35cfaf3278e_r.png">
圖 8
上面兩張圖來自於《新英格蘭醫學雜誌》與2014年同期發表的兩篇研究文章。這兩張圖都很直觀,相信有部分朋友仔細研究了一會兒之後就能大概猜到它們在表達什麼。這兩篇文章的作者不同,但實驗技術大體相同,即對大量不同年齡的人群(不管健康狀況如何)的外周血細胞進行外顯子測序,然後統計其基因突變情況。從統計得到的基因突變的頻率可以看出,大名鼎鼎的TP53竟然排名如此靠後,而排名前列的基因又是我們剛剛提到的與DNA甲基化有著密切關係的基因——DNMT3A和TET2(其實ASXL1也是一個與表觀遺傳修飾有著非常密切的關係的基因,在此不多介紹)。這些突變不僅在病人當中發現,在正常人當中也佔有不小的比例。基因突變的頻率越高,就說明攜帶這種突變的細胞越能在環境的作用下生存下來,而DNMT3A和TET2很有可能是通過改變整個基因組的甲基化水平來影響細胞的惡性轉化的,進而說明甲基化對血液系統的疾病的發生和發展的重要性(其實在其它實體瘤中也可以觀察到類似的基因突變情況)。
咔咔,這裡提一個小問題,看看誰能知道答案 ¯ □ ¯ :
問題就是,上面講過,DNMT3A是甲基化酶,而TET2是一種去甲基化酶,按照常理來說兩者功能相反——DNMT3A的突變可能導致基因組整體甲基化水平的降低,而TET2的突變則相反會導致基因組整體甲基化水平的升高,可是為什麼二者的突變都能導致腫瘤的發生(並且是很重要的突變之一)?
不知道我的表述是否清晰。這真是個很有趣的問題呢!!!(其實在下最近也在思考這個問題,但還是沒有一個完美的解釋。有能解釋此現象者,在下甘願贈送kindle一個)
上面的問題似乎有點難了,不明白也沒有關係,這個例子就是為了說明DNA甲基化的重要性。
很長一段時間以來,人們觀察到DNA甲基化水平與基因的表達水平有著一定的關係。首先需要說明的一個問題就是,甲基化的胞嘧啶基因組上的分布有著怎樣的規律?
哎呀,這些問題真是很有趣。
這個問題在之前是很難研究的,好在隨著測序技術日新月異的發展,研究人員終於有能力從全局的角度對甲基化進行一番探索。
3.1 5mC在基因組上的分布
胞嘧啶甲基化可以分成兩大類:
即發生在諸如ATATCGAT這樣的序列中C的甲基化。因為C和G兩個鹼基中間隔著一個磷酸基團,所以稱之為「CpG」。
很遺憾,我們對非CpG元件的甲基化這部分的內容幾乎一無所知。
在哺乳動物細胞中的5mC主要集中在CpG上面,並且,在脊椎動物細胞上的CpG頻率要明顯低於其他動物細胞(如果蠅,圖 9)。
<img src="https://pic2.zhimg.com/683ada1f516999c7928127c354d697d1_b.png" data-rawwidth="885" data-rawheight="363" class="origin_image zh-lightbox-thumb" width="885" data-original="https://pic2.zhimg.com/683ada1f516999c7928127c354d697d1_r.png">圖 9(Michael Weber et al. Functions of DNA Methylation and Hydroxymethylation in Mammalian Development)
圖 9
為什麼會這樣呢?這與細胞中的一種叫做AID的酶有關。AID可以把胞嘧啶的氨基去掉(deamination),生成T,造成TG錯配,如果該錯配沒有被及時修復的話,通過DNA複製會形成鹼基對分別為TA和CG的兩條鏈,進而造成C的丟失。該過程主要發生在生殖細胞產生的過程中,由此可以想像,目前細胞內已知的大多數CpG位點在生殖細胞中應該甲基化程度較低,因為只有這樣才能逃脫被去氨基的命運。
CpG元件在DNA上的分布也有著一定的規律。人類DNA當中大約有28 million個CpG位點,它們往往成簇出現,而那些CpG較為密集的地方,我們稱之為CpG島(CpG islands,CGIs),所以,CpG甲基化又可以分為兩種類型,即CpG島甲基化和非CpG島的甲基化。CpG島的分布也有一定的規律,它們往往位於一些基因的啟動子附近(尤其是一些 house-keeping gene),它們可以調控基因的表達:就一般而言,基因啟動子區域的CpG島的甲基化水平越高,該基因的表達水平就相對較低。CpG除了以CpG島的形式分布之外,還會零零散散地散布在DNA的各處。基因的序列之中當然也會有CpG出現,而這種以非CpG島形式出現在基因中的CpG也與基因的表達量有關,一般而言,這種CpG的甲基化程度越高,往往基因的表達水平就越高。
這一段的內容可以用下面的圖來表示:
<img src="https://pic4.zhimg.com/2c7f968f723bd542f2fd88bc337d2b47_b.png" data-rawwidth="906" data-rawheight="560" class="origin_image zh-lightbox-thumb" width="906" data-original="https://pic4.zhimg.com/2c7f968f723bd542f2fd88bc337d2b47_r.png">圖 10(Stirzaker, C., et al., Mining cancer methylomes: prospects and challenges. Trends in Genetics, 2014. 30(2): p. 75-84.)
圖 10
圖 10 中上下兩塊分別畫出了兩個基因的不同的甲基化狀態。A圖表示的是在正常細胞中,抑癌基因表達,癌基因被抑制;而在B圖中則相反,抑癌基因被甲基化沉默而癌基因表達水平上升(B圖是腫瘤細胞中一些基因甲基化水平發生改變的典型狀況)。除了我提到的啟動子和基因序列中的CpG之外,圖中還有一些元件比如 enhancer、shore等等,這些區域的甲基化水平也會影響基因的表達,感興趣的朋友可以找這篇文章來讀,圖的下方已經標明了出處。
當然了,當然,上面所說的DNA甲基化對基因表達的調控都只能用「大體上」這個詞來形容,接下來,我們就根據不同情況詳細地去看一下。
3.2 轉錄起始點(transcription start sites, TSS)的CGIs甲基化
在體細胞中,CGIs的甲基化水平是比較低的(相對於非CGIS而言)。前面說過,轉錄起始位點附近的CGIs的甲基化水平和基因的表達水平負相關,那麼,是不是只要這些區域CGIs的甲基化水平較低,基因的表達就一定會被上調呢?
不是這樣的。基因表達的調控是個很複雜的過程,不光涉及表觀遺傳學的範疇,而胞嘧啶甲基化又只是表觀遺傳學的一個小分支。除了DNA甲基化,還有一些其他的表觀遺傳學過程比如組蛋白的甲基化和乙醯化等過程同樣可以對基因的表達水平產生影響。如果各位對這些表觀修飾感興趣的話可以告訴我,我會抽時間總結一下寫給大家。某些基因的啟動子區域甲基化程度較低,然而這些基因的組蛋白修飾可能會不利於轉錄因子的結合,這同樣會抑制基因的表達。
儘管如此,在一些需要長時間保持表達抑制的基因的啟動子附近的甲基化仍然表現出較高的水平,換句話說,啟動子區域CGIs的甲基化是表達受到長時間穩定抑制的基因的標誌。比如在女性體細胞中的兩條X染色體上,有一條染色體上的基因不會被表達,這些基因的啟動子區域的CGIs甲基化程度會比較高。
3.3 轉錄起始點的非CGIs甲基化
有相當一部分基因的啟動子區域附近沒有CGIs的存在,然而,關於這些基因啟動子區域的甲基化的功能目前由於研究地不深入,資料極其匱乏。有些研究證明,這些區域的甲基化程度與基因的表達負相關。有興趣的朋友可以閱讀下面的文獻:
(1) Han, H., et al., DNA methylation directly silences genes with non-CpG island promoters and establishes a nucleosome occupied promoter. Human Molecular Genetics, 2011. 20(22): p. 4299-4310.
(2) Balasubramanian, D., et al., H3K4me3 inversely correlates with DNA methylation at a large class of non-CpG-island-containing start sites. Genome Med, 2012. 4(5): p. 47.
3.4
歡迎關注生信人