人類基因組由23對染色體構成,其30億鹼基對伸展開來的線性長度約兩米,但染色體在微小的細胞核中並非以線性形式存在,而是有機摺疊成三維空間結構,這是細胞生命活動的物質結構基礎,與基因表達調控息息相關,而基因表達調控又是生命體生理代謝發育和病理發生發展的基礎。染色質的摺疊是有規律的,研究染色質摺疊的內在規律對於理解疾病非常重要,而摺疊信號或調控元件就蘊藏在一維DNA序列中,尤其是存在於基因組的非編碼調控區域。人類基因組包含有多達幾百萬個對於三維基因組摺疊非常重要的調控元件,例如增強子、絕緣子和啟動子等等,染色質架構蛋白通過與這些調控元件的動態相互作用調控基因組的空間架構,而已知最為重要的一個染色質架構蛋白叫做CTCF。
2020年3月23日,基因組領域最好的學術期刊Genome Biology在線發表了上海交通大學系統生物醫學研究院比較生物醫學研究中心吳強團隊以《串聯排列的CTCF位點作為拓撲絕緣子平衡染色質三維空間的結構和增強子/啟動子的選擇》為題目的最新研究成果。這項研究發現了基因組拓撲絕緣子(topological insulator),證明了基因組中串聯排列的CTCF位點能夠平衡基因組的空間接觸和增強子與啟動子的拓撲性選擇。這是該團隊發現增強子方向性後,在CTCF染色質架構蛋白介導三維基因組摺疊和原鈣粘蛋白基因簇表達調控機理研究方面取得的又一重要進展。
遺傳學上定義絕緣子為基因組中能夠阻斷染色質位置效應的DNA調控元件,其通常位於基因組的增強子與啟動子之間,並具有能夠阻斷增強子激活啟動子的特性。絕緣子突變不僅會導致染色質空間結構異常,還會造成增強子與原癌基因異常遠程相互作用(遠程互作),參與了諸多疾病例如癌症的發病過程。但遺傳學中有關絕緣子的性質以及作用機制還不清楚。該研究利用實驗室開發的CRISPR大片段編輯技術對絕緣子進行了全面的剖析。以原鈣粘蛋白alpha基因簇為模式基因(原鈣粘蛋白是一類在腦發育腦認知中起到關鍵作用的細胞粘連分子),他們發現基因組中的CTCF位點無論是正向、反向、反向-正向組合、甚至是正向-反向組合,只要位於增強子和基因之間,都能夠有效抑制增強子對基因的激活,起到絕緣子的作用。更為神奇的是位於增強子旁邊的CTCF位點也能夠阻斷增強子的激活功能,保護啟動子不被增強子異常激活。作者利用染色質構象捕獲實驗發現,絕緣子抑制基因表達的內在機理是通過與遠處的CTCF位點形成染色質環化結構,來阻斷目標基因與增強子的遠程互作,從而抑制基因表達。他們通過數學計算分析發現,整個基因組中成千上萬的CFCF位點都能夠抑制啟動子活性,它們不但能夠直接負向調控啟動子,而且能夠通過影響增強子以及其與啟動子的染色質環化強度間接負向調控基因表達。所以,基因組中每一個CTCF位點都能起到絕緣子的作用,也就是每一個CTCF位點都是一個絕緣子,這是對哺乳動物拓撲絕緣子及其作用機理的首次全面系統研究,對加深基因表達調控機理的理解有重要意義。
更為重要的是,該研究還首次發現了絕緣子不為人知的一面,那就是絕緣子能夠促進遠端基因與增強子的空間遠程互作,即絕緣子的拓撲性,這一發現突破了已有的認識。人們通常認為絕緣子抑制增強子與所有近端和遠端基因的空間互作,但這項研究以原鈣粘蛋白、免疫球蛋白、beta-珠蛋白基因簇為模式基因,通過CRISPR染色質大片段編輯、染色質構象捕獲以及數學計算模擬實驗都證實近端的CTCF位點與近端的CTCF位點互作,遠端的CTCF位點與遠端的CTCF位點互作,也就是說絕緣子具有拓撲性。這意味著,串聯排列的CTCF位點作為拓撲絕緣子對染色質高級結構的摺疊產生意想不到的空間平衡效果。這種空間平衡對於正確的基因表達非常重要,能夠決定增強子與啟動子遠程互作的拓撲性選擇。
原鈣粘蛋白beta和gamma基因簇的啟動子中包含有串聯排列的42個正向CTCF位點,下遊超級增強子中有串聯排列的反向CTCF位點。在粘連蛋白環擠壓的作用下,超級增強子近端的CTCF位點調控原鈣粘蛋白gamma基因的表達(小環),而遠端的CTCF位點調控原鈣粘蛋白beta基因的表達(大環),這種「大環內嵌套小環」的套娃方式,決定了每個神經元中原鈣粘蛋白beta和gamma基因的單等位基因表達模式(上圖),形成大腦神經元表面多樣化的分子標籤,用於神經元的身份識別和樹突自我迴避。作者對超級增強子的CTCF位點進行了一系列的小鼠遺傳學操作,發現在刪除單個或者多個CTCF位點後,增強子不再調控遠端基因簇原鈣粘蛋白beta的表達,這一結果說明增強子中串聯排列的CTCF位點的數量決定了它所能調控的範圍大小,即CTCF位點的數量越多,調控的範圍越遠。為了進一步探尋其中的規律,他們做了基於粘連蛋白環擠壓模型的分子動力學模擬試驗,結果表明這種高級結構的形成,對於平衡染色質成環和拓撲性增強子-啟動子的選擇至關重要。例如在免疫球蛋白基因簇中,基因啟動子有上百個正向的CTCF位點,增強子區域有10個反向的CTCF位點,通過近端與近端、遠端與遠端拓撲互作的方式,保證了遠端基因和近端基因的平衡選擇,這是抗體多樣性產生的分子基礎。最後,作者提出了基因組摺疊的「葫蘆」立體架構模型,來解釋串聯排列的CTCF位點作為拓撲絕緣子的工作機制(如下圖所示)。
實驗室先前通過DNA大片段編輯技術對基因組上的CTCF位點進行原位反轉,發現了增強子的方向性,以及CTCF蛋白結合DNA調控元件的方向性決定了染色質環化方向的規律,也就是一維線性DNA序列包含有「編碼」三維基因組染色質高級結構的信息。我們知道,粘連蛋白介導的染色質環主要形成在「正向-負向」的一對CTCF結合位點之間。哺乳動物基因組中包含數萬個CTCF位點,它們的排列方式如何決定更高一級的染色質三維結構,也就是三維基因組是如何摺疊的,這是需要回答的機制問題。在這項最新的研究中,作者利用CRISPR大片段基因編輯技術,結合優化的高解析度、高靈敏度的少量細胞染色質構象捕獲技術,對該問題進行了全面的闡述。
綜上,本研究不僅闡明了原鈣粘蛋白在神經元中單等位基因隨機組合表達的分子機理,也揭示了基因組中眾多串聯排列CTCF位點的高級拓撲摺疊機理。基因組拓撲絕緣子的發現,是前期發現增強子方向性基礎上,在一維線性CTCF結合位點調控三維基因組高級結構領域的又一重要研究進展。該研究由上海交通大學研究團隊獨立完成,吳強為本文通訊作者,助理研究員甲芝蓮、李經緯和博士生葛笑為共同第一作者。研究得到了國家自然科學基金和上海市科委的資助。作者謹以此文為武漢加油,祝賀武漢抗疫取得完全勝利。
全文連結:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01984-7
預印本連結:https://www.biorxiv.org/content/10.1101/525543v1