撰文 | 伊凱
責編 | 兮
基因及其表達模式是表徵和決定細胞狀態的基礎,因而基因表達的調控機制也是分子生物學研究的核心大課題之一。在基因調控的多個層級中,轉錄調控(transcriptional regulation)是最早受到關注和研究得最為透徹的分支。經過數十年的研究(詳見BioArt報導:致敬Robert Roeder & 紀念真核生物RNA聚合酶發現50周年——轉錄調控研究簡史),人們已經知道,在原核和真核生物中,基因轉錄水平的決定因素都包括順式調控元件(cis-regulatory element)和反式作用因子(trans-acting factor)兩大要件【1,2】。在轉錄調控的語境下,前者主要由啟動子、增強子和沉默子等非編碼DNA序列構成;而後者則包含RNA聚合酶、轉錄因子、染色質重塑因子(chromatin remodeler)、甚至是一些RNA結合蛋白(RNA binding protein, RBP)等【3】。
儘管從研究範式上考慮,順式元件和反式因子可以被認為在基因轉錄調控中各自做出獨立貢獻,因而獲得同等的重視。但就生物機制的前後邏輯而言,順式元件所蘊含的內在序列特徵(intrinsic sequence pattern)往往直接決定了反式因子的結合與作用模式。一個經典的例子是,由ChIP-seq測定的人與小鼠肝細胞關鍵轉錄因子HNF1α、HNF4α和HNF6雖然具有幾乎完全保守的DNA結合域,但卻在兩類物種間表現出極為不同的全基因組結合模式;然而,當研究者將人類21號染色體轉入小鼠肝細胞後,卻發現小鼠細胞的上述因子表現出與人同源因子幾乎一致的對外源人DNA序列的結合模式;因而證實了小鼠與人之間轉錄因子的結合模式差異並不來自於因子本身或細胞整體環境的差異,而是幾乎由物種間DNA同源序列的變異所決定【4】。當然,這並不意味著基因調控的根本邏輯是「序列決定論」:畢竟,擁有同一套DNA序列的不同組織和細胞類型、不同生理和病理條件,往往表現出高度差異化的基因調控模式。即使將各類表觀遺傳修飾差異,如DNA甲基化、染色質開放性等考慮進去,作為概念延展後的順式元件,也不能完全預測和解釋基因調控的多樣性。也即是說,反式因子在不同生物場景下的差異性行為仍然是形塑異質化基因調控的重要元素,只不過它並非基於一個獨立於順式元件自行作用的邏輯,而是類似於「雞」與「蛋」的相輔相成的複雜邏輯【5】。
因此,對各類順式調控元件所遵循的序列邏輯的解析就顯得極為重要。通常,這類信息可以由共識序列(consensus sequence)、結合基序(binding motif)和位置權重矩陣(position weight matrix)等形式表徵。雖然這些方法在大致判斷順式元件的激活程度或反式因子結合模式方面具有一定的效果,但它們所容納的信息量少,且靈活性差,無法用來精準預測順式元件的行為。與基於短序列匹配的傳統方法相比,機器學習和深度學習方法由於具有強大的模式提取(pattern extraction)能力,極大地提升了對順式元件內在序列特徵的認知能力,被成功運用在了包括DNA甲基化概率、RNA結合蛋白的結合位點和染色質三維關聯等預測任務中【6-8】。
2020年9月9日,來自加州大學聖地牙哥分校(UCSD)在轉錄調控研究方面曾產出多項重量級結果的James Kadonaga【9】(其博士後導師為著名美籍華裔科學家錢澤南Robert Tjian,為轉錄調控研究方面的先驅)課題組在Nature上發表了題為Identification of the human DPR core promoter element using machine learning的研究,基於大規模DNA序列篩選數據建立了預測下遊核心啟動子序列活性的機器學習模型,首次證實了下遊核心啟動子序列的存在,再一次展現了機器學習方法在基因調控甚至是整個基因組學研究中的巨大潛力。
控制基因表達開關的啟動子核心序列通常被認為是轉錄起始位點(transcription start site, TSS)上下遊分別約40bp的DNA區域,而這一區域往往具有跨物種、跨基因的保守性序列特徵,如最為著名的七鹼基TATA盒(TATA box)。不過,TATA box本身只出現在約25%的人類基因啟動子序列中。儘管在非TATA box啟動子中也發現了諸如十基序元件(ten motif element)和下遊核心啟動子元件(downstream core promoter element)等,但和TATA box一樣,各類元件均以不甚高的頻率散布在部分基因的啟動子中。因此,啟動子序列的內在特徵是否具有統一性和普適性,仍然是個未解之謎。另外,核心啟動子序列中研究較為缺乏的位於+17至+35的下遊核心序列DPR(downstream core promoter region)的存在性,也是一個懸而未決的問題。
為了回應這一挑戰,該研究的作者希望解答的一個關鍵疑問是,DPR是否存在某種一般性的序列特徵使其能夠具有最優化的激活效應?為此,基於用於大規模DNA序列活性篩選的SuRE(survey of regulatory elements)方法【10】,作者首先合成了50萬個攜帶隨機序列的DPR,然後嵌入同一啟動子框架(promoter cassette)中,並經由細胞外或細胞內表達系統進行轉錄,最後以帶有特定序列的RNA數目與初始DNA數目的比例作為某一DPR激活程度的表徵(下圖)。
在獲得了關於DPR序列對其激活程度影響的大規模篩選數據之後,作者考慮利用機器學習方法構建一個能夠將DPR序列的內在特徵進行精準識別和提取,並映射至對應激活程度的預測模型。經過一系列對比,作者選擇了非線性機器學習模型支持向量機回歸方法(Support vector regression, SVR)來實現這一目的,結果發現,在獨立測試集上,該模型所預測出的轉錄強度與真實值具有高達0.9的相關係數,且呈較好的線性關係(下圖)。在基於細胞內轉錄系統所產生的數據上重複這一模型構建,依然獲得了相當良好的預測精度和復現性。因此,機器學習模型不僅能夠實現對未知DPR序列的轉錄強度的精準預測,更重要的是,其在預測任務上的極佳表現直接反映了與轉錄強度相關的DPR本身的內在序列特徵的存在性。
利用上述構建的DPR序列到轉錄強度的映射模型,作者進一步分析了真實存在於人體細胞基因啟動子序列中的DPR的分布狀況。結果發現,約25-34%的啟動子相應區域均被預測具有顯著較強的DPR激活程度(定義為轉錄強度超過沉默DPR的6倍及以上);與之相反,利用傳統的DPE位置權重矩陣進行掃描僅能在0.4%-0.5%的啟動子中發現DPR。因此,這一結果證明了DPR是一個真實存在於基因啟動子下遊區域的調控元件,只是其內在序列特徵較為複雜和「無序」,並不能由共識短基序等常規方法進行表徵和預測,但卻能夠為機器學習模型所識別。
總之,這項研究結合了大規模DNA序列活性篩選和機器學習模型兩項分別在實驗分子生物學和數據科學中處於前沿地位的方法,成功構建了在轉錄調控中扮演關鍵角色的啟動子的部分區域及下遊核心區域的序列特徵與其轉錄強度之間存在的難以被人類直覺所探知的複雜非線性映射關係。其在解答DPR存在性問題上另闢蹊徑,通過證明人類基因啟動子序列顯著富集了高激活DPR序列,傳達出由自然選擇所形塑的順式元件的分子演化歷程的確創造了DPR這一元件的關鍵結論。
原文連結:
https://doi.org/10.1038/s41586-020-2689-7
製版人:SY
參考文獻
1. Lee, T. I. & Young, R. A. Transcriptional regulation and its misregulation in disease. Cell 152, 1237–1251 (2013).
2. Andersson, R. & Sandelin, A. Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet. 21, 71–87 (2020).
3. Xiao, R. et al. Pervasive Chromatin-RNA Binding Protein Interactions Enable RNA-Based Regulation of Transcription. Cell 178, 107-121.e18 (2019).
4. Wilson, M. D. et al. Species-specific transcription in mice carrying human chromosome 21. Science (80-. ). 322, 434–438 (2008).
5. Zeitlinger, J. Seven myths of how transcription factors read the cis-regulatory code. Curr. Opin. Syst. Biol. 301, 127065 (2020).
6. Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 33, 831–838 (2015).
7. Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).
8. Grønning, A. G. B. et al. DeepCLIP: Predicting the effect of mutations on protein-RNA binding with Deep Learning. bioRxiv 757062 (2019) doi:10.1101/757062.
9. Sedwick, C. Jim Kadonaga: Exploring transcription and chromatin. J. Cell Biol. 212, 608–609 (2016).
10. Van Arensbergen, J. et al. Genome-wide mapping of autonomous promoter activity in human cells. Nat. Biotechnol. (2017) doi:10.1038/nbt.3754.