Nature亮點 |下遊核心啟動子區域是真實存在的嗎?

2020-11-09 BioArt

撰文 | 伊凱

責編 | 兮


基因及其表達模式是表徵和決定細胞狀態的基礎,因而基因表達的調控機制也是分子生物學研究的核心大課題之一。在基因調控的多個層級中,轉錄調控(transcriptional regulation)是最早受到關注和研究得最為透徹的分支。經過數十年的研究(詳見BioArt報導:致敬Robert Roeder & 紀念真核生物RNA聚合酶發現50周年——轉錄調控研究簡史),人們已經知道,在原核和真核生物中,基因轉錄水平的決定因素都包括順式調控元件(cis-regulatory element)和反式作用因子(trans-acting factor)兩大要件【1,2】。在轉錄調控的語境下,前者主要由啟動子、增強子和沉默子等非編碼DNA序列構成;而後者則包含RNA聚合酶、轉錄因子、染色質重塑因子(chromatin remodeler)、甚至是一些RNA結合蛋白(RNA binding protein, RBP)【3】


儘管從研究範式上考慮,順式元件和反式因子可以被認為在基因轉錄調控中各自做出獨立貢獻,因而獲得同等的重視。但就生物機制的前後邏輯而言,順式元件所蘊含的內在序列特徵(intrinsic sequence pattern)往往直接決定了反式因子的結合與作用模式。一個經典的例子是,由ChIP-seq測定的人與小鼠肝細胞關鍵轉錄因子HNF1α、HNF4α和HNF6雖然具有幾乎完全保守的DNA結合域,但卻在兩類物種間表現出極為不同的全基因組結合模式;然而,當研究者將人類21號染色體轉入小鼠肝細胞後,卻發現小鼠細胞的上述因子表現出與人同源因子幾乎一致的對外源人DNA序列的結合模式;因而證實了小鼠與人之間轉錄因子的結合模式差異並不來自於因子本身或細胞整體環境的差異,而是幾乎由物種間DNA同源序列的變異所決定【4】。當然,這並不意味著基因調控的根本邏輯是「序列決定論」:畢竟,擁有同一套DNA序列的不同組織和細胞類型、不同生理和病理條件,往往表現出高度差異化的基因調控模式。即使將各類表觀遺傳修飾差異,如DNA甲基化、染色質開放性等考慮進去,作為概念延展後的順式元件,也不能完全預測和解釋基因調控的多樣性。也即是說,反式因子在不同生物場景下的差異性行為仍然是形塑異質化基因調控的重要元素,只不過它並非基於一個獨立於順式元件自行作用的邏輯,而是類似於「雞」與「蛋」的相輔相成的複雜邏輯【5】


因此,對各類順式調控元件所遵循的序列邏輯的解析就顯得極為重要。通常,這類信息可以由共識序列(consensus sequence)、結合基序(binding motif)和位置權重矩陣(position weight matrix)等形式表徵。雖然這些方法在大致判斷順式元件的激活程度或反式因子結合模式方面具有一定的效果,但它們所容納的信息量少,且靈活性差,無法用來精準預測順式元件的行為。與基於短序列匹配的傳統方法相比,機器學習和深度學習方法由於具有強大的模式提取(pattern extraction)能力,極大地提升了對順式元件內在序列特徵的認知能力,被成功運用在了包括DNA甲基化概率、RNA結合蛋白的結合位點和染色質三維關聯等預測任務中【6-8】


2020年9月9日,來自加州大學聖地牙哥分校(UCSD)在轉錄調控研究方面曾產出多項重量級結果的James Kadonaga【9】(其博士後導師為著名美籍華裔科學家錢澤南Robert Tjian,為轉錄調控研究方面的先驅)課題組在Nature上發表了題為Identification of the human DPR core promoter element using machine learning的研究,基於大規模DNA序列篩選數據建立了預測下遊核心啟動子序列活性的機器學習模型,首次證實了下遊核心啟動子序列的存在,再一次展現了機器學習方法在基因調控甚至是整個基因組學研究中的巨大潛力。


控制基因表達開關的啟動子核心序列通常被認為是轉錄起始位點(transcription start site, TSS)上下遊分別約40bp的DNA區域,而這一區域往往具有跨物種、跨基因的保守性序列特徵,如最為著名的七鹼基TATA盒(TATA box)。不過,TATA box本身只出現在約25%的人類基因啟動子序列中。儘管在非TATA box啟動子中也發現了諸如十基序元件(ten motif element)和下遊核心啟動子元件(downstream core promoter element)等,但和TATA box一樣,各類元件均以不甚高的頻率散布在部分基因的啟動子中。因此,啟動子序列的內在特徵是否具有統一性和普適性,仍然是個未解之謎。另外,核心啟動子序列中研究較為缺乏的位於+17至+35的下遊核心序列DPR(downstream core promoter region)的存在性,也是一個懸而未決的問題。


為了回應這一挑戰,該研究的作者希望解答的一個關鍵疑問是,DPR是否存在某種一般性的序列特徵使其能夠具有最優化的激活效應?為此,基於用於大規模DNA序列活性篩選的SuRE(survey of regulatory elements)方法【10】,作者首先合成了50萬個攜帶隨機序列的DPR,然後嵌入同一啟動子框架(promoter cassette)中,並經由細胞外或細胞內表達系統進行轉錄,最後以帶有特定序列的RNA數目與初始DNA數目的比例作為某一DPR激活程度的表徵(下圖)


在獲得了關於DPR序列對其激活程度影響的大規模篩選數據之後,作者考慮利用機器學習方法構建一個能夠將DPR序列的內在特徵進行精準識別和提取,並映射至對應激活程度的預測模型。經過一系列對比,作者選擇了非線性機器學習模型支持向量機回歸方法(Support vector regression, SVR)來實現這一目的,結果發現,在獨立測試集上,該模型所預測出的轉錄強度與真實值具有高達0.9的相關係數,且呈較好的線性關係(下圖)。在基於細胞內轉錄系統所產生的數據上重複這一模型構建,依然獲得了相當良好的預測精度和復現性。因此,機器學習模型不僅能夠實現對未知DPR序列的轉錄強度的精準預測,更重要的是,其在預測任務上的極佳表現直接反映了與轉錄強度相關的DPR本身的內在序列特徵的存在性。


利用上述構建的DPR序列到轉錄強度的映射模型,作者進一步分析了真實存在於人體細胞基因啟動子序列中的DPR的分布狀況。結果發現,約25-34%的啟動子相應區域均被預測具有顯著較強的DPR激活程度(定義為轉錄強度超過沉默DPR的6倍及以上);與之相反,利用傳統的DPE位置權重矩陣進行掃描僅能在0.4%-0.5%的啟動子中發現DPR。因此,這一結果證明了DPR是一個真實存在於基因啟動子下遊區域的調控元件,只是其內在序列特徵較為複雜和「無序」,並不能由共識短基序等常規方法進行表徵和預測,但卻能夠為機器學習模型所識別。

總之,這項研究結合了大規模DNA序列活性篩選和機器學習模型兩項分別在實驗分子生物學和數據科學中處於前沿地位的方法,成功構建了在轉錄調控中扮演關鍵角色的啟動子的部分區域及下遊核心區域的序列特徵與其轉錄強度之間存在的難以被人類直覺所探知的複雜非線性映射關係。其在解答DPR存在性問題上另闢蹊徑,通過證明人類基因啟動子序列顯著富集了高激活DPR序列,傳達出由自然選擇所形塑的順式元件的分子演化歷程的確創造了DPR這一元件的關鍵結論


原文連結:

https://doi.org/10.1038/s41586-020-2689-7


製版人:SY


參考文獻

1. Lee, T. I. & Young, R. A. Transcriptional regulation and its misregulation in disease. Cell 152, 1237–1251 (2013).

2. Andersson, R. & Sandelin, A. Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet. 21, 71–87 (2020).

3. Xiao, R. et al. Pervasive Chromatin-RNA Binding Protein Interactions Enable RNA-Based Regulation of Transcription. Cell 178, 107-121.e18 (2019).

4. Wilson, M. D. et al. Species-specific transcription in mice carrying human chromosome 21. Science (80-. ). 322, 434–438 (2008).

5. Zeitlinger, J. Seven myths of how transcription factors read the cis-regulatory code. Curr. Opin. Syst. Biol. 301, 127065 (2020).

6. Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 33, 831–838 (2015).

7. Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

8. Grønning, A. G. B. et al. DeepCLIP: Predicting the effect of mutations on protein-RNA binding with Deep Learning. bioRxiv 757062 (2019) doi:10.1101/757062.

9. Sedwick, C. Jim Kadonaga: Exploring transcription and chromatin. J. Cell Biol. 212, 608–609 (2016).

10. Van Arensbergen, J. et al. Genome-wide mapping of autonomous promoter activity in human cells. Nat. Biotechnol. (2017) doi:10.1038/nbt.3754.

相關焦點

  • Nature:轉錄輔助因子對不同類型的核心啟動子具有特異性
    2019年5月26日訊/生物谷BIOON/---轉錄輔助因子(transcriptional cofactor, COF)在增強子與啟動子之間傳遞調控線索,是轉錄激活和基因表達的核心效應物。雖然已證實某些COF比其他COF更偏好某些啟動子類型,但是不同COF對不同啟動子顯示出的內在特異性的程度尚不清楚。
  • 真核生物的啟動子與轉錄起始
    按照慣例,真核生物的啟動子更加複雜。真核生物有三種RNAP,所以有相應的三類啟動子。RNAP I負責轉錄rRNA,對應的是I類(class I)啟動子,由核心啟動子(-45至+20)和上遊控制元件(-180至-107)構成。
  • 真核生物的啟動子與轉錄起始
    按照慣例,真核生物的啟動子更加複雜。真核生物有三種RNAP,所以有相應的三類啟動子。RNAP I負責轉錄rRNA,對應的是I類(class I)啟動子,由核心啟動子(-45至+20)和上遊控制元件(-180至-107)構成。小RNA對應的III類啟動子又有3種類型,其中5 S rRNA基因和tRNA基因的啟動子都屬於下遊啟動子,即位於轉錄起點下遊。
  • 尋找啟動子的三種方法.
    這周我們主要分享我常用的查找基因啟動子的三種方法。第一種,NCBI還是拉到如下圖位置,點擊FASTA:計算啟動子區域啟動子區域一般位於基因上遊的2000bp或者下遊的1000bp(保守一些的話可以縮短到下遊500bp),此處我們查詢上遊2000bp。
  • 啟動子序列提取-EPD真核生物啟動子資料庫!
    啟動子(Promoter):啟動子是RNA 聚合酶識別、結合和開始轉錄的一段DNA 序列,它含有RNA 聚合酶特異性結合和轉錄起始所需的保守序列,多數位於結構基因轉錄起始點的上遊,啟動子本身不被轉錄。所以一般所說的啟動子是DNA序列上的結構,在mRNA、cDNA中它是不存在;但是也有一些例外,如tRNA啟動子就位於轉錄起始點的下遊,這些DNA序列是可以被轉錄的,只能說啟動子一般位於轉錄起始位點的上遊。2.
  • Nature:啟動子和增強子上組蛋白修飾分布圖
    專題:Nature報導對於啟動子、增強子和其他DNA調控元素在決定細胞類型特異性基因表達中的相對作用,研究人員還很不了解。現在,一種基於染色質-免疫沉澱反應的微陣列(ChIP-晶片)方法,被用來生成在幾個不同人類細胞系中的啟動子和增強子上的組蛋白修飾分布圖。啟動子上的修飾分布模式被發現在不同細胞類型之間基本不變,而在大部分增強子上的修飾分布模式則對某一種細胞類型有特異性,並且與細胞類型特異性基因表達有關。
  • nature中文摘要 26 February 2015
    Enhancer–core-promoter specificity separates developmental and housekeeping gene regulation增強子-核心啟動子將發育基因和管家基因的調控特異性地分離開來http://www.nature.com
  • 原核生物的啟動子與轉錄起始過程
    對於轉錄起始的調控,啟動子是最重要的調控元件。啟動子(promoter)是RNA聚合酶識別、結合以開始轉錄的DNA序列。啟動子對基因的表達非常重要,可以決定基因在什麼組織、什麼生長階段或什麼條件下表達,也可以決定表達的頻率等。強啟動子平均2秒鐘啟動一次轉錄,而弱啟動子需要10分鐘以上。
  • Nature 中文摘要|31 March 2016
    Structure of promoter-bound TFIID and model of human pre-initiation complex assembly結合了啟動子的TFIID結構和人轉錄前起始複合體的組裝模型Robert
  • Nature雜誌12月不得不看的亮點研究
    【1】Nature:首次揭示RNA剪接與衰老存在因果關聯doi:10.1038/nature20789衰老是多種破壞性的慢性疾病的一種關鍵風險因素,但是影響細胞何時和如何快速地隨著時間的推移發生惡化的生物學因素仍然在很大程度上是未知的。
  • Spt5介導的增強子轉錄直接偶聯增強子激活與啟動子相互作用
    Spt5介導的增強子轉錄直接偶聯增強子激活與啟動子相互作用 作者:小柯機器人 發布時間:2020/4/13 12:41:01 近日,奧地利分子病理研究所Rushad Pavri課題組發現,Spt5
  • Nature Chem Biol | 張餘研究組揭示細菌ClassIII轉錄因子CueR轉錄...
    在隨後的幾十年中,科學家們利用化學交聯、DNA足跡、遺傳突變等方法嘗試了解轉錄因子調控基因轉錄的具體機制,大家發現轉錄因子在啟動子DNA的結合位置直接決定了其對於下遊基因的影響,一般來講,轉錄因子結合在核心啟動子區域(-35區和-10區)上遊發揮轉錄激活功能,轉錄因子結合在核心啟動子區域或者基因內部則抑制轉錄。
  • Nature七月代謝研究亮點
    我們意外地發現,儘管腸道中存在豐富的HDAC抑制劑(如丁酸鹽),但令人意外的是,與腸道無菌小鼠相比,重新補充腸道微生物的小鼠腸上皮細胞(IECs)中HDAC3活性顯著增加。Comm.六月七月代謝亮點)大部分細胞都主要依賴氧化磷酸化產生能量,在此過程中,線粒體需要消耗大量氧氣。因此氧氣對需氧細胞的生存與代謝都至關重要。當氧氣濃度較低時,細胞會啟動一系列反應來適應缺氧狀態,以提高自己的生存能力。2019年的諾貝爾生理學獎和醫學獎頒發給了William G.
  • 外星人到底真實存在於宇宙之中嗎?
    外星人到底真實存在於宇宙之中嗎?當我們意識到地球不是宇宙的中心之後,我們就開始各種猜測宇宙中是否真的存在外星人。在天文學中存在著一種哥白尼定理,這個定理的核心就是宇宙中是存在著外星人的。有人認為,可能在這個龐大的星系中,地球真的是唯一一個存在生命的奇蹟星球,只是這個說法沒有得到多數人的認同。還有人認為,宇宙其實是被掌控起來的,在我們觸及不到的地方存在著其他生命,一旦我們的文明發展到一定地步,觸及到其他星球上的生命的時候,我們的文明就會被毀滅。
  • Nature雜誌1月不得不看的亮點研究
    不知不覺,1月即將結束了,在即將過去的1月裡Nature雜誌又有哪些亮點研究值得閱讀呢?小編對此進行了整理,與各位一起學習。【3】Nature子刊:解析關鍵細菌蛋白或有望開發出新型抗生素doi:10.1038/nsmb.3346細菌細胞往往有著保護性的外層結構—細胞壁,而動物細胞則沒有,組裝這種堅硬的護甲往往需要多個步驟,但有些細菌的「盔甲」往往能夠被抗生素靶向作用,比如青黴素和萬古黴素等。
  • Nature又上線2本新子刊!
    Nature雜誌的子刊達到了53本,其中20本為綜述期刊。2019年2月24日,Nature官網正式上線了一個新子刊:Nature Food。這是一本在線期刊,將於2020年1月正式啟動。期刊官網:https://www.nature.com/natfood/目標和範圍到2050年,世界面臨著維持地球健康和100億人口的前所未有的挑戰。食品生產,加工,分銷和消費領域的許多科學學科的研究已經建立並且不斷發展 - 食品界現在需要高質量的食品 聯合思考全球糧食挑戰及其解決方案的主題資源。
  • Nature中文摘要 17 September 2015
    of synaptic memory traces in the motor cortex運動皮層中突觸記憶痕跡的標記和光學擦除http://www.nature.com/nature/journal/v525/n7569/full/nature15257.html一種新型光活化探針可以定位於近期活躍的神經樹突棘進行操縱
  • 新CRISPR技術可用於研究增強子-啟動子調控模型
    新CRISPR技術可用於研究增強子-啟動子調控模型 作者:小柯機器人 發布時間:2019/12/2 13:48:30 2019年11月29日,《自然—遺傳學》雜誌發表了MIT-哈佛大學博德研究所Jesse M.
  • 整合子-基因盒的概念;結構;分類;移動
    基因盒是單一的可移動的DNA分子,通常以環行獨立的狀態存在。只有當它被整合子捕獲並整合到整合子中才能轉錄。基因盒通常不含啟動子,但一旦基因盒插入整合子,這個基因就能在5′端的共同啟動子Pant作用下轉錄。基因盒是由一個ORF(通常是耐藥基因)和一個反向不完全重複序列即59-be組成,59-be片段交換位點長度從50 bp ~150 bp不等。
  • Nature中文摘要|29 October 2015
    Caspase-11 cleaves gasdermin D for non-canonical inflammasome signallingcaspase-11切割gasdermin D啟動非經典炎症小體信號通路http://www.nature.com/nature