日前,研究人員取得了一項裡程碑式的新成果:他們發現了轉錄起始的精確位點,從而為解析基因組「暗物質」的起源邁出了重要的一步。這項刊登在《自然》雜誌上的研究將有助於分析複雜疾病特徵所在的確切位置。
所謂基因組「暗物質」,其實就是基因組中的非編碼 RNA ——不包含用於製造蛋白質的版圖,構成了超過 95% 的人類基因組。之前的研究認為,非編碼 RNA 不編碼蛋白質,屬於「垃圾」RNA。而隨著研究的深入,科學家逐漸發現,非編碼 RNA 含有豐富的信息,是生命體中有待探索的「暗物質」。目前已發現很多非編碼 RNA 具有的重要生物學功能。同時,越來越多的證據表明,一系列重大疾病的發生發展與非編碼 RNA 調控失衡相關。
在這項最新研究中,來自賓州大學分子生物學系的 B. Franklin Pugh 教授,以及博士後研究員 Bryan Venters (目前任職於範德比爾特大學)等人發現了人類基因組中相同類型位置上基本上所有編碼和非編碼 RNA 起始點,這將有助於查明複雜疾病特徵所在的確切位置,因為許多疾病的遺傳起始位點位於基因組編碼區域以外。
研究人員首先分析轉錄起始的精確位點,這是基因翻譯成蛋白的第一步。「在轉錄過程中,DNA 通過 RNA 聚合酶,形成 RNA,後者是一種單鏈遺傳物質,科學家們認為 RNA 是地球上出現 DNA 之前的遺傳物質。然後通過再經過多個步驟,基因表達成蛋白」,Pugh 解釋道。
並且他還補充說,在他們尋找轉錄起始所在之處的研究期間,其他一些科學家也在直接分析 RNA,但是 Pugh 和 Venters 則是去分析在人類染色體上,啟動非編碼 RNA 起始轉錄的蛋白定位在哪裡。
「我們之所以採取這種方式,是因為許多 RNA 在製造出來後就立即被降解了,這令我們防不勝防,」 Pugh 說,「因此我們沒有去尋找轉錄的 RNA 產物,而是尋找製造 RNA 的『起始機器』。這種機器組裝 RNA 聚合酶,製造 RNA,並最終翻譯成蛋白質」。
結果令 Pugh 和 Venters 感到吃驚的是,他們發現了 16 萬個這樣的「起始機器」,但人類總共也才大約 3 萬個基因。
「這一發現十分重要,要知道實際上我們在基因位點處發現的『起始機器』只有不到 1 萬個,而且細胞中大多數基因處於被關閉狀態,它們一般都沒有用到這些機器。」
對於餘下的 15 個起始機器,Pugh 和 Venters 還沒有找到它們的歸屬,這些機器的作用依然待定。「這些與基因沒有關聯的起始機器顯然是活躍的,因為它們能製造 RNA,科學家們也在發現 RNA 片段的同時發現了它們」,Pugh 說,「最開始,這些 RNA 片段由於並不編碼蛋白而受到了忽視。」
Pugh 說,很容易就會忽視這些片段,因為它們不具有多聚腺苷酸化polyadenylation的特徵(這是指能用於保護 RNA 免受破壞的長串腺苷)。
之後 Pugh 和 Venters 又通過能識別編碼基因相關 DNA 序列的非編碼起始機器,進一步驗證這一研究結果。
「這些非編碼 RNA 被稱為基因組『暗物質』,就像是宇宙中的暗物質,難以察覺,沒有人知道它們究竟是用來做什麼的,或者它們為什麼在那裡,」 Pugh 說,「現在至少我們知道它們是真實的了,不只是『噪音』或『垃圾』。當然下一步還需要回答一個問題:『它們到底是用來做什麼的?』」
Pugh 補充說,這項研究的意義在於朝著解決「失蹤遺傳 missing heritability」這一問題邁進了一大步,這個概念是指大部分特徵,包括基因,為何無法通過個體基因進行描述。「當一種疾病的突變圖譜指向基因組未知功能區域的時候,很難了解這種疾病的來源」,「不過如果這些區域能製造 RNA,那麼我們就能一步步的了解這種疾病。」
生物谷推薦的英文摘要
Nature doi:10.1038/nature12535
Genomic organization of human transcription initiation complexes
Bryan J. Venters & B. Franklin Pugh
The human genome is pervasively transcribed, yet only a small fraction is coding. Here we address whether this non-coding transcription arises at promoters, and detail the interactions of initiation factors TATA box binding protein (TBP), transcription factor IIB (TFIIB) and RNA polymerase (Pol) II. Using ChIP-exo (chromatin immunoprecipitation with lambda exonuclease digestion followed by high-throughput sequencing), we identify approximately 160,000 transcription initiation complexes across the human K562 genome, and more in other cancer genomes. Only about 5% associate with messenger RNA genes. The remainder associates with non-polyadenylated non-coding transcription. Regardless, Pol II moves into a transcriptionally paused state, and TBP and TFIIB remain at the promoter. Remarkably, the vast majority of locations contain the four core promoter elements— upstream TFIIB recognition element (BREu), TATA, downstream TFIIB recognition element (BREd), and initiator element (INR)—in constrained positions. All but the INR also reside at Pol III promoters, where TBP makes similar contacts. This comprehensive and high-resolution genome-wide detection of the initiation machinery produces a consolidated view of transcription initiation events from yeast to humans at Pol II/III TATA-containing/TATA-less coding and non-coding genes.