生命的孕育、生長、繁衍和死亡等一切生命現象是不以人的意志為轉移的,它們皆由基因控制。早在1860年,遺傳學家孟德爾通過豌豆實驗提出了遺傳定律。1953年,詹姆斯·沃森和弗朗西斯·克裡克發現並提出了DNA雙螺旋的結構模型,標誌著分子生物學時代的開啟。隨後,「中心法則」的建立使人們認識了遺傳信息是如何在生物體內部以及世代間的傳遞。
「垃圾」DNA的起因
科學家逐漸發現基因組的大小與編碼蛋白質的DNA有著巨大數量上的反差,因此1972年,日本遺傳學家大野乾提出了「垃圾」DNA(「junk」DNA)概念,用來描述基因組中不能夠編碼蛋白質的DNA序列。21世紀初期,完成的人類基因組「天書」解讀發現人類編碼蛋白的基因總數不超過25000,這些DNA只佔基因組的1%~1.5%,再除去3%左右的調控元件DNA,剩餘的95%以上的DNA序列是沒有任何功能的「垃圾」DNA。顯然,基因組就像在一大片「垃圾」DNA組成的荒漠裡,零星地點綴著編碼基因DNA。那麼是真的利用如此之少的基因構成如此複雜的生命個體?基因組中「垃圾」DNA 片段真的沒有用嗎?這極其像我們認知的宇宙只佔了宇宙的極少一部分,而大部分是由無法探測和研究的物質組成,即被稱為「暗物質」。因此未知功能的「垃圾」DNA 也被戲稱為基因組中的「暗物質」。
「垃圾」DNA的解讀
得益於測序技術的進步,第二代測序技術極大地提高了測序通量,可以一次性完成從數十萬到數百萬的DNA分子測序,使得對一個物種的基因組和轉錄組深度測序變得方便易行,為「垃圾」DNA的解讀提供了技術的支撐。科學家於2003年啟動的ENCODE(The Encyclopedia of DNA Elements)計劃和2006年啟動的癌症基因組計劃(The Cancer Genome Atlas,TCGA)為這些非編碼DNA片段的研究提供了極大的幫助。
眾所周知,從統計學意義上來說,人與人之間的蛋白質編碼基因有99%的相似性,但是,個體的「垃圾」DNA卻有著顯著的差異,這能夠較好地解釋為何基因組編碼部分大體上相似,每個人卻都存在不同。也就是說,是「垃圾」DNA讓每個人都變得獨一無二。很多過去被認為無功能的DNA,實際上有可能轉錄為RNA,或者作為轉錄因子結合位點,或者是DNA 化學修飾的靶點等,以多種形式對真正基因的表達起到了關鍵的調節作用。這些研究徹底顛覆了傳統的以蛋白質編碼基因為中心的基因組學觀念,並將人類帶入了一個全新的基因組時代。首先,不少疾病的全基因組關聯研究(genome wide association study, GWAS)鑑定出許多DNA 單核苷酸多態性(single nucleotide polymorphisms, SNPs)和這些疾病有一定的關聯性,但這些SNPs將近90%位於傳統上所謂的「垃圾」DNA區域裡。另外,有科學家將人和小鼠(Mus musculus)的基因組序列進行比對,發現在非編碼DNA 中,有5%的序列是高度保守的。選取其中的一部分序列在大尺度上進行同源分析,發現這部分序列中超過25%的部分存在於10種以上哺乳動物的DNA 序列中,保守性甚至比同源的編碼蛋白質基因要強。這就意味著這些序列經歷了幾億年演變而基本沒有發生差異變化。這種保守性說明它們對於物種來說有著非常重要的作用。更為重要的是,這些研究證實人類基因組75%都具有轉錄活性,且轉錄後產物有一定的生物學功能。把這些轉錄而不編碼蛋白的產物統稱非編碼RNA(non-coding RNA, ncRNA)。NcRNA 包括核糖體RNA(ribosome RNA, rRNA)、轉運RNA(transfer RNA, tRNA)、小核RNA(small nuclear, snRNA)、核仁小分子RNA(small nucleolar RNA, snoRNA)、微小RNA (micro RNA, miRNA)、長鏈非編碼RNA(long non-coding RNA, lncRNA)、環狀RNA(circular RNA, circRNA)等。
1 MiRNA
MiRNA是一種內源性的小RNA,成熟的miRNA長2~25bp,不具備編碼蛋白質的能力,但是能夠調控編碼基因的表達。miRNA 基因主要位於染色體的脆性位點上,而染色體中的脆性位點區域更易引發癌症的滋生。大部分的miRNA在行使其生物學功能時扮演著抑癌基因或類似癌基因的角色。
2 LncRNA
LncRNA通常是指長度大於200bp的一類非編碼RNA,它在生物體內主要通過對表觀遺傳、轉錄調控及轉錄後加工等環節的幹預發揮功能,在各種疾病發病過程中發揮重要作用。lncRNA的功能與表達的豐度存在很大關聯,這有可能使其成為一種癌症診斷和預後評估的理想標誌物。目前,有幾個lncRNA已經被選為人類癌症檢測的生物標誌物,其中新型前列腺抗原3(prostate cancer antigen 3, PCA3)作為診斷前列腺癌的生物標誌物已獲美國FDA批准,並且與傳統的前列腺特異抗原(prostate-specific antigen, PSA)和PCA3檢測結合起來,展示了更高的準確率。然而在一些被預測的lncRNA序列內部卻發現了具有編碼能力的微肽,該發現又從一個全新的視角來闡明基因調控的新層次。
3 CircRNA
CircRNA是一種內源性的、非線性的非編碼RNA,它由反向剪接產生,具有封閉的環狀結構,並且缺乏5'端的帽子結構和3'端的poly(A)尾。circRNA主要來自編碼基因的外顯子,可能僅有一個外顯子構成,也可能由多個外顯子構成。它在細胞質中可充當miRNA海綿分子, 也可作為RNA結合蛋白(RNA binding protein, RBP)的隔絕子,或核內翻譯的調控子,是基因表達調控網絡的重要參與者。
伊薩克·牛頓早就說過,「自然不行徒勞之舉,少已夠用,多則何益」。非編碼RNA既然隨著物種的進化並沒有消失,肯定是「天生我才必有用」。而且現在越來越多的科學研究已經證明了各類非編碼RNA存在的生理意義,及重要的應用價值。隨著科學技術的不斷進步、發展和科學家堅持不懈的努力,我們期待真正理解、掌握並最終運用生命這部「天書」,為人類生命科學研究作貢獻。
文/張常,王新文,王亮,高山
本文來自《科學通報》