撰文 | Qi
責編 | 兮
人類基因組中有四分之一到三分之一的序列被轉錄成pre-mRNA,但在去除內含子後,總共只有約1.9%的基因組序列被整合到成熟的mRNA中。除了蛋白質編碼基因和公認的RNA基因(例如rRNA,tRNA和snRNA)之外,其餘大部分基因組都被轉錄成非編碼RNA,儘管水平很低。在過去的十年中,關於長非編碼RNA(Long Non-coding RNAs, lncRNAs)是否有功能的問題一直存在激烈的爭論。這場爭論的一個極端宣稱「所有的轉錄本都是有功能的」,其反對者並不否認功能性lncRNA的存在,取而代之的是,他們堅持認為真核基因組會產生大量的「垃圾」RNA,儘管確實存在部分功能性lncRNA,但大多數轉錄是無功能的。在這場辯論中,有人提出垃圾RNA和功能性lncRNA之間可能存在某種關係。
近日,來自加拿大多倫多大學的Alexander F. Palazzo團隊和美國國立衛生研究院Eugene V. Koonin團隊在Cell雜誌上合作發表了一篇題為「Functional Long Non-coding RNAs Evolve from Junk Transcripts」的文章,作者們提出功能性lncRNA可能會通過類似於建設性中性進化(constructive neutral evolution, CNE)的機制從大量非功能性垃圾RNA中演化而來,因此,只有那些產生大量垃圾RNA的生物將產生許多功能性的lncRNA。
1, 真核生物的進化動力學促進垃圾RNA的產生
在基因組功能的討論中,特別是在涉及非編碼RNA時,人們經常忽略真核生物,尤其是多細胞形式是在弱選機制下進化的。這些生物的有效種群規模(effective population sizes)較小,導致的直接結果是其基因組的進化選擇相對較弱,並以遺傳漂變(genetic drift)為主。為了使突變體在這些生物體中處於正向或負向(純化)選擇之下,必須分別顯著提高或降低生物體適應性。據估計,只有不到10%的人類基因組DNA在可度量的純化選擇下進化,剩餘的基因組以中性方式進化,因此被視為無功能的垃圾。
複雜生物演化特徵的弱選機制具有多種含義。首先,在弱選和強漂變條件下,功能性lncRNA其產物需要產生足夠的益處,任何減少其數量,扭曲其結構或破壞其與特定靶標相互作用能力的突變將會大大降低生物體的適應性,從而清除漂變障礙。lncRNAs的保守性遠低於mRNA的UTR,原則上可以預期其在類似的限制下進化。大多數人類lncRNA積累點突變,插入和缺失(indels)突變的速率與其大多數功能缺失的速率一致。這種弱保守性表明許多已注釋lncRNA是無功能的。根據這些觀察結果,已經表明lncRNA具有固有可塑性,可能不需要高度保守性即可發揮功能。在極端情況下,據推測,即使缺乏任何可檢測的序列保守性,lncRNA的結構區域也有能保持其功能的可塑性。
實際上,由於RNA分子具有功能性,因此它必須具有該功能的一些結構決定因素,這些決定因素要求嚴格限制並因此具有一定程度的進化保守性。在沒有限制的情況下,無限可塑性的lncRNA會在不斷遭受突變的猛烈攻擊下消失。如果lncRNA能夠耐受會輕微破壞其關鍵結構的突變,那麼它們還必須在被進一步的破壞性突變最終破壞其結構之前,獲取隨後的修復性及補償性突變。重要的是,必須對這些恢復性突變進行實質性的陽性選擇,以克服漂移障礙。真核生物的弱選擇機制似乎並不傾向於通過正向選擇或負向選擇來維持lncRNA的存在。
逆轉上述抗lncRNA出現趨勢的真核生物基因組中的弱選擇機制的第二個重要含義是,生物化學活性但非功能性實體的不斷出現。基因組經歷的一系列突變不斷產生具有生化活性的短基序,包括轉錄因子結合和RNA聚合酶募集,從而產生了隱秘的轉錄起始位點。在弱選擇機制下,只有這些隱性轉錄起始位點相關的轉錄物在漂變障礙上具有負適應性時,才可以通過純化選擇來消除它們。這種質量保證機制可大大降低此類轉錄起始位點的潛在負面影響,該機制可降解偽RNA或至少阻止其有效地翻譯成蛋白質。因此,人們期望在弱選擇下進化的多細胞真核生物的基因組將不可避免地產生大量的,低豐度的非編碼RNA,這些RNA會產生小的(正和負)適應性效應。偽造的基因產生非特異性的轉錄噪聲(transcriptional noise),預計會被中性進化不斷產生和破壞。因此,複雜真核生物的進化動力學必定會產生一個充滿不斷變化的轉錄噪聲的基因組。
真核生物中特別是動植物中極其豐富的轉座子(transposable elements, TEs)進一步加劇了真核生物基因組的固有噪聲。這些DNA元件會自我複製,並且隨時間流逝,大多數會發生失活突變。作為結果,它們的「遺骸」構成了我們基因組DNA的大部分,例如在非常大的基因組中(例如,具有人類DNA數量50倍的蠑螈),TEs所佔的比例更高。確實,人們普遍認識到,基因組擴展在很大程度上受TEs活性的驅動,這已通過大規模的基因組調查和密切相關的物種分析得到了驗證。在某些情況下,全基因組重複和多倍性可以進一步擴展基因組,但是這些情況極為罕見,尤其是在脊椎動物中。TEs通常攜帶轉錄因子結合位點和轉錄起始位點,從而促進非特異性混雜的轉錄。實際上,已經觀察到許多lncRNA及其啟動子均來自TEs。最終,弱選擇下的進化動力學以及不斷添加和消除TEs共同導致非特異性轉錄本的不斷生成和丟失,從而導致了高度動態的垃圾RNA組(RNome)。
2,真核轉錄機器的「混雜」促進了垃圾RNA的產生
通常被掩蓋的另一個概念是,低水平的垃圾RNA的產生與我們目前對生物化學的理解完全兼容。所有酶和調節蛋白都具有一定程度的混雜性,並且可以結合至次優底物(sub-optimal substrates)並對其起作用。因此,通常識別短的簡併DNA基序的轉錄因子不僅會結合基因調控區域,而且會結合基因組中的許多其他非功能性位點。同樣,RNA聚合酶將在次優位點以任何可及的DNA上的低速率啟動轉錄,這解釋了為什麼人類和小鼠基因組中所有注釋的轉錄起始位點中有一半不與任何注釋的基因(包括lncRNA)相關。實際上,已經觀察到,無核小體的DNA容易轉錄為RNA,並且RNA聚合酶可將DNA結合到出芽酵母的整個基因組中,包括基因間區域,表明這些區域至少偶爾會被轉錄。此外,當抑制或刪除涉及RNA降解的酶時,酵母中這些基因間轉錄物的水平會增加。這種現象並不僅限於酵母,因為已經證明在小鼠肝細胞中,多達20%的轉錄發生在基因間區域,從而產生不穩定產物。因此,似乎RNA質量控制系統可以識別大多數偽轉錄本,並將其從RNA的總庫中刪除。
儘管緊密包裹在異染色質中的DNA通常是RNA聚合酶的不佳底物,但偶爾也會發生轉錄,其中一些轉錄對於維持許多真核生物的異染色質結構是必需的。確實,「DNA元件百科全書計劃(encyclopedia of dna elements,encode)」的數據表明,大多數異染色質都被轉錄,儘管水平很低。常染色質本身包含大量的基因間序列,這些序列可能不起作用,但也均以低水平轉錄。總的來說,確實能夠觀察到細胞包含許多非最佳反應的產物,這與通過基因間轉錄產生RNA尤其相關。
3, 質量控制系統可減少垃圾RNA的有害影響
垃圾DNA中的虛假轉錄起始位點和轉錄因子結合基序不斷在中性進化過程被生成和破壞,與固有的酶(如RNA Pol II)混雜在一起,這種進化的噪音不可避免地導致了垃圾RNA的產生。這些垃圾RNA分子具有超出其生產成本的有害潛力。然而,它們的潛在負面作用因真核基因表達特徵而受到抑制,尤其是所有真核生物中均存在的多層轉錄物質量控制系統。特別是,核本身是一種質量控制裝置,可防止大部分錯誤處理和隨機生成的轉錄本輸出到細胞質中並轉化為異常蛋白質。
編碼蛋白質的RNA包含加工信號,包括5』和3』剪接位點基序和內含子分支點(intronic branch points),它們經過一定程度的選擇才能將剪接體募集到新生轉錄本上。這些位點的利用通過外顯子和內含子中相鄰的剪接信號增強。募集後,剪接體去除這些信號以及RNA的非功能區(內含子),並將mRNA輸出因子募集到加工完全的mRNA,從而增強其輸出。此外,mRNA還包含其他區別特徵,例如GC含量模式,這些特徵也促進了其核輸出。相反,垃圾RNA通常缺乏強大的加工信號和其他促進輸出的特徵。確實,許多已注釋的lncRNA包含5』剪接位點基序,但缺少相應的3』剪接位點以及包含未剪接的內含子。此外,由於U1募集到成熟的轉錄本上,許多lncRNA似乎保留在細胞核中。除了弱的剪接信號外,lncRNA通常還具有其他在mRNA中消除的特徵,例如與TEs相關的基序,可促進衰變和/或核保留。儘管可以選擇使用質量控制機制來促進某些功能性lncRNA在細胞核中的正確定位,但所有這些觀察結果似乎都與大多數lncRNA都是「垃圾」的觀點最為吻合。儘管產生了大量的垃圾RNA,但它們在很大程度上被質量控制系統檢測到並保留在細胞核中降解,從而阻止了它們翻譯為異常蛋白質,從而降低了普遍轉錄的潛在有害作用。
從種群遺傳學的角度來看,質量控制體系的發展以及垃圾RNA的大量生產是弱選機制的結果。在這種進化機制下,單個突變的有害作用,即那些產生假轉錄位點導致垃圾轉錄的突變,不足以有效地從種群中消除。因此,服從弱選機制的有效群體規模較小的生物會進化出整體解決方案(例如,RNA質量控制系統)來針對局部問題(例如,產生隱秘轉錄本的突變)。這樣的整體解決方案進一步緩衝了普遍轉錄的有害作用,從而促進了偶爾產生功能性lncRNA的垃圾RNA庫的維持。
4, 建設性中性進化促進lncRNA的出現
複雜系統通過獲取新組件以及建立它們之間基本連接而出現。有研究提出,通過建設性中性進化(CNE)的進化現象,系統中的「零件」數量可以通過中性過程增加。在CNE下,生物系統的新部件或舊部件之間的新連接是由於近乎中性(通常是輕微有害)的突變而產生的。此類新興功能通常被稱為「產能過剩(excess capacity)」,因為它們有可能被招募為功能系統的新組成部分,因此並不能立即表現出對有機體的益處。產能過剩取決於弱選制度,因為這些特徵在弱選條件下發展的人群中更加頻繁地出現,而在強選擇條件下發展的人群中則可以被有效地消除。最好的描述CNE的範例最初涉及兩個分子之間的偶然相互作用。如果其中一個分子被突變破壞,則該相互作用可以通過「陪伴」幫助減弱突變的影響。目前,陪伴分子對於其受損伴侶的正常運轉至關重要。
在下文中,作者提出兩個說明性的場景,其中真核基因表達的特徵有助於通過CNE樣過程將垃圾RNA轉換為lncRNA。在這些情況下,最初通過選擇轉錄而不是轉錄序列來維持RNA的產生,而最終後者獲得了功能。
5, 基因間轉錄產物中抑制性lncRNAs的出現
RNA聚合酶II是合成pre-mRNA的主要轉錄酶,其C端結構域(C-terminal domain, CTD)可以募集染色質修飾酶,進而改變轉錄的DNA的包裝。隨著RNA聚合酶II離開啟動子區域,其CTD被磷酸化,從而使其能夠募集染色質修飾酶,在基因5』端的組蛋白H3的賴氨酸4上沉積二甲基化標記。隨著RNA聚合酶在轉錄延伸過程中穿過基因主體,CTD獲得了其他磷酸化標記,這些標記又募集了第二批染色質修飾酶,這些酶對組蛋白H3的賴氨酸36進行甲基化。這些修飾反過來募集了組蛋白脫乙醯基酶,這些酶最終阻止了基因體內隱秘起始位點的轉錄。通過染色質重塑的這種形式的轉錄物質量控制是至關重要的,因為源自基因體內虛假的,隱秘的起始位點的有義轉錄物通常包含mRNA的所有加工信號,因此可以翻譯成可能作為顯性抑制因子(dominant-negative factors)的截短蛋白。此外,源自這些位點的反義轉錄可以通過多種機制幹擾有義轉錄。
儘管通過RNA聚合酶II進行的染色質重塑很可能是在選擇性壓力下進行的,以抑制起源於基因體內的虛假轉錄,這個過程可以被選擇來下調內源基因。如上所述,在弱選擇機制下,基因間區域中的轉錄結合位點和隱秘轉錄起始位點不斷地出現和消失,只要它們基本上不影響生物體的適應性即可。實際上,基因間轉錄起始位點已顯示出下調在發育過程需要被抑制的基因,以響應營養供應量的變化或誘發的壓力。在這些情況下,轉錄因子通過與存在於基因間區域或基因體內的轉錄起始位點結合而對環境線索作出反應,促進內源性啟動子上依賴RNA聚合酶II的轉錄從而有效地使它們沉默。重要的是,這種沉默僅需要最低水平的轉錄,並且在很大程度上與所產生的RNA無關。當正向選擇這些調節過程然後加以固定時,產生的RNA本身有一定用處,但是通過選擇來維持其存在。然後,RNA可以自由地在進化時間內探索序列空間,並且可能會偶然獲得染色質重塑酶或其他可增強沉默的蛋白質的結合位點。
與CTD不同,lncRNA可以募集任何數量的特異性染色質修飾酶和其他轉錄阻遏物。LncRNA還可以充當骨架,將通常無法在給定CTD上組裝的許多不同調節複合物聚集在一起。一旦構建lncRNA,它就可以對基因表達進行局部微調,從而可能打開新的進化方向,而這些將很難通過基於CTD的簡單沉默來實現。的確,嚴重依賴基因組不同部分的特異性沉默的生物過程(例如劑量補償和HOX基因調控),在多種生物中受到lncRNA的調控,包括真獸類X染色體失活中的XIST,果蠅X染色體失活中的roX,以及HOTAIR在脊椎動物HOX基因調控中的作用。因此,基於lncRNA的沉默機制似乎促進了這種基因調控創新。
在這種進化情況下,lncRNA的主要功能似乎是染色質重塑,而染色質重塑會局部或更廣泛地影響基因表達。一系列類似CNE的事件可以解釋許多lncRNA的出現(例如MEG3,HOTAIR和ANRIL),它們通過募集具有固有RNA結合能力的多梳抑制複合物(polycomb repressive complexes)來調節附近的基因。在一項研究中,觀察到469種分析的lncRNA中有180種與多梳抑制複合物或CoREST相關。值得注意的是,這兩種複合物均具有染色質修飾酶或與之相關聯,從而使基因局部沉默。最終,這些lncRNA甚至可以變得足夠強大,不僅可以充當局部基因調節劑,而且還可以充當遙遠基因座的反式調節劑,隨著時間的流逝,其中一些甚至可能適合用於與基因調節無關的其他過程。
圖1,來自抑制性轉錄事件的lncRNA的演化
6, 來自增強子RNA的激活lncRNA的出現
類似於CNE的機制也可以幫助解釋增強附近基因轉錄的lncRNA的出現。大多數增強子和一些啟動子區域的核小體密度低,並且包含大量轉錄因子結合位點,可促進依賴於RNA聚合酶II的轉錄,從而產生被稱為增強子RNA(enhancer RNAs, eRNA)或PROMPT的非編碼RNA。大多數eRNA被RNA質量控制機制迅速丟棄,因此壽命短。全基因組研究表明,eRNA的合成水平與局部mRNA的合成水平相關。eRNA 通常很短,一些是從兩條鏈合成的,而另一些則是從單條鏈合成的;一些是聚腺苷酸化的,而另一些則不是。由於這些原因,eRNA和lncRNA之間的區別仍然含糊不清。eRNA在增強子功能中的作用,仍存在爭議:在某些增強子中,eRNA似乎是完全不需要的,而在其他情況下(例如,Upperhand,Irg1 eRNA和Ifnar2 eRNA),它們是RNA聚合酶II依賴性轉錄的副產物,可在增強子激活過程中重塑染色質景觀。據報導,其他eRNA如KLK3e,FOXC1 eRNA和AS1 eRNA通過介導基因環化直接促進附近基因的激活,而諸如Bloodlinc類的eRNA甚至會激活沒有物理連接到各自增強子的基因。它們的起源可能是由於無核小體,轉錄因子結合位點豐富的DNA區域不可避免的低水平轉錄,隨時間流逝而獲得中性突變。如果eRNA偶然獲得某種促進基因環化或激活附近基因轉錄的活性,則這種產能過剩使增強子發生突變性衰變,此時需要lncRNA相關活性並通過純化選擇來維持。
圖2,來自eRNA的lncRNA的演化
7, LncRNAs從許多不同類型的非功能性前體進化而來
一個比較統一的說法是,lncRNA的進化主要是由於從影響染色質調節,增強子功能或其他過程的各個啟動子中選擇轉錄,而至少從一開始就不是從影響轉錄物序列本身的正向選擇中進行。這種進化過程產生了垃圾RNA,且隨時間流逝可以獲得調控因子的結合位點。這些位點可能是短基序,結構元件,甚至是RNA加工信號。有趣的是,傾向於顯示最高保守水平的lncRNAs區域是剪接位點周圍的區域,這表明它們可能只是起到共轉錄募集剪接體的作用,剪接體本身與某些影響局部染色質堆積的染色質調節複合物結合。
TE在lncRNA進化中也起著重要作用,因為TE插入是垃圾DNA在真核基因組中擴展的主要機制之一。許多lncRNA外顯子都含有TE插入序列。據估計,lncRNA中約40%的核苷酸來自TE,而超過80%的lncRNA包含至少一個TE插入。模型預測,大多數lncRNA源自基因周圍的垃圾序列,而蛋白質編碼基因則主要源自基因複製。最近的核糖體譜分析分析發現許多小ORF是從以前被認為是非編碼RNA的翻譯而來的,許多產生的小蛋白似乎在功能上很重要。因此,lncRNA和mRNA之間沒有不可穿透的屏障,並且CNE樣過程也可以極大地促進新型蛋白質功能的出現。
垃圾轉錄物是lncRNA的最常見但不是唯一來源。用mRNA進行進化修飾也可以產生lncRNA,然後將其改造成染色質重塑的新功能。XIST RNA就是這種情況,它是從仍存在於鳥類,爬行動物和有袋類動物中的蛋白質編碼基因進化而來,但失去了其編碼能力,並在以獸類哺乳動物中獲得了一些TE衍生的序列,參與了X染色體劑量補償。mRNA無需先失去其編碼功能,就如同squint,不僅編碼蛋白質,而且在小鼠胚胎發育中具有單獨的非編碼RNA功能。從mRNA進化lncRNA的其他情況,特別是通過TE插入破壞編碼序列的情況,很可能存在並有待表徵。然而,考慮到蛋白質編碼區的破壞通常是有害的,並且考慮到動物基因組的普遍轉錄,我們強烈懷疑此處概述的從垃圾轉錄物中進化功能性lncRNA的「轉錄優先」模型是lncRNA的主要途徑演化。
討論
總的來說,從種群遺傳學的角度來看,複雜基因組中「垃圾高發」的根本原因是很明顯的:複雜生物體中有效種群規模很小,因此選擇效率低下,遺傳漂變是進化的主要因素。垃圾DNA的有害作用相對較弱,因此它不會越過漂移壁壘,因此無法通過純化選擇被有效地清除。此外,選擇效率低下的生物進化出了針對普遍存在的局部問題的全局解決方案,例如RNA質量控制系統,從而限制了垃圾轉錄本對機體的損害。正如Ohno在介紹「垃圾DNA」概念的開創性論文中所認可的那樣,「junk is not garbage」。弱選進化機制鼓勵「產能過剩」的產生,並為推動生物體複雜化的新功能實體的進化提供原材料。這種類似於CNE的進化途徑與lncRNA特別相關,在lncRNA中,相對少量的突變可能會將垃圾轉錄物轉化為功能性RNA分子。因此,lncRNA組(lncRNAome)及最終的生物複雜性可以歸功於基因組中的垃圾。
原文連結:
https://doi.org/10.1016/j.cell.2020.09.047