Circular RNA(circRNA)是一類新的非編碼RNA,具有共價連接的閉環結構,由反向剪接(backsplice,或稱為首位剪接,head-to-tail splice)事件產生。CircRNA在組織中廣泛表達,結構穩定、能夠抑制RNase R酶的降解,並且一些circRNA具有發育階段特異性和物種間的保守性。目前發現一些circRNA在細胞質中充當miRNA海綿,或作為RNA結合蛋白(RNA binding protein, RBP)的隔絕子,或作為核內翻譯的調控子,是基因表達調控網絡的重要參與者。目前已發現circRNA可能在動脈粥樣硬化、神經退行性疾病、朊病毒疾病和癌症中發揮重要作用。
歷史回顧
CircRNA早在1970s就已經在RNA病毒中被發現,到1990s首次在人類細胞中發現DCC能轉錄成circRNA,但其研究隨後湮沒了長達二十多年——人們認為絕大部分RNA都是線性的,因此,circRNA被認為是遺傳意外或實驗人工產物。直到2012年,史丹福大學醫學院的分子生物學家Julia Salzman及其同事發現了人類細胞中有大量的circRNA表達;接著,在2013年,nature刊登了兩篇關於circRNA充當分子海綿的重要研究,表明這些circRNA分子在生物體中可能發揮著重要作用;而circRNA在線蟲、小鼠和人類等生物體中廣泛表達進一步論證了它在生物學通路中扮演著重要角色。
分子特徵
反向剪接
與線性分子(如mRNA)經典的前向剪接模式(上遊供體的3』端與下遊受體的5』端連接)不同,circRNA是由反向剪接(剪接供體的3』端與上遊受體的5』端共價連接)產生。因此,circRNA沒有poly(A)尾。
分子組成
circRNA主要來自編碼基因的外顯子,也可能來自編碼基因的內含子、基因間區、UTR區域或非編碼RNA基因位點。CircRNA可能僅僅由一個外顯子構成,也可能由多個外顯子構成;由外顯子和內含子構成的circRNA被稱為EIciRNA,一般定位在核中;還有一類僅由內含子構成,稱為ciRNA。
可變環化
和線性分子一樣,circRNA的同一個基因位點可能由於剪接位點等因素的改變產生多個轉錄本。例如不同於經典的U2剪接體(spliceosome)的U12剪接體對circRNA基因進行的剪接事件。
不可翻譯
幾乎沒有circRNA可以被翻譯,雖然有研究人員發現個別circRNA具有開放閱讀框,例如Perriman和Ares報導了一個環狀mRNA包含一個簡單的綠色螢光蛋白(GFP)的開放閱讀框。迄今為止,真核細胞中只有一個已知的外源病毒circRNA編碼HDV,還沒發現有內源性circRNA能編碼蛋白質。
細胞內非常穩定
外顯子circRNA在細胞中非常穩定,在大多數物種中存活半衰期超過了48h(mRNA半衰期只有10h)。然而,外顯子circRNA在血清中不穩定,半衰期不超過15s,可能由於環化RNA的核酸外切酶的存在。
識別
目前已儲存了大量的RNA-seq數據(特別是Illuminal平臺),通過開發生物信息學工具合理地利用這些資源識別circRNA是必要的。CircRNAs沒有poly(A)尾,因此,poly(A)選擇的數據不適合用於識別circRNA分子,用來作為假陽性對照;circRNA是環化分子,對RNase R酶降解抑制,因此,RNase R酶處理後的數據往往能識別的circRNAs為真實的分子,用來作為真陽性對照。
以下列出了目前識別circRNA分子的一些方法和工具:
生化方法
CircleSeq
一種全基因組識別circRNA的生化方法,利用RNase R獲得酶抑制的RNA,然後測序,並用MapSplice比對算法識別backsplice序列。CircleSeq也識別套索,RNase R會刪除套索的尾巴。該方法已經在古生菌和哺乳動物中實現,所發現的外顯子circRNA也得到了證實。
計算方法
1.find_circ
2013年隨著Circular RNAs are a large class of animal RNAs with regulatory potency這篇文章發布的。對於circRNA,成環的剪接位點不能直接mapping會基因組。因此,首先,通過mapping篩選出這些未比對的reads;然後取這些reads兩頭的20bp,重新mapping到基因組上;接著,利用開發的方法檢測這些短序列是否是circRNA的短序列。
2.MapSplice
3.Segemehl
利用segemehl直接mapping ,尋找backsplice,然後人工判斷
4.CIRCexplorer
隨2014年上海生科院的Complementary Sequence-Mediated Exon Circularization發表問世。CIRICexplorer巧妙運用fusion gene這個思路去檢測circRNA。首先,過濾出tophat無法mapping的reads,然後用tophat-fusion mapping這些reads到基因組上;接著,利用基因注釋,確定精確donor和acceptor的位置;最後對circRNA進行注釋。
5.circRNAFinder
6.CIRI
由北京生科院發表的工具,對sam格式中的CIGAR值進行分析,掃描PCC信號(paired chiastic clipping signals),進而識別circRNAs。該方法操作簡單,但消耗內存比較大。
7.KNIFE
Known and Novel IsoForm Explorer. 發表於Statistically based splicing detection for circular and linear isoforms from RNA-Seq data,是一種統計學識別真實circRNA的方法。該方法與finc_circ以及CIRI進行了比較,具有更強的敏感性和更高的準確性。
8. NCLscan
這些方法的詳情及使用說明請自行搜索,以下是網友關於這些方法的討論的連接
1. http://yulijia.net/cn/論文筆記/2015/08/07/circRNA-tools.html
2. https://www.biostars.org/p/127785/
假陽性探討(主要針對環狀外顯子RNA)
Backsplice序列不僅僅是由circRNA形成產生,還可能由其他機制獲得,例如反轉錄酶模板替換(reverse transcriptase template switching)、串聯複製(tandem duplication)和RNA反式剪接(RNA trans-splicing)。如圖
一些方法可以區分真實circRNA與這些假陽性(圖b)
生物起源
雖然已經有數千個circRNAs被識別,例如circBase收集了幾篇文章發現的大量circRNAs,然而這些circRNAs的生物起源我們卻知之甚少。CircRNAs的junction(即供體與受體相連)附近被發現具有經典的剪切信號,那麼剪接體(spliceosome,進行RNA剪接時形成的多組分複合物,主要由小分子核RNA和蛋白質組成)可能參與產生circRNA分子。然而,研究表明,circRNA表達並不總是與同源基因所產生的線性RNA表達相關,這說明剪接體能夠區分前向間接(forword splicing,例如mRNA的生成)和後向間接(backsplicing,例如circRNA分子的剪接)。但目前對實現剪接體區分的機制還不能被了解,儘管如此,對於RNA環化的機制已有一定的研究,目前已經發現了三種共存的環化機制。這三種機制都是基於將相關的剪切位點並列在一起,至於如何實現拉近剪切位點的距離三者存在差異。見模式圖
1. 第一種機制是內含子配對驅使環化形成:成環外顯子側翼的內含子包含反向互補motifs,它們的配對形成了莖的限制性結構,卻導致剪接位點臨近促進了環化。
2. 綁定到了成環外顯子的側翼內含子的motif上的RBPs發生配對,導致剪接位點臨近而促進了環化
3. RBPs誘導circRNAs形成的另一種潛在方式是通過誘導外顯子跳躍(exon skipping)——一個轉錄本的一個或多個外顯子被跳過而剪接出線性轉錄本,留下一個包含外顯子的套索;該套索包含被跳躍的外顯子,被剪接體識別並且連接。
4. 補充模式
區分外顯子circRNA與RNA套索非常重要。套索RNA大所訴是內含子的,在分支點是2』-5』碳連接。套索RNA比之前所預料的更加穩定,這些RNA的3』尾端被降解後,留下環狀分子——稱為intronic circRNA(ciRNAs)。反轉錄酶跨過2』-5』junction分支點時,會有一個或多個沒有模板的鹼基產生,這很容易被測序檢測到。同時,套索很容易被分支酶消除。
功能
miRNA Sponge
目前有兩個circRNAs——ciRS-7/CDR1as和Sry發現能夠結合miR-7和miR-138:ciRS-7/CDR1as包含超過70個miR-7的結合位點,能夠抑制miR-7的活性,在腦中特別是小腦中高表達;Sry被發現在小鼠睪丸中高表達,通過體外螢光報告試驗表明能夠抑制miRNA活性,包含16個可能的miR-138的結合位點。
到目前為止,被證實作為miRNA的sponge的circRNA只有CDR1as和Sry,因此,人們開始懷疑是否circRNA真能作為miRNA sponge。但研究表明許多circRNA被預測有大量miRNA的結合位點,並且還在果蠅中發現了高度保守的miRNA結合位點;另外,有研究發現circRNA所預測的miRNAs結合位點的SNP密度較低,這與3』UTR上miRNA種子位點類似,也支持了circRNA能作為miRNA sponge的證據
蛋白質decoy或trap
CircRNA能作為蛋白質的decoy,例如果蠅中mbl位點轉錄的circRNA——circMBl包含MBL蛋白質的結合位點。MBL能夠誘導circMbl生成,從而抑制了MBL前體mRNA的生成,進而限制了MBL蛋白質繼續產生,反過來抑制了circMbl的生成。因此,circMbl似乎是MBL自調控環路中的一員。
Chao等人發現小鼠的formin(Fmn)基因可以生成circRNA,該circRNA包含翻譯起始位點,能夠作為一個mRNA trap——留下非編碼的線性轉錄本而減少了Fmn蛋白質表達水平。Jeck和Sharpless發現在人類成纖維細胞中許多單外顯子的circRNAs都包含翻譯起始位點。這些發現表明,circRNAs可以通過隔絕翻譯起始位點作為mRNA trap從而調控蛋白質的表達。
轉錄調控子
EIciRNAs最近被報導通過與U1 snRNP和RNA聚合酶II在宿主基因的啟動子上互作能增強宿主基因的轉錄。
CircRNA與疾病
1. 朊病毒疾病
在HEK293細胞中,朊病毒蛋白PrPC的穩定過表達能夠誘導ciRS-7/CDR1as的表達,說明CDR1as可能涉及朊病毒疾病。
2. 肌強直性營養不良
MBL功能缺失會引起退行性疾病——肌強直性營養不良,而MBL的轉錄本circMbl與線性轉錄本mbl會發生轉錄競爭,這樣circMbl可能與肌強制性營養不良相關。
3. miRNA參與的疾病
1)miR-7參與了大量通路和疾病包括作為alpha突觸核蛋白和泛素蛋白激酶A的直接調控子,CDR1as已經涉及到了帕金森病、阿爾茲海默症以及腦發育。
2)miR-7具有致癌和腫瘤抑制子的性質,CDR1as/miR-7可能涉及到了癌症的發生發展。Li等人已表明cir-ITCH的表達在食管鱗狀細胞癌中較正常低表達,因此可能與miRNA(例如miR-7/miR-17/miR-214)互作發生抑癌作用,並上調ITCH的表達從而降解泛素介導的Dvl2並減少致癌基因c-myc的表達——該過程抑制了Wnt信號通路。
4. 癌症
研究12配對的正常與結腸直腸癌的RNA-seq數據發現circRNA在癌組織中表達整體下降。通過晶片研究發現,在胰腺導管癌中circRNAs的表達特徵發生了紊亂。
研究人員還發現circRNA has_circ_002059在胃癌中表達下調,表明可能是一個潛在的biomarker。
5. 心血管疾病
Burd等人發現了環狀分子cANRIL(INK4位點中環狀反義非編碼RNA,來自INK4A-ARF位點)。在粥樣動脈硬化血管疾病中,接近INK4/ARF(CDKN2a/b)位點的9p21.3上存在的SNPs可能調控ANRIL剪接以及cANRIL產物。CANRIL表達與INK4/ARF轉錄以及動脈粥樣硬化血管疾病相關。
6. Biomarker
人們研究果蠅circRNAs發現它們可以作為衰老的biomarker,同時研究人類唾液中的circRNAs推測其能作為疾病的生物標記。
參考文獻
[1] Detecting and Characterizing circular RNAs
[2] Circular RNAs Identification, biogenesis and function
[3] Circular RNA A new star of noncoding RNAs
歡迎關注生信人