一文學會circRNA編碼蛋白探究神器circRNADb資料庫
各位小夥伴們,大家好~我是火,歡迎大家來到火火的資料庫安利專欄。前幾期我們說到過circRNA研究領域裡面比較熱門的兩個資料庫。
前者為circRNA提供了一套新的命名體系,並且可以預測circRNA與miRNA的交互作用;後者不僅可以預測circRNA與miRNA的互作,同時預測了某一個circRNA可能結合的RBP蛋白(RNA binding protein)。
今天我們再來聊聊circRNA研究領域常見研究思路中最後一個,也是最難做的一個方向—circRNA編碼蛋白。今天我們的主角circRNADb資料庫在這一方面就發揮著重要的作用。
circRNA作為非編碼RNA,在20世紀70年代才首次被人們發現,之後幾十年內一直被斷斷續續地進行研究,探索其在基因表達調控中發揮的作用。1995年,中國科學家首次在Science上報導了一個人工合成的circRNA,包含IRES序列元件,使得該circRNA得以招募核糖體與之結合,從而啟動翻譯。不含IRES序列原件的circRNA則無法行使該功能。雖然這個circRNA是純人工合成的產物,但是引起了circRNA編碼蛋白的研究熱潮。科學家們開始致力於研究人體內天然存在的circRNA是否同樣存在IRES序列元件,即是否存在編碼蛋白質的可能性。
在這裡給大家畫個重點,經典的基於核糖體的翻譯過程是要求mRNA存在5『端帽子結構。而在真核生物體內還存在一種啟動翻譯的機制就是RNA內部存在允許核糖體結合的位點,即IRES序列元件。IRES序列元件是一段核苷酸序列,允許核糖體直接在一段RNA序列中間啟動翻譯,而不要求從5』端到3『端進行閱讀。circRNA是由頭尾相連的閉合環狀結構,缺少5』端帽子以及3『端polyA的尾巴,因此只能採取第二種形式來啟動翻譯。如果一個circRNA包含至少一個IRES序列元件,它就有可能編碼蛋白質。除此之外,還有一個重要的概念就是ORF(Open Reading Frame,開放閱讀框)。它是一段對應於蛋白質胺基酸序列的密碼子序列,從起始密碼子ATG開始,到終止密碼子TAA/ TAG/TGA結束。ORF與上遊的核糖體募集、組裝以及IRES等翻譯調控元件一起完成RNA的翻譯過程。換言之,預測circRNA能否編碼蛋白,最重要的一點就是預測其是否包含IRES序列元件以及ORF序列。
好了,背景知識介紹的差不多啦,我們正式開始circRNADb資料庫的介紹。資料庫網址是http://reprod.njmu.edu.cn/circrnadb,大家在使用的時候不要忘記引用參考文獻喲~
Chen, X., Han, P., Zhou, T. et al. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations. Sci Rep 6, 34985 (2016).
一、資料庫基本介紹
circRNADb是一個綜合性的circRNA信息查詢資料庫,收集文獻中報導的circRNA相關數據集加以分析。由於原始數據集可能存在假陽性(circRNA兩端的序列來自不同基因)和信息冗餘,開發者使用GTF文件對其進行了篩選,共得到32,914個人類外顯子circRNA,並列出了其詳細的基因組信息,包括最匹配的轉錄本和相應的外顯子剪接信息、基因組序列,以及所有可能的剪接異構體和相應的外顯子剪接信息。開發者還注釋了具有蛋白質編碼潛力的circRNA的IRES序列元件以及開放閱讀框(ORF),並提供了其蛋白質表達的質譜學證據。此外,circRNA翻譯的蛋白質的特性,包括結構域、N-糖基化位點、粘蛋白O-糖基化位點以及磷酸化位點也在資料庫中有所展示。
circRNADb數據來源結構及分析流程
輸入網址http://reprod.njmu.edu.cn/circrnadb,進入資料庫主頁面。整個頁面清爽整潔,一目了然,傻瓜式操作對初學者使用十分友好。網頁右上角有一個檢索框,用戶可以根據需要在其中輸入關鍵詞,包括染色體名稱、gene symbol,轉錄本信息等來查詢circRNA,結果頁面會列出與關鍵詞匹配的結果,這裡不過多贅述。下方導航欄中的「Home」即為當前主頁面,展示了circRNADb資料庫以及circRNA的基本介紹。點擊「View All RNAs」可以查看資料庫收錄的所有circRNA的信息。點擊「Resources」可以下載circRNADb資料庫中所有的circRNA數據集。為了維護和更新資料庫,circRNADb資料庫設計了「Submission」與「Feedback」頁面(點擊「Interaction」即可看到),供用戶向circRNADb提交自己的數據、報告問題或提出建議。點擊「Tutorial」可以查看資料庫的使用幫助。
二、circRNADb資料庫信息檢索
circRNADb資料庫的檢索方式一共提供了「Advanced Search」,「Browse by Gene Symbol」,「Browse by Cell Type」,「Browse by PubMedID」以及「Browse by Protein-coding Potential」等5種檢索選項。
在「Advanced Search」頁面中,可以使用多達6個「AND」、「OR」以及「NOT」相結合的欄位來檢索特定的circRNA。
在「Browse by Gene Symbol」頁面中,所有宿主基因的gene symbol以及其所能產生的所有circRNA轉錄本均以表格形式列出。注意,由於circRNADb也是基於已有文獻報導的數據集進行的整理,所以信息相對不夠完善,在circbase以及circbank資料庫中針對某一特定宿主基因所能產生的circRNA信息更為全面。
用戶可以通過點擊右側的「Counts」查看每個宿主基因的詳細信息以及所能形成的所有circRNA。
circRNADb資料庫同時支持按細胞(或組織)類型進行檢索。所有數據按細胞(或組織)類型進行分組,共包含11種細胞和組織。每個細胞或組織的circRNA總數同時在一旁列出,用戶可以單擊「Counts」下的數字查看該細胞或組織類型中所有circRNA的詳細列表。這一功能對於檢索在特定細胞或組織中表達的circRNA非常有用。
「Browse by PubMedID」以及「Browse by Protein-coding Potential」允許用戶按Pubmed ID以及蛋白質編碼潛能進行檢索。由於circRNADb資料庫包含32,914個circRNA,其中11,423個circRNA包含IRES序列元件,16,328個circRNA包含ORF,僅7,010個circRNA同時包含IRES序列元件以及ORF(擁有編碼潛能),佔據所有circRNA的21.3%。因此,「Browse by Protein-coding Potential」可以幫助用戶直接聚焦到可能編碼蛋白的circRNA上。
三、頁面結果解讀
點擊進入「View All RNAs」頁面,以第一條circRNA「hsa_circ_00001」為例進行結果解讀。點擊紅色連結,進入該circRNA的詳細頁面。
頁面刷新後可以發現頁面分為上下兩部分,「General Information」以及「Detail Information」。基本信息部分顯示了每個circRNA的ID、基因組位置、正/反義鏈、宿主基因的Gene Symbol、基因組長度、樣本名稱以及物種信息。
頁面下拉,「Detail Information」提供了circRNA轉錄本的外顯子數量、來源、大小、長度等組成信息以及整個circRNA的全長序列。其次,為了研究circRNA的蛋白質編碼潛能,資料庫預測了每個circRNA中的IRES序列元件和超過300bp長度的開放閱讀框(ORF),並提供了得分最高的兩個IRES序列元件,包括位置、參數指標(R得分以及是否存在偽結點)。如果R得分低於1.6分,或不存在ORF,則該circRNA被認為不編碼蛋白。如果circRNA具有編碼蛋白質的潛能,資料庫則提供包括結構域、翻譯後修飾位點以及半衰期預測等在內的蛋白質特徵。頁面最下方還提供了該circRNA的文獻來源,包括PubMed ID和詳細的參考文獻。
好了,關於circRNADb資料庫的介紹我們就到這裡結束啦。circRNA編碼蛋白目前還是一個很大的研究方向,因此該資料庫的重要性不言而喻。但是讀者應同時認識到它的局限性,如該資料庫所引用的文獻尚未完全涵蓋所有的circRNA,所以信息並不全面;其次在檢索過程中,circRNA的ID也是使用上的一個痛點。該資料庫進行檢索時使用的是五位數circRNA ID,而主流資料庫如circbase則採用的是7位數ID,因此在匹配上會帶來一定的麻煩。火火推薦使用gene symbol在circRNADb中進行檢索,或者使用染色體序列位置在circbase中進行檢索,可以避開這種尷尬的情況~