circRNA研究神器！circRNA編碼蛋白研究必備

2020-11-20 解螺旋

一文學會circRNA編碼蛋白探究神器circRNADb資料庫

各位小夥伴們，大家好~我是火，歡迎大家來到火火的資料庫安利專欄。前幾期我們說到過circRNA研究領域裡面比較熱門的兩個資料庫。

前者為circRNA提供了一套新的命名體系，並且可以預測circRNA與miRNA的交互作用；後者不僅可以預測circRNA與miRNA的互作，同時預測了某一個circRNA可能結合的RBP蛋白（RNA binding protein）。

今天我們再來聊聊circRNA研究領域常見研究思路中最後一個，也是最難做的一個方向—circRNA編碼蛋白。今天我們的主角circRNADb資料庫在這一方面就發揮著重要的作用。

circRNA作為非編碼RNA，在20世紀70年代才首次被人們發現，之後幾十年內一直被斷斷續續地進行研究，探索其在基因表達調控中發揮的作用。1995年，中國科學家首次在Science上報導了一個人工合成的circRNA，包含IRES序列元件，使得該circRNA得以招募核糖體與之結合，從而啟動翻譯。不含IRES序列原件的circRNA則無法行使該功能。雖然這個circRNA是純人工合成的產物，但是引起了circRNA編碼蛋白的研究熱潮。科學家們開始致力於研究人體內天然存在的circRNA是否同樣存在IRES序列元件，即是否存在編碼蛋白質的可能性。

在這裡給大家畫個重點，經典的基於核糖體的翻譯過程是要求mRNA存在5『端帽子結構。而在真核生物體內還存在一種啟動翻譯的機制就是RNA內部存在允許核糖體結合的位點，即IRES序列元件。IRES序列元件是一段核苷酸序列，允許核糖體直接在一段RNA序列中間啟動翻譯，而不要求從5』端到3『端進行閱讀。circRNA是由頭尾相連的閉合環狀結構，缺少5』端帽子以及3『端polyA的尾巴，因此只能採取第二種形式來啟動翻譯。如果一個circRNA包含至少一個IRES序列元件，它就有可能編碼蛋白質。除此之外，還有一個重要的概念就是ORF（Open Reading Frame，開放閱讀框）。它是一段對應於蛋白質胺基酸序列的密碼子序列，從起始密碼子ATG開始，到終止密碼子TAA/ TAG/TGA結束。ORF與上遊的核糖體募集、組裝以及IRES等翻譯調控元件一起完成RNA的翻譯過程。換言之，預測circRNA能否編碼蛋白，最重要的一點就是預測其是否包含IRES序列元件以及ORF序列。

好了，背景知識介紹的差不多啦，我們正式開始circRNADb資料庫的介紹。資料庫網址是http://reprod.njmu.edu.cn/circrnadb，大家在使用的時候不要忘記引用參考文獻喲~

Chen, X., Han, P., Zhou, T. et al. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations. Sci Rep 6, 34985 (2016).

一、資料庫基本介紹

circRNADb是一個綜合性的circRNA信息查詢資料庫，收集文獻中報導的circRNA相關數據集加以分析。由於原始數據集可能存在假陽性(circRNA兩端的序列來自不同基因)和信息冗餘，開發者使用GTF文件對其進行了篩選，共得到32,914個人類外顯子circRNA，並列出了其詳細的基因組信息，包括最匹配的轉錄本和相應的外顯子剪接信息、基因組序列，以及所有可能的剪接異構體和相應的外顯子剪接信息。開發者還注釋了具有蛋白質編碼潛力的circRNA的IRES序列元件以及開放閱讀框(ORF)，並提供了其蛋白質表達的質譜學證據。此外，circRNA翻譯的蛋白質的特性，包括結構域、N-糖基化位點、粘蛋白O-糖基化位點以及磷酸化位點也在資料庫中有所展示。

circRNADb數據來源結構及分析流程

輸入網址http://reprod.njmu.edu.cn/circrnadb，進入資料庫主頁面。整個頁面清爽整潔，一目了然，傻瓜式操作對初學者使用十分友好。網頁右上角有一個檢索框，用戶可以根據需要在其中輸入關鍵詞，包括染色體名稱、gene symbol，轉錄本信息等來查詢circRNA，結果頁面會列出與關鍵詞匹配的結果，這裡不過多贅述。下方導航欄中的「Home」即為當前主頁面，展示了circRNADb資料庫以及circRNA的基本介紹。點擊「View All RNAs」可以查看資料庫收錄的所有circRNA的信息。點擊「Resources」可以下載circRNADb資料庫中所有的circRNA數據集。為了維護和更新資料庫，circRNADb資料庫設計了「Submission」與「Feedback」頁面（點擊「Interaction」即可看到），供用戶向circRNADb提交自己的數據、報告問題或提出建議。點擊「Tutorial」可以查看資料庫的使用幫助。

二、circRNADb資料庫信息檢索

circRNADb資料庫的檢索方式一共提供了「Advanced Search」，「Browse by Gene Symbol」，「Browse by Cell Type」,「Browse by PubMedID」以及「Browse by Protein-coding Potential」等5種檢索選項。

在「Advanced Search」頁面中，可以使用多達6個「AND」、「OR」以及「NOT」相結合的欄位來檢索特定的circRNA。

在「Browse by Gene Symbol」頁面中，所有宿主基因的gene symbol以及其所能產生的所有circRNA轉錄本均以表格形式列出。注意，由於circRNADb也是基於已有文獻報導的數據集進行的整理，所以信息相對不夠完善，在circbase以及circbank資料庫中針對某一特定宿主基因所能產生的circRNA信息更為全面。

用戶可以通過點擊右側的「Counts」查看每個宿主基因的詳細信息以及所能形成的所有circRNA。

circRNADb資料庫同時支持按細胞(或組織)類型進行檢索。所有數據按細胞(或組織)類型進行分組，共包含11種細胞和組織。每個細胞或組織的circRNA總數同時在一旁列出，用戶可以單擊「Counts」下的數字查看該細胞或組織類型中所有circRNA的詳細列表。這一功能對於檢索在特定細胞或組織中表達的circRNA非常有用。

「Browse by PubMedID」以及「Browse by Protein-coding Potential」允許用戶按Pubmed ID以及蛋白質編碼潛能進行檢索。由於circRNADb資料庫包含32,914個circRNA，其中11,423個circRNA包含IRES序列元件，16,328個circRNA包含ORF，僅7,010個circRNA同時包含IRES序列元件以及ORF（擁有編碼潛能），佔據所有circRNA的21.3%。因此，「Browse by Protein-coding Potential」可以幫助用戶直接聚焦到可能編碼蛋白的circRNA上。

三、頁面結果解讀

點擊進入「View All RNAs」頁面，以第一條circRNA「hsa_circ_00001」為例進行結果解讀。點擊紅色連結，進入該circRNA的詳細頁面。

頁面刷新後可以發現頁面分為上下兩部分，「General Information」以及「Detail Information」。基本信息部分顯示了每個circRNA的ID、基因組位置、正/反義鏈、宿主基因的Gene Symbol、基因組長度、樣本名稱以及物種信息。

頁面下拉，「Detail Information」提供了circRNA轉錄本的外顯子數量、來源、大小、長度等組成信息以及整個circRNA的全長序列。其次，為了研究circRNA的蛋白質編碼潛能，資料庫預測了每個circRNA中的IRES序列元件和超過300bp長度的開放閱讀框(ORF)，並提供了得分最高的兩個IRES序列元件，包括位置、參數指標(R得分以及是否存在偽結點)。如果R得分低於1.6分，或不存在ORF，則該circRNA被認為不編碼蛋白。如果circRNA具有編碼蛋白質的潛能，資料庫則提供包括結構域、翻譯後修飾位點以及半衰期預測等在內的蛋白質特徵。頁面最下方還提供了該circRNA的文獻來源，包括PubMed ID和詳細的參考文獻。

好了，關於circRNADb資料庫的介紹我們就到這裡結束啦。circRNA編碼蛋白目前還是一個很大的研究方向，因此該資料庫的重要性不言而喻。但是讀者應同時認識到它的局限性，如該資料庫所引用的文獻尚未完全涵蓋所有的circRNA，所以信息並不全面；其次在檢索過程中，circRNA的ID也是使用上的一個痛點。該資料庫進行檢索時使用的是五位數circRNA ID，而主流資料庫如circbase則採用的是7位數ID，因此在匹配上會帶來一定的麻煩。火火推薦使用gene symbol在circRNADb中進行檢索，或者使用染色體序列位置在circbase中進行檢索，可以避開這種尷尬的情況~

相關焦點

環狀RNA(circRNA)資料庫大匯總,快來看看有沒有你需要的!

首個匯總編碼蛋白環狀 RNA 的資料庫，共收錄了 32,914 個帶注釋的人類外顯子 circRNA，是一個完整的人類環狀 RNA 分子資料庫，每條記錄包含詳細的基因組信息、 RNA 編輯情況、 IRES 序列元件、
circRNADb:首個匯總編碼蛋白環狀RNA的資料庫

10月11日，Nature出版集團子刊Scientific Reports在線發表了南京醫科大學Li Yan團隊的一項重要環狀RNA研究成果，介紹開發了首個匯總可編碼蛋白的環狀RNA的資料庫：circRNADb(Chen et al.， 2016)。
circRNA研究必備工具:circRNA翻譯潛能預測

CircRNA有ORF區域，要想實現翻譯還有另外一個條件，那就是具有內在的核糖體進入結合位點（Internal Ribosome Entry Site，IRES）。IRESite（http://iresite.org/IRESite_web.php），基於已有68個病毒和115個真核細胞的實驗數據，收錄了大量的具有IRES位點的基因。
這款circRNA腫瘤異質性研究神器，究竟有多強？

經過前幾期推文的介紹，我們大概說完了circRNA研究領域三個主流研究方向的常用資料庫，包括circbank, circinteractome以及circRNADb資料庫。circRNA研究神器！circRNA編碼蛋白研究必備！我藏不住了！真香！
突破認知:LncRNA、circRNA編碼啦!

事實上，兩種非編碼RNA（ncRNA）的另一種共有屬性還未被廣泛發現，那就是「編碼」！一、非編碼RNA"編碼"概況納尼？非編碼還能編碼，這是什麼新特性！確實，根據許多標準，它們不太可能編碼功能蛋白。這些標準包括缺乏長的ORF，缺乏胺基酸序列保守性和缺乏已知的蛋白質結構域1。
circRNA研究神器，國自然申請你一定能用上

circRNA的研究難點在於其環狀的特殊性，導致其引物設計，過表達和RNAi技術以及機制的探索都比其他的非編碼RNA增加了許多難度。目前文獻報導的circRNA作用機制包括ceRNA，circRNA與蛋白結合，circRNA編碼小分子多肽等，主要目光聚焦於前兩個作用機制中。
circRNA研究無從下手?不如試試翻譯組學!

前不久，德國柏林Max Delbruck分子醫學中心(MDC)分析了80例人心臟組織的翻譯組學數據（其中65例擴張型心肌病，15例健康對照），發現了心臟組織特異的蛋白翻譯機制。在捕獲的可翻譯的RNA分子中發現了169種lncRNA，40種circRNA，進一步佐證了非編碼RNA，包括circRNA能被翻譯的事實。該文章的成果發表在《cell》上。
輕鬆玩轉circRNA

有別於LncRNA、mRNA、miRNA、snoRNA等這些線性的RNA，circRNA以其閉環特徵成功贏得了廣大科研工作者的青睞，成為近來研究的熱點
一篇NC文章告訴你circRNA研究新思路

原標題：一篇NC文章告訴你circRNA研究新思路一般circRNA的研究思路主要是ceRNA，即circRNA可以結合miRNA，使miRNA的靶基因上調；或者ceRNA可以降低其來源mRNA的翻譯水平。
腫瘤中的拉鋸戰——蛋白質和circRNA的拮抗作用

該研究針對Pokemon蛋白和circPOK的在間質腫瘤中的表達進行了研究，探究它們的異常表達與包括癌症在內的疾病發病機制的聯繫。摘要: circRNAs產生於mRNA加工過程中的反向剪接事件，當解除調控時可以在癌症中發揮積極作用。
circRNA研究必備神器之傻瓜攻略大全

可能有些做組學研究的小夥伴們需要整個物種的circRNAs序列信息，在這種情況下，大家只需要在工具欄「downloads」項進行選擇，找到對應的物種，點擊下載就可以了：
circRNA的三個主流研究方向,你屬於哪個?

（a）circRNA 作為miRNA sponge；（b）circRNA與蛋白結合；（c）circRNA翻譯成蛋白；下面我們一起來學習下這3大主流和相應的研究思路吧。第二類以蛋白結合（protein binding）為代表，即是circRNA與蛋白結合（常見於RNA結合蛋白RBP，不過也有其它類型蛋白），加拿大多倫多大學的Burton B Yang教授是此研究方向的佼佼者
circRNA晉身新一代biomarker分子,或成精準醫療未來新寵

最近的研究表明，生命體中除了線性的RNA分子，還大量存在著一類閉合環狀的RNA分子，他們在個體發育，不同組織內，疾病組織中都特異性的表達。通過二代測序鑑定，這些circRNA分子通常由蛋白編碼基因的2個——4個的外顯子部分，通過前面外顯子的5『端與後面外顯子的3』端互補結合環化而來。
circRNA敲除細胞株揭秘其對基因調控的重要作用

隨著高通量測序技術和生物信息學的發展，成千上萬種circRNA被發現，圍繞著circRNA的基礎研究也越來越多。大量研究表明circRNA在哺乳動物細胞中具有內生、豐富、保守、穩定等特點，並經常表現出組織或時空特異性，可以通過多種機制參與機體生長發育調控，以及疾病的發生和發展。因此，近年來circRNA逐漸成為非編碼RNA研究領域的熱點。
迄今最大人類基因組編碼蛋白互作圖譜問世

原標題：迄今最大規模的人類基因組編碼蛋白間直接相互作用的圖譜問世　　迄今最大人類基因組編碼蛋白互作圖譜問世　　可用於預測與癌症相關的新基因　　科技日報多倫多12月1日電（記者馮衛東）據最新一期《細胞》雜誌報導，由加拿大和美國科學家組成的一個國際研究小組，繪製出了迄今最大規模的人類基因組編碼蛋白間直接相互作用的圖譜
是否有轉錄因子調控我研究的circRNA, 如何尋找?

點擊"上海生命基因" 關注閱讀更多RNAseq信息circRNA的轉錄因子分析環狀RNA研究越來越火熱，大多數的機制在ceRNA機制，結合蛋白，翻譯蛋白上，主要是circRNA的下遊機制，上遊機制怎麼研究呢，我們可以找找哪些轉錄因子調控circRNA表達，哪些RNA剪切因子影響circRNA的表達，比如這個老師也是這麼想的：