CircPlant:植物環狀RNA整合分析工具

2021-02-16 GPBees

近日,GPB在線發表了浙江大學生命科學學院陳銘教授課題組題為「CircPlant: An Integrated Tool for CircRNA Detection and Functional Prediction in Plants」的方法文章。我們的「要文譯薦」欄目很高興邀請到論文的第一作者張霈婧博士親自為大家解讀CircPlant這個植物環狀RNA整合分析工具。

要點介紹

研究問題

增強植物環狀RNA識別的有效性

解決方案

提出植物環狀RNA特異性識別工具CircPlant

實現方式

針對植物circRNA剪接信號和可變剪接位點等問題,整合植物環狀RNA特異性識別標準到算法中,並提供circRNA-miRNA互作預測、ceRNA網絡搭建和circRNA功能注釋等後續分析。

源碼

http://bis.zju.edu.cn/circplant

 

背景

環狀RNA(circular RNA, circRNA)是一類具有共價閉合環結構的單鏈RNA分子,其在真核生物中普遍表達。作為內源性非編碼RNA的一員,circRNA與多種生物學過程相關,可以調控轉錄、影響可變剪接、沉默miRNA或蛋白質。隨著植物中circRNA研究的不斷增多,植物circRNA的特徵和功能逐漸被揭示。與動物中的結果類似,植物circRNA在不同物種中具有保守性,表達具有發育或組織特異性,可以調節其親本基因的轉錄,或充當miRNA海綿來發揮功能。然而,擬南芥、水稻、大豆和棉花等植物中的研究結果表明,植物circRNA環化位點的側翼內含子很少含有重複或反向互補序列,這與動物中的結果有所不同。考慮到動植物circRNA的形成機制、特徵和功能可能存在一定的差異,我們希望對植物circRNA進行深入研究。其中,準確的識別植物circRNA是關鍵且首要的步驟。目前,已有數十種circRNA識別工具,但這些方法幾乎都是為動物circRNA而開發的,植物circRNA的識別和分析工具少之又少。利用現有方法預測植物circRNA的準確性相對較低,可能是結果假陽性較高。考慮到動植物基因組以及circRNA形成過程的差異,我們需要一種植物特異性的方法來準確高效地識別植物circRNA。

本文報導了浙江大學生命科學學院陳銘教授團隊開發的植物circRNA整合工具CircPlant。該工具整合了植物特異性識別標準,不僅可以從高通量RNA-seq數據中準確檢測植物circRNA,也支持circRNA-miRNA互作預測、ceRNA網絡預測和circRNA功能注釋等後續分析。通過結合植物circRNA特異性的識別標準,CircPlant可以從RNA-seq數據中高效準確地識別植物circRNA。通過擬南芥和水稻的模擬數據和真實RNA-seq數據進行評估,發現CircPlant在模擬數據集中的敏感性和準確性均優於以前的工具,在真實數據中也取得很好的效果,且CircPlant能極大的縮短計算時間。

CircPlant工作流程

CircPlant包含四個運行模塊(如圖1所示),包括circRNA識別、circRNA-miRNA互作預測、circRNA-miRNA-mRNA網絡構建和circRNA注釋。

圖1  CircPlant工作流程


CircPlant特點

與其他circRNA識別工具相比,CircPlant有幾個重要的特點。(1)CircPlant是一種輕量級工具,安裝和使用非常方便。(2)CircPlant運行高效且內存佔用低。使用水稻測序數據評估CircPlant和其他四種circRNA識別工具的運行效率,結果顯示CircPlant具有更高的讀取映射率,並且計算時間較短(圖2),這使得CircPlant在處理大規模數據集時具有極大優勢。(3)CircPlant採取一些策略來提高植物circRNA識別的靈敏度和準確度,包括對CIRI2的核心算法進行改進,整合植物特異性識別標準;利用覆蓋潛在反向剪接位點的circRNA局部序列pseudoRef過濾假陽性位點;針對雙末端數據集,有更嚴格的過濾標準。

圖2  五種circRNA識別工具的性能比較


植物circRNA特異性識別標準

為了更準確且儘可能多的收集潛在的植物circRNA反向剪接位點,考慮到動植物基因組以及circRNA形成過程的差異,研究團隊整合了一些植物特異性識別標準到CIRI2算法中:(1)植物基因組中基因的拷貝數非常高,且存在大量的重複序列。在讀段匹配過程中,CircPlant採取了更嚴格的標準,包括匹配長度、匹配得分和錯配數等,用於過濾重複序列和匹配錯誤導致的假陽性結果。此外,強烈建議用戶提供基因組注釋文件。(2)兩個規範剪接位點(剪接供體和剪接受體)側翼的5 bp區域也被視作候選反向剪接位點區域(Chen et al., 2016a)。circRNA中反向剪接位點的細微變化,也是一種可變環化;研究發現,circRNA的可變環化通常發生在規範剪接位點附近(Szabo et al., 2015)。(3)除了使用來源於U2剪接體的剪接信號(GT-AG和GC-AG),CircPlant還採用來源於U12剪接體的信號(AT-AC)。研究發現,這兩類剪接信號佔植物剪接位點的99.5%以上(Marquez et al., 2012),而大部分工具僅考慮GT-AG信號。(4)對PlantcircBase中來源於12種植物的circRNA進行長度統計發現,絕大多數circRNA的長度小於20 kb,很少有circRNA長於100 kb(圖2-4)。因此,CircPlant中circRNA的默認長度閾值設置為20 kb,最大閾值設置為100 kb。

 

基於模擬數據和真實數據的評估

為了全面評估CircPlant的性能,研究團隊分別使用模擬數據和真實數據,對CircPlant和其他四種circRNA識別工具(MapSplice、ACFS2、PcircRNA_finder和CIRI2)進行比較。CircPlant在靈敏度和準確度方面均取得了很好的表現。

這四種工具有一定代表性,他們的算法展現了不同的circRNA識別思路。MapSplice是一種識別新的規範和非規範剪接位點的算法,它不依賴於剪接位點的特徵或是側翼內含子信息。ACFS是一種從頭預測方法(de novo),可以從RNA-seq數據中準確快速的識別circRNA並進行定量。這類方法在人類circRNA識別中運用的更多,本研究使用最新版本ACFS2。PcircRNA_finder是首個植物circRNA識別工具,它整合了五個算法/工具的結果,在植物circRNA識別中有一定的優勢,但是它僅能識別來源於外顯子的ecircRNA。CIRI2使用基於多種子匹配的最大似然估算法,是目前circRNA研究中應用最廣的工具。

模擬circRNA的環化過程,研究團隊分別從擬南芥(TAIR10)和水稻(IRGSP-1.0)的基因組中隨機選取了200個外顯子反向拼接形成的轉錄本,生成了相關模擬數據,使用靈敏度、準確度和F1值(準確度和靈敏度的綜合評價)這三個指標來評估五種工具的性能。兩套模擬數據的結果顯示(表1),CircPlant有較高的靈敏度(92%–96%)和準確度(99%),在平衡性上也有非常好的表現(95%–98%);MapSplice、ACFS2和PcircRNA_finder的靈敏度基本低於85%,且不能很好的平衡準確度和靈敏度,F1值基本低於0.8;CIRI2在三個指標中均有很好的表現,略微差於CircPlant。儘管PcircRNA_finder的準確度高於90%,但和CircPlant相比仍有一定差距,且靈敏度和平衡方面的表現非常一般。考慮到ACFS2算法是為人類circRNA識別而開發的,算法中包含了人類轉錄組中95%以上的規範剪接位點,它的表現不佳也就不足為奇。

表1  基於擬南芥和水稻模擬數據的五種circRNA識別工具的評估


真實數據的評估中,使用了從NCBI獲取的水稻葉片的poly(A)富集數據和過濾了線性轉錄本的poly(A)-數據。考慮到circRNA的環形結構,circRNA應該在poly(A)-樣本中被檢測到而不是poly(A)富集樣本。真實數據的結果顯示(圖3),MapSplice和ACFS2的表現極大地受到樣本的幹擾,在poly(A)富集樣本檢測到的circRNA數倍於poly(A)-樣本。MapSplice表現是最差的,可能因為MapSplice這種基於分割比對的方法僅考慮識別規範的剪接位點,而circRNA的其他特徵被忽視了。PcircRNA_finder、CIRI2和CircPlant受到樣本幹擾的情況較好。與這兩個軟體相比,CircPlant對poly(A)富集樣本不敏感,且在poly(A)-樣本中,CircPlant的大部分預測結果同時也被其他軟體預測到。儘管PcircRNA_finder也是植物circRNA特異性識別工具,但PcircRNA_finder和CircPlant預測結果的交集不多,這可能受到PcircRNA_finder算法的影響。PcircRNA_finder整合了五種算法/工具並取其交集,犧牲了一定的敏感性。有趣的是,PcircRNA_finder整合了MapSplice的結果,但是PcircRNA_finder和MapSplice在兩個樣本中的交集也非常少。

圖3  基於水稻真實數據的五種circRNA識別工具的評估

相較於其他四種軟體,CircPlant在模擬數據和真實數據的評估中均取得了較好的表現(表1和圖3)。PcircRNA_finder通過整合五種算法/工具,雖然在模擬數據中有較高的準確度,但也犧牲了靈敏度,導致真實數據評估中和其他軟體的交集較少。同時,PcircRNA_finder運行時必須同時依賴五個結果,STAR和TopHat的低效率也導致該軟體運行時間過長。CircPlant是在CIRI2算法上加以改進而完成的,CIRI2在靈敏度、準確度和計算時長中均有不錯的表現,植物特異性識別標準和二次讀段匹配整合到CIRI2算法中,使得CircPlant的優勢非常明顯,尤其是在水稻中。模擬數據中,擬南芥中PcircRNA_finder和CircPlant的結果相差不大,而水稻中(包括真實數據中)CircPlant的表現好於PcircRNA_finder,可能是因為模式植物擬南芥基因組較小且注釋詳細,導致了PcircRNA_finder在擬南芥中的過擬合,這還需要在其他物種中進一步驗證。


總結

本研究開發了基於Perl語言的植物circRNA特異性識別工具CircPlant,不僅可以高效準確的從大規模RNA-seq數據中識別植物circRNA,也能用於circRNA後續分析,包括circRNA-miRNA互作預測、ceRNA網絡搭建和circRNA功能注釋等。CircPlant安裝簡單且運行方便,易於用戶使用,有助於研究人員對植物circRNA進行系統挖掘和分析。

 

文章編譯來源:Peijing Zhang, Yongjing Liu, Hongjun Chen, Xianwen Meng, Jitong Xue, Kunsong Chen, Ming Chen. CircPlant: An Integrated Tool for CircRNA Detection and Functional Prediction in Plants. Genomics Proteomics Bioinformatics 2020,18(4). https://doi.org/10.1016/j.gpb.2020.10.001. 引用請參考以上格式,英文全文詳見https://www.sciencedirect.com/science/article/pii/S1672022920301273.

該項目由浙江大學生命科學學院陳銘教授領導的生物信息學團隊完成,該團隊的張霈婧博士為論文第一作者,陳銘教授為通訊作者,浙江大學農業與生物技術學院陳昆松教授也參與了該項工作。該研究得到了國家重點研發計劃、國家自然科學基金和浙江大學博士研究生學術新星培養計劃的資助。

相關閱讀:

楊力研究組發布環形RNA與線性RNA定量比較新方法-CLEAR

Genomics, Proteomics & Bioinformatics(基因組蛋白質組與生物信息學報,簡稱GPB)於2003年創刊,是由中國科學院主管、中國科學院北京基因組研究所(國家生物信息中心)與中國遺傳學會共同主辦的英文學術期刊,由Elsevier金色開放獲取(Gold Open Access)出版。刊載來自世界範圍內組學、生物信息學及相關領域的優質稿件。現為中國科學引文資料庫(CSCD)和中國科技論文與引文資料庫(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等資料庫收錄。2018、2019連續位於中科院文獻情報中心期刊分區表大類「生物1區Top"。2019年,CiteScore為10.9,位於「計算數學」、「遺傳學」、「生物化學」、「分子生物學」四個學科領域Q1區;Impact Factor為7.051,位於「遺傳學與遺傳性」學科領域前10%。期刊由科技部等七部門聯合實施的「中國科技期刊卓越行動計劃」資助(2019–2023)。

相關焦點

  • 2月長非編碼RNA和環狀RNA研究推薦
    因此,巨噬細胞整合代謝信號以響應脂質過剩的能力是疾病易感性的重要決定因素。LXRs是配體依賴性轉錄因子,調節參與巨噬細胞對膽固醇反應的基因的表達。其中,LXRs的激活通過誘導一系列基因(包括編碼質膜轉運蛋白ABCA1的Abca1)促進膽固醇逆向轉運。Abca1對於高密度脂蛋白(HDL)的產生是至關重要的,其功能的缺失會導致丹吉爾病(Tangier disease)。
  • 環狀RNA的三種鑑定方法
    根據已發表的文獻,環狀RNA的鑑定方法分為三類:從頭預測(abinitio)的方法:find_circ(如下圖)(Memczaket al., 2013),將不能和基因組比對上讀段的兩端各取20bp作為錨點,再將錨點作為獨立的讀段往基因組上比對並尋找唯一匹配位點,如果兩個錨點的比對位置在線性上方向呈反向,那麼就延長錨點的讀段
  • 湖南大學等揭示冠狀病毒編碼環狀RNA的潛力及其功能
    環狀RNA是一類具有封閉環狀結構的RNA分子,比線性RNA更穩定,不易降解。目前對於環狀RNA的研究主要集中在人類,動物和植物,而對病毒編碼的環狀RNA研究較少。研究團隊在之前的工作中,通過整合與分析挖掘公共資料庫中病毒感染相關的RNA測序數據,從23種病毒物種中鑑定到了超過1萬種病毒編碼的環狀RNA分子,並建立了首個病毒編碼的環狀RNA資料庫VirusCircBase(http://www.computationalbiology.cn/ViruscircBase/home.html).疫情暴發之後,針對SARS-CoV-2的研究產生了大量的高通量測序數據
  • 植物科學常用資料庫和生物信息學工具
    對於所有開展植物科學相關研究的科研工作者和學生群體而言,各類資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源,具有重要的理論指導意義和應用價值。通過總結目前已有的植物科學相關的資料庫資源和分析平臺,調查其使用頻率和應用程度,可以為大家更好地開展科研工作提供便利。
  • 植物科學常用資料庫和生物信息學工具,趕緊收藏,遲早用得到
    對於所有開展植物科學相關研究的科研工作者和學生群體而言,各類資料庫和分析平臺的建立和更新維護為植物的組學、功能、進化以及遺傳育種等方面研究提供了豐富的資源,具有重要的理論指導意義和應用價值。通過總結目前已有的植物科學相關的資料庫資源和分析平臺,調查其使用頻率和應用程度,可以為大家更好地開展科研工作提供便利。
  • RNA中的典故——「圍魏救趙」
    科研經驗 | 文獻 | 實驗 | 工具 | SCI寫作 | 國自然
  • 植物科學常用資料庫和生物信息學工具 2020正式版
    >  GO分析工具包和資料庫綜合平臺    http://www.bioinformatics.nl/AraQTL   基於Web的用於表達定量性狀位點(eQTL)研究的工作檯和資料庫    http://www.plantgdb.org/  植物基因組序列資料庫
  • 環狀RNA:非編碼RNA中的一顆明星
    點擊查看 circRNAs是一種共價閉合環狀RNA,高頻率出現於真核生物轉錄本中。最近在哺乳動物細胞中發現了成千中內源的circRNAs。circRNAs由內含子或外顯子序列產生,反向重複序列和RBPs對於circRNAs的形成是必要的。
  • Ecology Letters: 對植物間化感作用的整合分析
    長久以來,化感(生物產生化學物質從而影響另一個生物)被認為能夠影響植物個體表現、群落結構與植物入侵。近期康斯坦茨大學,中科院東北地理所與農業生態研究所,台州大學與波茨坦大學合作搜集了384項實驗的數據,首次對化感作用進行了整合分析。
  • 關於環狀RNA的科研設計
    摘要       動物體內的環狀RNA(circRNA)是謎一樣具有未知功能的RNA。為系統研究環狀RNA,我們對人,小鼠以及線蟲的RNA進行了序列測定和計算機分析。我們檢測到了成千種表達很好的穩定的環狀RNA,它們通常具有組織或發育階段的特異性表達。序列分析說明環狀RNA具有重要的調控作用。
  • circSEPT9可作為TNBC潛在的生物標誌物和治療靶點
    然而,環狀RNA在三體陰性乳腺癌(TNBC)中的生物學功能和潛在的分子機制仍不清楚。作者運用高通量RNA測序技術研究了circRNA在四對三陰性乳腺癌及癌旁組織中的表達模式,並通過qPCR和原位雜交技術評估circSEPT9的表達和預後意義,並進行了一系列的體內和體外功能檢測實驗,以研究circSEPT9在三陰性乳腺癌變及發展過程中的調控作用。
  • 每天1分鐘背單詞 詞根 circ
    老師說可以想像成一個圓圈,電子再裡面轉圈圈~不過還是要注意,不能短路呀~有喜歡上面電子玩具的小夥伴,歡迎私聊哦~不過今天我們要說的不僅僅是電路,而是關於「圈圈」的這些單詞哦~circ=ring所以馬戲團就用「circ」這個詞根表示了為一個圓形的場地了~circle['skl]n. 圓-le名詞後綴,表「物體」。
  • 環狀RNA研究實驗流程詳解
    RNA的研究方法(Zhang et al., 2016),應眾多讀者的需求,山人針對該操作方法做詳細的解讀 總體而言,要進行全轉錄組中環狀RNA的分析,需要分三步走:1. 圖1 環狀RNA分析常規實驗流程(來自(Zhang et al., 2016))環狀RNA分析的樣品如何製備和預處理?
  • 【英語故事】The plant(兇猛的植物)
    The plant兇猛的植物The plant.有一株植物。The plant snaps.這株植物猛咬一口。The plant snaps and traps ants.這株植物猛咬一口,捉住了好多螞蟻。
  • 環狀RNA的前世今生、最新進展,及研究思路
    序列保守性分析也證明circRNA具有重要的非編碼功能。1、作為miRNA分子的海綿,circRNA含有大量的miRNA結合位點,具有miRNA海綿作用,進而間接調控miRNA下遊靶基因的表達(圖4)。例如第一個被揭示具有調控功能的circRNA--ciRS7,它作為miR7的海綿,含有miR7的470個保守結合位點。
  • 啟動子序列預測分析工具
    包括人類、植物、微生物的啟動子序列,可以下載相關數據,也可以在在線分析,還包括其他工具,啟動子分析只是其中一個工具;這個網站的使用在百度文庫中有,需要可以看看~https://wenku.baidu.com
  • 用plantlist程序包查詢和處理植物學名
    R軟體中,類似的程序包還有 taxize (https://cran.r-project.org/web/packages/taxize/index.html)、Taxonstand(https://cran.r-project.org/web/packages/Taxonstand/index.html)等。
  • 差異可變剪接分析工具--rMATS
    RI),圖示如下:rMATS是一款利用RNA-Seq數據分析差異可變剪接的工具,它在MATS(multivariate analysis of transcript splicing)的基礎上針對有生物學重複的情況提出了新的統計模型。
  • .& Disease|高通量circRNAs測序分析揭示氯化兩面針鹼抑制肝細胞...
    隨後,選擇857個與miRNAs相關的肝細胞癌中差異表達的基因用於加權基因共表達網絡分析(WGCNA),發現綠松石模塊的423個基因與肝細胞癌患者的存活時間,病理分級和TNM分期顯著相關。基因功能富集分析顯示,423個基因主要在DNA複製和細胞周期相關的生物過程和信號級聯中起作用。