近日,GPB在線發表了浙江大學生命科學學院陳銘教授課題組題為「CircPlant: An Integrated Tool for CircRNA Detection and Functional Prediction in Plants」的方法文章。我們的「要文譯薦」欄目很高興邀請到論文的第一作者張霈婧博士親自為大家解讀CircPlant這個植物環狀RNA整合分析工具。
要點介紹
研究問題
增強植物環狀RNA識別的有效性
解決方案
提出植物環狀RNA特異性識別工具CircPlant
實現方式
針對植物circRNA剪接信號和可變剪接位點等問題,整合植物環狀RNA特異性識別標準到算法中,並提供circRNA-miRNA互作預測、ceRNA網絡搭建和circRNA功能注釋等後續分析。
源碼
http://bis.zju.edu.cn/circplant
背景
環狀RNA(circular RNA, circRNA)是一類具有共價閉合環結構的單鏈RNA分子,其在真核生物中普遍表達。作為內源性非編碼RNA的一員,circRNA與多種生物學過程相關,可以調控轉錄、影響可變剪接、沉默miRNA或蛋白質。隨著植物中circRNA研究的不斷增多,植物circRNA的特徵和功能逐漸被揭示。與動物中的結果類似,植物circRNA在不同物種中具有保守性,表達具有發育或組織特異性,可以調節其親本基因的轉錄,或充當miRNA海綿來發揮功能。然而,擬南芥、水稻、大豆和棉花等植物中的研究結果表明,植物circRNA環化位點的側翼內含子很少含有重複或反向互補序列,這與動物中的結果有所不同。考慮到動植物circRNA的形成機制、特徵和功能可能存在一定的差異,我們希望對植物circRNA進行深入研究。其中,準確的識別植物circRNA是關鍵且首要的步驟。目前,已有數十種circRNA識別工具,但這些方法幾乎都是為動物circRNA而開發的,植物circRNA的識別和分析工具少之又少。利用現有方法預測植物circRNA的準確性相對較低,可能是結果假陽性較高。考慮到動植物基因組以及circRNA形成過程的差異,我們需要一種植物特異性的方法來準確高效地識別植物circRNA。
本文報導了浙江大學生命科學學院陳銘教授團隊開發的植物circRNA整合工具CircPlant。該工具整合了植物特異性識別標準,不僅可以從高通量RNA-seq數據中準確檢測植物circRNA,也支持circRNA-miRNA互作預測、ceRNA網絡預測和circRNA功能注釋等後續分析。通過結合植物circRNA特異性的識別標準,CircPlant可以從RNA-seq數據中高效準確地識別植物circRNA。通過擬南芥和水稻的模擬數據和真實RNA-seq數據進行評估,發現CircPlant在模擬數據集中的敏感性和準確性均優於以前的工具,在真實數據中也取得很好的效果,且CircPlant能極大的縮短計算時間。
CircPlant工作流程
CircPlant包含四個運行模塊(如圖1所示),包括circRNA識別、circRNA-miRNA互作預測、circRNA-miRNA-mRNA網絡構建和circRNA注釋。
圖1 CircPlant工作流程
CircPlant特點
與其他circRNA識別工具相比,CircPlant有幾個重要的特點。(1)CircPlant是一種輕量級工具,安裝和使用非常方便。(2)CircPlant運行高效且內存佔用低。使用水稻測序數據評估CircPlant和其他四種circRNA識別工具的運行效率,結果顯示CircPlant具有更高的讀取映射率,並且計算時間較短(圖2),這使得CircPlant在處理大規模數據集時具有極大優勢。(3)CircPlant採取一些策略來提高植物circRNA識別的靈敏度和準確度,包括對CIRI2的核心算法進行改進,整合植物特異性識別標準;利用覆蓋潛在反向剪接位點的circRNA局部序列pseudoRef過濾假陽性位點;針對雙末端數據集,有更嚴格的過濾標準。
圖2 五種circRNA識別工具的性能比較
植物circRNA特異性識別標準
為了更準確且儘可能多的收集潛在的植物circRNA反向剪接位點,考慮到動植物基因組以及circRNA形成過程的差異,研究團隊整合了一些植物特異性識別標準到CIRI2算法中:(1)植物基因組中基因的拷貝數非常高,且存在大量的重複序列。在讀段匹配過程中,CircPlant採取了更嚴格的標準,包括匹配長度、匹配得分和錯配數等,用於過濾重複序列和匹配錯誤導致的假陽性結果。此外,強烈建議用戶提供基因組注釋文件。(2)兩個規範剪接位點(剪接供體和剪接受體)側翼的5 bp區域也被視作候選反向剪接位點區域(Chen et al., 2016a)。circRNA中反向剪接位點的細微變化,也是一種可變環化;研究發現,circRNA的可變環化通常發生在規範剪接位點附近(Szabo et al., 2015)。(3)除了使用來源於U2剪接體的剪接信號(GT-AG和GC-AG),CircPlant還採用來源於U12剪接體的信號(AT-AC)。研究發現,這兩類剪接信號佔植物剪接位點的99.5%以上(Marquez et al., 2012),而大部分工具僅考慮GT-AG信號。(4)對PlantcircBase中來源於12種植物的circRNA進行長度統計發現,絕大多數circRNA的長度小於20 kb,很少有circRNA長於100 kb(圖2-4)。因此,CircPlant中circRNA的默認長度閾值設置為20 kb,最大閾值設置為100 kb。
基於模擬數據和真實數據的評估
為了全面評估CircPlant的性能,研究團隊分別使用模擬數據和真實數據,對CircPlant和其他四種circRNA識別工具(MapSplice、ACFS2、PcircRNA_finder和CIRI2)進行比較。CircPlant在靈敏度和準確度方面均取得了很好的表現。
這四種工具有一定代表性,他們的算法展現了不同的circRNA識別思路。MapSplice是一種識別新的規範和非規範剪接位點的算法,它不依賴於剪接位點的特徵或是側翼內含子信息。ACFS是一種從頭預測方法(de novo),可以從RNA-seq數據中準確快速的識別circRNA並進行定量。這類方法在人類circRNA識別中運用的更多,本研究使用最新版本ACFS2。PcircRNA_finder是首個植物circRNA識別工具,它整合了五個算法/工具的結果,在植物circRNA識別中有一定的優勢,但是它僅能識別來源於外顯子的ecircRNA。CIRI2使用基於多種子匹配的最大似然估算法,是目前circRNA研究中應用最廣的工具。
模擬circRNA的環化過程,研究團隊分別從擬南芥(TAIR10)和水稻(IRGSP-1.0)的基因組中隨機選取了200個外顯子反向拼接形成的轉錄本,生成了相關模擬數據,使用靈敏度、準確度和F1值(準確度和靈敏度的綜合評價)這三個指標來評估五種工具的性能。兩套模擬數據的結果顯示(表1),CircPlant有較高的靈敏度(92%–96%)和準確度(99%),在平衡性上也有非常好的表現(95%–98%);MapSplice、ACFS2和PcircRNA_finder的靈敏度基本低於85%,且不能很好的平衡準確度和靈敏度,F1值基本低於0.8;CIRI2在三個指標中均有很好的表現,略微差於CircPlant。儘管PcircRNA_finder的準確度高於90%,但和CircPlant相比仍有一定差距,且靈敏度和平衡方面的表現非常一般。考慮到ACFS2算法是為人類circRNA識別而開發的,算法中包含了人類轉錄組中95%以上的規範剪接位點,它的表現不佳也就不足為奇。
表1 基於擬南芥和水稻模擬數據的五種circRNA識別工具的評估
真實數據的評估中,使用了從NCBI獲取的水稻葉片的poly(A)富集數據和過濾了線性轉錄本的poly(A)-數據。考慮到circRNA的環形結構,circRNA應該在poly(A)-樣本中被檢測到而不是poly(A)富集樣本。真實數據的結果顯示(圖3),MapSplice和ACFS2的表現極大地受到樣本的幹擾,在poly(A)富集樣本檢測到的circRNA數倍於poly(A)-樣本。MapSplice表現是最差的,可能因為MapSplice這種基於分割比對的方法僅考慮識別規範的剪接位點,而circRNA的其他特徵被忽視了。PcircRNA_finder、CIRI2和CircPlant受到樣本幹擾的情況較好。與這兩個軟體相比,CircPlant對poly(A)富集樣本不敏感,且在poly(A)-樣本中,CircPlant的大部分預測結果同時也被其他軟體預測到。儘管PcircRNA_finder也是植物circRNA特異性識別工具,但PcircRNA_finder和CircPlant預測結果的交集不多,這可能受到PcircRNA_finder算法的影響。PcircRNA_finder整合了五種算法/工具並取其交集,犧牲了一定的敏感性。有趣的是,PcircRNA_finder整合了MapSplice的結果,但是PcircRNA_finder和MapSplice在兩個樣本中的交集也非常少。
圖3 基於水稻真實數據的五種circRNA識別工具的評估
相較於其他四種軟體,CircPlant在模擬數據和真實數據的評估中均取得了較好的表現(表1和圖3)。PcircRNA_finder通過整合五種算法/工具,雖然在模擬數據中有較高的準確度,但也犧牲了靈敏度,導致真實數據評估中和其他軟體的交集較少。同時,PcircRNA_finder運行時必須同時依賴五個結果,STAR和TopHat的低效率也導致該軟體運行時間過長。CircPlant是在CIRI2算法上加以改進而完成的,CIRI2在靈敏度、準確度和計算時長中均有不錯的表現,植物特異性識別標準和二次讀段匹配整合到CIRI2算法中,使得CircPlant的優勢非常明顯,尤其是在水稻中。模擬數據中,擬南芥中PcircRNA_finder和CircPlant的結果相差不大,而水稻中(包括真實數據中)CircPlant的表現好於PcircRNA_finder,可能是因為模式植物擬南芥基因組較小且注釋詳細,導致了PcircRNA_finder在擬南芥中的過擬合,這還需要在其他物種中進一步驗證。
總結
本研究開發了基於Perl語言的植物circRNA特異性識別工具CircPlant,不僅可以高效準確的從大規模RNA-seq數據中識別植物circRNA,也能用於circRNA後續分析,包括circRNA-miRNA互作預測、ceRNA網絡搭建和circRNA功能注釋等。CircPlant安裝簡單且運行方便,易於用戶使用,有助於研究人員對植物circRNA進行系統挖掘和分析。
文章編譯來源:Peijing Zhang, Yongjing Liu, Hongjun Chen, Xianwen Meng, Jitong Xue, Kunsong Chen, Ming Chen. CircPlant: An Integrated Tool for CircRNA Detection and Functional Prediction in Plants. Genomics Proteomics Bioinformatics 2020,18(4). https://doi.org/10.1016/j.gpb.2020.10.001. 引用請參考以上格式,英文全文詳見https://www.sciencedirect.com/science/article/pii/S1672022920301273.
該項目由浙江大學生命科學學院陳銘教授領導的生物信息學團隊完成,該團隊的張霈婧博士為論文第一作者,陳銘教授為通訊作者,浙江大學農業與生物技術學院陳昆松教授也參與了該項工作。該研究得到了國家重點研發計劃、國家自然科學基金和浙江大學博士研究生學術新星培養計劃的資助。
相關閱讀:
楊力研究組發布環形RNA與線性RNA定量比較新方法-CLEAR
Genomics, Proteomics & Bioinformatics(基因組蛋白質組與生物信息學報,簡稱GPB)於2003年創刊,是由中國科學院主管、中國科學院北京基因組研究所(國家生物信息中心)與中國遺傳學會共同主辦的英文學術期刊,由Elsevier金色開放獲取(Gold Open Access)出版。刊載來自世界範圍內組學、生物信息學及相關領域的優質稿件。現為中國科學引文資料庫(CSCD)和中國科技論文與引文資料庫(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等資料庫收錄。2018、2019連續位於中科院文獻情報中心期刊分區表大類「生物1區Top"。2019年,CiteScore為10.9,位於「計算數學」、「遺傳學」、「生物化學」、「分子生物學」四個學科領域Q1區;Impact Factor為7.051,位於「遺傳學與遺傳性」學科領域前10%。期刊由科技部等七部門聯合實施的「中國科技期刊卓越行動計劃」資助(2019–2023)。