非編碼RNA(ncRNA)是指一類本身不攜帶翻譯為蛋白質的遺傳信息(也即非mRNA),但可以執行多種生物學功能的RNA分子,對於微生物而言,非編碼RNA主要包括核糖體RNA(rRNA)、轉運RNA(tRNA)、細胞核小分子RNA(snRNA)、核仁小RNA(snoRNA)、細胞質小分子RNA(scRNA)、微小RNA(miRNA)、小分子幹擾RNA(siRNA)等。按照長度劃分大致可以分為兩類:小於50nt的miRNA、siRNA和50-500nt的rRNA、tRNA、snRNA、snoRNA等。對於細菌而言,ncRNA主要指tRNA、rRNA、sRNA三種,其中常見以tRNA和rRNA為主。
在往期文章基因組編碼基因預測中介紹了CDS的預測,今天為大家介紹ncRNA的預測。由於ncRNA種類繁多,特徵各異,缺少編碼蛋白質的基因所具有的典型特徵,現有的ncRNA預測軟體一般專注於搜索單一種類的ncRNA,如tRNAScanSE搜索tRNA、snoScan搜索帶C/D盒的snoRNAs、SnoGps搜索帶H/ACA盒的snoRNAs、mirScan搜索microRNA等等。rRNA是細胞內含量最多的一類RNA,約佔RNA總量的82%。它與蛋白質結合而形成核糖體,其功能是在mRNA的指導下將胺基酸合成為肽鏈。根據分子量不同,原核生物的rRNA可分三類:5S rRNA、16S rRNA和23S rRNA。真核生物的rRNA則有四類:5S rRNA、5.8S rRNA、18S rRNA和28S rRNA。原核生物和真核生物的核糖體均由大、小兩種亞基組成。RNAmmer為一款專門的rRNA預測工具,該軟體所使用的隱馬爾科夫模型的訓練數據集選用5S rRNA資料庫和歐洲rRNA資料庫,具有極高的準確率。它既可以用來預測原核生物的5S、16S、23S rRNA,也可以用來預測真核生物的5S、5.8S、18S、28S Rrna,而且是不基於參考序列的從頭預測。該工具官網主頁如下:
http://www.cbs.dtu.dk/services/RNAmmer/最新下載地址:
https://services.healthtech.dtu.dk
要想下載本地使用需首先在網站填寫姓名、郵箱、機構等信息進行申請,之後會將軟體下載連結會發送至郵箱。需要首先安裝Hmmer,然後RNAmmer軟體包下載解壓後就可使用。其使用方法如下所示:rnammer -S bac -m lsu,ssu,tsu -xml out.xml -gff out.gff -h out.hmmreport -f out.rRNA.fasta genome.fasta-S 指定輸入序列的物種所屬的界:古菌arc、細菌bac或真核euk;-m 所需要預測的rRNA種類:'tsu'為5/8s rRNA,'ssu'為16/18s rRNA,'lsu'為23/28s rRNA。如果全部進行預測,則設置為為'tsu,ssu,lsu';-multi 並行運算,預測正反兩條鏈上所有的rRNA,最多並行運行6個計算,相當於-m lsu,ssu,tsu;-f 生成的rRNA的fasta結果文件名-h 生成的hmm結果報告文件名-gff 生成的rRNA的gff2文件名-xml 生成的xml結果文件名rnammer -S bac -m lsu,ssu,tsu -gff twk.rRNA.gff -f twk.rRNA.fasta -h twk.rRNA.hmmreport new.scaffolds.fasta在gff和fasta文件中可以看到5S、16S、28S rRNA的預測結果及其序列,如下所示:
在細菌基因組中,一般23S rRNA與5S rRNA是緊挨在一起的,而其與16S 人RNA之間則隔著較長的序列片段。