ncRNA注釋

2021-02-20 生信人

1、ncRNA（Non-coding RNA）分析

1.1 RNA 分類

其中 ncRNA 分析就是分析非編碼 RNA，我們現有流程主要集中在tRNA、 sRNA、小RNA（miRNA、sRNA、snRNA）的分析。

1.2 tRNA分析

■ tRNA 簡介

tRNAs由70-90個核苷酸組成。它的主要功能是在蛋白質生物合成過程中把mRNA的信息準確地翻譯成蛋白質中胺基酸順序的適配器（adapter）分子，具有轉運胺基酸的作用，並以此胺基酸命名。此外，它在蛋白質生物合成的起始作用中，在DNA反轉錄合成中極及其他代謝調節中也起重要作用。細胞內tRNA的種類很多，每一種胺基酸都有其相應的一種

或幾種tRNA。

■tRNAscan-SE簡介

tRNA基因識別比編碼蛋白質的基因識別簡單，目前基本解決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程式，通過分析啟動子元件的保守序列，tRNA二級結構的分析，轉錄控制元件分析和除去絕大多數假陽性的篩選過程，根稱能識別 99%的真tRNA基因，其搜索的速度可以達到 30kb/秒。該程序適用於大規模人類

基因組序列得分析，同時也可以用於其他 DNA 序列。

■ tRNAscan-SE 使用

程序運行命令行：

Usage: tRNAscan-SE [-options] <FASTA file(s)>

Scan a sequence file for tRNAs using tRNAscan, EufindtRNA & tRNA covariance models --defaults to use with eukaryotic sequences (use -B, -A, -O or -G to scan other types of sequences)

Basic Options

-B or -P : search for bacterial tRNAs (use bacterial tRNA model)

-A : search for archaeal tRNAs (use archaeal tRNA model)

-O : search for organellar (mitochondrial/chloroplast) tRNAs

-G : use general tRNA model (cytoplasmic tRNAs from all 3 domains included)

-C : search using Cove analysis only (max sensitivity, very slow)

-o <file> : save final results in <file>

-f <file> : save tRNA secondary structures to <file>

-a : output results in ACeDB output format instead of default

tabular format

-m <file> : save statistics summary for run in <file>

(speed, # tRNAs found in each part of search, etc)

-H : show both primary and secondary structure components to

covariance model bit scores

-q : quiet mode (credits & run option selections suppressed)

-h : print full list (long) of available options

■ 重要參數說明

-B or –P 搜索細菌類 tRNA

-A 搜索古細菌類 tRNA

-O 搜索細胞器的 tRNA ，如線粒體和葉綠體

-G 一般真核細胞的 tRNA

-o 最終的結果文件,默認列表格式

-f 生成的 tRNA 二級結構文件

-m 生成的統計結果文件

-a 生成 ACeDB 格式的結果

命令行：tRNAscan-SE -o *.tRNA -f *.tRNA.structure < FASTA file(s)>

注意：因為程序默認輸入序列為真核生物基因組序列，故只需要設置「-o」、「-f」參數，

對於其他類型的基因組序列，請選擇正確的輸入序列的物種信息。

■ tRNA 預測結果說明

1、*.tRNA -o 參數產生的 tRNA 結果文件，內容如下：

tRNA 預測結果的信息有tRNA的位置信息（tRNA Begin 和 Bounds End），轉運氨基

酸的類型結密碼子（tRNA Type和 Anti Codon），Intron的位置信息（Intron Begin 和Bounds End），以及預測的分值（Cove Score）。

tRNA 預測結果的信息有tRNA的位置信息（tRNA Begin 和 Bounds End），轉運胺基酸的類型結密碼子（tRNA Type 和 Anti Codon）， Intron 的位置信息（Intron Begin 和 Bounds End），以及預測的分值（Cove Score）。

（1）位於最後一項的 Cove Score 是搜尋到的 tRNA 的得分，該分值隨所選用的資料庫

的不同而又變化（默認情況下是 Eukaryotic 資料庫； -B 或–P 是搜索細菌類的 tRNAs ； -A 搜

索古菌類 tRNAs；-O 搜索細胞器的 tRNAs；-G 一般的 tRNA 模式）。

（2）如果有 tRNA 符合假基因的標準，那麼將在「tRNA Type」欄處標註「Pseudo」。

2、 *.tRNA.structure -f 參數產生的 tRNA 二級結果文件。

tRNA 的二級結構是呈「三葉草」形狀，在結夠上具有某些共同之處，一般可將其分為五

臂四環：包括胺基酸接受區，反密碼區、二氫尿嘧啶區、TΨC 區和可變區。除了胺基酸接

受區外，其餘每個區均含有一個突環和一個臂。下圖為 tRNA 的二級結構圖

下面是 tRNA 二級結果文件的內容

1.3 rRNA分析

rRNA 是細胞中含量最多的RNA，約佔RNA總量的82%。rRNA 單獨存在時不執行其

功能，它與多種蛋白質結合成核糖體，作為蛋白質生物合成的「裝配機」。原核生物 rRNA 分

三類：5SrRNA、16SrRNA和23SrRNA。真核生物的 rRNA 分四類:5SrRNA、5.8SrRNA、

18SrRNA、28SrRNA。原核生物和真核生物核糖體都是由大、小兩個亞基組成。

■ rRNA 預測方法介紹

目前對於 rRNA 預測有兩種方法。

第一種；homology 預測，通過與已知rRNA 庫進行blast比對，找到rRNA，這種方法

找到的 rRNA 的結果準確但不全面。

這種方法預測需要客戶提供非常近源的參考序列。當確定了參考序列，在從網站（NCBI）

下載該參考序列的 rRNA 序列（NCBI上*.frn文件）並提取相關 rRNA。

參考序列 rRNA 文件的 ID格式必須是 L78479#rRNA_28S 這種格式，「#」之前是序列

ID號，這些 ID號必須唯一， ID 號由字母、數字、下劃線組成。「#」號之後是 rRNA 的類型。

最終參考序列的 rRNA文件格式如下：

>CM_M.grisea1#rRNA_5S

TAACGCACACCAACGTACACGTGCAGGCTGATTAATTGGGTAGGCAAGCCATATGTT

>CM_M.grisea4#rRNA_5S

TGACGCACACCAACGTTTACGTGCAGGCAAATTGATTGGGTAGGAGAGCCATATATT

■結果說明

Blast結果包括很多有用信息，但是 blast 結果不那麼直觀，所以將 blast 結果轉化的列

表文件，在將列表文件轉化成標準的gff文件。

Blast參數：path/balst -p blastn -e 1e-5 -v 10000 -b 10000

程序運行完之後會產生 3 個文件： *.blast 、*.tab、 *.tag.gff。

*.blast 最初的 blast比對結果

*.tab 由 blast 結果轉化的列表文件

列表文件共有16列，以"\t"分隔，如果某一類的值為空，以"--"代替，每一列信息都

是從原始 blast結果得到，具體意義如下說明：

1:Query_id 2:Query_length 3:Query_start 4:Query_end 5:Subject_id

6:Subject_length 7:Subject_start 8:Subject_end 9:Identity 10:Positive 11:Gap

12:Align_length 13:Score 14:E_value 15:Query_annotation 16:Subject_annotation

*.gff由列表文件轉化的最終結果文件，GFF格式。

第二種：RNAmmer 預測，RNAmmer 軟體通過隱馬爾可夫模型預測 rRNA。這種預測

是基於組裝結果進行Denovo預測。

■ 軟體使用

usage():

path/rnammer -S arc/bac/euk (-multi) (-m tsu,lsu,ssu) (-f) (-k) (-gff [gff file])

(-xml [xml file]) (-f [fasta file]) (-h [HMM report]) [sequence]

OPTIONS

-S Specifies the super kingdom of the input sequence. Can be either 'arc', 'bac', or 'euk'.

-gff output gff file Specifies filename for output in GFF version 2 output

-multi Runs all molecules and both strands in parallel

-f fasta Specifies filename for output fasta file of predicted rRNA genes

-h hmmreport Specifies filename for output HMM report.

-m Molecule type can be 'tsu' for 5/8s rRNA, 'ssu' for 16/18s rRNA,

'lsu' for 23/28s rRNA or any combination seperated by comma.

■重要參數

-S 指定輸入的序列是哪個界'arc', 'bac', 或者 'euk'。

'arc'：古細菌『bac』：細菌『euk』真菌

-m rRNA 類型。'tsu'：5/8s rRNA,'ssu'：16/18s rRNA'lsu'：23/28s rRNA

-gff 指定輸出 gff 文件的名字

-f 指定輸出預測的 rRNA 結果的 fasta 格式文件的文件名

■ 結果說明

1、*.fq -f 參數產生的文件，fasta 格式。

>rRNA_scaffold164_671644-671759_DIR+ /molecule=8s_rRNA /score=36.0

ACGACCAGAGGACAATGAAATCAGGGCTTCCCGTCCGCTCAGCCATACTTAAGC

ATTGTACCGGTGGATTAGTAGTTAGGTGGGAGACCACTAGCGAATACCCGCTGC

CGTATGTT

2、*.gff -g 參數產生的文件。

seqname source feature start end score +/- frame attribute

scaffold164 RNAmmer-1.2 rRNA 671644 671759 36.0 + . 8s_rRNA

scaffold9 RNAmmer-1.2 rRNA 720308 720423 32.3 - . 8s_rRNA

1.4 miRNA snRNA sRNA 分析

■ 預測原理

目前對於 miRNA、snRNA、sRNA 的預測，是通過與 Rfam 資料庫比對，找到三種 RNA。

Rfam 是一個綜合的非冗餘的非編碼 RNA 家族資料庫，由多重序列比對及圖譜隨機上下

文語法所表示，它旨在促進已知序列家族的鑑定和分類。

■ 方法介紹

First align the query sequence with database sequences by blast to find any possible hits,

then cut the aligned fragment out of the query sequence, cmsearch it with the matched Rfam.

The file Rfam.thr contains Rfam id, RNA name, threshold, max length, and status. The

threshold is the recommend cutoff of bit score for cmsearch, while the max length is the

recommend length for the cutted query fragment.

First align the query sequence with database sequences by blast to find any possible hits,

then cut the aligned fragment out of the query sequence, cmsearch it with the matched Rfam.

The file Rfam.thr contains Rfam id, RNA name, threshold, max length, and status. The

threshold is the recommend cutoff of bit score for cmsearch, while the max length is the

recommend length for the cutted query fragment.

■結果說明

Blast 參數 : path/blast -p blastn -W 7 -e 1 -v 10000 -b 10000 –m 8

*.m8最初 blast 比對結果

*.m8.filter 去冗餘之後的 blast 比對結果，只保留比對結果最好的結果（E-value 值最

下的比對結果）。

*.all.align 預測的原始結果

*.gff 預測得到的原始結果 GFF3 格式文件

*.confident. gff 預測根據閾值篩選後得到的結果 GFF3 格式文件

*.confident.nr.gff *. confident. gff 去冗餘之後的最終結果 GFF3 格式文件

如果你有什麼好的素材或者需求都可以直接給我們回復，我會第一時間聯繫你。

另，如果你喜歡我們，就動動手指關注一下吧！

ncRNA注釋

相關焦點

細菌基因組信息分析與解讀專題系列(二)——細菌基因組注釋Ⅰ(基因預測和ncRNA)

使用snpEff對VCF進行注釋

oncotator:腫瘤研究專用的突變注釋軟體

給PDF文件加注釋,首選福昕PDF閱讀器

【直播】我的基因組 32:使用annovar注釋vcf

使用ggtree實現進化樹的可視化和注釋

CS番外2: 過濾ChIPseeker注釋結果

免費又好用的基因功能注釋平臺

天津大學:新型冠狀病毒基因組注釋資料庫向全球開放

技術貼 | 宏基因組分箱 (Binning)第四課——COG EC RNA注釋統計

EggNOG功能注釋資料庫在線和本地使用

教你如何輕鬆在圖片上畫圈圈、畫箭頭、寫注釋

「群體遺傳學實戰」第一課: 對SNP位點進行注釋

民間流傳很廣的風水口訣十條,簡單好記又實用,內注釋意!

lncRNA-seq數據分析之新lncRNA鑑定和注釋視頻課程眾籌

ncRNA-eQTL:eQTL與ncRNA的碰撞

《廣州大典研究》稿約|文章|引文|文獻|注釋_網易訂閱

還有專門注釋的書,看完讓人哭笑不得

北京大學高歌團隊開發長非編碼RNA全面注釋平臺AnnoLnc2丨Nucleic Acids Research

925個PacBio測序注釋的細菌基因組現已上線,拿走不謝!