ncRNA注釋

2021-02-20 生信人

1、ncRNA(Non-coding RNA)分析

1.1 RNA 分類


其中 ncRNA 分析就是分析非編碼 RNA,我們現有流程主要集中在tRNA、 sRNA、小RNA(miRNA、sRNA、snRNA)的分析。

1.2 tRNA分析

■ tRNA 簡介

tRNAs由70-90個核苷酸組成。它的主要功能是在蛋白質生物合成過程中把mRNA的信息準確地翻譯成蛋白質中胺基酸順序的適配器(adapter)分子,具有轉運胺基酸的作用,並以此胺基酸命名。此外,它在蛋白質生物合成的起始作用中,在DNA反轉錄合成中極及其他代謝調節中也起重要作用。細胞內tRNA的種類很多,每一種胺基酸都有其相應的一種

或幾種tRNA。

■tRNAscan-SE簡介

tRNA基因識別比編碼蛋白質的基因識別簡單,目前基本解決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程式,通過分析啟動子元件的保守序列,tRNA二級結構的分析,轉錄控制元件分析和除去絕大多數假陽性的篩選過程,根稱能識別 99%的真tRNA基因,其搜索的速度可以達到 30kb/秒。該程序適用於大規模人類

基因組序列得分析,同時也可以用於其他 DNA 序列。

■ tRNAscan-SE 使用

程序運行命令行:

Usage: tRNAscan-SE [-options] <FASTA file(s)>

Scan a sequence file for tRNAs using tRNAscan, EufindtRNA & tRNA covariance models --defaults to use with eukaryotic sequences (use -B, -A, -O or -G to scan other types of sequences)

Basic Options

-B or -P : search for bacterial tRNAs (use bacterial tRNA model)

-A : search for archaeal tRNAs (use archaeal tRNA model)

-O : search for organellar (mitochondrial/chloroplast) tRNAs

-G : use general tRNA model (cytoplasmic tRNAs from all 3 domains included)

-C : search using Cove analysis only (max sensitivity, very slow)

-o <file> : save final results in <file>

-f <file> : save tRNA secondary structures to <file>

-a : output results in ACeDB output format instead of default

tabular format

-m <file> : save statistics summary for run in <file>

(speed, # tRNAs found in each part of search, etc)

-H : show both primary and secondary structure components to

covariance model bit scores

-q : quiet mode (credits & run option selections suppressed)

-h : print full list (long) of available options

■ 重要參數說明

-B or –P 搜索細菌類 tRNA

-A 搜索古細菌類 tRNA

-O 搜索細胞器的 tRNA ,如線粒體和葉綠體

-G 一般真核細胞的 tRNA

-o 最終的結果文件,默認列表格式

-f 生成的 tRNA 二級結構文件

-m 生成的統計結果文件

-a 生成 ACeDB 格式的結果

命令行:tRNAscan-SE -o *.tRNA -f *.tRNA.structure < FASTA file(s)>

注意:因為程序默認輸入序列為真核生物基因組序列,故只需要設置 「-o」、「-f」參數,

對於其他類型的基因組序列,請選擇正確的輸入序列的物種信息。

■ tRNA 預測結果說明


1、*.tRNA -o 參數產生的 tRNA 結果文件,內容如下:

tRNA 預測結果的信息有tRNA的位置信息(tRNA Begin 和 Bounds End),轉運氨基

酸的類型結密碼子(tRNA Type和 Anti Codon),Intron的位置信息(Intron Begin 和Bounds End),以及預測的分值(Cove Score)。

tRNA 預測結果的信息有tRNA的位置信息(tRNA Begin 和 Bounds End),轉運胺基酸的類型結密碼子(tRNA Type 和 Anti Codon), Intron 的位置信息(Intron Begin 和 Bounds End),以及預測的分值(Cove Score)。

(1)位於最後一項的 Cove Score 是搜尋到的 tRNA 的得分,該分值隨所選用的資料庫

的不同而又變化(默認情況下是 Eukaryotic 資料庫; -B 或–P 是搜索細菌類的 tRNAs ; -A 搜

索古菌類 tRNAs;-O 搜索細胞器的 tRNAs;-G 一般的 tRNA 模式) 。

(2)如果有 tRNA 符合假基因的標準,那麼將在「tRNA Type」欄處標註「Pseudo」。

2、 *.tRNA.structure -f 參數產生的 tRNA 二級結果文件。

tRNA 的二級結構是呈「三葉草」形狀,在結夠上具有某些共同之處,一般可將其分為五

臂四環:包括胺基酸接受區,反密碼區、二氫尿嘧啶區、TΨC 區和可變區。除了胺基酸接

受區外,其餘每個區均含有一個突環和一個臂。下圖為 tRNA 的二級結構圖


下面是 tRNA 二級結果文件的內容

1.3 rRNA分析

rRNA 是細胞中含量最多的RNA,約佔RNA總量的82%。rRNA 單獨存在時不執行其

功能,它與多種蛋白質結合成核糖體,作為蛋白質生物合成的「裝配機」。原核生物 rRNA 分

三類:5SrRNA、16SrRNA和23SrRNA。真核生物的 rRNA 分四類:5SrRNA、5.8SrRNA、

18SrRNA、28SrRNA。原核生物和真核生物核糖體都是由大、小兩個亞基組成。

■ rRNA 預測方法介紹

目前對於 rRNA 預測有兩種方法。

第一種;homology 預測,通過與已知rRNA 庫進行blast比對,找到rRNA,這種方法

找到的 rRNA 的結果準確但不全面。

這種方法預測需要客戶提供非常近源的參考序列。當確定了參考序列,在從網站(NCBI)

下載該參考序列的 rRNA 序列(NCBI上*.frn文件)並提取相關 rRNA。

參考序列 rRNA 文件的 ID格式必須是 L78479#rRNA_28S 這種格式,「#」之前是序列

ID號,這些 ID號必須唯一, ID 號由字母、數字、下劃線組成。「#」號之後是 rRNA 的類型。

最終參考序列的 rRNA文件格式如下:

>CM_M.grisea1#rRNA_5S

TAACGCACACCAACGTACACGTGCAGGCTGATTAATTGGGTAGGCAAGCCATATGTT

>CM_M.grisea4#rRNA_5S

TGACGCACACCAACGTTTACGTGCAGGCAAATTGATTGGGTAGGAGAGCCATATATT

■結果說明

Blast結果包括很多有用信息,但是 blast 結果不那麼直觀,所以將 blast 結果轉化的列

表文件,在將列表文件轉化成標準的gff文件。

Blast參數:path/balst -p blastn -e 1e-5 -v 10000 -b 10000

程序運行完之後會產生 3 個文件: *.blast 、*.tab、 *.tag.gff。

*.blast 最初的 blast比對結果

*.tab 由 blast 結果轉化的列表文件

列表文件共有16列,以"\t"分隔,如果某一類的值為空,以"--"代替,每一列信息都

是從原始 blast結果得到,具體意義如下說明:

1:Query_id 2:Query_length 3:Query_start 4:Query_end 5:Subject_id

6:Subject_length 7:Subject_start 8:Subject_end 9:Identity 10:Positive 11:Gap

12:Align_length 13:Score 14:E_value 15:Query_annotation 16:Subject_annotation

*.gff由列表文件轉化的最終結果文件,GFF格式。

第二種:RNAmmer 預測,RNAmmer 軟體通過隱馬爾可夫模型預測 rRNA。這種預測

是基於組裝結果進行Denovo預測。

■ 軟體使用

usage():

path/rnammer -S arc/bac/euk (-multi) (-m tsu,lsu,ssu) (-f) (-k) (-gff [gff file])

(-xml [xml file]) (-f [fasta file]) (-h [HMM report]) [sequence]

OPTIONS

-S Specifies the super kingdom of the input sequence. Can be either 'arc', 'bac', or 'euk'.

-gff output gff file Specifies filename for output in GFF version 2 output

-multi Runs all molecules and both strands in parallel

-f fasta Specifies filename for output fasta file of predicted rRNA genes

-h hmmreport Specifies filename for output HMM report.

-m Molecule type can be 'tsu' for 5/8s rRNA, 'ssu' for 16/18s rRNA,

'lsu' for 23/28s rRNA or any combination seperated by comma.

■重要參數

-S 指定輸入的序列是哪個界'arc', 'bac', 或者 'euk'。

'arc':古細菌 『bac』:細菌『euk』真菌

-m rRNA 類型。'tsu':5/8s rRNA,'ssu':16/18s rRNA'lsu':23/28s rRNA

-gff 指定輸出 gff 文件的名字

-f 指定輸出預測的 rRNA 結果的 fasta 格式文件的文件名

■ 結果說明

1、*.fq -f 參數產生的文件,fasta 格式。

>rRNA_scaffold164_671644-671759_DIR+ /molecule=8s_rRNA /score=36.0

ACGACCAGAGGACAATGAAATCAGGGCTTCCCGTCCGCTCAGCCATACTTAAGC

ATTGTACCGGTGGATTAGTAGTTAGGTGGGAGACCACTAGCGAATACCCGCTGC

CGTATGTT

2、*.gff -g 參數產生的文件。

seqname source feature start end score +/- frame attribute

scaffold164 RNAmmer-1.2 rRNA 671644 671759 36.0 + . 8s_rRNA

scaffold9 RNAmmer-1.2 rRNA 720308 720423 32.3 - . 8s_rRNA

1.4 miRNA snRNA sRNA 分析

■ 預測原理

目前對於 miRNA、snRNA、sRNA 的預測,是通過與 Rfam 資料庫比對,找到三種 RNA。

Rfam 是一個綜合的非冗餘的非編碼 RNA 家族資料庫,由多重序列比對及圖譜隨機上下

文語法所表示,它旨在促進已知序列家族的鑑定和分類。

■ 方法介紹

First align the query sequence with database sequences by blast to find any possible hits,

then cut the aligned fragment out of the query sequence, cmsearch it with the matched Rfam.

The file Rfam.thr contains Rfam id, RNA name, threshold, max length, and status. The

threshold is the recommend cutoff of bit score for cmsearch, while the max length is the

recommend length for the cutted query fragment.

First align the query sequence with database sequences by blast to find any possible hits,

then cut the aligned fragment out of the query sequence, cmsearch it with the matched Rfam.

The file Rfam.thr contains Rfam id, RNA name, threshold, max length, and status. The

threshold is the recommend cutoff of bit score for cmsearch, while the max length is the

recommend length for the cutted query fragment.

■結果說明

Blast 參數 : path/blast -p blastn -W 7 -e 1 -v 10000 -b 10000 –m 8

*.m8最初 blast 比對結果

*.m8.filter 去冗餘之後的 blast 比對結果,只保留比對結果最好的結果(E-value 值最

下的比對結果)。

*.all.align 預測的原始結果

*.gff 預測得到的原始結果 GFF3 格式文件

*.confident. gff 預測根據閾值篩選後得到的結果 GFF3 格式文件

*.confident.nr.gff *. confident. gff 去冗餘之後的最終結果 GFF3 格式文件

如果你有什麼好的素材或者需求都可以直接給我們回復,我會第一時間聯繫你。

,如果你喜歡我們,就動動手指關注一下吧!




相關焦點

  • 細菌基因組信息分析與解讀專題系列(二)——細菌基因組注釋Ⅰ(基因預測和ncRNA)
    要解讀隱藏在這些字符和排列中的生命含義,就需要經過一個根據已有知識進行預測的注釋過程。 基因組注釋(Genome annotation)是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別、基因組功能注釋,而基因組功能注釋包括基因預測、ncRNA、重複序列、CRISPR預測、分泌蛋白預測等。
  • 使用snpEff對VCF進行注釋
    已經構建了相應的數據集(例如人類和小鼠),另一種是則是snpEff未提供相應的數據集(例如自己組裝的基因組)情況1: 我們可以使用java -jar snpEff.jar databases | grep -i human的方式列出所有的數據集,然後用grep進行篩選例如人類的基因組注釋數據集就分為
  • oncotator:腫瘤研究專用的突變注釋軟體
    目前,較為流行的突變注釋軟體有以下3種ANNOVARSnpEffVariant Effect Predictor(VEP)這三款軟體適用範圍廣,可以注釋任何的基因組變異,無論是germline還是somatic variants。
  • 給PDF文件加注釋,首選福昕PDF閱讀器
    雖然古人很遙遠,但是現實學習工作中,我們也會遇到給一些文件添加注釋的情況。其中比較麻煩的就是給PDF文檔添加注釋,因為PDF文件不易編輯。那怎麼辦呢,其實也不難,只要你有此款小神器——福昕PDF閱讀器,強大的注釋功能絕對讓你喜歡上它。
  • 【直播】我的基因組 32:使用annovar注釋vcf
    輸出文件也有多種格式,包括注釋過的VCF文件、用tab或者逗號分隔的txt文件。ANNOVAR能快速注釋遺傳變異並預測其功能。類似的variants注釋軟體還有VEP,snpEff,VAAST,AnnTools等等。
  • 使用ggtree實現進化樹的可視化和注釋
    ,注釋信息可以方便地通過圖層加上去,而且可以自由組合。而注釋通過圖層來實現,多個圖層可以完成複雜的注釋,這得力於ggtree的設計。其中最重要的一點是如何來解析進化樹。除了ggtree之外,我所了解到的其它畫樹軟體在畫樹的時候都把樹當成是線條的集合。很明顯畫出來的進化樹就是一堆線條,但是線條表示的是父節點和子節點的關係,除此之外沒有任何意義,而節點在進化樹上代表物種,葉子節點是我們構建進化樹的物種,內部節點是根據葉子節點推斷的共同祖先。
  • CS番外2: 過濾ChIPseeker注釋結果
    有一天我的師弟提了一個需求:對於ChIP的下遊分析,我很喜歡DiffBind做差異分析然後用ChIPseeker做注釋這一套流程(因為ChIPseeker的輸入格式是GRange格式,而DiffBind的dba.report輸出也恰好是GRange格式,兩者可以無縫銜接)。
  • 免費又好用的基因功能注釋平臺
    我們可以使用eggnog-mapper工具進行功能注釋,但是需要下載較大的資料庫。目前,eggnog官網提供了一個在線工具,只需上傳文件,即可進行基因功能注釋,非常方便。
  • 天津大學:新型冠狀病毒基因組注釋資料庫向全球開放
    從天津大學獲悉,該校生物信息中心新型冠狀病毒基因組注釋資料庫上線,並納入中國國家基因組科學數據中心向全球開放服務。面對疫情蔓延,我國科技界正在爭分奪秒與病毒抗爭,開展病毒防治相關藥物的研發。鑑於目前在美國NCBI網站上公布的新型冠狀病毒全基因組序列,很大一部分缺少詳細的基因組注釋,尤其是對多聚蛋白酶切位點的注釋,天津大學生物信息中心的高峰教授、羅昊博士採用已研發的ZCURVE_CoV系列軟體對包括新型冠狀病毒(2019-nCoV)在內的兩千餘株冠狀病毒的基因組進行了基因識別和酶切位點預測,並以資料庫(ZCURVE_CoV Database)的形式提供網上服務。
  • 技術貼 | 宏基因組分箱 (Binning)第四課——COG EC RNA注釋統計
    EC注釋信息。使用Kofamscan進行KEGG功能注釋。使用eggnog-mapper進行GO注釋。使用Diamond軟體和CAZyme資料庫對每個Bin進行碳水化合物酶注釋,獲取每個Bin中的碳水化合物酶信息。
  • EggNOG功能注釋資料庫在線和本地使用
    通過已知蛋白對未知序列進行功能注釋;通過查看指定的eggNOG編號對應的protein數目,存在及缺失,從而能推導特定的代謝途徑是否存在;每個eggNOG編號是一類蛋白,將query序列和比對上的eggNOG編號的proteins進行多序列比對,能確定保守位點,分析其進化關係。
  • 教你如何輕鬆在圖片上畫圈圈、畫箭頭、寫注釋
    在圖片上畫圈圈、畫箭頭、寫注釋,用PS軟體可以實現,但PS軟體功能太強大,所佔空間也大,而且實現起來也比較複雜,完全沒有必要。用ACDSee 15的話,感覺更方便、更快捷。(寫完此文之後,後來又發現還有更方便的方法,有興趣的朋友可以點擊右邊我的名字,去找下我寫的《在圖片上畫圈圈畫箭頭寫注釋最方便快捷的方法》一文)滑鼠右鍵點擊你要編輯的圖片,選擇[使用ACDSee 15編輯]。進入ACDSee 15編輯版面,右邊就是工具欄,常用的有:[繪圖工具] 、[文本]、[裁剪] 。[繪圖工具]:在圖片上畫箭頭和圈圈,在這裡完成。
  • 「群體遺傳學實戰」第一課: 對SNP位點進行注釋
    數據準備根據文章提供的下載地址,我們分別下載西瓜的基因組,GFF注釋文章和存放的VCF的數據集。需要注意的是,他們提供的SNP文件存在一些問題,不能用BCFtools進行解析,不過很容易解決,只需要運行如下命令zgrep -v '##INFO' watermelon_414acc_SNP.vcf.gz | bgzip -c > watermelon_414acc_SNP2.vcf.gz &使用SnpEff注釋
  • 民間流傳很廣的風水口訣十條,簡單好記又實用,內注釋意!
    注釋:人們普遍認為,寺廟是供奉神的地方。在眾神的金身前都會有一張敬拜桌,上面有供品。住所位於神廟前,就像家人想向眾神上供一樣,所以再多錢財也會散盡。相反,聖殿後面的住所就像神一樣,得到了無數的奉獻,因此它將變得富有。而住在廟的左面和右面,對家庭女主人不利,容易出鰥夫。這些觀點難免有主觀臆斷性,而實際情況是,首先,一般廟宇修建的距人們聚集區較遠,生活很不便利。
  • lncRNA-seq數據分析之新lncRNA鑑定和注釋視頻課程眾籌
    前面我系統性的總結了:lncRNA的一些基礎知識 ,和lncRNA晶片的一般分析流程 ,還有LncRNA-seq的一般分析流程 ,裡面提到了一個目前非常小眾的分析方向,就是新lncRNA鑑定和注釋,分析部分主要是分成兩個大塊,首先是hisat2+stringtie流程,然後是組裝好的gtf文件的後,細緻的進行新lncRNA鑑定和注釋。
  • ncRNA-eQTL:eQTL與ncRNA的碰撞
  • 《廣州大典研究》稿約|文章|引文|文獻|注釋_網易訂閱
    二、文章要求  (一)本刊為中文集刊,文章篇幅以3000~15000字為宜(含注釋、參考資料等)。  (二)文章應未在其他出版物(不包括網絡媒體)中發表過,或是首次被翻譯成中文的文章,可包括做過修改並未發表的博士論文、碩士論文。每人每期投稿以一篇為限。
  • 還有專門注釋的書,看完讓人哭笑不得
    如此一來,就很有意思了,比如teacup茶杯這個詞,經過注釋之後,就成為了梯,卡潑。再比如afternoon下午這個詞,經過注釋之後就是啊夫特爾,努恩。看完這個,不知道各位有沒有想到自己小時候學英語遇見不會讀的單詞也是這麼注釋的呢?怪不得我們會這樣注釋,原來是有傳統的!
  • 北京大學高歌團隊開發長非編碼RNA全面注釋平臺AnnoLnc2丨Nucleic Acids Research
    然而,這些工具僅支持從單一角度對長非編碼RNA進行注釋,難以涵蓋lncRNA的功能全譜。2016年,北京大學高歌課題組開發了長非編碼RNA在線注釋平臺AnnoLnc[13],基於700多套高通量數據和先進的計算流程實現了對任意人類長非編碼RNA 從序列結構到進化模式的全面注釋。
  • 925個PacBio測序注釋的細菌基因組現已上線,拿走不謝!
    近日由英國公共衛生部PHE(Public Health England), 太平洋生命科學公司PacBio (Pacific Biosciences) 及維爾康姆基金會桑格研究所Sanger(the Wellcome Trust Sanger Institute) 三方合作的NCTC 3000項目公開了新項目進展,已上線了925個注釋的細菌基因組