細菌基因組通過測序平臺測序以及經過相應的組裝之後,便獲得了基因組的序列。此時,這個fasta格式的序列只是代表了ATCG這些鹼基組成的字符的排列。要解讀隱藏在這些字符和排列中的生命含義,就需要經過一個根據已有知識進行預測的注釋過程。
基因組注釋(Genome annotation)是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別、基因組功能注釋,而基因組功能注釋包括基因預測、ncRNA、重複序列、CRISPR預測、分泌蛋白預測等。
細菌的染色體基因組通常僅由一條環狀雙鏈DNA分子組成細菌的染色體相對聚集在一起,形成一個較為緻密的區域,稱為類核。其基因組具有以下特點:
前導鏈和滯後鏈GC含量不均衡;
結構基因常單拷貝,而核糖體rRNA編碼基因冗餘;
基因密度高,編碼區佔基因組90%以上,非編碼序列佔比例小;
DNA分子具有複製起始區OriC以及終止區TerC;
具有操縱子結構,基因的轉錄模式為多順反子;
基因上遊多有TATA-box啟動子結構等以及SD序列;
基因序列的下遊常常包含終止序列(終止子結構),但是無poly(dT)尾巴。
根據這些特點,我們對基因組進行注釋。
Step 1 OriC注釋
OriC位點也就是複製起始位點(origin of replication),是基因組複製起始的一段特殊區域。基因組DNA複製可以在這個位點雙向或者定向開始。不同生物之間OriC位點序列組成有差異,但是也具有一些共同的特徵,比如AT含量較高,具有能夠結合複製前複合物的位點。如果拼接得到的是完成圖,也就是環狀DNA,那麼通過GC-skew以及DnaA基因的位置可以確定OriC位點,作為基因組序列的start position。定下基因組的序列順序後,就可以進行相應的注釋了。
細菌oriC位點示例
Step 2 非編碼RNA注釋
非編碼RNA雖然不翻譯蛋白質,但是在生命活動中也執行著重要的功能,比如參與了蛋白質的翻譯過程的rRNA、攜帶構築蛋白質分子的基本單位-胺基酸的tRNA。基本的策略,包括和資料庫比對以及二級結構預測。RNAmmer預測 rRNA、tRNAscan-SE預測tRNA以及Rfam預測其它ncRNA等。
tRNA和rRNA結構示例
Step 3 編碼基因注釋
注釋首先要對編碼基因進行預測,根據基因結構特點,比如Glimmer軟體(Gene Locator and Interpolated Markov ModelER)可以結合訓練集,採用內插馬爾可夫模型(interpolated Markov models,IMMs)來識別編碼區域和從非編碼區域,將CDS從DNA中區分出來。Glimmer已經成功運用於細菌、古菌以及病毒的基因預測當中,而且新版的Glimmer (3.0) 引入了RBS位點預測,提高了基因起始位點注釋的精度。NCBI目前也採用Glimmer的預測方法。此外,Prodigal (Prokaryotic DynamicProgramming Genefinding Algorithm)、GeneMark等軟體也可用於CDS的預測。拿到軟體預測的CDS序列後,遍可以進入喜聞樂見地通過同源比對(blast)進行編碼產物的注釋過程了。
細菌Lac操縱子結構示例
完成了這三步,就達到NCBI 的「及格線」要求:Minimum standards for annotating complete genomes。
參考文獻:
Natalia V. Sernova , Mikhail S. Gelfand. Identification ofreplication origins in prokaryotic genomes.2008. RIEFINGS IN BIOINFORMATICS. 9:376-391
Eduardo P.C. Rocha. The Organization of the Bacterial Genome. 2008. AnnualReview of Genetics. 42: 211-233
Kazuharu Arakawa, Masaru Tomita. The GC Skew Index: A Measure ofGenomic Compositional Asymmetry and the Degree of Replicational Selection.2007. Evol Bioinform. 3: 159–168.
Peter Schattner, Angela N. Brooks1, Todd M. Lowe. The tRNAscan-SE,snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs.2005. NucleicAcids Research.33:686-689
A.Bateman, M. Marshall,et al. Rfam: an RNA family database. 2003. EddyNucleic Acids Research. 31(1): 439-441
S. Salzberg, A. Delcher, et al. Microbial gene identification usinginterpolated Markov models. 1998.Nucleic Acids Research. 26(2):544-548.
A.L. Delcher, D. Harmon, et al. Improved microbial geneidentification with GLIMMER. 1999. Nucleic Acids Research. 27(23): 4636-4641.
當然,相信您不僅僅滿足於及格線,那麼敬請繼續關注我們下一專輯,細菌基因組注釋II:重複序列、CRISPR預測、分泌蛋白預測、CAZY預測。