細菌基因組信息分析與解讀專題系列(二)——細菌基因組注釋Ⅰ(基因預測和ncRNA)

2021-03-02 天科生物

細菌基因組通過測序平臺測序以及經過相應的組裝之後,便獲得了基因組的序列。此時,這個fasta格式的序列只是代表了ATCG這些鹼基組成的字符的排列。要解讀隱藏在這些字符和排列中的生命含義,就需要經過一個根據已有知識進行預測的注釋過程。

基因組注釋(Genome annotation)是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別、基因組功能注釋,而基因組功能注釋包括基因預測、ncRNA、重複序列、CRISPR預測、分泌蛋白預測等。

細菌的染色體基因組通常僅由一條環狀雙鏈DNA分子組成細菌的染色體相對聚集在一起,形成一個較為緻密的區域,稱為類核。其基因組具有以下特點:

前導鏈和滯後鏈GC含量不均衡;

結構基因常單拷貝,而核糖體rRNA編碼基因冗餘;

基因密度高,編碼區佔基因組90%以上,非編碼序列佔比例小;

DNA分子具有複製起始區OriC以及終止區TerC;

具有操縱子結構,基因的轉錄模式為多順反子;

基因上遊多有TATA-box啟動子結構等以及SD序列;

基因序列的下遊常常包含終止序列(終止子結構),但是無poly(dT)尾巴。


根據這些特點,我們對基因組進行注釋。

Step 1 OriC注釋

OriC位點也就是複製起始位點(origin of replication),是基因組複製起始的一段特殊區域。基因組DNA複製可以在這個位點雙向或者定向開始。不同生物之間OriC位點序列組成有差異,但是也具有一些共同的特徵,比如AT含量較高,具有能夠結合複製前複合物的位點。如果拼接得到的是完成圖,也就是環狀DNA,那麼通過GC-skew以及DnaA基因的位置可以確定OriC位點,作為基因組序列的start position。定下基因組的序列順序後,就可以進行相應的注釋了。


細菌oriC位點示例

Step 2 非編碼RNA注釋

非編碼RNA雖然不翻譯蛋白質,但是在生命活動中也執行著重要的功能,比如參與了蛋白質的翻譯過程的rRNA、攜帶構築蛋白質分子的基本單位-胺基酸的tRNA。基本的策略,包括和資料庫比對以及二級結構預測。RNAmmer預測 rRNA、tRNAscan-SE預測tRNA以及Rfam預測其它ncRNA等。


tRNA和rRNA結構示例

Step 3 編碼基因注釋

注釋首先要對編碼基因進行預測,根據基因結構特點,比如Glimmer軟體(Gene Locator and Interpolated Markov ModelER)可以結合訓練集,採用內插馬爾可夫模型(interpolated Markov models,IMMs)來識別編碼區域和從非編碼區域,將CDS從DNA中區分出來。Glimmer已經成功運用於細菌、古菌以及病毒的基因預測當中,而且新版的Glimmer (3.0) 引入了RBS位點預測,提高了基因起始位點注釋的精度。NCBI目前也採用Glimmer的預測方法。此外,Prodigal (Prokaryotic DynamicProgramming Genefinding Algorithm)、GeneMark等軟體也可用於CDS的預測。拿到軟體預測的CDS序列後,遍可以進入喜聞樂見地通過同源比對(blast)進行編碼產物的注釋過程了。


細菌Lac操縱子結構示例

完成了這三步,就達到NCBI 的「及格線」要求:Minimum standards for annotating complete genomes。

參考文獻:

Natalia V. Sernova , Mikhail S. Gelfand. Identification ofreplication origins in prokaryotic genomes.2008. RIEFINGS IN BIOINFORMATICS. 9:376-391

Eduardo P.C. Rocha. The Organization of the Bacterial Genome. 2008. AnnualReview of Genetics. 42: 211-233

Kazuharu Arakawa, Masaru Tomita. The GC Skew Index: A Measure ofGenomic Compositional Asymmetry and the Degree of Replicational Selection.2007. Evol Bioinform. 3: 159–168.

Peter Schattner, Angela N. Brooks1, Todd M. Lowe. The tRNAscan-SE,snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs.2005. NucleicAcids Research.33:686-689

A.Bateman, M. Marshall,et al. Rfam: an RNA family database. 2003. EddyNucleic Acids Research. 31(1): 439-441

S. Salzberg, A. Delcher, et al. Microbial gene identification usinginterpolated Markov models. 1998.Nucleic Acids Research. 26(2):544-548.

A.L. Delcher, D. Harmon, et al. Improved microbial geneidentification with GLIMMER. 1999. Nucleic Acids Research. 27(23): 4636-4641.

當然,相信您不僅僅滿足於及格線,那麼敬請繼續關注我們下一專輯,細菌基因組注釋II:重複序列、CRISPR預測、分泌蛋白預測、CAZY預測。



相關焦點

  • 細菌比較基因組分析,這樣做更有效
    疫情期間,為支持大家在特殊時期更好地充電學習,同時積極響應國家防控疫情的號召,華大基因學院特推出「遠程講解+面授實操」的全新培訓模式開設細菌比較基因組分析實戰培訓。目前線上直播課程已順利結束,通過遠程直播課程使大家對細菌基因組研究趨勢、常用分析方法與流程有了系統全面的了解。
  • 新年成長禮2|細菌基因組分析常用軟體整理(含下載連結)
    (往期內容查看公眾號獲取)想要學習細菌基因組分析的小夥伴趕緊看過來。細菌基因組分析最基礎、最核心的部分是獲得完整準確的組裝序列(包括染色體和質粒),其次進行組分分析,即通常所說的基因注釋、移動元件分析等,接下來可以根據研究目的選擇方法進行比較基因組研究,最後挖掘並關聯結果,解答科學問題,當然,過程中可能會涉及到實驗或其他組學方法。
  • 925個PacBio測序注釋的細菌基因組現已上線,拿走不謝!
    近日由英國公共衛生部PHE(Public Health England), 太平洋生命科學公司PacBio (Pacific Biosciences) 及維爾康姆基金會桑格研究所Sanger(the Wellcome Trust Sanger Institute) 三方合作的NCTC 3000項目公開了新項目進展,已上線了925個注釋的細菌基因組
  • 細菌的核區和基因組
    雖然細菌沒有真正意義上的染色體結構,但是其DNA也在RNA和擬核蛋白(不同於組蛋白)的協助下進行高效的包裝。在不到1微米(um)的核區空間內,摺疊著長達1200-1400微米(um)的環狀DNA,所含的遺傳信息量可編碼2000-5000種蛋白質,因此細菌的DNA的空間構建時十分精巧的。
  • 細菌完成圖全攻略
    命運的齒輪開始轉動,一場冒險之旅就此展開以上,就是細菌完成圖的背景,細菌完成圖使用PacBio RSII平臺進行測序,通過構建10Kb的SMRTbell文庫,能夠組裝成完美的圓圈,不含任何gap,乃細菌基因組測序之首選。標準分析為基因組組分分析和基因功能注釋,高級分析包括比較基因組和群體進化分析。
  • 人類基因組時代的泛基因組學
    真核生物泛基因組另外,除了泛基因組之外,最近還有一種新的泛分析,叫做:「泛轉錄組(Pan-stanscriptome)」。顧名思義,它是物種全體轉錄出來的 RNA 序列總集合,用來特指基因表達和轉錄上的泛分析。
  • 細菌與古細菌的基因組草圖
    但大部分微生物都難以培養,關於它們的基因組數據很少。人們把進化樹上未標註出的微生物形象地稱為「微生物暗物質」。日前,美國科學家利用單細胞基因組學技術,對從未在實驗室中被培養過的細菌與古細菌進行測序,獲得了201種細菌與古細菌的基因組草圖,大大拓寬了人類對「微生物暗物質」的認識。研究結果發表在7月14日的《自然》。
  • 9文聚焦:宏基因組學與微生物組分析方法和工具
    9 篇文獻,分別關注:生物信息學,宏基因組學,菌株水平,絕對豐度,分析方法和工具,注釋,噬菌體。,同時強調了宏基因組學數據分析的挑戰;③ 鑑於與模式生物相比,環境細菌功能資料庫的缺乏以及異質環境樣品中宏基因組組裝和定量的技術難度,功能注釋仍面臨重大挑戰;④ 使用多種技術平臺的數據整合將使人們更好地了解如何利用宏基因組技術。
  • 利用Nanopore測序從微生物群系獲得完整、封閉成環的細菌基因組
    本周佳作提出了一套測序流程(Lathe,結合三代測序和二代測序的測序數據對細菌基因組進行組裝),作者利用多樣本對該套測序流程進行驗證,並最終得出該測序流程相比其他方法,組裝結果更具有連續性且成本更低,在研究生物功能尤其是重複原件的作用等方面具有廣闊應用前景。
  • 2019微生物組—宏基因組分析專題培訓第三期
    從Linux和R基礎、宏基因組Linux伺服器分析平臺搭建、Windows常用統計分析軟體、數據分析圖表解讀和實戰、宏基因組有參(Reference-based適合人類、動物腸道等)和無參(De novo適合植物、環境樣本等)標準分析流程、Binning(挖掘單菌基因組)、統計分析以及各類高級分析(多基因連接進化樹、網絡圖繪製和美化、網絡屬性比較、機器學習等),和CNS級圖片修改排版。
  • 產Macrolactins的海洋細菌X-2中Ⅰ型PKS基因簇的篩選鑑定與功能分析
    微生物學通報 SEP 20, 2008, 35(9): 1367~1372產Macrolactins的海洋細菌X-2中Ⅰ型PKS基因簇的篩選鑑定與功能分析董曉毅 王梁華 孫銘娟 宗英 焦豫良 焦炳華(中國人民解放軍第二軍醫大學基礎醫學部生物化學與分子生物學教研室  上海  200433)摘  要: Macrolactins
  • 基因組工程 | INTEGRATE可快速實現高效 多路細菌基因組工程
    Sternberg團隊在Nature Biotechnology發表了題為「CRISPR RNA-guided integrases for high-efficiency, multiplexed bacterial genome engineering」的文章,CRISPR RNA引導的整合酶用於高效、多路細菌基因組工程。
  • 基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究
    今天美格基因的佳作推薦基於「三+二」宏基因組測序策略提出了一套高效組裝宏基因組數據的分析流程,為抗性基因和可移動元件的精確研究提供了可靠方法。4、分析可移動元件和抗性基因,對巨噬菌體進行注釋和進化分析。5、對OPERA-MS組裝到的2個K. pneumoniae菌株進行豐度分析,再與多抗性質粒進行關聯分析。
  • 戰勝超級細菌的關鍵基因線索——質粒測序
    來自威爾康桑格研究所和牛津大學大數據研究所的基因組病原體監測中心的研究人員,一起使用基因組測序技術分析質粒和從歐洲醫院病人身上採集的肺炎克雷伯菌樣本中的細菌染色體。在肺炎克雷伯菌中,這些碳青黴烯酶基因通常存在於質粒上,質粒可以在不同菌株和不同種類的細菌之間 「跳躍」,這意味著抗生素耐藥基因可以迅速傳播,並推動全世界耐藥細菌感染的迅速上升。因此,研究人員在追蹤細菌的進化和傳播時,必須包括質粒,才能真正了解抗生素耐藥基因是如何傳播的。然而,由於基因序列的大小和變異性,以前很難對其進行可靠的測序。
  • 華大科技生物信息培訓班RNA分析專題(山東 · 泰安)
    人類基因組計劃完成後生物科學進入了人類後基因組時代,即大規模開展基因組生物學功能研究和應用研究的時代。基因組、轉錄組水平的遺傳數據得以迅速積累和利用,在生物、醫學、農業和工業領域得到越發重要的應用。
  • ncRNA注釋
    此外,它在蛋白質生物合成的起始作用中,在DNA反轉錄合成中極及其他代謝調節中也起重要作用。細胞內tRNA的種類很多,每一種胺基酸都有其相應的一種或幾種tRNA。■tRNAscan-SE簡介tRNA基因識別比編碼蛋白質的基因識別簡單,目前基本解決了用理論方法預測tRNA基因的問題。
  • 水熊蟲基因組之謎
    大家可能也想起了之前關於水熊蟲基因組的相關研究。2015年在《PNAS》發表的一篇文章中,北卡羅來納大學的研究人員利用illumina平臺結合mate-pare文庫測序,同時使用PacBio的測序平臺對基因組進行三代測序。研究人員通過序列分析發現,水熊蟲基因組序列中有17.5%的序列為外源序列,其中的91.7%來源於細菌,水熊蟲強大的生存能力與外源基因的水平基因轉移(HGT)存在關聯。
  • 關於真菌基因組分析
    1:關於真菌基因組次級代謝分析可以使用SMURF和AntiSMASH,基因組注釋使用MAKER,
  • 科學家成功移植細菌基因組 人造物種數月有望問世
    美國科學家日前宣布,他們首次實現了完整的基因組在物種間的移植,這一「裡程碑式」技術的成功為首個「人造物種」的降生奏響了序曲。 ***試驗成功:細菌大「變心」 綜合英美媒體報導,負責實施首例「細菌基因組移植」的是曾在破解人類基因組計劃中起到重要作用的美國科學家克雷格·文特爾和他領導的研究小組。
  • 基因測序(視頻+課件),輕鬆學會數據的處理和分析
    生物信息學與以往的傳統生物學不同,它本身是一個混合體,而且在今天看來它應當還要包含現在的NGS和基因組學。它重在數據,因此在這個領域中比較重要的是數學和計算機——計算機指的是:編程能力和算法設計能力。但生物信息畢竟還是和生物有關,毫無生物知識其實也說不過去。