微生物生態(MicrobialEcology),又名環境微生物(Environmental Microbiology),是研究微生物之間及其與環境之間相互關係的學科。從生物角度,其研究對象主要有:
➤真核微生物(Eukaryotes,如原生生物、真菌等)
➤原核微生物(Prokaryotes,細菌和古菌)
➤病毒(Viruses)[1]。
隨著高通量測序的發展,我們可以很容易地從環境中獲得大量微生物marker基因序列,如原核的16S rDNA序列,真核的18S rDNA序列、ITS(ribosomalinternal transcribed spacer)序列等。拿到序列後,面臨的一個重要問題就是:選擇什麼資料庫進行比對才能得到較好的分類鑑定結果呢?其實針對每一類生物的主要marker序列都有相應的資料庫以方便比對鑑定。今天盧瑟菌就和大家簡單聊一下微生物生態研究中那些個常用的marker基因序列資料庫。
RDP
簡介:
RDP資料庫全稱「RibosomalDatabase Project」,該資料庫提供質控、比對、注釋的細菌、古菌16S rRNA基因和真菌28S rRNA基因序列。目前其資料庫最新版本為RDP Release 11.5,於2016年9月30日更新。更新後的資料庫包含3,356,809條比對、注釋的原核16S rRNA基因序列和125,525條真菌28S rRNA基因序列。
RDP是目前較常用的rRNA基因高通量測序後作為比對、注釋的參考資料庫。此外,還可用於平時菌種鑑定時,對少量rRNA基因測序後的物種進行分類鑑定,此時主要用其Classifier功能(http://rdp.cme.msu.edu/classifier/classifier.jsp),可非常方便地確定某條rRNA基因序列從門到屬/種水平的分類信息並給出各水平相應的置信度。
主頁:
http://rdp.cme.msu.edu/index.jsp
SILVA
簡介:
SILVA一詞起源於拉丁文silva(意為forest),它是一個包含三域微生物(細菌、古菌、真核)rRNA基因序列的綜合資料庫,其資料庫涵蓋了原核和真核微生物的小亞基rRNA基因序列(簡稱SSU,即16S和18SrRNA)和大亞基rRNA基因序列(簡稱LSU,即23S和28SrRNA)。目前其最新資料庫版本為SILVA SSU andLSU databases 128,更新時間為2016年9月29日,最新版本資料庫包含的數據信息見下表1所示。
表1 SILVA SSU andLSU databases 128資料庫基本參數信息
SSU參考序列
SSU非冗餘參考序列
LSU總序列
LSU參考序列
版本
128
128
128
128
總序列
1,922,213
645,151
735,238
154,297
細菌
1,719,541
552,377
176,194
130,965
古菌
64,390
24,315
1528
1271
真核
140,020
68,996
557,769
22,105
可培養
36,747
36,747
24,664
8232
模式株
22,334
22,334
5809
4675
因為SILVA資料庫更新比較及時,因此是目前rRNA基因高通量測序後最常選用的參考資料庫之一。此外,與RDP類似,SILVA也可被用於平時菌種鑑定時,對少量rRNA基因測序後的物種進行分類鑑定,此時主要用其SINA Alignment Service功能(https://www.arb-silva.de/aligner/),可非常方便地確定某條rRNA基因序列從門到屬/種水平的分類信息並給出各分類水平相應的置信度。
主頁:
https://www.arb-silva.de/
Greengenes
簡介:
Greengenes是專門針對細菌、古菌16S rRNA基因的資料庫,相比前面提到的RDP和SILVA資料庫,該資料庫更新速度較慢,目前更新停留在2013年5月更新的gg_13_5版本(可在該網址下載:http://greengenes.secondgenome.com/downloads/database/13_5),目前較常用於16S rRNA基因高通量測序後進行嵌合體去除的參比資料庫。目前,比較火的一個分析——PICRUST,即根據16S rRNA高通量測序結果預測微生物群落功能的分析,也是基於gg_13_5資料庫開發的,因此,想做PICRUST分析也必須依託Greengenes的gg_13_5資料庫進行比對。
主頁:http://greengenes.lbl.gov/
EzBioCloud
簡介:
EzBioCloud是與Greengenes資料庫類似,也是專門針對細菌、古菌16SrRNA基因的資料庫,但其特點是以可培養的細菌、古菌16S rRNA基因序列為主。該資料庫對與2016年10月1日進行了網站更新,其中最常用的功能是通過與該資料庫比對,確定某16S rRNA基因序列對應物種在資料庫中的近緣可培養/模式種,此時用到的是資料庫的Identify功能(http://www.ezbiocloud.net/identify),網站要求應用該功能時需要先通過郵箱註冊後方可使用。相比上面提到的RDP、SILVA和Greengenes來說,該資料庫較少用於16S高通量測序後的參比資料庫。
主頁:
http://www.ezbiocloud.net/dashboard
簡介:
PR2(ProtistRibosomal Reference database)資料庫是專門針對真核微生物小亞基SSU rRNA(即18SrRNA)基因的資料庫。該資料庫主要由核編碼的原生生物序列構成,但為方便分析18S的高通量測序數據,資料庫也包含了後生生物、陸地植物、大型真菌和真核細胞器(線粒體、質體等)的SSU序列。內含子和嵌合體序列已被去除。現PR2主頁因技術故障無法登陸,但是資料庫一直在更新,最新數據可在https://figshare.com/articles/PR2_rRNA_gene_database/3803709下載。
表3 PR2資料庫(v.1)中在Super-Group物種分類水平上注釋的18S rRNA基因序列數
簡介:
PhytoREF資料庫是專門針對質體(plastid)中16SrRNA基因的資料庫。所有陸地、淡水、海洋中的含質體生物16S rRNA基因序列都囊括在該資料庫內,包括陸地植物、海洋和淡水大型和微型藻類等的質體。
主頁:http://phytoref.org/ (不知何原因,目前該網站無法登陸,所以沒圖)
簡介:
浮遊有孔蟲界(planktonic Foraminifera /Rhizaria)是一類在海洋中廣泛存在的浮遊原生生物,其在海洋碳循環中起重要作用,且其化石可用以生物年代地層和古氣候重建。PFR2是專門針對浮遊有孔蟲界18SrRNA基因的資料庫。目前更新版本為1.0,於2015年1月20日釋放,包含3322條高質量的浮遊有孔蟲界18S rRNA基因序列。
主頁:
http://pfr2.sb-roscoff.fr/
UNITE
簡介:
ITS(ribosomalinternal transcribed spacer核糖體基因內轉錄間隔區)是最常用的真菌鑑定及多樣性檢測的marker基因,UNITE資料庫就是專門針對真菌ITS序列的資料庫。UNITE常被用於ITS序列高通量測序後對真菌進行分類注釋的比對資料庫,目前資料庫已經更新至版本7.1,更新時間為2016年11月20日,包含8180條高質量ITS參考序列,下載地址為:https://unite.ut.ee/repository.php。當然,UNITE網站也可對單挑ITS序列進行進行在線分類鑑定(https://unite.ut.ee/analysis.php)。
主頁:
https://unite.ut.ee/
ITS2
簡介:
位於真核生物5.8S和28S rRNA基因之間的ITS2基因常被用於鑑定真核微生物的marker序列。ITS2資料庫就是專門針對真核微生物ITS2序列的資料庫。
主頁:
http://its2.bioapps.biozentrum.uni-wuerzburg.de/
簡介:
FunGene(Functional Gene)是RDP延伸的一個針對微生物功能基因序列的資料庫。其按照功能分為抗生素抗性(Antibiotic resistances)、植物致病基因(Plant Pathogenicity)、生物地球化學循環(Biogeochemical cycles)、系統進化marker(Phylogenetic markers)、生物降解(Biodegradation)、金屬循環(Metal Cycling)及其他(Other)等七類功能基因。每類都包含幾到上百種功能marker基因,可被用於功能marker基因高通量測序後的比對及功能基因引物設計等。
主頁:
http://fungene.cme.msu.edu/
上述只是幾個比較常用的資料庫,除此之外還有很多新出的,好用的資料庫(當然還有我們的最愛NCBI Blast)
[1]https://en.wikipedia.org/wiki/Microbial_ecology#cite_note-BartonNorthup2011-2
[2]Cole J R, Wang Q, Fish J A, et al. Ribosomal Database Project: data andtools for high throughput rRNA analysis[J]. Nucleic acids research, 2013:gkt1244.
[3]Quast C, Pruesse E, Yilmaz P, et al. The SILVA ribosomal RNA gene databaseproject: improved data processing and web-based tools[J]. Nucleic acidsresearch, 2013, 41(D1): D590-D596.
[4]Kim O S, Cho Y J, Lee K, et al. Introducing EzTaxon-e: a prokaryotic 16S rRNAgene sequence database with phylotypes that represent uncultured species[J].International journal of systematic and evolutionary microbiology, 2012, 62(3):716-721.
[5]DeSantis T Z, Hugenholtz P, Larsen N, et al. Greengenes, a chimera-checked 16SrRNA gene database and workbench compatible with ARB[J]. Applied andenvironmental microbiology, 2006, 72(7): 5069-5072.
[6]Kõljalg U, Nilsson R H, Abarenkov K, et al. Towards a unified paradigm forsequence‐basedidentification of fungi[J]. Molecular ecology, 2013, 22(21): 5271-5277.
[7]Guillou L, Bachar D, Audic S, et al. The Protist Ribosomal Reference database(PR2): a catalog of unicellular eukaryote small sub-unit rRNA sequences withcurated taxonomy[J]. Nucleic acids research, 2012: gks1160.
[8]Koetschan C, Hackl T, Müller T, et al. ITS2 database IV: interactive taxonsampling for internal transcribed spacer 2 based phylogenies[J]. MolecularPhylogenetics and Evolution, 2012, 63(3): 585-588.
[9]Decelle J, Romac S, Stern R F, et al. PhytoREF: a reference database of theplastidial 16S rRNA gene of photosynthetic eukaryotes with curated taxonomy[J].Molecular ecology resources, 2015, 15(6): 1435-1445.
[10]Morard R, Darling K F, Mahé F, et al. PFR2: a curated database of planktonicforaminifera 18S ribosomal DNA as a resource for studies of plankton ecology,biogeography and evolution[J]. Molecular ecology resources, 2015, 15(6):1472-1485.
[11]Hulo C, De Castro E, Masson P, et al. ViralZone: a knowledge resource tounderstand virus diversity[J]. Nucleic acids research, 2011, 39(suppl 1):D576-D582.
[12]Fish J A, Chai B, Wang Q, et al. FunGene: the functional gene pipeline andrepository[J]. Frontiers in microbiology, 2013, 4: 291.
本文轉載自微生物生態,如有侵權請聯繫公眾號刪除
生信圈致力於每天推送生物信息乾貨,讓大家了解生信行業。旨在通過更多的交流促進行業的發展。我們一直在尋找志同道合的夥伴!投稿郵箱:bioinfor_club@163.com
生信圈