近日,《核酸研究(Nucleic AcidsResearch)》在線發表了國家微生物科學數據中心(中國科學院微生物研究所微生物資源與大數據中心、世界微生物數據中心)團隊關於全球模式微生物基因組資料庫gcType的文章。gcType是由我國牽頭的全球模式微生物基因組測序計劃的重要成果。
模式菌株(type strains)是在給微生物定名、分類記載和發表時,以純菌狀態所保存的菌種,是微生物分類學的標準參考物質,也是理想的生物技術研究工具,具有重要的科研和產業價值。模式菌株長期以來分散在全球各國超過100餘個保藏中心,是各個保藏中心甚為珍貴的資源。2018年,微生物所牽頭組織發起了全球模式微生物基因組測序計劃,從全球微生物資源保藏中心選擇目前未進行測序的模式微生物菌株(包括細菌、古菌和可培養真菌),預計5年內完成超過10,000種的細菌、真菌、古菌模式菌株基因組測序,建立全球微生物模式菌株基因組測序合作網絡,現已有來自美國的ATCC、日本JCM和NBRC、韓國的KCTC等超過12個國家的26個微生物資源保藏中心正式加入該計劃並形成了重要了階段性成果。
由國家微生物科學數據中心(世界微生物數據中心)建立的模式微生物基因組資料庫(gcType)http://gctype.wdcm.org/,是為分類學家進行基因組研究、新種鑑定的一個非常有價值的工具平臺。平臺不僅集成了目前所有公共來源的模式微生物物種和基因組數據,還發布了大量自測模式微生物基因組數據,是目前國內外模式微生物基因組數據最為豐富的平臺。並且集合了數據搜索下載,新種鑑定,基因組拼接與注釋等在線分析工具,為全球各個保藏中心和廣大分類學家提供一個分類學研究的利器。
gcType資料庫主頁
16770個物種 截止到2020年11月,所有有效發表的原核微生物物種信息及其對應的菌株信息
可以直接通過點擊主頁上的數字16770查詢這些物種名稱所對應的模式菌株編號(strain),測序狀態(sequencing status)和測序中心(sequencing center)。也可以通過點擊主頁左邊Data→Valid published species進入到相同的查詢頁面。
如果想查詢這16770個有效發表物種名稱的16s rDNA 基因序列,可以通過點擊主頁左側Data→16S rDNA sequences進行全部的查詢。資料庫還利用打分程序,對多條序列進行了質量評估,為研究人員推薦最佳質量序列。
67351個模式菌株 所有有效發表的原核微生物物種,在全球微生物保藏中心共保藏有67351個模式菌株。
可以直接通過點擊主頁上的數字67351查詢這些模式菌株所對應的物種信息。
也可以按照保藏中心來查詢模式菌株的測序情況,通過點擊主頁左側Data→Type strains by Culture Collection,可以查詢得到86家不同保藏中心的全部模式菌株的數量(type strain (total)),已經測序的模式菌株的數量(type strain (sequenced)和未測序的模式菌株的數量(type strain (un-sequenced))。還可以近一步點擊或者搜索單個保藏中心了解該保藏中心模式菌株的測序情況。
12913個基因組 所有已經完成測序的模式微生物基因組數據
可以直接通過點擊主頁上的數字12913查詢這些基因組數據所對應的物種名稱(species)、模式菌株編號、測序狀態(project status)、基因組大小(genome size)、N50數值、Scaffold數值和GC含量(GC %)。也可以通過點擊主頁左側Data→Type strain genomes進入到相同的查詢頁面。還可以利用過濾工具,按照不同條件選擇目標基因組。
資料庫還利用打分程序,對基因組數據進行了質量評估,為研究人員推薦最佳質量基因組。基因組序列的fasta文件,還可以一鍵批量下載!
1104個自測基因組
世界微生物數據中心(World data center for microorganisms,WDCM)在2018年啟動了全球微生物模式菌株基因組測序計劃(GCM2.0),目標是完成全世界所有模式微生物的基因組測序。已經吸引了來自14個國家超過20個保藏中心的加入。在這裡,有最新發布的自測基因組數據!
通過GCM測序平臺測序的基因組數據
搜索資料庫
通過物種名稱搜索
在搜索框中輸入待搜索的物種名稱,不僅能夠通過GCM資料庫搜索到與物種名稱相關的所有模式菌株編號,GCM項目編號,測序狀態和測序中心的信息。還可以通過點擊物種名稱下面的「LPSN」圖標跳轉到LPSN網站查詢其他相關信息。
以物種名稱Streptomyces rubiginosus 為例的搜索界面
通過菌株編號搜索
在搜索框中輸入待搜索的菌株編號,可以通過GCM資料庫搜索到菌株編號對應的物種名稱(species),GCM項目編號(project ID),測序狀態(sequencing status)和測序中心(sequencing center)的信息。
點擊GCM項目編號,查看對應的測序信息 (Sequencing information)和注釋結果(Annotation results)。也可以直接下載基因組fasta格式的文件。
以GCM項目編號GCM60017754為例的搜索界面
如果需要通過一些關鍵字或者其他特定的篩選條件來搜索需要的信息,可以通過高級搜索來實現。
高級搜索頁面
可以利用16S rRNA基因序列,與生物信息資料庫中的16S rRNA基因序列進行比對,達到對該微生物分類鑑定的目的。將測序獲得的16S rRNA基因序列放在「Input sequence」框中,在「Job title」中填寫菌株編號或者其他名字,點擊「Blast」,就可以搜索出該基因序列所對應的物種名稱(species),一致性(Identities), 序列比對長度(Alignment Length),不匹配數(Mismatches), 缺失或插入(Gap Opens)等信息。
以物種名稱「Acanthopleuribacterpedis」的16S rRNA基因序列為例的搜索頁面
樹形結構瀏覽
點擊主頁左側Search→Tree browser進入樹形結構瀏覽搜索頁面,可以通過NCBI生物分類資料庫(NCBI taxonomy)樹形結構和基因組分類學資料庫(GTDB taxonomy)樹形結構兩種方法在古菌和細菌兩類中瀏覽已經測序過的物種。
以物種名稱「Acidilobussaccharovorans」為例的搜索界面
基因組拼接、注釋和物種鑑定
不知道用什麼工具分析?沒有足夠的計算資源?需要寫代碼太麻煩?在這個平臺裡都可以得到免費的一站式解決方案。
點擊主頁左側Tools→Genome Analysis可以在線進行基因組分析(包括基因組拼接和注釋)。點擊主頁左側Tools→Species Identification可以在線進行物種鑑定,所有的操作都是圖形化界面,只需要選擇參數,上傳序列文件就可以。物種鑑定模塊可以計算ANI,直接用於IJSEM文章發表!
如果是第一次使用這兩個功能,請點擊主頁左側Tools→Manual閱讀流程說明手冊。
在線基因組分析界面
在線物種鑑定界面
免費的新種測序和分析
平臺還可以為用戶提供免費的潛在微生物模式菌株基因組測序和分析,詳情請看模式微生物基因組可以免費測序了~