本篇文章整合了 2019 年發表的 5 篇腸道微生物基因組的文章的數據得到一個全面非冗餘的人腸道微生物基因組資料庫 UHGG。UHGG 目錄中有 20 多萬基因組,超過 60% 的腸道基因組無法分配給現有物種,表明大多數 UHGG 物種在當前參考資料庫中缺乏代表性。對 UHGG 預測 CDS 並生成蛋白序列資料庫 UHGP, UHGP-100 含有 171M 的序列,雖然 UHGP 總體上包含了更多的蛋白質簇,但大多數新添加的蛋白質在個體樣本中的豐度/流行率較低。腸道菌群可能包含許多具有重要代謝活性的物種,尚待在實驗室條件下進行培養和功能鑑定。各大洲之間有很高的菌株變異性,並且仍有相當程度的多樣性有待發現。
Keywords: 腸道微生物組 UHGP、核苷酸變異(SNV)、 人類胃腸道基因組(UHGG)
Title: A unified catalog of 204,938 reference genomes from the human gut microbiome
DOI: 10.1038/s41587-020-0603-3
Journal: Nature Biotechnology [IF 36.558]
First Authors: Alexandre Almeida
Correspondence: Alexandre Almeida, Robert D Finn
Affiliation: European Bioinformatics Institute (EMBL–EBI), Wellcome Genome Campus, Hinxton, UK.
Published: 2020-07-20
人類腸道微生物與人類健康和疾病息息相關,但是目前缺少具有足夠微生物多樣性的參考資料庫。雖然 HMP 和 宏基因組的技術發展,創建了 IGC 人腸道基因集,但是 IGC 缺乏高解析度的分類學分類,在基因組基礎上建立遺傳關聯和完整功能途徑的推測。雖然培養組學也在持續更新人體微生物的認知,但宏基因組的組裝和 binning 使得無需培養即可獲得大量難易培養的微生物多樣性,但這一策略面臨的挑戰是錯誤的 binning 會嚴重影響分類學和功能推斷。因此 MAG 需要更加細緻的條件。
最近的發表的兩篇培養組學的文章和三篇獨立的從公共資料庫中重建 MAG 都為培養和未培養的基因組提供寶貴的資源。結合這些成果構建一個統一非冗餘的數據集對未來微生物研究至關重要。為此,我們從人類腸道微生物數據中編譯和分析了 204,938 個基因組和 170,602,708 個基因以生成 Unified Human Gastrointestinal Genome (UHGG) and Protein (UHGP) catalogs。
01 UHGG 目錄中有 200,000 多種人類腸道微生物基因組
第一步:收集來自人腸道微生物所有原核生物的分離培養的基因組(isolate genomes)和宏基因組組裝基因組(MAGs)
isolate genomes 收集來源:Human Gastrointestinal Bacteria Culture Collection (HBC)、
Culturable Genome Reference (CGR)、NCBI, PATRIC 和IMG 中可獲得的人腸道微生物培養基因組。
MAG 收集來源:CIBIO 、RBI 、HGM
統一質控基因組質量,定義質量分數 = (completeness –5 × contamination) > 50。最後各個資料庫來源符合要求的有 734 (HBC), 1,519 (CGR), 651 (NCBI), 7,744 (PATRIC/IMG), 137,474 (CIBIO), 87,386 (EBI) 和 51,489 (HGM),合計 286,997 個基因組(Fig. 1a),然後依據 Mash 距離合併冗餘基因組,最後得到 204,938 非冗餘基因組,這些基因組來源的樣本覆蓋 31 個國家,橫跨 6 大洲,但是主還是來自中國,丹麥,西班牙和美國(Fig. 1b)。
Fig. 1 | The unified sequence catalog of the human gut microbiome.
為了確定收集數據集中含有多少物種,作者將 286,997 個基因組進行聚類(ANI > 95%, AF> 30%)。最後得到了 4,644 推測原核物種,其中細菌 4,616 種,古菌 28種。每一 species 簇參照基因組完整度、汙染率、N50 和是否有培養基因組(優先選擇)選擇代表基因組,最後集合構成 UHGG (Fig. 1c)。4,644 物種水平的基因組中,3,207 個基因組的完整度 >90%, 汙染率 < 5% ,其中 573 含有 5S, 16S , 23S rRNA和至少 18 個 標準 tRNAs(Extended Data Fig. 1)。這 573 個基因組(535 來自分離培養,38 個來自MAGs),高質量的 MAGs 少的可能原因是短 read 的宏基因組數據很難組裝好 rRNA。
Extended Data Fig. 1 | Genome quality of species representatives.
隨後,作者用 GTDB-Tk 確定這些代表基因組的分類學分類,但是超過 60% 的腸道基因組沒有匹配到已有物種,也就證實了大部分的 UHGG 物種在目前資料庫中缺乏代表(Extended Data Fig. 2)。
Extended Data Fig. 2 | Taxonomy composition of the bacterial and archaeal species.
作者還用 CMseq 評估了 UHGG 的異質性,中位數是 0.06%,這個值比先前的研究報導的 0.5% 還低,也就表明了 0.06% 可以作為未來研究評估 MAG 異質性的新參考。
02 個別研究中重現的物種比較
作者想了解這4,644 腸道物種在不同研究中能重現多少以及它們重疊和重現的水平,和培養與未培養物種之間的比例(Fig. 2a)。
作者用了 3 個大型的 MAG 研究,分別採用不同的組裝和分箱策略。
隊列名稱是否合併樣品組裝組裝軟體分箱軟體CIBIO是metaSPAdesMetaBATHGM是MEGAHITMaxBin 2,MetaBAT 2,CONCOCT和DAS Tool 的組合EBI否
metaSPAdesMetaBAT 2
儘管這些方法有差異,但是這三個獨立研究檢測到 1,081 相同的種,但沒有一個培養基因組被檢出。如果只看從三個項目共有的 1,554 個樣本中重現的基因組,發現 93-97% 的物種至少能在 2 個研究中出現,79-86% 的物種至在 3 個研究中都出現(Extended Data Fig. 3a)。三個研究中單個樣品的物種發現率水平差不多(Extended Data Fig. 3b)。從 3 個不同研究的同一個樣品重現的特定基因組的 ANI(average nucleotide identity) 和 AF(alignment fraction) 中位數是99.9% 和 92.1%(≥90%完整基因組的 AF=94.5%;中等質量基因組的 AF= 86.6%)(Extended Data Fig. 3c)。這些結果表明,大型的人類腸道的MAG研究中,可以重現高度相似的基因組,但是完整<90%的基因組 AF值較少,因此下遊分析中用中等質量基因組分析時需要謹慎。
Extended Data Fig. 3 | Species overlap across study sets.
稀釋曲線分析顯示未培養物種尚未飽和,意味著仍有很多物種尚未發現,但是如果只考慮至少兩個同種基因組的物種時,物種的數量接近飽和(Fig. 2b)。
Fig. 2 | Intersection and frequency of species across studies.
作者還觀察了HBC, CGR 和NCBI 三個資料庫中培養物種的交集,發現,不同MAGs, 但大部分物種是獨立存在與其中一個集合(486/698; 70%),只有70(10%)個同時在三個集合存在(Extended Data Fig. 3d)。可能原因是採樣地理位置差異和培養組學的隨機性。
03 大部分腸道基因組物種缺乏分離培養基因組
UHGG 中 3,750 (81%) 的物種沒有在人腸道培養基因組數據集中找到代表基因組,把它們和所有 NCBI RefSeq isolate genomes 比對,其中 438 物種能在其他環境分離培養基因組中找到代表基因組(88 來自人身體部位, 29 來自其他動物, 3 來自植物和剩餘 318 來自未知分離來源),剩餘的 3,312 (71%) UHGG 則為未培養的。
通過計算每一個包含在培養和未培養的人腸道物種的物種簇基因組數量,發現,培養基因組代表了最大的物種簇,而 MAG 代表的物種簇則比較稀有。例如,在 25 個最大的細菌簇中,只有 2 個僅由 MAG 代表(Fig. 2c),而 1,212 個未培養物種只有一個代表基因組(其中 80% 來自僅在一項 MAG 研究中 (Extended Data Fig. 4)。
Extended Data Fig. 4 | Quality and sample origin of uncultured singleton species.
在這個數據集中,出現率較高的細菌是 Agathobacter rectalis (最近改名為 Eubacterium rectale), Escherichia coli D 和 Bacteroides uniformis (Fig. 2c, Extended Data Fig. 5a);出現率最高的古菌是 Methanobrevibacter A smithii。Methanobrevibacter A smithii 含有 608 個基因組,並在 6 大洲均出現(Extended Data Fig. 6)。
Extended Data Fig. 5 | Species frequency and geographical diversity.
Extended Data Fig. 6 | Diversity of the gut archaeal species detected.
通過每個大陸上發現每種物種的樣本比例計算的Shannon多樣性指數代表物種的地理多樣性,結果顯示,最大的物種簇顯示相似高水平的地理分布,這意味著最具有代表性的物種具有地理普遍性(Fig. 2c and Extended Data Fig. 5b)。
為了確定 UHGG 在人腸道微生物多樣性的代表性,作者將 1,005 個獨立的宏基因組數據集與 4,644 個 UHGG 物種比對,分類率中位數為 85.9%,較 RefSeq 資料庫提升了超155% (Fig. 2d)。來自 Cameroon(喀麥隆), Ethiopia(衣索比亞), Ghana(加納) 和Tanzania (坦尚尼亞)國家的非西方樣品的提升率更加明顯。這突顯 UHGG 對研究尚淺的人群也有很好的多樣性。
Fig. 2 | Intersection and frequency of species across studies.
4,616 個細菌 (Fig. 3a)和 28 個古細菌 (Extended Data Fig. 6) 的系統發育分布表明,未培養的物種分別僅佔細菌和古細菌系統發育多樣性的 66% 和 31%,其中幾個門缺可培養基因物種(Fig. 3b)。四大缺乏培養基因組簇有:
4C28d-15 目(167 species,最近提議命名為 Comantemales ord. nov.39; Fig. 3c),
RF39 目 (139 species),
CAG-272 科 (88 species)
Gastranaerophilales 目 (67 species).
儘管最近對 RF39 和 Gastranaerophilales 有些報導,顯示這些基因組都是高度營養缺陷性。這提示我們對腸道微生物的多樣性還是知之甚少。
Fig. 3 | Uncultured species are predominant among human gut phyla.
04 擴大人類腸道微生物的蛋白質組
作者用 286,997 基因組 預測構建了 625,255,473 個全長蛋白序列,按照胺基酸同一性成簇分成 50% (UHGP-50), 90% (UHGP-90), 95% (UHGP-90) 和 100% (UHGP-100),含有 5-171 百萬(M)個蛋白簇(Fig. 1c; Extended Data Fig. 7a)。UHGP-95 和 UHGP-90 簇的個數尚未飽和,但 UHGP-50 已經接近飽和。(Fig. 4a)
為了評估UHGP全面性如何,作者將 UHGP-90 (n = 13,910,025 蛋白簇) 和 9.9 M 的ICG-90 (1,267 個樣品組裝得到 7,063,981 蛋白簇)比較。比較結果如下(Fig. 4b):
1. ICG 包含的樣品,UHGP 基本覆蓋,除了 59 個轉錄組數據;
2. UHGP 樣品覆蓋地理位置更廣,包括了非洲,南美洲和大洋洲
3. UHGP-90 和 IGC-90 加起來一共 15.2M 蛋白簇,共有的有 5.8M ,UHGP 覆蓋了 81%的 IGC,剩下的 19% 是完整度 <50% 的原核碎片或者是病毒或真核或質粒或者其他沒有包含在 MAG 的序列;
4. UHGP 只含有 0.2% (n = 34,070 clusters) 的病毒區域,先前資料庫的比例為 5% 包括 IGC;
5.UHGP 比 IGC 增加 115% 的蛋白序列。
從 1,005 個樣品比對 UHGP 的分類率來看,雖然用 UHGG 比RefSeq的分類率高很多,但是 UHGP-90 的分類率並沒有比 IGC-90 的高很多,提高率中位數在5% (Extended Data Fig. 7b),這說明了雖然 UHGP 新收錄了很多蛋白序列,但是這些序列在單個樣品中豐度和出現率都較低。但是 UHGP 是從單個基因組預測得到而不是原始的宏基因組數據,也就意味著 UHGP 具有提供每個基因簇與基因組直接關係的優勢。
最後還整理出了高質量的 UHGP-95, UHGP-90 和UHGP-50 (UHGP-95-HQ, n = 10,798,224; UHGP-90-HQ, n = 8,082,122; UHGP-50-HQ, n = 3,088,278)。這個聚類標準用於控制每個 MAG 中汙染序列的存在,以及一個基因組中可能存在相同蛋白質編碼序列的多個拷貝。UHGP 可以將單個基因與其基因組背景結合起來,以進行腸道微生物組的綜合研究。
Fig. 4 | The UHGP improves coverage of the human gut protein landscape.
Extended Data Fig. 7 | UHGP cluster size and mapping rate.
05 人類腸道菌群的功能
作者將 UHGP 進行 eggNOG, InterPro, COG 和 KEGG 注釋以獲得較為全面的功能信息。但是 UHGP-100 注釋率有點低,只有 41.5%,27.3% 注釋不到任何資料庫,14.2% 只注釋到 COG 未知功能(Fig. 4c)。對注釋上的 COG 功能分類,大部分功能集中在胺基酸轉運和代謝,細胞壁/膜/包膜的生物發生和轉錄。
Fig. 4 | The UHGP improves coverage of the human gut protein landscape.
接著用 171 M 的蛋白(UHGP-100)去研究每個 UHGG 物種是種內功能多樣性。以 90% 的胺基酸相似性聚類一個物種所有基因組得到其 pan-genome,至少在一個物種出現的 KEGG modules 一共有 363 個(Extended Data Fig. 8a ),分析這些 module 發現,較為保守的 module 是與核糖體結構,糖酵解,肌苷一磷酸生物合成,糖異生和莽草酸途徑(shikimate acid pathway,又叫做分支酸途徑 Chorismate pathway)途徑有關,這些是細菌的必要功能。還發現 Myxococcota, Bdellovibrionota, Thermoplasmatota, Patescibacteria 和 Verrucomicrobiota 這些門的泛基因組仍然注釋率很低,而 Fibrobacterota, Bacteroidota, Firmicutes I, Verrucomicrobiota 和 Patescibacteria 有很高的 CAZy 注釋率。由於這些種系大多數主要由未培養的物種代表 (Fig. 3b),表明腸道菌群可能包含許多具有重要代謝活性的物種,尚待在實驗室條件下進行培養和功能表徵。
Extended Data Fig. 8 | Functional annotation of gut microbiome species.
06 種內基因組多樣性的模式
最後作者還研究了種內 core 和 accessory 基因,通過蛋白注釋和 UHUG 物種的 pan-genomes。這裡只研究了接近完整的基因組(≥90%的完整性)和具有至少十個獨立同種基因組的物種,一共有 781 個。這 781 個物種的每個物種的基因頻率統計結果呈現一個獨特的雙峰分布(Extended Data Fig. 9),大多數基因被歸類為核心或稀有(即分別存在於同種基因組的 ≥90%或 <10%中)。計算每個物種的 pan-genomes 大小與 基因組數目的相關性以比較種內基因豐富度差異。結果表明,不同門模式不同,Firmicutes pan-genomes 大小與 基因組數目有很強相關性(Fig. 5a),在擁有超過 1,000個基因組的進化枝中,物種之間核心基因的比例也存在很大差異(Fig. 5b),核心基因組比例的中位數約為 66%。
Extended Data Fig. 9 | Gene frequency distribution within the species-level clusters.
分析注釋core 和 accessory 基因的功能,顯示,core 在各大資料庫中都有很高的注釋率(eggNOG 96%, InterPro 94%, COG 92% 和KEGG 69%)(Fig. 5c),但是 accessory 基因有顯著高的比例的未知功能,21%(中位數)在各大資料庫都未注釋上。因此,作者進一步分析能注釋上的 COG 的功能模塊,core 基因大部分都是核心代謝功能,包括核苷酸,胺基酸和脂質代謝,以及其他管家功能(例如,與翻譯和核糖體結構有關),相比之下,accessory 基因 則是 COG 未知功能和 參與複製和重組功能基因佔比很高,這些基因通常存在於移動遺傳元件中(MGEs; Fig. 5d)。這些 accessory 基因大都與防禦機制有關,涉及抗菌素耐藥性(AMR;如ABC轉運外排泵);針對侵入 MGE 的系統(如,CRISPR–Cas和針對噬菌體的限制性修飾系統)這些結果有助於更好地了解腸道內染色體編碼的 AMR 的動力學,解密微生物組可能成為已知和新型耐藥機制來源的程度。
Fig. 5 | Pan-genome diversity patterns within the gut microbiome.
接著,作者還研究了 UHGG 種內的 SNVs。從 2489 個物種中找到 249,435,699個SNV,這些 SNV 至少存在 3 個以上同物種基因組(Fig. 6a)。其中 85% 的 SNV 僅在 MAG,只有 2.2% 僅在分離的基因組(Fig. 6b)。MAG 配對 SNV 密度顯著要比分離基因組配對的要高(Fig. 6c),無論是何種異質性水平(CMseq評估的)都還是顯著差異的(Extended Data Fig. 10)。將這些 SNV 分配到大洲水平,發現 36% 是出現在特定大洲的,尤其是歐洲(Fig. 6d)。然而,來自非洲的基因組貢獻的 SNV 是歐洲和北美洲的 3 倍多。配對 SNV 分析也支持跨大洲 SNV 密度更高,尤其是非洲和歐洲之間(Fig. 6e)。這些結果提示,各大洲之間菌株之間變異性很高,仍有大量的多樣性有待發現,尤其是在樣品代表性不足的地區,如非洲,南美和大洋洲。
Fig. 6 | Analysis of intraspecies single-nucleotide variation.
Extended Data Fig. 10 | SNV density and MAG strain heterogeneity
07 資源策略
UHGG 和 UHGP 均可以在MGnify 上獲取,同時構建了UHGG 的二進位檢索索引(BIGSI),以支持用戶檢索長度小於 5 kb 的序列片段。
這兩個資料庫更新周期是6-12個月,會定期升級發布新的結果,之前版本數據仍然存有有效。
構建了一個含有20萬+的人腸道基因組 UHGG 和 171M 的蛋白序列集 UHGP。
UHGG 含有 4,644個物種中,有71%缺乏培養基因組。
結合前期三項未培養大型數據集的研究,和本文不同組裝,分箱策略結果來看,相同物種相似基因組幾乎都能獨立重現。
UHGG或UHGP 各種分析結果顯示,人腸道微生物仍有許多未知有待探索。
文章具體分析點的方法可以參考(見同日下一篇推文);
具體的數據解讀內容,有助於日常項目數據解讀。
參考文獻
Almeida A, Nayfach S, Boland M, et al. A unified catalog of 204,938 reference genomes from the human gut microbiome[J]. Nature Biotechnology, 2020: 1-10.