1 摘要:
從鳥槍法宏基因組重建細菌和古細菌基因組,使人們能夠洞察環境和宿主相關微生物群的生態和進化。
在這裡,我們將這種方法應用於從覆蓋地球所有大陸和海洋的不同棲息地收集的超過10,000個基因組,包括來自人類和動物宿主、工程環境以及自然和農業土壤的基因組,以捕捉現存的微生物、代謝和功能潛力。
這個研究集合包括52,515個基因組,代表12,556個新的候選物種級別的分類單位,涵蓋135個門。該研究擴展了已知的細菌和古生菌的系統發育多樣性44%,廣泛應用於簡化比較分析、交互式探索、代謝建模和批量下載。
本研究展示了這個集合的效用,以了解次級代謝物的生物合成潛力,並解決數以千計的新的寄主與未培育病毒的聯繫。這一資源強調了以基因組為中心的方法在揭示影響生態系統過程的未培養微生物的基因組特性方面的價值。
2 主要結論:
應用大規模基因組解析宏基因組學來回收52,515個中等和高質量的宏基因組組裝基因組,這些基因組構成了地球微生物目錄中的基因組。
GEM目錄由10,450個宏基因組構成,這些宏基因組來自不同的微生物棲息地和地理位置
結果1 從環境多樣的宏基因組中回收了超過52,000個由宏基因組組裝的基因組
我們對來自不同生境的10,450個全球分布的宏基因組進行了宏基因組組裝和分箱分析,包括海洋和其他水生環境(3,345個)、人類和動物宿主相關環境(3,536個)以及土壤和其他陸地環境(1,919個),以回收52,515個MAGs(圖2)。
除了可公開獲得的宏基因組(圖1a-c)外,這些metagenomes包括Microbiomes(IMG/M)數據聯盟提供的數千個未公開的數據集。這份全球MAGs目錄包含了來自地球所有大陸和海洋的代表,特別是來自北美、歐洲和太平洋的樣本。
GEM(Genomes from Earth’s Microbiomes)目錄可與環境宏基因組數據可以批量下載,並可通過IMG/M進行交互探索(https://img.jgi.doe.gov)或能源部(DOE)系統生物學知識庫(Kbase;https://kbase.us)用於簡化比較分析和代謝建模。
圖2 MAGs的全球分布情況
為了發現新的物種水平的多樣性,研究者在95%的全基因組ANI的基礎上聚集了GEMs,揭示了18,028個物種水平的OTUs(圖2a,b)
根據基因組分類學資料庫(GTDB)的分類注釋,發現GEMs涵蓋137個已知門,305個已知綱和787個已知目,絕大多數non-singleton OTUs只包含來自單個環境或多個密切相關環境的GEMs(圖3)
MAGs的累積曲線顯示物種水平的OTU沒有平臺期(圖4),這表明在整個生物群落中還有更多的物種有待發現,低比例的reads比對也說明了這一點
很少有物種擁有廣闊的棲息地範圍,而近40%的物種是在多個採樣點發現的(圖2c)
自新的OTUs的MAGs稍不完整(平均:81.0%對84.6%),顯示出稍高的汙染(平均:1.5%對1.1%),並且經常被發現為單線態(圖2d
圖3 GEM目錄的物種級聚類
研究者基於30個連鎖標記基因構建了45,599個OTUs的系統發育學。系統發育分析支持GEM目錄是迄今為止發表的最多樣化的數據集(圖5a)
GEM目錄導致整個細菌和古細菌樹的系統發育多樣性增加了44%,目前代表了基於累積分枝長度的所有已知多樣性的31%。系統發育多樣性的增加在不同的分類群中相對一致,但對於某些大型分支來說尤其高(圖5b)
使用相對進化差異(RED)30將所有45,599個OTUs聚類成單系組,包括單系,代表16,062個屬,5,165個科,1,928個目,368個綱和129個門(圖6)
圖4 系統發育樹
除了微生物基因組的組裝外,最近的研究也強調了如何從超基因組中挖掘新的病毒基因組
然而,大多數未經培養的病毒不能與微生物宿主相關聯,這對於理解它們在自然界中的作用和影響至關重要
研究者推斷,來自GEM目錄的MAGs可以用於改進病毒基因組的宿主預測。為了解決這個問題,研究者利用CRISPR間隔區匹配(≤1個SNP)和基因組序列匹配(>90%的一致性>500bp)來確定IMG/VR中52515個GEMs和76,0453個病毒之間的聯繫,這顯示了很好的一致性
圖5 不同生物群落中的OTU
建立基因組規模的代謝模型中每個環境(n = 3,255)的> 40個代表的非冗餘、高質量GEMs建立了基因組規模的代謝模型(圖7)
將每個BGC(biosynthetic gene clusters)合成的次生代謝物歸類到MEGs目錄中,BGCs對環境趨勢的分析不清楚,沒有環境來源組顯示相對BGCs科含量的明顯偏差(圖8a)
單個最大的BGC區域發現於土壤來源的細菌中,該細菌被認為屬於Acidobacteria門和UBA5704基因,用三個清晰的共線模鏈編碼了大量的62個PKS或NRPS modules(圖8b)
圖6 跨環境物種級別的OTUs的積累
將每個BGC(biosynthetic gene clusters)合成的次生代謝物歸類到MEGs目錄中,BGCs對環境趨勢的分析不清楚,沒有環境來源組顯示相對BGCs科含量的明顯偏差(圖8a)
單個最大的BGC區域發現於土壤來源的細菌中,該細菌被認為屬於Acidobacteria門和UBA5704基因,用三個清晰的共線模鏈編碼了大量的62個PKS或NRPS modules(圖8b)
除了微生物基因組的組裝外,最近的研究也強調了如何從超基因組中挖掘新的病毒基因組
然而,大多數未經培養的病毒不能與微生物宿主相關聯,這對於理解它們在自然界中的作用和影響至關重要
研究者推斷,來自GEM目錄的MAGs可以用於改進病毒基因組的宿主預測
為了解決這個問題,研究者利用CRISPR間隔區匹配(≤1個SNP)和基因組序列匹配(>90%的一致性>500bp)來確定IMG/VR中52515個GEMs和76,0453個病毒之間的聯繫,這顯示了很好的一致性(圖9)
3 主要結論
這一由52,515個中質量和高質量MAG組成的資源代表了迄今為止最大的努力,以捕捉到地球生物群落中細菌和古菌基因組的多樣性。GEM目錄極大地擴展了已知的細菌和古菌的系統發育多樣性,包含了豐富的生物合成潛力,並改善了未培養病毒的宿主分配。儘管細菌和古菌的系統發育多樣性總體上增加了44%,但很少發現代表新門的新的深分支譜系的證據,與最近對微生物多樣性的研究一致。同樣,儘管宏基因組reads數增加了3.6倍,但超過三分之二的宏基因組reads仍然缺乏可mapping的參考基因組。因此,繼續努力捕捉新物種和菌株水平代表的基因組將進一步提高宏基因組的解析度。
大規模基因組清單為更廣泛的研究界提供了關鍵資源。也就是說,來自GEM目錄的MAG和迄今為止生成的其他MAG一樣,有幾個限制需要注意,包括未檢測到的汙染、低接觸性和不完整性。儘管這些MAG是許多新候選物種,但研究者預計,許多MAGs將在未來被更高質量的MAGs或最終被克隆分離物的基因組序列所取代。正如已經用大量新的次級代謝物BGCs和假定的病毒-宿主關聯所示,預計GEM目錄將成為未來代謝和以基因組為中心的數據挖掘和實驗驗證的寶貴資源。
4 參考文獻
Nayfach, S., Roux, S., Seshadri, R., Udwary, D., Varghese, N., Schulz, F., Wu, D., Paez-Espino, D., Chen, I., Huntemann, M., Palaniappan, K., Ladau, J., Mukherjee, S., Reddy, T.B.K., Nielsen, T., Kirton, E., Faria, J.P., Edirisinghe, J.N., Henry, C.S., Jungbluth, S.P., Chivian, D., Dehal, P., Wood-Charlson, E.M., Arkin, A.P., Tringe, S.G., Visel, A., Woyke, T., Mouncey, N.J., Ivanova, N.N., Kyrpides, N.C., Eloe-Fadrosh, E.A., 2020. A genomic catalog of Earth’s microbiomes. NATURE BIOTECHNOLOGY.