簡介
標題:metaFlye:基於重複圖的可拓展長序列宏基因組序列組裝
metaFlye: scalable long-read metagenome assembly using repeat graphs
雜誌:Nature Methods
影響因子:30.822
發表時間:2020年10月05日
解讀:很跩的土豆
編輯:很跩的土豆
導讀:相對於二代測序中的短片段序列的組裝,使用長序列測序技術組裝細菌基因組有了很大的改進。然而,即使對於最先進的組裝算法而言,組裝複雜的宏基因組數據集的難度依然很大。在本文中,作者介紹了一款名為metaFlye的軟體,可用於長序列數據組裝,以探究細菌的組成和物種內的異質性。首先,使用模擬細菌菌群評價其組裝效果,發現metaFlye的組裝產物具有很好的序列完整性。其次,作者使用長序列測序技術檢測了綿羊的微生物組並使用metaFlye組裝了63個近似完整的細菌基因組的contig。最後,作者發現人的細菌基因組的長讀長序列組裝產物可用於發掘全長生物合成基因簇。
正文
1. 前言
相較短序列組裝產物,長序列的組裝產物對基因組的覆蓋度更廣。相反,長序列宏基因組研究中的得率更低,這使得獲取高質量的組裝產物較為困難。目前,有一些研究致力於優化長片段、高分子量DNA序列的提取技術;通過提高序列長度,增加長片段的序列覆蓋度,以組裝複雜的宏基因組序列。即使如此,仍沒有專用的長序列宏基因組組裝工具。某些組裝工具雖然被用於宏基因組測序數據組裝,但是工具在其設計階段,並沒有致力於處理宏基因組數據組裝中的一些特有的難題,比如對於組成物種的高度不一致覆蓋,長序列基因組內外的重複區域以及物種內和物種間的異質性。
長序列宏基因組組裝產物可顯著改善短序列組裝產物的內在限制,比如可顯著優化株水平的解析度,檢測水平基因轉移,新門類的發現,新質粒、病毒的測序和生物合成基因簇的發現。長序列宏基因組組裝工具能夠優化長短序列混合組裝的性能。
本文作者開發過一個快速的長序列基因組的組裝工具——Fyle,該工具可產生準確、連續的大片段組裝產物。在本文中,作者報導了一個metaFlye算法用於長片段宏基因組序列組裝。使用模擬菌群、真實菌群對該工具進行評價,結果表明該工具性能優於Canu、FALCON、miniasm、OPERA-MS和wtdbg2。
2. 結果
2.1 組裝產物覆蓋度
Flye算法適用於單一基因組的組裝。首先,計算出性能最佳的K-mer值,將其作為組裝過程中設置的固定K-mer值。隨後,使用該固定K-mer值檢測重複序列並組裝成更長的片段。然而,在宏基因組中,這種方法只適用於高豐度的物種,而對於低豐度的物種會得到一個更低的固定K-mer值,這會導致組裝失敗。因此,metaFlye採用一種不同於設置固定K-mer的方法,而是通過計算局部K-mer分布構成一個全局K-mer。這種metaFlye的算法可檢測宏基因組組裝草圖中的重複區域,能夠高效地檢測組裝基因組中高度不一致的序列分布(圖1a)。
圖1. metaFlye重複注釋流程和基因組簡單氣泡架構、超級氣泡架構和環路結構
Fig. 1 | metaFlye repeat annotation and examples of simple bubbles, superbubbles and roundabouts
a,不同基因組類型構成的組裝草圖;重複邊、單邊分別使用彩色和黑色線條展示,metaFlye可將X、Y、Z邊鑑定為重複邊。b,兩個物種序列構成的簡單氣泡結構。c,三個物種序列構成的超級氣泡結構。d,兩個物種序列構成的環路結構,其中一條序列與另一條宏基因組組裝產物的某些不同區域具有重複。
2.2 組裝多個相似細菌基因組
種株水平的細菌基因組種,共有序列和特有序列常形成一個簡單氣泡結構(圖1b)或超級氣泡結構(圖1c),或者某些株的基因組與一些其他不相關的基因組共有一段重複序列,而形成環路結構(圖1c)。與單型體(haplotype)識別的組裝算法相似,這些株誘導形成的重複圖種的子圖需要被檢測、簡化,以產生準確的、連續的宏基因組組裝產物。本文方法部分有具體描述metaFlye如何檢測和簡化這些子圖。
2.3 不同組裝軟體對於SYNTH181數據集的組裝效果
圖2,不同組裝軟體(Canu, Flye, metaFlye, miniasm和wtdbg2)對於SYNTH181數據集中宏基因組數據樣本進行組裝的效果評估
Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset
數據集中181個參考基因組的組裝片段、NGA50值分布(NGAx 值是NGx組裝斷點的contig統計值)。NGA50值<10kbp或對於參考基因組的覆蓋度<50%時不展示結果。總結起來,77(metaFlye)、141(Flye)、109(Canu)、106 (miniasm) 和109 (wtdbg2)個NGA50值被過濾掉。
2.4 不同組裝軟體對於人類微生物組計劃數據集的組裝效果
表1 不同組裝軟體對於數據集的組裝效果評估
幾乎所有長序列平臺的數據集(PacBio,GridION 14Gbp,GridION 16Gbp,PromethION 146Gbp和PromethION 148Gbp)在使用metaFlye組裝後的結果都是最優的,評價指標包括組裝長度、相對參考基因組的覆蓋度、序列一致性、NGA50、錯誤組裝、CPU佔用時間等。
2.5 Zymo數據集的組裝
圖3,使用metaQUAST對不同組裝軟體組裝模擬菌群數據集序列的組裝覆蓋度和NGA50值統計
Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST
參考數據集包括HMP, ZymoEven GridION 和ZymoLog GridION。a, b 菌種覆蓋度;藍色、紅色分別代表統計值高於或低於中位值。Flye由於k-mer值設定較差未能組裝ZymoLog數據集。
2.6 綿羊腸道微生物宏基因組數據組裝
圖4,metaFlye組裝完成的綿羊宏基因組物種信息
Fig. 4 | Information about strains in the sheep microbiome revealed by metaFlye.
a, 綿羊腸道微生物組中單個連接組件的組裝草圖。該組件代表了Clostridia綱的細菌基因組,該基因組具有92%的保守marker完整性。組裝產物中含有20個簡單氣泡結構(綠色)和10個超級氣泡結構(黃色),這些結構在2.4Mbp的長序列基因組中佔有1.2Mbp。b, 綿羊腸道微生物組中1141個氣泡結構的長度和分支序列鑑定程度的分布圖。
2.7 人類腸道微生物宏基因組數據組裝
表2 對真實宏基因組數據集的組裝效果
2.8 人類腸道微生物組裝產物中新的生物合成基因簇
總結:長序列宏基因組在解析複雜細菌菌群中具有很好的前景,但是其組裝等步驟仍然面臨很大的算法問題。metaFlye相較Canu,對於HMP和Zymo模擬菌群的組裝產物具有更好的序列相似性和組裝質量。相較miniasm、wtdbg2和FALCON,metaFlye和Canu對於大多數模擬菌群數據集的裝配效果都有所改進。此外,只有metaFlye和wtdgb2能夠組裝PromethION測序產生的150Gbp規模的長序列數據,但是wtdbg2的組裝產物片段化更顯著。
參考
[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x
10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人