Nature方法 | 三代長讀長宏基因組組裝軟體metaFlye

2020-10-21 微生物組

簡介

標題:metaFlye:基於重複圖的可拓展長序列宏基因組序列組裝

metaFlye: scalable long-read metagenome assembly using repeat graphs

雜誌:Nature Methods

影響因子:30.822

發表時間:2020年10月05日

解讀:很跩的土豆

編輯:很跩的土豆

導讀:相對於二代測序中的短片段序列的組裝,使用長序列測序技術組裝細菌基因組有了很大的改進。然而,即使對於最先進的組裝算法而言,組裝複雜的宏基因組數據集的難度依然很大。在本文中,作者介紹了一款名為metaFlye的軟體,可用於長序列數據組裝,以探究細菌的組成和物種內的異質性。首先,使用模擬細菌菌群評價其組裝效果,發現metaFlye的組裝產物具有很好的序列完整性。其次,作者使用長序列測序技術檢測了綿羊的微生物組並使用metaFlye組裝了63個近似完整的細菌基因組的contig。最後,作者發現人的細菌基因組的長讀長序列組裝產物可用於發掘全長生物合成基因簇。

正文

1. 前言

相較短序列組裝產物,長序列的組裝產物對基因組的覆蓋度更廣。相反,長序列宏基因組研究中的得率更低,這使得獲取高質量的組裝產物較為困難。目前,有一些研究致力於優化長片段、高分子量DNA序列的提取技術;通過提高序列長度,增加長片段的序列覆蓋度,以組裝複雜的宏基因組序列。即使如此,仍沒有專用的長序列宏基因組組裝工具。某些組裝工具雖然被用於宏基因組測序數據組裝,但是工具在其設計階段,並沒有致力於處理宏基因組數據組裝中的一些特有的難題,比如對於組成物種的高度不一致覆蓋,長序列基因組內外的重複區域以及物種內和物種間的異質性。

長序列宏基因組組裝產物可顯著改善短序列組裝產物的內在限制,比如可顯著優化株水平的解析度,檢測水平基因轉移,新門類的發現,新質粒、病毒的測序和生物合成基因簇的發現。長序列宏基因組組裝工具能夠優化長短序列混合組裝的性能。

本文作者開發過一個快速的長序列基因組的組裝工具——Fyle,該工具可產生準確、連續的大片段組裝產物。在本文中,作者報導了一個metaFlye算法用於長片段宏基因組序列組裝。使用模擬菌群、真實菌群對該工具進行評價,結果表明該工具性能優於Canu、FALCON、miniasm、OPERA-MS和wtdbg2

2. 結果

2.1 組裝產物覆蓋度

Flye算法適用於單一基因組的組裝。首先,計算出性能最佳的K-mer值,將其作為組裝過程中設置的固定K-mer值。隨後,使用該固定K-mer值檢測重複序列並組裝成更長的片段。然而,在宏基因組中,這種方法只適用於高豐度的物種,而對於低豐度的物種會得到一個更低的固定K-mer值,這會導致組裝失敗。因此,metaFlye採用一種不同於設置固定K-mer的方法,而是通過計算局部K-mer分布構成一個全局K-mer。這種metaFlye的算法可檢測宏基因組組裝草圖中的重複區域,能夠高效地檢測組裝基因組中高度不一致的序列分布(圖1a)。

圖1. metaFlye重複注釋流程和基因組簡單氣泡架構、超級氣泡架構和環路結構

Fig. 1 | metaFlye repeat annotation and examples of simple bubbles, superbubbles and roundabouts

a,不同基因組類型構成的組裝草圖;重複邊、單邊分別使用彩色和黑色線條展示,metaFlye可將X、Y、Z邊鑑定為重複邊。b,兩個物種序列構成的簡單氣泡結構。c,三個物種序列構成的超級氣泡結構。d,兩個物種序列構成的環路結構,其中一條序列與另一條宏基因組組裝產物的某些不同區域具有重複。

2.2 組裝多個相似細菌基因組

種株水平的細菌基因組種,共有序列和特有序列常形成一個簡單氣泡結構(圖1b)或超級氣泡結構(圖1c),或者某些株的基因組與一些其他不相關的基因組共有一段重複序列,而形成環路結構(圖1c)。與單型體(haplotype)識別的組裝算法相似,這些株誘導形成的重複圖種的子圖需要被檢測、簡化,以產生準確的、連續的宏基因組組裝產物。本文方法部分有具體描述metaFlye如何檢測和簡化這些子圖。

2.3 不同組裝軟體對於SYNTH181數據集的組裝效果

圖2,不同組裝軟體(Canu, Flye, metaFlye, miniasm和wtdbg2)對於SYNTH181數據集中宏基因組數據樣本進行組裝的效果評估

Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset

數據集中181個參考基因組的組裝片段、NGA50值分布(NGAx 值是NGx組裝斷點的contig統計值)。NGA50值<10kbp或對於參考基因組的覆蓋度<50%時不展示結果。總結起來,77(metaFlye)、141(Flye)、109(Canu)、106 (miniasm) 和109 (wtdbg2)個NGA50值被過濾掉。

2.4 不同組裝軟體對於人類微生物組計劃數據集的組裝效果

表1 不同組裝軟體對於數據集的組裝效果評估

幾乎所有長序列平臺的數據集(PacBio,GridION 14Gbp,GridION 16Gbp,PromethION 146Gbp和PromethION 148Gbp)在使用metaFlye組裝後的結果都是最優的,評價指標包括組裝長度、相對參考基因組的覆蓋度、序列一致性、NGA50、錯誤組裝、CPU佔用時間等。

2.5 Zymo數據集的組裝

圖3,使用metaQUAST對不同組裝軟體組裝模擬菌群數據集序列的組裝覆蓋度和NGA50值統計

Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST

參考數據集包括HMP, ZymoEven GridION 和ZymoLog GridION。a, b 菌種覆蓋度;藍色、紅色分別代表統計值高於或低於中位值。Flye由於k-mer值設定較差未能組裝ZymoLog數據集。

2.6 綿羊腸道微生物宏基因組數據組裝

圖4,metaFlye組裝完成的綿羊宏基因組物種信息

Fig. 4 | Information about strains in the sheep microbiome revealed by metaFlye.

a, 綿羊腸道微生物組中單個連接組件的組裝草圖。該組件代表了Clostridia綱的細菌基因組,該基因組具有92%的保守marker完整性。組裝產物中含有20個簡單氣泡結構(綠色)和10個超級氣泡結構(黃色),這些結構在2.4Mbp的長序列基因組中佔有1.2Mbp。b, 綿羊腸道微生物組中1141個氣泡結構的長度和分支序列鑑定程度的分布圖。

2.7 人類腸道微生物宏基因組數據組裝

表2 對真實宏基因組數據集的組裝效果

2.8 人類腸道微生物組裝產物中新的生物合成基因簇

總結:長序列宏基因組在解析複雜細菌菌群中具有很好的前景,但是其組裝等步驟仍然面臨很大的算法問題。metaFlye相較Canu,對於HMP和Zymo模擬菌群的組裝產物具有更好的序列相似性和組裝質量。相較miniasm、wtdbg2和FALCON,metaFlye和Canu對於大多數模擬菌群數據集的裝配效果都有所改進。此外,只有metaFlye和wtdgb2能夠組裝PromethION測序產生的150Gbp規模的長序列數據,但是wtdbg2的組裝產物片段化更顯著。

參考

[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x

10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組 宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

相關焦點

  • Nature Methods:中山大學中山眼科中心團隊發表三代測序計算方法
    這項合作研究的計算方法解決了該領域的關鍵技術難題。以 PacBio 和 Oxford Nanopore 公司為代表的三代測序技術能夠產生遠遠長於二代測序技術的基因組序列讀長,並且實現在單分子水平進行基因測序,在動植物的基因組組裝、基因組結構變異,DNA 修飾檢測、全長轉錄本測序中廣泛應用。
  • 三代宏基因組測序探究人類腸道中染色體外的可移動基因元件
    目前宏基因組研究主要是通過二代測序來進行研究,隨著三代測序技術的發展,PacBio SMRT測序技術應用場景越來越廣泛。與二代測序方法相比,採用PacBio SMRT長讀長測序技術的三代宏基因組可以減少部分拼接錯誤,提高基因組組裝注釋的準確性和微生物群落鑑定的解析度。
  • 基因組denovo組裝:一文詳解
    適用於一、三、四代測序(長讀長)數據。主要包括三個步驟:所有序列兩兩比對,尋找overlap,基於reads的重疊關係構建重疊群(overlap graph);在重疊群的基礎上挑選一些reads作為種子(seed),向兩頭延伸並獲得多個contig;針對每一個contig,通過多序列比對獲得可靠的延伸關係,最終得到contig一致性序列。
  • Nature:藉助第三代測序韓國發表最連續人類基因組
    國立首爾大學醫學院的研究人員和美國被譽為「測序黑馬」的公司——10x Genomics聯合運用去年新發售的GemCodeTM測序平臺以及第三代測序PacBio單分子實時測序平臺在本期的Nature上發表了一項新的研究,對一名韓國人的基因組(AK1)進行從頭組裝和單倍體型定相信息分析。這是迄今為止發表的最為連續的人類基因組組裝。
  • 中國學者在Nature Methods發表論文,介紹三代測序數據計算方法的突破
    基於三代測序數據的基因組組裝中最消耗計算時間的過程是序列局部比對。為了減少進入局部序列比對的候選區域,研究人員提出快速測量兩個序列編輯距離的序列差異因子(DDF)和全局種子投票打分的計算理論模型。該模型表現出了兩個序列全局種子得分與重疊長度成線性相關的重要特徵,這一特徵使得兩序列重疊區域的長度可以通過種子全局得分進行評估。
  • 美格基因引入Nanopore平臺助力宏基因組三代測序!
    美格基因宏基因組產品升級引入Nanopore平臺助力宏基因組三代測序新增「三+二」宏基因組測序策略,讀長更長、組裝更佳更全面獲取微生物物種的全基因組序列一、產品優勢1、更真實反映菌群實際組成美格基因三代宏基因組採用「三+二」測序策略,三代宏基因組測序策略解決了二代讀長短的限制,能輕鬆覆蓋基因間區或基因特異性區域,長讀長Reads能夠更為精準地鑑定水體、土壤、腸道等生境中微生物的種類,有效提高微生物群落鑑定的解析度,更加真實的反映菌群的實際組成。
  • Molecular Ecology Resources精選 | 基於第三代測序的赤點石斑魚基因組的從頭組裝
    第二代測序通過大量短序列組裝基因組,會留下大量gap,相比而言,第三代測序的長讀長能夠最大限度地保證基因組的完整性
  • 昆明植物所等在細胞器基因組組裝軟體開發研究中取得進展
    自1986年Shinozaki等破解菸草葉綠體基因組以及近年來二代測序技術的發展,質體系統發育基因組已成為解析植物系統發育關係的手段之一。研究團隊重視質體基因組分析方法的開發和應用,開發質體基因組注釋軟體PGA (Qu et al., 2019, Plant Methods)並得到廣泛應用。
  • HiFi reads,挑戰基因組組裝不可能
    所謂HiFi組裝,是從三代測序下機的原始Subreads中調取聚合酶繞插入片段圈數大於3圈的Subreads互相校正,獲得高準確度的HiFi reads用於基因組組裝。相對於CLR組裝的高深度(100X subreads),HiFi模式直接用高準確度的HiFi reads進行基因組組裝,較低的測序深度(25X)即可獲得高質量的參考基因組。因用於基因組組裝的數據量較小,組裝過程中所需的計算資源也較少。而且,由於HiFi reads本身具有較高的準確度,不再需要用二代數據對三代組裝的基因組進行校正(圖1),大大縮短了組裝周期。
  • 納米孔長讀長測序完成蜂鳥高度連續基因組組裝並提高異構體識別
    PromethION測序結合短讀長測序從頭組裝高度連續準確的紅喉蜂鳥基因組利用納米孔高通量測序儀PromethION,生成超過25 Gb的測序數據,N50大於40 Kb,結合短讀長測序,使用由Aleksey Zimin和約翰·霍普金斯大學的Salzberg實驗室開發的MaSuRCA工作流程進行基因組混合組裝, 「安娜的蜂鳥(Anna’s hummingbird)」作為參考基因組
  • 浙大葉恭銀教授組納米孔測序從頭組裝高質量麥蛾繭峰基因組
    解決了個體小、樣品稀有、只能獲取少量DNA的物種的基因組組裝的難題。貝納基因開發的全基因組複製後基因組組裝的流程,可以對ng級DNA的個體進行基因組組裝。研究成果發表在預印本網站 BioRxiv。摘要基因組組裝需要大量的DNA(通常是ug級),以滿足二代和三代文庫構建的需求。但是諸如昆蟲這種個體小的動物,很難得到足夠的DNA進行後續的建庫和測序。
  • spades基因組組裝軟體簡介
    spades這款de novo基因組組裝軟體, 適用於細菌/真菌等小型基因組的組裝,不推薦用於動植物基因組的組裝。該軟體主要用於illumina,IonTorrent reads的組裝,也可以進行PacBio, Oxford nanopore, Sanger reads的組裝。
  • 年中喜報|安諾三代測序助力微擬球藻基因組發布~
    其中,安諾基因承擔了該研究中的三代測序、Hi-C輔助組裝等相關實驗和信息分析工作,安諾基因信息分析人員並列為文章共同作者。此前微擬球藻屬中N.gaditana和N.oceanica的基因組進行過Illumina二代測序組裝,基因組大小在28.5 Mb和29.0 Mb之間,基因密度高,內含子含量低,基因間隔短且重複序列少,但是組裝未達到假染色體(pseudochromosomes)水平,不利於開展後續相關基因功能的研究。
  • 碧鳳蝶染色體水平基因組公布
    近日,中國科學院昆明動物研究所李學燕副研究員帶領的昆蟲研究團隊運用三代長讀長測序技術,結合高通量染色體構象捕獲(Hi-C)技術,成功地組裝了碧鳳蝶染色體水平的基因組,這是首個利用Hi-C技術完成的染色體水平的蝴蝶基因組。
  • Nature genetics|新方法實現多倍體植物基因組的全染色體組裝
    Coin課題組利用新方法實現多倍體植物基因組的全染色體組裝。相關論文於2020年10月30日發表在《自然—遺傳學》雜誌上。研究人員報導了通過遺傳連鎖分析將重疊群分組和排序為假分子的PolyGembler方法。這個方法還提供了一種檢測和修復裝配錯誤的準確方法。使用模擬數據,研究人員證明了該方法具有很高的準確性,並且優於三種現有的最新遺傳作圖工具。
  • 三代基因組測序技術原理簡介
    ,再夾雜自己的零星想法,寫在這裡分享與大家,同時也是為了方便自己日後若有需要能夠方便獲得,文章比較長。摘要:從1977年第一代DNA測序技術(Sanger法)1,發展至今三十多年時間,測序技術已取得了相當大的發展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長。
  • 三代測序數據簡單分析
    簡單介紹:三代測序技術讀長較長,針對比較小的基因組像只有16kbp的人類線粒體
  • 龍井茶樹染色體級別基因組完成組裝
    本報訊(記者李晨)近日,《自然—通訊》在線發表了我國科學家在茶樹全基因組組裝和茶樹起源演化研究上取得的重要突破。該研究由中國農業科學院茶葉研究所和中國農業科學院深圳農業基因組研究所主導,並攜手中國科學院昆明動物研究所等單位完成。該成果為茶樹基因組學和育種研究,以及茶樹遺傳和進化研究提供了豐富的素材。
  • 【三代測序傳】——動植物研究中的捕獲測序
    它還能提供精細定位所需的讀取長度和準確性,並簡化LargeRegion的組裝。特色研究:用SMRT RenSeq進行抗性基因組裝[1]使用抗性基因富集和測序方法(Resistance Gene Enrichment and Sequencing Method,RenSeq),科學家們能夠鑑定一個野生馬鈴薯的相關基因,其可抵抗致病疫黴(即導致晚疫病的病原體),這可以用於開發抗性馬鈴薯。
  • 基因組學研究的未來之星——泛基因組
    目前比較主流的構建泛基因組圖譜的方法有以下三種:1) 迭代組裝將多個樣本的下機數據與參考基因組比對,未比對上的reads組裝成新的contigs,將這些contigs添加到原始的參考序列中,構建、獲得物種的泛基因組圖譜(圖3a),小麥泛基因組就是採用這種方法進行構建的[1]。