目前宏基因組研究主要是通過二代測序來進行研究,隨著三代測序技術的發展,PacBio SMRT測序技術應用場景越來越廣泛。與二代測序方法相比,採用PacBio SMRT長讀長測序技術的三代宏基因組可以減少部分拼接錯誤,提高基因組組裝注釋的準確性和微生物群落鑑定的解析度。接下來就通過一篇文獻跟著小編一起來看下三代宏基因組測序的具體應用吧~
長讀長宏基因組測序探究人類腸道中染色體外的可移動基因元件
發表期刊:Microbiome
發表時間:2019.08
影響因子:10.465
研究單位:東京大學
研究背景
微生物群落的宏基因組主要由細菌染色體和相關的染色體外移動基因元件(eMGEs)組成,如質粒和噬菌體(phages)。由於eMGE之間以及eMGE和染色體之間存在的同源序列,短讀長的從頭組裝易產生明顯偏短的contigs,組裝很難將完整的eMGEs拼接成環,與短讀長從頭組裝比,長讀長的從頭組裝更容易產生更長的contigs。目前還沒有關於人類腸道eMGEs深入的宏基因組學研究,人類腸道eMGEs有待深入研究。
研究思路
研究結果
1. PacBio SMRT對人類糞便樣本進行宏基因組測序
對12名健康的日本成年人的13份糞便樣本的DNA進行了PacBio宏基因組測序。平均每個樣本的數據量為11 GB,平均subreads的長度為8 k。分別使用Falcon和MegaHit進行PacBio和短讀長的從頭組裝,對比兩者結果發現,PacBio提高了組裝效果,N50 contig長度達到~202 kb,而短讀長為~4 kb(圖1a)。根據PacBio contig與相應短讀長contig之間的序列一致性來評估PacBio contig的準確性,5、10、20和≥40測序深度的PacBio contig與短讀長contig的一致性分別為99.4%、99.7%、99.8%和≥99.9%(圖1b)。
圖1 PacBio和Illumina測序組裝數據統計
a. PacBio 和Illumina組裝contig長度統計對比;b. PacBio 和Illumina組裝contig相似性對比
2. PacBio宏基因組數據中的微生物和基因組成
PacBio和MiSeq兩種數據在屬水平上估計的微生物豐度非常相似,皮爾遜相關係數的中位數為~0.99,顯著高於12個個體之間的相關係數(圖2d)。PacBio contig的平均基因長度為847 bp,比短讀長contig的662 bp長,更接近參考基因組中大多數全長基因的957 bp。每個PacBio contig平均鑑定出27.6個基因,是平均每個短讀長contig鑑定出基因數的10倍。
圖2 PacBio和MiSeq數據中微生物豐度的皮爾遜相關係數
3. 從PacBio組裝序列中生成環形的contig
總共生成了82個環形contigs(circular contigs,CCs),其中11個歸類為噬菌體,71個歸類為質粒。其中58種質粒和6種噬菌體為新發現,另外5個噬菌體與已知的crAssphage基因組(NC_024711.1)高度相似。聚類分析表明大部分質粒與厚壁菌和擬桿菌的親緣關係較近(如圖3)。
圖3 71個質粒CCS和114個人類腸道中已知質粒的系統發育進化樹
綠色為厚壁菌,紫色為放線菌,紅色為變形桿菌,藍色為擬桿菌,黃色為其他門,灰色為未知
4. 與crAssphage基因組高度相似的contigs結構
包括NC_024711.1在內的6個crAssphage的基因組編碼89-91個可能的基因,其中61個高度保守,具有≥80%的胺基酸同源性;每個基因組特有的基因數量在0-16個之間,平均每個基因組為6.3個基因,其他保守基因在2-5個之間(圖4)。
圖4 5個crAssphages和NC_024711.1的基因組結構示意圖圖4 5個crAssphages和NC_024711.1的基因組結構示意圖
棕色基因為特有基因,而藍色基因為所有基因組共有基因
5. 使用來自五個國家的413個宏基因組數據集對腸道eMGEs進行量化分析
在來自五個國家的413個腸道宏基因組的數據集(IGCJ)中,許多已鑑定的質粒是高度豐富和普遍存在的。質粒數據顯示,腸道質粒的比例是公共資料庫中的兩倍多。在該宏基因組數據集中,質粒的數量平均是細菌染色體的三倍。宿主預測表明,與微生物豐度無關,類桿菌相關的質粒佔主導地位。
圖5 IGCJ數據集中eMGEs的定量分析
6. 宏基因組數據集中腸質粒功能圖譜
對IGCJ資料庫中相對豐富的315個質粒和249條染色體的功能注釋表明,360個COGs在豐度上存在顯著差異(q值<0.05)。無機離子代謝、防禦機制以及分泌功能在質粒中比染色體相比顯著豐富。相反,染色體中與碳水化合物代謝有關的功能明顯高於質粒。
圖6 質粒和染色體中COG類型的比較
文章小結
本研究展示了從PacBio長讀長宏基因組數據中有效識別完整環形eMGE或contigs。對12份糞便樣品進行組裝,得到82個contigs(2.5 kb-666.7 kb),包括71個質粒和11個噬菌體,其中58個為新質粒和6個為噬菌體,以及5個不同的crAssphage全基因組序列。類桿菌相關的質粒佔主導地位,同時發現了幾種豐富的質粒功能,如無機離子轉運,抗生素耐藥性基因大多存在於低豐度變形桿菌相關的質粒中。長讀長測序的宏基因組學為探索人類腸道中未知的eMGE提供了一種有效的方法,積累的數據為深入了解人類腸道微生物生態提供了重要資源。
作為國內基因組行業知名企業,安諾基因擁有實力強大的測序服務平臺,配備系列先進儀器設備,三代PacBio(7臺Sequel II+10臺Sequel)為您的科研之路保駕護航;三代宏基因組組裝效果更佳,可提高樣本中物種基因的完整度,同時提高注釋的準確度和解析度,注釋到更多的低豐度物種。安諾基因已與中國農業大學、中科院遺傳與發育所、中國海洋大學、中國農業科學院、福建農林大學等多家科研院所開展了深度合作,助力基因組文章發表於Nature、Nature Plants、Nature Communications、Molecular Plant、Communications Biology、The Plant Journal等多個國際高水平期刊。
參考文獻
[1] Suzuki Yoshihiko,NishijimaSuguru,Furuta Yoshikazu et al. Long-read metagenomic exploration ofextrachromosomal mobile genetic elements in the human gut[J]. Microbiome, 2019, 7:119.