向大家推薦一篇發表在Microbiome上的佳作,其研究結果對病毒噬菌體家(Lacidaviridae)的內容和進化關係做了很好的擴充,奠定了後續病毒噬菌體研究的基礎。美格基因技術支持從將從研究背景、實驗設計、主要結果、結論幾個方面進行解讀。
Diversity, evolution, and classification of virophages uncovered through global metagenomics
全球宏基因組數據比對分析揭示病毒噬菌體的多樣性和進化規律
作者:David Paez-Espino, Jinglie Zhou, Simon Roux, et al.
期刊: Microbiome
IF:10.465
DOI:10.1186/s40168-019-0768-5
【研究背景】病毒噬菌體(virophages)是一類環狀的雙鏈DNA病毒,通常和Mimiviridae科的核質巨DNA病毒(NCLDV)一起感染單細胞真核宿主。目前通過分離培養和宏基因組的手段,尤其後者在多種類型環境樣本中發現了病毒噬菌體的存在,包括湖水、海水、廢水、生物反應器、動物和人腸道等等。
病毒噬菌體因其基因組基因高度變化的特點,目前已知的病毒噬菌體只有4個基因是保守的,分別是MCP、mCP、ATPase和PRO,而MCP則通常被用做發現新病毒噬菌體的關鍵基因。本文作者通過隱馬可夫模型(HMMs)基於MCPs基因對14,000份宏基因組數據進行了檢索分析,最後得到了328個新病毒噬菌體基因組,對病毒噬菌體家族(Lacidaviridae)的內容和進化關係做了很好的擴充,奠定了後續病毒噬菌體研究的基礎。
【實驗設計】
1、建模和序列比對
作者通過HMMs把已發表確定為病毒噬菌體的MCPs作為bait,檢索IMG/VR病毒資料庫,得到80個類MCP基因,其序列通過聚類(MCL)後得到4個MCP family,然後再比對IMG/M資料庫中的宏基因組數據,得到的9,813條序列和原始序列一起聚類最終得到了15個cluster。
隨後用15個cluster去比對超過14,000例樣本宏基因組數據,樣本覆蓋了不同的水體和沉積物,以及SRA庫中的3,771個人體腸道數據。去冗餘後得到的28,294條非冗餘MCP序列通過完整性評估最後得到了328個長度超過10K的高質量virophages基因組。
2、進化分析和其他
對所有得到的virophages基於 4個「核心基因」(core genes)序列進行了聚類分析(MAFFT),同時也對所有新virophages和參考基因組基於預測蛋白做了聚類分析。由於virophages和NCLDV的密切關係,作者也參照virophages的方法構建了後者的資料庫並且利用5個核心基因做了進化相關分析。
【主要結果】
圖1中展示了作者基於MCPs用HMMs模型鑑定到15個新virophage MCP models的分析流程。通過此流程得到28,294條非冗餘MCP序列,這些序列和分離培養鑑定得到以及之前宏基因組分析得到的MCP序列相比,大部分序列表現出了非相似性(blastp score<200,圖2A)。其中88%的MCP序列主要來自於水環境樣本,12%來自於土壤、宿主相關樣本和生物反應器(圖2B)。同時鑑定的到15個virophage MCP model在序列回溯追蹤樣品分布(habitat distribution)時也發現同一個model可能包含了不同樣本類型(圖2C)。
鑑定出的MCP序列保留大於10K的片段和58條參考virophage列序聚類,通過保留virophage的四個核心基因序列(MCP,mCP,ATPase,PRO)最後得到328個序列幾乎完整的高質量基因組(圖1E),其中89個基因組大小10.9kb到42.3Kb,編碼基因12到39個。這些virophage基因組來自於不同的生態系統,淡水、海洋、宿主相關、土壤、溫泉等等。
圖1 virophage鑑定流程分析步驟
圖2 A:MCP序列和已發表MCP序列比對;B:MCP序列的habitat type
為了比較高質量virophage基因組的進化關係,和之前已發表的基因組基於4個核心基因做了聚類分析,共得到27個區分明顯的clade,其中17個是新發現的(圖3A-3B),其餘10個包含已經發現基因組clade的序列數量也被擴張了9倍之多。
圖3 A-B:高質量基因組進化分析和鑑定
MCP models在和人體腸道樣本數據比對中得到了353條virophage序列(分布於5個高質量基因組),這是第一次關於人體樣本高質量virophages的報導。根據序列樣本宿主的的生活史,這些序列能在「rural」和「westrnized」樣本中嚴格區分開來(圖4B),該趨勢和這兩種序列能夠被不同的MCP HMMs model鑑定區分是一致的(圖4C)。
圖4 B:353個腸道宏基因組MCP序列進化分析;C:rural和westnized生活史MCP序列來自不同model比例
最後為了預測virophage的宿主,不同以往基於virophage和giant viruses共現性的計算方法,作者採用了基於Mimivirus virophage 抗性元件機制(MIMIVIRE),通過檢索virophage和giant virus一段共有的序列進而預測可能的宿主信息。通過分析10K virophage序列和自建NCLDV序列的共享胺基酸序列,共發現了7對virophage和有物種信息NCLDV的聯繫(圖5A)。這些NCLDV主要分布於Mimividae下Mesomimivirinae subfamily。
其中一組關係裡的兩個virophage來自於同樣的湖水樣本(圖 5B)。同時還預測了到了宿主Asfar-Faustovirus(感染昆蟲和豬的巨病毒),也發現了兩個virophage和海洋原生生物有關係。分析結果顯示兩個相關關係的virophage和MCLDV可能有著不同的真核宿主。
圖5 A:virophage MIMIVIRE system展示;B:宏基因組中預測到潛在宿主NCDLV的進化分析
【結 論】本文作者基於virophage核心基因通過HMMs模型的方法對全球大量宏基因組數據進行了檢索分析,最後得到了328個高質量的virophage基因組序列和超過45,000條基因組片段,這大大擴充了virophage的研究數據和內容,為後續新virophage的鑑定、進化分析以及宿主預測相關分析提供了新的思路和方法。
美格基因首屆病毒組學前沿線上國際研討會的具體事項如下
【會議日期】7月11日舉行
【會議時間】9:00-12:00 14:00-18:30
【會議形式】講座+圓桌會議
【會議內容】
1、病毒序列binning技術講解
2、宏病毒組樣本富集方法拆解
3、病毒組學前沿研究熱點剖析
4、四大領域病毒組學應用思路
你想要的都有,詳情可搜索美格基因公眾號了解。