從CONCOCT入手理解宏基因組binning(上)

2021-01-16 universebiologygirl

社會你明哥,人狠話又多!

又和大家見面了

之前的《RNA-seq中的統計學問題》小專題目前的存貨已經更完了,後續有跟進的話,會繼續跟大家分享哦

另外,本周末小明要到人民大學R語言會議會場去裝A(肯定不是主會場,想什麼呢)

不能到現場給小明捧場的小夥伴也不用桑心(小明是誰),下周小明將會在這裡給大家帶來文字版的分享哦 (′▽`ʃ♡ƪ)

裝什麼A,屁屁踢做好了嗎


下面是正文

目錄

1. 宏基因組binning簡介

2. binning原理

2.1. 可用於binning的特徵

2.2. 從哪些序列下手進行binning?

1. 宏基因組binning簡介

Metagenome 組裝完成後,我們得到的是成千上萬的 contigs,我們需要知道哪些 contigs 來自哪一個基因組,或者都有哪些微生物的基因組。所以需要將 contigs 按照物種水平進行分組歸類,稱為 "bining"

Supervised binning methods: use databases of already sequenced genomes to label contigs into taxonomic classes

Unsupervised (clustering) methods: look for natural groups in the data

Both supervised and unsupervised methods have two main elements: a metric to define the similarity between a given contig and
a bin, and an algorithm to convert those similarities into assignments

一個很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進行比對,根據同源性進行歸類。然而目前大多數的微生物的基因組還沒有測序出來,因此限制了這種方法的可行性。

目前主流的 bining 策略利用的是 contigs 的序列組成特點。

2. binning原理2.1. 可用於binning的特徵

根據核酸組成信息來進行binning:k-mer frequencies

依據:來自同一菌株的序列,其核酸組成是相似的

例如根據核酸使用頻率(oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency),GC含量必需的單拷貝基因

優勢:即便只有一個樣品的宏基因組數據也可以進行binning,這在原理上是可操作的

不足:由於很多微生物種內各基因型之間的基因組相似性很高,想利用1個樣品的宏基因組數據通過核酸組成信息進行binning,效果往往並不理想或難度很大。利用核酸組成信息進行binning,基本上只適合那些群落中物種基因型有明顯核酸組成差異的,例如低GC含量和一致的寡核苷酸使用頻率

根據豐度信息來進行binning

依據:來自同一個菌株的基因在不同的樣品中 ( 不同時間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。

原因:比如,某一細菌中有兩個基因,A和B,它們在該細菌基因組中的拷貝數比例為 A:B = 2:1,則不管在哪個樣品中這種細菌的數量有多少,這兩個基因的豐度比例總是為 2:1

優勢:這種方法更有普適性,一般效果也比較好,能達到菌株的水平

不足:必須要大樣本量,一般至少要50個樣本以上,至少要有2個組能呈現豐度變化 ( 即不同的處理,不同的時間,疾病和健康,或者不同的採樣地點等 ) ,每個組內的生物學重複也要儘量的多

對於像質粒這樣的可移動遺傳單元 (mobile genetic elements (MGEs)),由於其複製獨立於細菌染色體,則同一種細菌的不同個體,該質粒的拷貝數可能存在差異,使得無法用豐度信息進行有效地bining

同時依據核酸組成和豐度變化信息

將核酸組成信息和豐度差異信息創建一個綜合的距離矩陣,既能保證binning效果,也能相對節約計算資源,現在比較主流的binning軟體多是同時依據核酸組成和豐度變化信息

根據基因組甲基化模式

依據:不同的細菌,其基因組甲基化模式不同,平均一種細菌有3種特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉移是細菌甲基化組多樣性的驅動因素。雖然 MGEs 在不同個體的拷貝數不同,但是都存在,因此具有相同 MGEs 的細菌個體,其總遺傳物質(包括染色體和 MGEs )都會受到相同的MTase的作用而得到相同的甲基化模式。

2.2. 從哪些序列下手進行binning?

從原始的clean reads,還是從組裝成的contig,還是從預測到的gene,都可以。根據基於聚類的序列類型的不同,暫且分為reads binning, contig binning和 genes binning

比較這三種binning的優劣:


由於核酸組成和物種豐度變化模式在越長的序列中越顯著和穩定,基於contig binning效果可能更好



基於reads binning的優勢是可以聚類出宏基因組中豐度非常低的物種

考慮到在宏基因組組裝中reads利用率很低,單樣品5Gb測序量情況下,環境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環境樣品組裝reads利用率一般能達到30%,這樣很多物種,尤其是低豐度的物種可能沒有被組裝出來,沒有體現在gene 或者contig 中,因此基於reads binning 才有可能得到低豐度的物種

如 Brian Cleary 等 (DOI:10.1038/nbt.3329.Detection) 利用基於 reads binning 的 latent strain analysis 可以聚類出豐度低至0.00001%的菌株。此方法雖然得到更全面的 bins,但低豐度 bins 信息依舊不完整。



應用非常廣泛


原因可能是:

(1)基於genes豐度變化模式進行binning可操作性比較強,宏基因組分析中肯定都會計算gene豐度,一般不會計算contig豐度,gene豐度數據可以信手拈來;

(2)基於genes binning有很多可參考的文獻,過程也並不複雜,可複製性強;(3)對計算機資源消耗比較低

總體來說應用最廣泛的就是基於genes binning 和 contig binning

Naseer Sangwan 等 (DOI: 10.1186/s40168-016-0154-5) 總結了 contig binning 的算法和軟體(如下表)

基於Genes abundance binning的一般流程

在宏基因組做完組裝和基因預測之後,把所有樣品中預測到的基因混合在一起,去冗餘得到unique genes集合,對這個unique genes集合進行binning,主要是根據gene在各個樣品中的豐度變化模式,計算gene之間的相關性,利用這種相關性進行聚類

該圖中的聚類過程類似於K-means聚類:隨機選擇幾個seed genes作為誘餌,計算其他基因豐度分布模式與seed genes的相關性,按照固定的相關性值PCC>0.9,將它們歸屬於不同seed genes所代表的類,然後在聚好的類內重新選擇seed genes,進行迭代,最終聚類得到一個個基因集合,較大的集合(超過700個基因)稱為 metagenomic species (MGS),較小的集合稱為 co-abundance gene group (CAG)

基於 binning 結果進行單菌組裝:

Sequence reads from individual samples that map to the MGS genes and their contigs are then extracted and used to assembly a draft genome sequence for an MGS

參考資料:

(1) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.

(2) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.

(3) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.

(4) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).

(5) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).

(6) Alneberg, J. et al. Binning metagenomic contigs by coverage and composition. Nat. Methods 11, 1144–1146 (2014).

(7) 【Yue Zheng博客】宏基因組binning-CONCOCT

往期精彩:

相關焦點

  • 宏基因組binning原理
    根據所使用的序列數據不同,binning策略可分為三種:基於組裝前的clean reads,基於組裝後的contigs,基於注釋的基因genes。⑴基於reads binning環境樣本中微生物的豐度不同,其基因組kmer的期望深度也不同,根據kmer豐度可以直接對reads進行聚類,將屬於不同基因組的reads分離開來。
  • 宏基因組binning分析免費做
    但由於SEM分析指明了「氮」元素的重要性,圍繞細菌與藍藻「互利共生」的研究中心,文章進行了物種基因組氮(N)循環功能的研究,可謂畫龍點睛。那麼,宏基因組測序,哪裡來的物種基因組呢?這就是我們在上一篇進階策略中提到的binning分析。從26個樣本的200G數據中,binning獲得了51個參與N循環過程的高質量bin(draft genome)。
  • Binning雲分析平臺強勢來襲
    通過進一步對宏基因組數據進行binning分析,獲得了9個高質量的重組基因組bin。通過系統發育進化、COG功能注釋等分析,該研究推斷真核生物很有可能是從與這些Asgard archaea近緣的一個譜系進化而來。
  • 微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組
    、鳥槍法打斷全基因組DNA序列的Metagenomics和基於mRNA信息的宏轉錄組方法Meta-transcriptomics。宏轉錄組的好處是,跳出了DNA層面的束縛,可以獲得實時活躍的、真正對群落有貢獻的基因和通路,然而mRNA不如DNA穩定,此外多純化和擴增的步驟也可能引入錯誤。表1 三種技術的選擇策略
  • 宏基因組bining+宏轉錄組強強聯合
    採用宏基因組genome bining以及宏轉錄組的方法,發現並驗證新物種和新功能。然而,這些微生物的種屬和生理特性在很大程度上是未知的。通過功能宏基因組學的方法,研究者從酸性泥炭地中恢復了7株新的酸桿菌基因組草圖,這些酸桿菌都具有潛在的異化亞硫酸鹽(dsrAB, dsrC, dsrD, dsrN, dsrT, dsrMKJOP)或硫酸鹽呼吸(sat, aprBA, qmoABC和dsr)相關功能基因。
  • 技術貼 | 宏基因組 + 宏轉錄組分析工具:HUMAnN
    宏轉錄組測序數據進行物種分類分析和功能(代謝)分析的多功能軟體【1】一.HUMAnN 第一版 2012 Curtis Huttenhower團隊使用該方法還特意分別做了口腔、糞便宏基因組與宏轉錄組關係的研究【2】。該研究於2014年發表於PNAS,他們發現: 1)冷凍、乙醇、RNAlater三種保存條件中的微生物群落、宏基因組和宏轉錄組高度一致。
  • 2019微生物組—宏基因組分析專題培訓第三期
    通常宏基因組分析會獲得樣品物種組成、功能組成表,這些表格是下遊分析、高級分析以及個性分析的起點,絕大部分工作在我們的筆記本上是可以搞定的,只是很多人並不知道如何入手。其實你的個人電腦就是數據表(豐度矩陣)統計分析的利器。
  • 基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究
    在此,我們展示了一套宏基因組混合組裝流程:OPERA-MS,它結合了宏基因組集群與重複感知聚類,可準確組裝複雜的細菌群落。長reads覆蓋度在9×時OPERA-MS可以組裝到稀少物種(<1%)的高質量基因組,覆蓋度更高時可組裝到近完整基因組。本研究從用抗生素治療的病人樣本中組裝到了28個腸道微生物基因組,結果顯示nanopore測到的長reads組裝後得到了更連貫的組裝集,包括八十多個閉環質粒或噬菌體序列、一個新的263kbp的巨型噬菌體。
  • Nature子刊:HUMAnN2實現宏基因組和宏轉錄組種水平功能組成分析
    導讀HUMAnN2是一款快速獲得宏基因組、宏轉錄組物種和功能組成的軟體;與傳統的翻譯比對方法相比,採用分層式算法比對標記基因、泛基因組和蛋白資料庫,速度更快且準確率更高;結果同時獲得功能通路中具體物種組成,建立起了物種與功能的聯繫,可進一步研究功能組成的貢獻者;提出貢獻多樣性的概念,使我們從類多樣性角度重新認識微生物組功能組成,以及與物種間的聯繫
  • 美格基因微生物多組學聯合文章刊登ISME!
    本研究利用16S+宏基因組+轉錄組+宏代謝組多組學聯合分析,對慢性阻塞性肺疾病呼吸道微生物群落的功能特徵進行了探究,並揭示了與慢性阻塞性肺疾病發病相關的「菌群-代謝物-宿主靶點」的互作關係,證實了利用公共多組學數據集成分析來研究微生物組-宿主互作關係的可能性。本文第一作者及通訊作者為華南師範大學生命科學學院王璋研究員。
  • 華大基因:宏基因組高通量測序具有檢測範圍廣、無需預先培養樣本...
    同花順金融研究中心4月29日訊,有投資者向華大基因提問, 請問尹總,1)華大與Illumnia的競爭策略具體是怎樣的?對多組學業務的前景有什麼展望?2)腫瘤的測序試劑盒定價策略,如何替代主流PCR試劑?3)感染防控的市場規模有多大?謝謝!
  • 法國科學家破譯草履蟲基因組
    法國科學家的研究顯示,草履蟲基因組含有約4萬個基因,遠遠多於人類基因組的25萬個基因。科學家分析說,草履蟲基因組之所以擁有如此眾多的基因,原因在於整個基因組經過了至少3次複製。 法國國家科學研究中心在為此發布的新聞公報中說,這項研究是該所和法國國家基因測序中心的科學家合作完成的。研究成果將刊登在11月9日出版的英國《自然》雜誌上。
  • 【安捷倫】鑑定新型冠狀病毒,宏基因組二代測序(mNGS)技術十分關鍵!
    宏基因組測序:病原體檢測的新風口1998 年,威斯康辛大學的 Jo Handelsman 提出宏基因組學(Metagenomics)的概念,並將其定義為:一種以環境樣品中的微生物群體基因組為研究對象,以功能基因篩選和測序分析為研究手段
  • 研究思路|微生物組+代謝組多組學應用案例解讀(第二期)
    今天為大家分享幾篇微生物組+代謝組多組學應用在腸道樣本中的文獻案例。本文通過對腸道微生物群與代謝性疾病、脂質代謝的關係等方面進行綜述,對於促進理解代謝組學和微生物組學的關聯性研究、了解當下的研究背景和熱點有很高的參考價值。
  • 揭開病原宏基因組學技術的神秘面紗
    隨著mNGS技術平臺的完善和臨床研究的增多,mNGS在臨床上的運用越來越廣泛 日前2020華大基因感染分子診斷高峰論壇上,臨床、檢驗等感染相關領域的學者專家,就感染性疾病分子診斷的現在與未來,以及臨床宏基因組學技術的發展與應用兩大專題進行溝通交流。一系列病原分子診斷的新產品也在論壇上發布。 中國工程院的聞玉梅院士對感染性疾病的防控、診斷與治療,以及分子診斷技術發展方向提出了獨到的見解和展望。
  • 微生物宏組學通關技能第三關——全長16S rDNA測序
    通過上一期微生物宏組學的內容介紹,我們知道了二代測序平臺是對16S rDNA單個或連續的兩三個可變區序列進行測序分析
  • Cell重磅發布15萬人體微生物基因組!揭示人體微生物新物種
    在今日發表在Cell期刊的一項研究中,由義大利特倫託大學Nicola Segata領導的研究團隊利用來自不同地理位置、生活方式和年齡人群的9,428個宏基因組,突破性地重建了154,723個人體微生物基因組(45%高質量),其中很多代表了此前未發現的新物種。值得關注的是大多數新發現的微生物存在於在非西方化人群中。
  • Science:特殊技術可解析組蛋白修飾奧秘 助力基因調節機制的理解
    圖片來源:www.phys.org2016年5月12日 訊 /生物谷BIOON/ --刊登在國際雜誌Science上的一項研究報告中,來自麻省總醫院、哈佛大學醫學院及博德研究所的研究人員通過研究設計出了一種新方法,該方法可以幫助解析組蛋白的修飾過程,進而闡明基因調節的特殊機制,同時文章中研究人員還對單一核小體組合性修飾的模式進行了圖譜的繪製。