社會你明哥,人狠話又多!
又和大家見面了
之前的《RNA-seq中的統計學問題》小專題目前的存貨已經更完了,後續有跟進的話,會繼續跟大家分享哦
另外,本周末小明要到人民大學R語言會議會場去裝A(肯定不是主會場,想什麼呢)
不能到現場給小明捧場的小夥伴也不用桑心(小明是誰),下周小明將會在這裡給大家帶來文字版的分享哦 (′▽`ʃ♡ƪ)
裝什麼A,屁屁踢做好了嗎
下面是正文
目錄
1. 宏基因組binning簡介
2. binning原理
2.1. 可用於binning的特徵
2.2. 從哪些序列下手進行binning?
1. 宏基因組binning簡介Metagenome 組裝完成後,我們得到的是成千上萬的 contigs,我們需要知道哪些 contigs 來自哪一個基因組,或者都有哪些微生物的基因組。所以需要將 contigs 按照物種水平進行分組歸類,稱為 "bining"
Supervised binning methods: use databases of already sequenced genomes to label contigs into taxonomic classes
Unsupervised (clustering) methods: look for natural groups in the data
Both supervised and unsupervised methods have two main elements: a metric to define the similarity between a given contig and
a bin, and an algorithm to convert those similarities into assignments
一個很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進行比對,根據同源性進行歸類。然而目前大多數的微生物的基因組還沒有測序出來,因此限制了這種方法的可行性。
目前主流的 bining 策略利用的是 contigs 的序列組成特點。
2. binning原理2.1. 可用於binning的特徵根據核酸組成信息來進行binning:k-mer frequencies
依據:來自同一菌株的序列,其核酸組成是相似的
例如根據核酸使用頻率(oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency),GC含量和必需的單拷貝基因等
優勢:即便只有一個樣品的宏基因組數據也可以進行binning,這在原理上是可操作的
不足:由於很多微生物種內各基因型之間的基因組相似性很高,想利用1個樣品的宏基因組數據通過核酸組成信息進行binning,效果往往並不理想或難度很大。利用核酸組成信息進行binning,基本上只適合那些群落中物種基因型有明顯核酸組成差異的,例如低GC含量和一致的寡核苷酸使用頻率
根據豐度信息來進行binning
依據:來自同一個菌株的基因在不同的樣品中 ( 不同時間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。
原因:比如,某一細菌中有兩個基因,A和B,它們在該細菌基因組中的拷貝數比例為 A:B = 2:1,則不管在哪個樣品中這種細菌的數量有多少,這兩個基因的豐度比例總是為 2:1
優勢:這種方法更有普適性,一般效果也比較好,能達到菌株的水平
不足:必須要大樣本量,一般至少要50個樣本以上,至少要有2個組能呈現豐度變化 ( 即不同的處理,不同的時間,疾病和健康,或者不同的採樣地點等 ) ,每個組內的生物學重複也要儘量的多
對於像質粒這樣的可移動遺傳單元 (mobile genetic elements (MGEs)),由於其複製獨立於細菌染色體,則同一種細菌的不同個體,該質粒的拷貝數可能存在差異,使得無法用豐度信息進行有效地bining
同時依據核酸組成和豐度變化信息
將核酸組成信息和豐度差異信息創建一個綜合的距離矩陣,既能保證binning效果,也能相對節約計算資源,現在比較主流的binning軟體多是同時依據核酸組成和豐度變化信息
根據基因組甲基化模式
依據:不同的細菌,其基因組甲基化模式不同,平均一種細菌有3種特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉移是細菌甲基化組多樣性的驅動因素。雖然 MGEs 在不同個體的拷貝數不同,但是都存在,因此具有相同 MGEs 的細菌個體,其總遺傳物質(包括染色體和 MGEs )都會受到相同的MTase的作用而得到相同的甲基化模式。
2.2. 從哪些序列下手進行binning?從原始的clean reads,還是從組裝成的contig,還是從預測到的gene,都可以。根據基於聚類的序列類型的不同,暫且分為reads binning, contig binning和 genes binning
比較這三種binning的優劣:
由於核酸組成和物種豐度變化模式在越長的序列中越顯著和穩定,基於contig binning效果可能更好
基於reads binning的優勢是可以聚類出宏基因組中豐度非常低的物種
考慮到在宏基因組組裝中reads利用率很低,單樣品5Gb測序量情況下,環境樣品組裝reads利用率一般只有10%左右,腸道樣品或極端環境樣品組裝reads利用率一般能達到30%,這樣很多物種,尤其是低豐度的物種可能沒有被組裝出來,沒有體現在gene 或者contig 中,因此基於reads binning 才有可能得到低豐度的物種
如 Brian Cleary 等 (DOI:10.1038/nbt.3329.Detection) 利用基於 reads binning 的 latent strain analysis 可以聚類出豐度低至0.00001%的菌株。此方法雖然得到更全面的 bins,但低豐度 bins 信息依舊不完整。
應用非常廣泛
原因可能是:
(1)基於genes豐度變化模式進行binning可操作性比較強,宏基因組分析中肯定都會計算gene豐度,一般不會計算contig豐度,gene豐度數據可以信手拈來;
(2)基於genes binning有很多可參考的文獻,過程也並不複雜,可複製性強;(3)對計算機資源消耗比較低
總體來說應用最廣泛的就是基於genes binning 和 contig binning
Naseer Sangwan 等 (DOI: 10.1186/s40168-016-0154-5) 總結了 contig binning 的算法和軟體(如下表)
基於Genes abundance binning的一般流程
在宏基因組做完組裝和基因預測之後,把所有樣品中預測到的基因混合在一起,去冗餘得到unique genes集合,對這個unique genes集合進行binning,主要是根據gene在各個樣品中的豐度變化模式,計算gene之間的相關性,利用這種相關性進行聚類
該圖中的聚類過程類似於K-means聚類:隨機選擇幾個seed genes作為誘餌,計算其他基因豐度分布模式與seed genes的相關性,按照固定的相關性值PCC>0.9,將它們歸屬於不同seed genes所代表的類,然後在聚好的類內重新選擇seed genes,進行迭代,最終聚類得到一個個基因集合,較大的集合(超過700個基因)稱為 metagenomic species (MGS),較小的集合稱為 co-abundance gene group (CAG)
基於 binning 結果進行單菌組裝:
Sequence reads from individual samples that map to the MGS genes and their contigs are then extracted and used to assembly a draft genome sequence for an MGS
參考資料:
(1) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(2) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(3) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(4) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(5) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).
(6) Alneberg, J. et al. Binning metagenomic contigs by coverage and composition. Nat. Methods 11, 1144–1146 (2014).
(7) 【Yue Zheng博客】宏基因組binning-CONCOCT
往期精彩: