雲平臺的出現,如同給研究人員增添了左膀右臂。在這些智能化、便捷化的背後都是誰在操控?今天給大家介紹雲平臺|OTU聚類的幾種算法!講述微生物多樣分析背後的上帝之手!
為何要進行聚類?
測序完成後,每個樣品的測序序列達到幾萬條,對每一條序列可以進行物種注釋,但是這種方式工作量大,畢竟每一條序列需要與資料庫進行比對,比對過程又比較耗時,而且擴增、測序等過程中出現的錯誤會降低比對結果的準確性;因此,在微生物多樣性研究中,引入了OTU的概念,首先對序列按照一定的相似程度進行聚類,每形成的一類稱為一個OTU,一個OTU中序列的差異程度不能大於規定的相似程度(97%)基於分類單位(OTU)進行物種注釋(即從OTU中選擇一天代表序列與資料庫進行比對獲得分類水平信息,便是該OTU的分類水平信息);如此操作,不僅簡化工作量,提高分析效率,而且OTU在聚類過程中還可以去除一些錯誤的序列,如嵌合體序列,提高分析的準確性。
思考;97%從何而來?
追溯到1973年的文章,此文提出DNA-DNA雜交同源性>60%屬於同一物種
圖1 16S rRNA相似度與DNA雜交相似度對比
1994年,此文將16S rRNA相似度和DNA雜交相似度進行比較,得出16S rRNA相似度低於97%的,DNA雜交相似度都不高,所以在後來的分析使用中,將97%設為聚類的閾值。
UPARSE
經典的Uprase就是通過序列之間的相似度97%為閾值進行聚類:
UNOISE
圖中X為一天最高豐度序列,周圍存在很多低豐度序列。d為序列的差異程度,周圍的點代表不同的序列,點的大小代表其豐度大小,其中,綠色的點為正確的生物學序列,紅色代表含有一個或者多個錯誤點的序列;右圖表示降噪後的序列。
Unoise算法是對測序錯誤、擴增錯誤序列的校正
DADA2
全稱Divisive Amplicon Denoising Algorithm,通過降噪得到不含擴增與測序錯誤、不含嵌合體的生物學序列。
中圖是測序所得的序列,DADA2的計算和OTU聚類方式比較,DADA2的準確度更高
Unoise VS DADA2
圖6 Unoise對於嵌合體的識別準確性更高,DADA2會錯誤將非嵌合體去除
不同的算法之間存在差異,其核心目的是較為一致的:真實地揭示自然中的規律。美格基因雲平臺中OTU聚類的算法中包含Unoise、Uprase、Uclust,後續將會加上DADA2。同時,物種注釋過程中,整合了最新的資料庫信息喲!
您可能還喜歡:MagicHand雲平臺|物種與功能網絡與模型預測分析
利用宏基因組數據組裝巨病毒基因組的優勢與限制