雲平臺|OTU聚類的幾種算法!

2021-01-09 美格基因

雲平臺的出現，如同給研究人員增添了左膀右臂。在這些智能化、便捷化的背後都是誰在操控？今天給大家介紹雲平臺|OTU聚類的幾種算法！講述微生物多樣分析背後的上帝之手！

為何要進行聚類？

測序完成後，每個樣品的測序序列達到幾萬條，對每一條序列可以進行物種注釋，但是這種方式工作量大，畢竟每一條序列需要與資料庫進行比對，比對過程又比較耗時，而且擴增、測序等過程中出現的錯誤會降低比對結果的準確性；因此，在微生物多樣性研究中，引入了OTU的概念，首先對序列按照一定的相似程度進行聚類，每形成的一類稱為一個OTU，一個OTU中序列的差異程度不能大於規定的相似程度（97%）基於分類單位（OTU）進行物種注釋（即從OTU中選擇一天代表序列與資料庫進行比對獲得分類水平信息，便是該OTU的分類水平信息）；如此操作，不僅簡化工作量，提高分析效率，而且OTU在聚類過程中還可以去除一些錯誤的序列，如嵌合體序列，提高分析的準確性。

思考；97%從何而來？

追溯到1973年的文章，此文提出DNA-DNA雜交同源性>60%屬於同一物種

圖1 16S rRNA相似度與DNA雜交相似度對比

1994年，此文將16S rRNA相似度和DNA雜交相似度進行比較，得出16S rRNA相似度低於97%的，DNA雜交相似度都不高，所以在後來的分析使用中，將97%設為聚類的閾值。

UPARSE

經典的Uprase就是通過序列之間的相似度97%為閾值進行聚類：

圖2 Uprase原理

UNOISE

圖中X為一天最高豐度序列，周圍存在很多低豐度序列。d為序列的差異程度，周圍的點代表不同的序列，點的大小代表其豐度大小，其中，綠色的點為正確的生物學序列，紅色代表含有一個或者多個錯誤點的序列；右圖表示降噪後的序列。

圖3 Unoise降噪原理

圖4 Unoise的算法

Unoise算法是對測序錯誤、擴增錯誤序列的校正

DADA2

全稱Divisive Amplicon Denoising Algorithm，通過降噪得到不含擴增與測序錯誤、不含嵌合體的生物學序列。

圖5 DADA2原理

中圖是測序所得的序列，DADA2的計算和OTU聚類方式比較，DADA2的準確度更高

Unoise VS DADA2

圖6 Unoise對於嵌合體的識別準確性更高，DADA2會錯誤將非嵌合體去除

不同的算法之間存在差異，其核心目的是較為一致的：真實地揭示自然中的規律。美格基因雲平臺中OTU聚類的算法中包含Unoise、Uprase、Uclust，後續將會加上DADA2。同時，物種注釋過程中，整合了最新的資料庫信息喲！

您可能還喜歡：MagicHand雲平臺｜物種與功能網絡與模型預測分析

利用宏基因組數據組裝巨病毒基因組的優勢與限制

相關焦點

集成聚類系列(三)圖聚類算法詳解

圖聚類算法研究現狀聚類分析是一種常用的機器學習技術，它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性，不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法，圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比，圖聚類算法有些明顯的優勢。
聚類算法 Hierarchical Clustering算法

Hierarchical Clustering算法概述HC算法，又稱層次聚類算法，就是按照某種方法進行層次分類，直到滿足某種條件為止。簡單說它是將數據集中的每個樣本初始化為一個簇，然後找到距離最近的兩個簇，將他們合併，不斷重複這個過程，直達到到預設的聚類數目為止。
深度剖析:數據科學家需懂的5種聚類算法

在數據科學中，我們可以使用聚類分析，通過在應用聚類算法時查看數據點落入哪些組，從數據中獲得一些有價值的見解。今天，我們將看看數據科學家需要知道的5種流行的聚類算法以及它們的優缺點!　　K均值(K-Means)聚類　　K-Means可能是最知名的聚類算法。它在很多介紹性的數據科學和機器學習課程中都有教過。
數據科學家們必須知道的5種聚類算法

在數據科學中，我們可以通過聚類算法，查看數據點屬於哪些組，並且從這些數據中獲得一些有價值的信息。今天，我們一起來看看數據科學家需要了解的5種流行聚類算法以及它們的優缺點。一、K均值聚類K-Means可能是最知名的聚類算法了。在數據科學或機器學習課程中都有過它的介紹。
ggplot2版聚類物種豐度堆疊圖

這次的聚類加物種豐度展示讓我們學習一波。之前推出了用R語言的plot繪製的教程。但修改細節仍比較麻煩。今天更新基於ggplot2系統的教程。加載依賴關係這裡的ggtree需要使用19年7月以後的版本，因為這以後的版本才支持將聚類結果轉化為樹結構。如果你的Bioconductor版本較舊，可能一直會安裝舊版ggtree。
聚類算法簡析(一):樸素貝葉斯算法的場景案例

本文作者通過一些場景案例，帶領大家了解一下樸素貝葉斯算法作為聚類算法中的一員，如何來區分各類數組。通過一組參數模型來區分互斥群組中的個體十分常見，我們可以使用樸素貝葉斯分析來應用於這種場景，取決於模型的相似矩陣算法常常運用在估算決策論框架的矩陣中。
有了K均值聚類,為什麼還需要DBSCAN聚類算法?

K均值（點之間的距離）、Affinity propagation（圖之間的距離）、均值漂移（點之間的距離）、DBSCAN（最近點之間的距離）、高斯混合（到中心的馬氏距離）、譜聚類（圖之間距離）等。2014年，DBSCAN算法在領先的數據挖掘會議ACM SIGKDD上獲得the testof time獎（授予在理論和實踐中受到廣泛關注的算法）。
K-Means聚類講解:算法和Sklearn的實現(附代碼)

K-Means聚類是機器學習領域中最強大的聚類算法之一。他的原因比較簡單，但得出的結果也非常準確。聚類是理解數據集的非常重要的方式，因此在本文中，我們將討論什麼是聚類，為什麼需要聚類以及什麼是k-means聚類。什麼是聚類聚類是根據數據的屬性將數據分為兩個或更多組的任務，更確切地說，是基於數據中或多或少明顯的某些模式。
python之kmeans數據聚類算法

一 Kmeans原理kmeans是屬於無監督學習的數據聚類算法，根據點與點之間的距離推測每個點屬於哪個中心，常用計算距離的方式有：餘弦距離、歐式距離、曼哈頓距離等，本文以歐式距離為例。圖1假設每個點的維度是n，即每個點有n個特徵維度，計算這些點數據到數據中心A、B、C的距離，從而將每個數據歸類到A或B或C。
譜聚類(spectral clustering)原理總結

，個人認為譜聚類是應該首先考慮的幾種算法之一。下面我們就對譜聚類的算法原理做一個總結。 1.1 譜聚類概述譜聚類是從圖論中演化出來的算法，後來在聚類中得到了廣泛的應用。它的主要思想是把所有的數據看做空間中的點，這些點之間可以用邊連接起來。
回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...

對機器學習算法進行分類不是一件容易的事情，總的來看，有如下幾種方式：生成與判別、參數與非參數、監督與非監督等等。然而，就實踐經驗來看，這些都不是實戰過程中最有效的分類算法的方式。因為對於應用機器學習而言，開發者一般會在腦海中有一個最終目標，比如預測一個結果或是對你的觀察進行分類。因此，我們想介紹另一種對算法進行分類的路數，其基於機器學習任務來分類。
機器學習之基於sklearn的KMeans聚類

聚類算法，無監督學習的代表算法，又叫做「無監督分類」即在訓練的時候只需要特徵矩陣，不需要真實值標籤可以有效地幫助我們探索數據的自然分布一、KMeans算法的運行過程運行的流程如下：自動聚類時的質心點的每步驟變化如下：
用於異常檢測的幾種圖劃分算法

與其他機器學習算法類比較，其特有的優點在於分析方法符合人的思維方式，分析過程能直觀地可視化。舉例來說，下圖是把瀚思某客戶企業中幾類安全事件：登陸、使用USB盤、檢測到病毒、機器IP、用戶使用機器 - 綜合到一起做關聯分析。圖中「邊」代表發生過事件;點(機器、用戶、IP、病毒、USB盤五類之一) 的大小代表事件多少。
ItClust:單細胞RNA測序分析的聚類和細胞類型分類算法

因此，這些已有的算法十分依賴於源數據集的標註質量，這導致它們對於目標數據中特有的，而源數據中沒有的細胞類型無法給出準確的分類。，借鑑上述想法，開發了ItClust【2】，一種將神經網絡的遷移學習用於單細胞RNA測序分析的聚類和細胞類型分類的機器學習算法
使用Python進行K均值聚類

聚類意味著對一組對象進行分組。K-means聚類是無監督學習的一部分，我們使用的是未標記的數據集，這個算法會自動為我們將數據分組成聚類。它是目前最流行、應用最廣泛的聚類算法之一。它用於各種應用程式，例如市場細分，圖像細分等。
簡潔詳盡講解文本聚類

聚類的種類在深入研究具體的聚類算法之前，讓我們首先建立一些描述和區分它們的方法。以下幾種方法可以實現：在硬集群中，每個對象都完全屬於一個聚簇。在軟集群中，一個對象可以屬於一個或多個聚簇。成員資格可以是部分的，也就是說比某些聚簇，對象屬於另一些聚簇的可能性高。在分層集群中，集群以分層方式迭代組合，最終以一個根聚簇結束。
「Workshop」第十期:聚類

❝本期由吳濤師弟講解聚類，內容很詳實，推薦感興趣的讀者通過原文連結觀看介紹視頻。因此一個具有很大極端值的對象會扭曲數據分布，造成算法對極端值敏感; K-Medoids算法不選用平均值而是用中心點作為參照點最常用的k-medoids聚類方法是PAM算法(Partitioning Around Medoids)PAM 算法隨機選擇k個點作為medoids(或者指定k個點)在每一類裡面，對除初始的medoids點外的所有其他點
你需要的最全面的K-means聚類指南

在這裡，他們不必為個人客戶創建不同的策略，而只需制定3種策略。這將減少時間和人力。我上面顯示的組稱為簇(clusers)，創建這些組的過程稱為聚類(clustering)。在形式上，我們可以說：聚類是基於數據中的模式將整個數據劃分為組(也稱為簇)的過程。你能猜出聚類是哪種類型的學習問題嗎？這是一個有監督還是無監督的學習問題嗎？
微生物組領域近十年最重要的8個軟體或算法

OTU表、多樣性、以及差異比較等分析；整合的主要軟體有比對工具NAST、OTU聚類DOTUR、群落比較SONS、UniFrac進化距離比較等工具，並實現了跨平臺、多線程等眾多優點；軟體包的最大優點是跨平臺，允許用戶在筆記本上幾小時內完成分析；但在上遊處理不同數據類型和文庫拆分，下遊的統計和繪圖仍需其它軟體補充； mothur目前引用累計過萬，且保持穩定增長。

雲平臺|OTU聚類的幾種算法!

相關焦點

集成聚類系列(三)圖聚類算法詳解

聚類算法 Hierarchical Clustering算法

深度剖析:數據科學家需懂的5種聚類算法

數據科學家們必須知道的5種聚類算法

ggplot2版聚類物種豐度堆疊圖

聚類算法簡析(一):樸素貝葉斯算法的場景案例

有了K均值聚類,為什麼還需要DBSCAN聚類算法?

K-Means聚類講解:算法和Sklearn的實現(附代碼)

python之kmeans數據聚類算法

譜聚類(spectral clustering)原理總結

回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...

機器學習之基於sklearn的KMeans聚類

用於異常檢測的幾種圖劃分算法

ItClust:單細胞RNA測序分析的聚類和細胞類型分類算法

使用Python進行K均值聚類

簡潔詳盡講解文本聚類

「Workshop」第十期:聚類

你需要的最全面的K-means聚類指南

微生物組領域近十年最重要的8個軟體或算法