雲平臺|OTU聚類的幾種算法!

2021-01-09 美格基因

雲平臺的出現,如同給研究人員增添了左膀右臂。在這些智能化、便捷化的背後都是誰在操控?今天給大家介紹雲平臺|OTU聚類的幾種算法!講述微生物多樣分析背後的上帝之手!

為何要進行聚類?

測序完成後,每個樣品的測序序列達到幾萬條,對每一條序列可以進行物種注釋,但是這種方式工作量大,畢竟每一條序列需要與資料庫進行比對,比對過程又比較耗時,而且擴增、測序等過程中出現的錯誤會降低比對結果的準確性;因此,在微生物多樣性研究中,引入了OTU的概念,首先對序列按照一定的相似程度進行聚類,每形成的一類稱為一個OTU,一個OTU中序列的差異程度不能大於規定的相似程度(97%)基於分類單位(OTU)進行物種注釋(即從OTU中選擇一天代表序列與資料庫進行比對獲得分類水平信息,便是該OTU的分類水平信息);如此操作,不僅簡化工作量,提高分析效率,而且OTU在聚類過程中還可以去除一些錯誤的序列,如嵌合體序列,提高分析的準確性。

思考;97%從何而來?

追溯到1973年的文章,此文提出DNA-DNA雜交同源性>60%屬於同一物種

圖1 16S rRNA相似度與DNA雜交相似度對比

1994年,此文將16S rRNA相似度和DNA雜交相似度進行比較,得出16S rRNA相似度低於97%的,DNA雜交相似度都不高,所以在後來的分析使用中,將97%設為聚類的閾值。

UPARSE

經典的Uprase就是通過序列之間的相似度97%為閾值進行聚類:

圖2 Uprase原理

UNOISE

圖中X為一天最高豐度序列,周圍存在很多低豐度序列。d為序列的差異程度,周圍的點代表不同的序列,點的大小代表其豐度大小,其中,綠色的點為正確的生物學序列,紅色代表含有一個或者多個錯誤點的序列;右圖表示降噪後的序列。

圖3 Unoise降噪原理
圖4 Unoise的算法

Unoise算法是對測序錯誤、擴增錯誤序列的校正

DADA2

全稱Divisive Amplicon Denoising Algorithm,通過降噪得到不含擴增與測序錯誤、不含嵌合體的生物學序列。

圖5 DADA2原理

中圖是測序所得的序列,DADA2的計算和OTU聚類方式比較,DADA2的準確度更高

Unoise VS DADA2

圖6 Unoise對於嵌合體的識別準確性更高,DADA2會錯誤將非嵌合體去除

不同的算法之間存在差異,其核心目的是較為一致的:真實地揭示自然中的規律。美格基因雲平臺中OTU聚類的算法中包含Unoise、Uprase、Uclust,後續將會加上DADA2。同時,物種注釋過程中,整合了最新的資料庫信息喲!

您可能還喜歡:MagicHand雲平臺|物種與功能網絡與模型預測分析

利用宏基因組數據組裝巨病毒基因組的優勢與限制

相關焦點

  • 集成聚類系列(三)圖聚類算法詳解
    圖聚類算法研究現狀聚類分析是一種常用的機器學習技術,它的目的是將一個數據點劃分為幾個類。同一個類的數據之間具有較高的相似性,不同的類之間的相似度較低。很多研究已表明圖聚類是一種極具競爭力的聚類算法,圖聚類是一種基於圖劃分理論的算法。與其他聚類算法相比,圖聚類算法有些明顯的優勢。
  • 聚類算法 Hierarchical Clustering算法
    Hierarchical Clustering算法概述HC算法,又稱層次聚類算法,就是按照某種方法進行層次分類,直到滿足某種條件為止。簡單說它是將數據集中的每個樣本初始化為一個簇,然後找到距離最近的兩個簇,將他們合併,不斷重複這個過程,直達到到預設的聚類數目為止。
  • 深度剖析:數據科學家需懂的5種聚類算法
    在數據科學中,我們可以使用聚類分析,通過在應用聚類算法時查看數據點落入哪些組,從數據中獲得一些有價值的見解。今天,我們將看看數據科學家需要知道的5種流行的聚類算法以及它們的優缺點!  K均值(K-Means)聚類  K-Means可能是最知名的聚類算法。它在很多介紹性的數據科學和機器學習課程中都有教過。
  • 數據科學家們必須知道的5種聚類算法
    在數據科學中,我們可以通過聚類算法,查看數據點屬於哪些組,並且從這些數據中獲得一些有價值的信息。今天,我們一起來看看數據科學家需要了解的5種流行聚類算法以及它們的優缺點。一、K均值聚類K-Means可能是最知名的聚類算法了。在數據科學或機器學習課程中都有過它的介紹。
  • ggplot2版聚類物種豐度堆疊圖
    這次的聚類加物種豐度展示讓我們學習一波。之前推出了用R語言的plot繪製的教程。但修改細節仍比較麻煩。今天更新基於ggplot2系統的教程。加載依賴關係這裡的ggtree需要使用19年7月以後的版本,因為這以後的版本才支持將聚類結果轉化為樹結構。如果你的Bioconductor版本較舊,可能一直會安裝舊版ggtree。
  • 聚類算法簡析(一):樸素貝葉斯算法的場景案例
    本文作者通過一些場景案例,帶領大家了解一下樸素貝葉斯算法作為聚類算法中的一員,如何來區分各類數組。通過一組參數模型來區分互斥群組中的個體十分常見,我們可以使用樸素貝葉斯分析來應用於這種場景,取決於模型的相似矩陣算法常常運用在估算決策論框架的矩陣中。
  • 有了K均值聚類,為什麼還需要DBSCAN聚類算法?
    K均值(點之間的距離)、Affinity propagation(圖之間的距離)、均值漂移(點之間的距離)、DBSCAN(最近點之間的距離)、高斯混合(到中心的馬氏距離)、譜聚類(圖之間距離)等。2014年,DBSCAN算法在領先的數據挖掘會議ACM SIGKDD上獲得the testof time獎(授予在理論和實踐中受到廣泛關注的算法)。
  • K-Means聚類講解:算法和Sklearn的實現(附代碼)
    K-Means聚類是機器學習領域中最強大的聚類算法之一。他的原因比較簡單,但得出的結果也非常準確。聚類是理解數據集的非常重要的方式,因此在本文中,我們將討論什麼是聚類,為什麼需要聚類以及什麼是k-means聚類。什麼是聚類聚類是根據數據的屬性將數據分為兩個或更多組的任務,更確切地說,是基於數據中或多或少明顯的某些模式。
  • python之kmeans數據聚類算法
    一 Kmeans原理kmeans是屬於無監督學習的數據聚類算法,根據點與點之間的距離推測每個點屬於哪個中心,常用計算距離的方式有:餘弦距離、歐式距離、曼哈頓距離等,本文以歐式距離為例。圖1假設每個點的維度是n,即每個點有n個特徵維度,計算這些點數據到數據中心A、B、C的距離,從而將每個數據歸類到A或B或C。
  • 譜聚類(spectral clustering)原理總結
    ,個人認為譜聚類是應該首先考慮的幾種算法之一。下面我們就對譜聚類的算法原理做一個總結。 1.1 譜聚類概述 譜聚類是從圖論中演化出來的算法,後來在聚類中得到了廣泛的應用。它的主要思想是把所有的數據看做空間中的點,這些點之間可以用邊連接起來。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    對機器學習算法進行分類不是一件容易的事情,總的來看,有如下幾種方式:生成與判別、參數與非參數、監督與非監督等等。然而,就實踐經驗來看,這些都不是實戰過程中最有效的分類算法的方式。因為對於應用機器學習而言,開發者一般會在腦海中有一個最終目標,比如預測一個結果或是對你的觀察進行分類。因此,我們想介紹另一種對算法進行分類的路數,其基於機器學習任務來分類。
  • 機器學習之基於sklearn的KMeans聚類
    聚類算法,無監督學習的代表算法,又叫做「無監督分類」即在訓練的時候只需要特徵矩陣,不需要真實值標籤可以有效地幫助我們探索數據的自然分布一、KMeans算法的運行過程運行的流程如下:自動聚類時的質心點的每步驟變化如下:
  • 用於異常檢測的幾種圖劃分算法
    與其他機器學習算法類比較, 其特有的優點在於分析方法符合人的思維方式,分析過程能直觀地可視化。 舉例來說,下圖是把瀚思某客戶企業中幾類安全事件 : 登陸、使用USB盤、檢測到病毒、機器IP、 用戶使用機器 - 綜合到一起做關聯分析。 圖中「邊」代表發生過事件;點(機器、用戶、IP、病毒、USB盤五類之一) 的大小代表事件多少。
  • ItClust:單細胞RNA測序分析的聚類和細胞類型分類算法
    因此, 這些已有的算法十分依賴於源數據集的標註質量,這導致它們對於目標數據中特有的,而源數據中沒有的細胞類型無法給出準確的分類。,借鑑上述想法,開發了ItClust【2】,一種將神經網絡的遷移學習用於單細胞RNA測序分析的聚類和細胞類型分類的機器學習算法
  • 使用Python進行K均值聚類
    聚類意味著對一組對象進行分組。K-means聚類是無監督學習的一部分,我們使用的是未標記的數據集,這個算法會自動為我們將數據分組成聚類。它是目前最流行、應用最廣泛的聚類算法之一。它用於各種應用程式,例如市場細分,圖像細分等。
  • 簡潔詳盡講解文本聚類
    聚類的種類在深入研究具體的聚類算法之前,讓我們首先建立一些描述和區分它們的方法。以下幾種方法可以實現:在硬集群中,每個對象都完全屬於一個聚簇。在軟集群中,一個對象可以屬於一個或多個聚簇。成員資格可以是部分的,也就是說比某些聚簇,對象屬於另一些聚簇的可能性高。在分層集群中,集群以分層方式迭代組合,最終以一個根聚簇結束。
  • 「Workshop」第十期:聚類
    ❝本期由吳濤師弟講解聚類,內容很詳實,推薦感興趣的讀者通過原文連結觀看介紹視頻。因此一個具有很大極端值的對象會扭曲數據分布,造成算法對極端值敏感; K-Medoids算法不選用平均值而是用中心點作為參照點最常用的k-medoids聚類方法是PAM算法(Partitioning Around Medoids)PAM 算法隨機選擇k個點作為medoids(或者指定k個點)在每一類裡面,對除初始的medoids點外的所有其他點
  • 你需要的最全面的K-means聚類指南
    在這裡,他們不必為個人客戶創建不同的策略,而只需制定3種策略。這將減少時間和人力。我上面顯示的組稱為簇(clusers),創建這些組的過程稱為聚類(clustering)。在形式上,我們可以說:聚類是基於數據中的模式將整個數據劃分為組(也稱為簇)的過程。你能猜出聚類是哪種類型的學習問題嗎?這是一個有監督還是無監督的學習問題嗎?
  • 微生物組領域近十年最重要的8個軟體或算法
    OTU表、多樣性、以及差異比較等分析; 整合的主要軟體有比對工具NAST、OTU聚類DOTUR、群落比較SONS、UniFrac進化距離比較等工具,並實現了跨平臺、多線程等眾多優點; 軟體包的最大優點是跨平臺,允許用戶在筆記本上幾小時內完成分析; 但在上遊處理不同數據類型和文庫拆分,下遊的統計和繪圖仍需其它軟體補充; mothur目前引用累計過萬,且保持穩定增長。