雲平臺|OTU聚類的幾種算法!

2021-01-10 美格基因

雲平臺的出現,如同給研究人員增添了左膀右臂。在這些智能化、便捷化的背後都是誰在操控?今天給大家介紹雲平臺|OTU聚類的幾種算法!講述微生物多樣分析背後的上帝之手!

為何要進行聚類?

測序完成後,每個樣品的測序序列達到幾萬條,對每一條序列可以進行物種注釋,但是這種方式工作量大,畢竟每一條序列需要與資料庫進行比對,比對過程又比較耗時,而且擴增、測序等過程中出現的錯誤會降低比對結果的準確性;因此,在微生物多樣性研究中,引入了OTU的概念,首先對序列按照一定的相似程度進行聚類,每形成的一類稱為一個OTU,一個OTU中序列的差異程度不能大於規定的相似程度(97%)基於分類單位(OTU)進行物種注釋(即從OTU中選擇一天代表序列與資料庫進行比對獲得分類水平信息,便是該OTU的分類水平信息);如此操作,不僅簡化工作量,提高分析效率,而且OTU在聚類過程中還可以去除一些錯誤的序列,如嵌合體序列,提高分析的準確性。

思考;97%從何而來?

追溯到1973年的文章,此文提出DNA-DNA雜交同源性>60%屬於同一物種

圖1 16S rRNA相似度與DNA雜交相似度對比

1994年,此文將16S rRNA相似度和DNA雜交相似度進行比較,得出16S rRNA相似度低於97%的,DNA雜交相似度都不高,所以在後來的分析使用中,將97%設為聚類的閾值。

UPARSE

經典的Uprase就是通過序列之間的相似度97%為閾值進行聚類:

圖2 Uprase原理

UNOISE

圖中X為一天最高豐度序列,周圍存在很多低豐度序列。d為序列的差異程度,周圍的點代表不同的序列,點的大小代表其豐度大小,其中,綠色的點為正確的生物學序列,紅色代表含有一個或者多個錯誤點的序列;右圖表示降噪後的序列。

圖3 Unoise降噪原理
圖4 Unoise的算法

Unoise算法是對測序錯誤、擴增錯誤序列的校正

DADA2

全稱Divisive Amplicon Denoising Algorithm,通過降噪得到不含擴增與測序錯誤、不含嵌合體的生物學序列。

圖5 DADA2原理

中圖是測序所得的序列,DADA2的計算和OTU聚類方式比較,DADA2的準確度更高

Unoise VS DADA2

圖6 Unoise對於嵌合體的識別準確性更高,DADA2會錯誤將非嵌合體去除

不同的算法之間存在差異,其核心目的是較為一致的:真實地揭示自然中的規律。美格基因雲平臺中OTU聚類的算法中包含Unoise、Uprase、Uclust,後續將會加上DADA2。同時,物種注釋過程中,整合了最新的資料庫信息喲!

您可能還喜歡:MagicHand雲平臺|物種與功能網絡與模型預測分析

利用宏基因組數據組裝巨病毒基因組的優勢與限制

相關焦點

  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    對機器學習算法進行分類不是一件容易的事情,總的來看,有如下幾種方式:生成與判別、參數與非參數、監督與非監督等等。然而,就實踐經驗來看,這些都不是實戰過程中最有效的分類算法的方式。因為對於應用機器學習而言,開發者一般會在腦海中有一個最終目標,比如預測一個結果或是對你的觀察進行分類。因此,我們想介紹另一種對算法進行分類的路數,其基於機器學習任務來分類。
  • 機器學習十大算法都是何方神聖?看完你就懂了
    跟我們生活息息相關的最常見機器學習算法包括電影推薦算法、圖書推薦算法。這些算法都是基於你的電影觀看記錄或圖書購買記錄來給你做推薦的。James Le 在 KDnuggets 上發布了一篇文章,介紹了他是如何入門機器學習的。此外,他在其中摸索出十大常用的機器學習算法,並逐一進行介紹。雷鋒網編譯如下,未經許可不得轉載。如果你想學機器學習,那怎麼入門呢?
  • 曼孚科技:AI算法領域常用的39個術語(上)
    它並不特指某種具體的算法,而是一類算法的統稱。Encoder-Decoder 算是一個通用的框架,在這個框架下可以使用不同的算法來解決不同的任務。Encoder-Decoder 這個框架很好的詮釋了機器學習的核心思路:將現實問題轉化為數學問題,通過求解數學問題,從而解決現實問題。
  • Python算法新手入門大全
    幾個印度小哥,在GitHub上建了一個各種Python算法的新手入門大全,現在標星已經超過2.6萬。這個項目主要包括兩部分內容:一是各種算法的基本原理講解,二是各種算法的代碼實現。簡單介紹下。算法的基本原理講解部分,包括排序算法、搜索算法、插值算法、跳躍搜索算法、快速選擇算法、禁忌搜索算法、加密算法等。
  • 從理論到實踐,一文詳解 AI 推薦系統的三大算法
    前面2種表現形式是大家可以在網站上看到,而第3種表現形式只有體驗後才能知曉,一封郵件,一條簡訊,一條站內消息都是它的表現方式。下面將對亞馬遜中國的前兩種表現形式進行簡單說明:● 對於非登錄用戶,亞馬遜中國在網站首頁和類目欄,會根據各個類目暢銷品的情況做響應的推薦,其主要表現形式為排行榜。
  • 人工智慧之K近鄰算法(KNN)
    前言:人工智慧機器學習有關算法內容,請參見公眾號「科技優化生活」之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下K近鄰(KNN)算法。^_^本文引用地址:http://www.eepw.com.cn/article/201806/381808.htm  K近鄰KNN(k-Nearest Neighbor)算法,也叫K最近鄰算法,1968年由 Cover 和 Hart 提出,是機器學習算法中比較成熟的算法之一。K近鄰算法使用的模型實際上對應於對特徵空間的劃分。KNN算法不僅可以用於分類,還可以用於回歸。
  • 發力量子計算軟體、算法和應用,阿里AQL聯合學界尋找「量子貓」
    、量子計算雲平臺、量子網際網路、量子通信等量子信息技術研究方向介紹了各自的工作成果和見解。施堯耘說道,「跟中科院和中科大的合作更多是從硬體層面,如量子器件和量子計算雲平臺基礎設施。未來會繼續加深合作,也可以讓阿里的人去科大學習他們的實驗,開展互補的合作。同時謝崇進謝博士在量子通信方向的工作,也會更加的支持,與謝博士一起努力。」「量子計算的成功不僅需要量子處理器,還有其他軟體、算法、應用三個關鍵部分。
  • 華為雲聯手泰克打造產教融合實訓雲平臺 在線也高效 教學有保障
    與此同時,華為泰克產教融合實訓雲平臺的真實的項目案例、數據源、算法庫等資源也將開放共享,針對技能點實戰教學,讓學員真正領悟和吸收知識技能,感受企業的項目運作的流程,步驟,規劃,豐富實踐經驗。  無論是高校、教育廳局,還是中小學校、培訓機構,華為雲隨時學教育聯盟都將用優質教育資源、多元架構+最佳通信體驗以及端管雲芯安全方案等解決方案優勢。
  • 美賽常用六種算法第二期——模擬退火算法
    模擬退火算法包含兩個部分即Metropolis算法和退火過程。Metropolis算法就是如何在局部最優解的情況下讓其跳出來,是退火的基礎。1953年Metropolis提出重要性採樣方法,即以概率來接受新狀態,而不是使用完全確定的規則,稱為Metropolis準則,計算量較低。
  • 雲平臺事故頻發 安全狗:安全解決方案看這裡
    近期發生的多起雲平臺事故正好讓我們正視一件事:當那種微乎其微的可能性發生時,我們應該怎麼做?   雲計算作為一種本地存儲運算的替代方案,很多本地計算出現的問題會以另一種形式影射到雲計算體系中。雖然技術力量更強大,容災、應急的能力也相應更強,但由於體系相對更加龐大、複雜,安全隱患也是隨之增加的;很多原先在更小的體系內無關緊要的問題,在雲計算體系下會不成比例地放大。
  • 增值稅算法為什麼是開票額除以一點幾?
    增值稅算法為什麼是開票額除以一點幾?根據增值稅定義:增值稅是以商品(含應稅勞務)在流轉過程中產生的增值額作為計稅依據而徵收的一種流轉稅。園區對註冊企業的增值稅以地方留存的30%~60%扶持獎勵;企業所得稅以地方留存的30%~60%給予扶持獎勵財政扶持按月返還,當月納稅,次月發放扶持獎勵;個人獨資企業(小規模)的可以申請核定徵收,核定後綜合稅負4%以內;增值稅算法為什麼是開票額除以一點幾?
  • 【基層傳真】祁門縣法院:雲平臺助力涉外離婚糾紛邊控
    【基層傳真】祁門縣法院:雲平臺助力涉外離婚糾紛邊控 2020-03-31 18:03 來源:澎湃新聞·澎湃號·政務
  • 解密非凡的蟻群算法
    Gordon發現這些蟻群的搜索算法和網際網路背後的人造算法有相似之處。Gordon希望能從蟻群解決此類問題的規律中找到一種新算法,從根本上降低大規模計算網絡的成本,提升其性能。在紐約州冷泉港的社會性昆蟲會議上,我們碰到了Gordon,稍後她立刻啟程前往墨西哥繼續研究樹蟻尋路算法。以下是我們對話的精簡版。
  • 身份雲平臺 Authing 完成 500 萬美元新融資 GGV 紀源資本獨家投資
    原標題:身份雲平臺 Authing 完成 500 萬美元新融資,GGV 紀源資本獨家投資   1月15日消息,身份雲平臺 Authing 宣布完成 500 萬美元
  • 幾幀畫面「速食」一部作品 智能算法就能計算一切嗎?
    這背後,實際上是社交媒體、片方和播出方利用智能算法與觀眾口味達成的一種「共謀」。隨著實時播出大數據監測成為一項常規操作,在劇情之中找尋熱點然後通過微博等社交媒體平臺進行傳播擴散的營銷行為已屢見不鮮。如此一來,片方和播出方順理成章地交出一份漂亮的成績,觀眾也可以通過幾個名場面、幾句「吸睛」的劇情介紹,甚至幾張動圖、幾幀畫面「速食」一部作品。
  • 優化算法系列之模擬退火算法(1)
    模擬退火算法是所謂三大非經典算法之一,它脫胎於自然界的物理過程,與優化問題相結合。在百度百科上對於模擬退火算法的定義是:模擬退火算法來源於固體退火原理,是一種基於概率的算法,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內部粒子隨溫升變為無序狀,內能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態,最後在常溫時達到基態,內能減為最小。
  • 經典算法—模擬退火算法
  • 幾種分類算法初識
    下邊是總結的幾種常見分類算法,這裡只是對幾種分類算法的初步認識,後續還得仔細研究。所謂分類,簡單來說,就是根據文本的特徵或屬性,劃分到已有的類別中。常用的分類算法包括:決策樹分類法,樸素的貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器,神經網絡法,k-最近鄰法(k-nearest neighbor,kNN),模糊分類法等等1、決策樹決策樹是一種用於對實例進行分類的樹形結構。一種依託於策略抉擇而建立起來的樹。
  • 免費個人信息洩露查詢雲平臺幫你快速查找內鬼...
    免費個人信息洩露查詢雲平臺幫你快速查找內鬼     填寫個人信息就能免費領口罩?1天內4700多人被騙!     1.23億個人信息洩露!迪卡儂資料庫暴露個人信息安全風險     觸目驚心!     2、個人信息脫敏     平臺系統對識別發現的敏感數據,通過脫敏算法對敏感數據進行進行屏蔽、變形替換等操作,實現對上傳文件進行脫敏。