一般來說,微生物常見分析內容有OUT豐度分析、OUT Venn圖、alpha多樣性、RDA/CCA分析、物種系統進化分析、LEfSe分析等等。其中,LEfSe分析在這兩年的微生物文章中常常出現。所以,今天我們來重點講解一下LEfSe分析的原理及圖表解讀!
LEfse分析即LDA Effect Size分析,可以實現多個分組之間的比較,還進行分組比較的內部進行亞組比較分析,從而找到組間在豐度上有顯著差異的物種(即biomaker);
主要分為三步,如下圖:
首先在多組樣本中採用的非參數因子Kruskal-Wallis秩和檢驗檢測不同分組間豐度差異顯著的物種(a);
然後在上一步中獲得的顯著差異物種,用成組的Wilcoxon秩和檢驗來進行組間差異分析;
最後用線性判別分析(LDA)對數據進行降維和評估差異顯著的物種的影響力(即LDA score)。
LDA值分布柱狀圖:
展示了LDA score大於設定值有差異的物種,即具有統計學差異的biomaker。展現不同組中豐度有顯著差異的物種,柱狀圖的長度代表顯著差異物種的影響大小;
進化分支圖:
由內至外輻射的圓圈代表了由門至屬(或種)的分類級別。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。
著色原則:無顯著差異的物種統一著色為黃色,差異物種 Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,其它圈顏色意義類同。圖中英文字母表示的物種名稱在右側圖例中進行展示。
biomaker在不同組各樣本中的豐度比較圖:
將biomaker豐度最高的樣本的豐度設定為1,其他樣品中該 biomarker 的豐度為相對於豐度最高樣品的相對值。
LEfse分析可以在本地分析也可以在線分析,本地版本只能在linux系統下運行;在線分析的網址是:
https://huttenhower.sph.harvard.edu/galaxy/
親測,這個網站還是蠻好用的,以上圖片這個網站都可以畫出來蛤~~
LEfSe分析是基於LDA值,很多人會問為什麼是不用PCA?PCA與LDA有什麼區別?關於這個問題,解釋如下:
PCA和LDA的差別在於,PCA,它所作的只是將整組數據整體映射到最方便表示這組數據的坐標軸上,映射時沒有利用任何數據內部的分類信息,是無監督的,而LDA是由監督的,增加了種屬之間的信息關係後,結合顯著性差異標準測試(克魯斯卡爾-沃利斯檢驗和兩兩Wilcoxon測試)和線性判別分析的方法進行特徵選擇。
參考文獻:
Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60.