微生物組間差異分析之LEfSe分析

2021-01-14 組學大講堂

LEfSe分析,可以分析組間菌群差異,找出各組間差異的微生物種類,有助於開發biomaker等研究,因此LEfSe分析在微生物相關文章中經常出現。我們今天來詳細講解一下LEfSe分析的原理及圖表解讀。

LEfSe分析原理

Step1. 首先在多組樣本中採用 非參數因子Kruskal-Wallis秩和檢驗 檢測不同分組間豐度差異顯著的物種;也就是圖中按class1 和class2兩個大的分組,每一行都進行檢驗,初步得到差異物種,通過檢驗的打鉤進入step2檢驗;
Step2. 再利用Wilcoxon秩和檢驗,對每一組中的亞組進行兩兩檢驗,具有顯著差異的再進行下一輪檢驗。
Step3. 最後用線性判別分析(LDA)對數據進行降維並評估差異顯著的物種的影響力(即LDA score)。

前兩步的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗 比較簡單,類似T檢驗或者方差檢驗等,只不過T檢驗和方差分析為參數檢驗(要求數據符合方差齊性、正態分布),而在微生物多樣性分析中,樣品物種豐度分布不確定,多採用非參數檢驗,所以採用非參數的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗。比較複雜一點的就是最後的LDA分析。

LDA是一種監督學習的降維技術,也就是說其數據集中的每個樣本是有類別輸出的。是在目前機器學習、數據挖掘領域經典且熱門的一個算法這點和PCA不同。PCA是不考慮樣本類別輸出的無監督降維技術。LDA是有監督的,所以LDA算法可以很好的利用樣本的分組信息,得到的結果更可靠,這就是LDA分析優勢。理解了LDA分析的原理,就不難理解LEfSe的分析結果了。

LDA分析原理:

LDA是一種經典的降維方法線性判別分析(Linear Discriminant Analysis)。LDA的思想可以用一句話概括,就是「投影后類內方差最小,類間方差最大」。什麼意思呢? 我們要將數據在低維度上進行投影,投影后希望每一種類別數據的投影點儘可能的接近,而不同類別的數據的類別中心之間的距離儘可能的大。

可能還是有點抽象,我們先看看最簡單的情況。假設我們有兩類數據 分別為紅色和藍色,如下圖所示,這些數據特徵是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點儘可能的接近,而紅色和藍色數據中心之間的距離儘可能的大。

上圖中提供了兩種投影方式,哪一種能更好的滿足我們的標準呢?從直觀上可以看出,右圖要比左圖的投影效果好。因為右圖的黑色數據和藍色數據各個較為集中,且類別之間的距離明顯,而左圖則在邊界處數據混雜。以上就是LDA的主要思想了,當然在實際應用中,我們的數據是多個類別的,我們的原始數據一般也是超過二維的,投影后的也一般不是直線,而是一個低維的超平面。

LEfSe分析結果: LDA值分布柱狀圖:

圖中展示了LDA Score大於設定值的物種(less_strict 設為2;more_strict 設為4),即組間具有統計學差異的Biomarker。展示了不同組中豐度差異顯著的物種,柱狀圖的長度代表差異物種的顯著性(即為 LDA Score)。

進化分支圖:

在進化分支圖中,由內至外輻射的圓圈代表了由界(單個圓圈)至屬(或種)的分類級別(不同的分類水平下圓圈的層數不同,下圖為order水平下進化圖,所以有4層)。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。著色原則:無顯著差異的物種統一著色為黃色,差異物種 Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,其它圈顏色意義類同。圖中英文字母表示的物種名稱在右側圖例中進行展示。


延伸閱讀
微生物測序原理|腸道君|什麼是OTU|alpha多樣性|Beta多樣性|GraPhlAn樹狀圖|OTU網絡圖MENA


相關焦點

  • 原創乾貨丨採用LefSe解析組間微生物構成差異
    具體來說,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數因子克魯斯卡爾—沃利斯和秩驗檢)檢測具有顯著豐度差異特徵,並找到與豐度有顯著性差異的類群。最後,LEfSe採用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小。
  • Lefse分析說明及線上、線下分析操作
    ,同時還可以對分組內部的亞組進行比較分析,從而找到組間在豐度上有顯著差異的物種(即 biomaker)。首先在兩組及兩組以上的樣本中採用非參數因子 Kruskal-Wallis 秩和檢驗,檢測出不同分組間的豐度差異顯著的物種(biomaker);2. 基於上一步中獲得的顯著差異物種,進行組間兩兩之間的 Wilcoxon 秩和檢驗,進行組間差異分析;3.
  • LEfSe分析的在線+本地運行的超詳細教程
    本篇以某16S高通量測序數據所得的微生物群落數據為例,展示使用LEfSe尋找組間顯著差異的微生物類群,以及確定它們的重要程度。下文中涉及的示例數據、腳本代碼、示例結果等,已存放至百度盤,可能會用得到。Step1:通過Kruskall-Wallis檢驗分析所有變量,檢驗不同類別中的值是否存在差異分布。
  • 【乾貨】微生物高分文章必備分析LEfSe
    今天Fanny給大家介紹一個好玩又簡單的微生物多樣性分析中的組間比較分析——LEfSe,即linear discriminant analysis
  • 微生物LEfSe分析圖表解讀
    一般來說,微生物常見分析內容有OUT豐度分析、OUT Venn圖、alpha多樣性、RDA/CCA分析、物種系統進化分析
  • MagicHand雲平臺|微生物高分文章必備分析LEfSe
    ,從而找到組間在豐度上有顯著差異的物種(即biomaker)。該分析首先使用非參數Kruskal-Wallis 秩和檢測不同分組間豐度差異顯著的物種,然後使用Wilcoxon秩和檢驗上一步的差異物種在不同組間子分組中的差異一致性,最後採用線性回歸分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小。對於物種的LDA分析結果,可結合物種進化分支圖展示差異物種及其進化關係。
  • 微生物群落差異分析方法大揭秘
    β 多樣性差異分析。舉個例子,微生物生長受N、P等多種因素影響。如果有3組樣本,分別是對照、N處理以及P處理的土壤,在N和P處理相對於對照都顯著(p<0.05)的情況下,想知道到底是N還是P的處理更為重要,那就是要看之前R值大小了。
  • 要分析組間的差異,該如何選擇正確的統計方法?
    差異分析主要用於:(1)判斷因變量在兩組或多組之間的統計學差異,各組之間可以是獨立的,也可以是非獨立的;(2)如果多組之間存在差異,進一步開展兩兩比較,分析差異來源。 比如,分析不同醫療機構醫生收入水平的差異。
  • 【工具】LEfSe分析在線做
    LEfSe分析,可以分析組間菌群差異,可以找出各組間特異的主要菌群,有助於開發biomaker等研究。
  • Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)
    Alpha多樣性指數Alpha多樣性用於分析樣品內(Within-community)的微生物群落多樣性,可以反映樣品內的微生物群落的豐富度和多樣性。alpha多樣性指數包括豐富度、多樣性、均一性等。Alpha多樣性指數計算目前可以用來計算alpha多樣性指數的工具非常的多,可以說基本上所有的微生物群落分析工具或相關的統計學軟體都包含了alpha多樣性指數的計算功能,最不濟我們還可以根據每個指數的公式進行手動計算。
  • 微生物群落多樣性測序與功能分析
    微生物群落測序是指對微生物群體進行高通量測序,通過分析測序序列的構成分析特定環境中微生物群體的構成情況或基因的組成以及功能。藉助不同環境下微生物群落的構成差異分析我們可以分析微生物與環境因素或宿主之間的關係,尋找標誌性菌群或特定功能的基因。
  • 手把手教你實現LEfSe:在線工具使用詳細流程!!
    ,能夠在組與組之間尋找具有統計學差異的生物標識(Biomarker)。該算法強調的是統計意義和生物相關性,首先使用non-parametric factorial Kruskal-Wallis sum-rank test檢測具有顯著豐度差異特徵,之後應用unpaired Wilcoxon rank-sum test評估不同組的亞組兩兩之間該特徵的差異顯著性,之後採用LDA估算每個組分豐度對差異影響的大小。
  • 雲平臺在線LEfSe差異分析|OmicStudio重磅雲工具
    各位小夥伴是否還記得咱們公眾號2019年發布的雲平臺 |LEfSe 在線分析教程這篇文章?首先打開聯川生物雲平臺LefSe雲工具:https://www.omicstudio.cn/tool/60選擇LefSe分析工具,然後進入分析頁面,選擇左側開始繪製按鈕。
  • 乾貨|在線玩轉LEfSe分析!
    最後用線性判別分析(LDA)對數據進行降維並評估差異顯著的物種的影響力(即LDA score)。前兩步的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗 比較簡單,類似T檢驗或者方差檢驗等,只不過T檢驗和方差分析為參數檢驗(要求數據符合方差齊性、正態分布),而在微生物多樣性分析中,樣品物種豐度分布不確定,多採用非參數檢驗,所以採用非參數的Kruskal-Wallis秩和檢驗、Wilcoxon秩和檢驗。比較複雜一點的就是最後的LDA分析。
  • 使用DESeq2進行兩組間的差異分析
    DESeq2 接受raw count的定量表格,然後根據樣本分組進行差異分析,具體步驟如下1.差異分析代碼如下dds <- nbinomWaldTest(dds)res <- results(dds)為了簡化調用,將第二部到第四部封裝到了DESeq這個函數中,代碼如下dds <- DESeq(dds)res <- results
  • 16S裡的LEfSe分析,你知多少?
    LEfSe (LDA Effect Size)是一種用於發現高維生物標識和揭示基因組特徵的軟體分析,能夠在組與組之間尋找具有統計學差異的生物標識(Biomarker),即組間差異顯著的物種。該算法強調的是統計意義和生物相關性。
  • 2019微生物組—宏基因組分析專題培訓第三期
    AI排版本子圖為CNS出版級組圖示例(Science, 2016封面文章)四、宏基因組學概述在第一天全面打造科研基礎後之,我們將開始宏基因組大數據分析之旅。作為專業基礎知識,我們將學習以下內容。Bowtie2, BWA, Salmon等方法快速基因豐度定量,後續可進行PCA、PCoA、CCA等整體組間差異比較;也可進一步使用edgeR、MetaStat、LEfSe進行組間差異基因分析;物種注釋:獲得非冗餘基因集物種注釋信息,也可在reads層面使用Kraken進行直接物種注釋,結合第6步豐度值可進行組間差異物種分析;基因功能分類注釋:代謝通路(KEGG),同源基因簇
  • #R語言繪製高顏值三元圖(差異OTU展示)
    收錄於話題 #數據分析和可視化group<-as.data.frame(c(rep("soil",400),rep("rhizo",300),rep("root",320)))colnames(group)<-"group"#數據包括soil,rhizo和root等分類ternary_date<-
  • OmicShare差異分析工具上線了!
    首先簡單介紹一下OmicShare差異分析工具的算法:工具採用edgeR軟體的算法,輸入基因read count數作差異表達分析。能否用RPKM值或FPKM值來作差異分析?小師妹真是痛心疾首,你們都沒有聽周老師的課啊~在第14期在線交流課堂——RNA-seq中的基因表達量計算和差異表達分析(下),周老師已經詳細地講解了edgeR等差異分析軟體的分析原理,以及為什麼差異分析輸入的數據是read count而不是RPKM。
  • 課程免費領取 | 微生太擴增子分析第一節:α多樣性分析及繪圖
    擴增子測序可以有效地識別微生物高可變區並有效獲取微生物物種的信息。擴增子測序主要包括16S rDNA測序、18S rDNA測序、ITS測序及目標區域擴增子測序等。16S rDNA是細菌分類學研究中最常用分類的marker基因信息,其序列包含9個可變區(Variable region)和10個保守區(constant region)。