LEfSe (LDA Effect Size)是一種用於發現高維生物標識和揭示基因組特徵的軟體分析,能夠在組與組之間尋找具有統計學差異的生物標識(Biomarker)。
該算法強調的是統計意義和生物相關性,首先使用non-parametric factorial Kruskal-Wallis sum-rank test檢測具有顯著豐度差異特徵,之後應用unpaired Wilcoxon rank-sum test評估不同組的亞組兩兩之間該特徵的差異顯著性,之後採用LDA估算每個組分豐度對差異影響的大小。
當比較兩組以上樣品時分為strict和non-strict兩種模式,strict代表一個特徵在所有組間均具有顯著差異,non-strict代表一個特徵在一組中與其他組存在顯著差異性。
LEfSe根據分類學組成對樣本按照不同的分組條件進行線型判別分析(LDA),找出對樣本劃分產生顯著性差異影響的群落或物種。
右圖為聚類樹,紅色區域和綠色區域表示不同分組,樹枝中紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,黃色節點表示的是在兩組中均沒有起到重要作用的微生物類群。圖中英文字母表示的物種名稱在右側圖例中進行展示。
左圖為統計兩個組別當中有顯著作用的微生物類群通過LDA分析後獲得的LDA分值。
分析流程本教程使用的是哈弗大學huttenhower實驗室的Galaxy在線平臺進行LEfSe,連結在此http://huttenhower.sph.harvard.edu/galaxy/root/index。
⚠️伺服器在美國,所以有時候連結會不是很穩定。
數據準備首先我們要新建一個Excel表格,在第一行輸入樣本分組信息,第二行輸入樣本名稱信息,第三行的第一列命名為k__bacteria,之後在所有的樣本對應位置輸入1。
之後找到QIIME輸出的門至屬水平相對豐度表,或者公司分析結果給的門至屬水平相對豐度表。
將這些表中的數據全部複製到新建的表格中,注意樣本名及數據的對應關係。
數據中第一列為各物種的分類學信息,由於QIIME默認輸出的結果中分類學水平是以「;」間隔,而LEfSe的格式要求是以「|」間隔,我是使用Excel的替換方法對其進行修改。
之後將excel表格另存為制表符分割的txt文件即可。
數據上傳進入頁面之後,在左側列表中點擊Get Data中的Upload File。
將剛才製作好的分析文件拖拽到上傳文件的頁面中,在Type中選擇tabular,之後點擊Start將數據上傳。
上傳成功後,右側列表會出現如下情況,綠色表示上傳成功。
數據分析數據格式製作之後在左側的列表中選擇LEfSe,A)Format Data for LEfSe。
此時我們可以看到,在該頁面中,我們剛才上傳的數據已經被自動匹配到了,這裡會默認匹配最新上傳或生成的數據,如果想要使用之前的數據,點擊下拉列表進行選擇即可。
⚠️如果下拉列表中沒有之前上傳的數據,則說明上傳數據的格式不對,也就上面提到的Type的選擇有問題,請重新上傳數據。
這裡在class一欄選擇分組信息行,在subclass一欄選擇樣本名信息行,之後點擊Execute執行該步驟。
執行完成之後,同樣會在右側的列表中顯示一個綠色結果。
LEfSe分析之後我們在左側列表中選擇B)LDA Effect Size (LEfSe),此時剛才生成的結果已經自動匹配到了該步驟中。
這裡我們唯一要注意的就是LDA得分的閾值,默認是2,但是有時默認的閾值可能會得到非常多的結果,特別是在只有兩組樣本進行比較的時候。
我個人有些時候會把這個閾值設置為3.6或者4.0,使得分析更為嚴格,減少一些不必要的結果,但是嚴格的閾值同樣會導致有時候得到的biomarker數目特別少甚至是沒有結果,這裡要根據實際情況自行進行調整。
設置好LDA得分的閾值之後點擊Execute執行該步驟。
這一步可能需要花一點時間,在運行的過程中,右側列表中對應的結果會呈現黃色狀態,當其變為綠色時表示分析完成。
繪製結果圖在上一步分析完成之後,在左側列表點擊C)Plot LEfSe Results,此時上一步的分析結果已經匹配到了此步驟中。
在該步驟中,我們需要將結果圖的dpi改為300,因為通常雜誌的要求是300dpi。
其它參數正常默認即可,也通過下拉列表將繪圖參數改為Advance進行修改,這裡就不詳細介紹了,主要是圖像中不同標籤的字號和長度等參數,大家可以根據默認出圖的結果進行調整。
運行完成之後點擊右側列表中對應的結果,之後選擇儲存即可將結果下載到本地。
LEfSe的結果中還有一個基於系統發育樹的圖,我們需要在左側列表中點擊D) Plot Cladogram,之後與剛才同樣的操作過程即可得到該結果。
有時我們還想要單獨查看發現的Biomarker在不同組樣本中的豐度比較情況,此時需要在左側裡列表中選擇F) Plot Differential Features,之後需剛才同樣的操作會下載到一個壓縮包,解壓縮後就可以得到每一個biomarker的豐度分布結果圖。
關注公眾號「紅皇后學術」,後臺回復「lefse」獲取示例文件!!
擴展閱讀
加群、交流和投稿
加群、投稿、轉載、交流、合作等一切事宜!!