1、輸入文件的格式必須是.txt文件.
2、輸入文件的第一行代表的是class信息,第二行可以有一個第subclass信息.
3、物種信息也有一定的要求,物種豐度表的第一行必須是分類信息,第二行是對應的樣品名稱,第一列是按照物種分類p_c_o_f_g_進行排序的,之後各列是某個物種在各個樣本中對應的相對豐度值。
示例如下:
Step 1. format_input.pyformat_input.py convert the input data matrix to the format for LEfSe. 轉換輸入文件格式
format_input.py
species.out.txt #輸入文件
species.out.in #輸出文件
-c 1 -s 2 -u 3 -o 1000000
-c 1:the class information in the first line (-c 1)
-s 2:the subclass in the second line (-s 2)
-u 3: the subject in the third (-u 3).
If the subclass or the subject are not present in the data you need to set the value -1 for them.
-o 1000000: scales the feature such that the sum (of the same taxonomic leve)
run_lefse.py performs the actual statistica analysis 進行實際的統計分析
run_lefse.py
species.out.in
species.out.res
plot_res.py visualizes the output 可視化輸出
plot_res.py
species.out.res
species.out.png
plot_cladogram.py visualizes the output on a hierarchical tree 在等級樹上進行可視化輸出
plot_cladogram.py
species.out.res
species.out.cladogram.png
--format png
plot_features.py visualizes the raw-data features 可視化輸出原始數據特徵
mkdir biomarkers_raw_images
plot_features.py species.out.in species.out.res
biomarkers_raw_images/
5.1 根據LEfSe結果,以進化分枝樹圖展示各層次水平中存在組間差異的微生物群落或物種結構。
紅色與綠色表示不同的分組情況,由內到外表示的是門、綱、目、科、屬的物種分類平。進化樹中的紅色節點為在紅色組別中起重要作用的物生物分類,綠色節點為綠色組中起到重要作用的物生物分類,黃色均代表無顯著差異的物種。
5.2 按影響性及關聯性,以LEfSe算法計算各組中有顯著差異的微生物群落或物種的LDA分值。
圖中展示的是LDA score大於預設值的顯著差異物種,默認分值為2.0。柱狀圖的長短代表的是LDA score,即不同組間顯著差異物種的影響程度。
供稿:協雲基因 一葉知秋
編輯:生信圈
生信圈致力於每天推送生物信息乾貨,讓大家了解生信行業。旨在通過更多的交流促進行業的發展。我們一直在尋找志同道合的夥伴!投稿郵箱:bioinfor_club@163.com
生信圈