本節作者:趙丹陽,中國藥科大學
版本1.0.4,更新日期:2020年9月7日
本項目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本節目錄 243STAMP,包含R markdown(*.Rmd)、Word(*.docx)文檔、測試數據和結果圖表,歡迎廣大同行幫忙審核校對、並提修改意見。提交反饋的三種方式:1. 公眾號文章下方留言;2. 下載Word文檔使用審閱模式修改和批註後,發送至微信(meta-genomics)或郵件(metagenome@126.com);3. 在Github中的Rmd文檔直接修改並提交Issue。審稿人請在創作者登記表 https://www.kdocs.cn/l/c7CGfv9Xc 中記錄個人信息、時間和貢獻,以免專著發表時遺漏。
STAMP圖形界面的微生物組分析軟體:使用說明與實例展示關鍵字:微生物組 統計分析 可視化 STAMP
背景介紹STAMP簡介STAMP是一款分析微生物物種與功能組成的可視化軟體,STAMP 1.0於2010年發表在Bioinformatics雜誌,後期2014年的2.0版本同樣在Bioinformatics發布,目前最新版本為2.1.3。截止到2020年8月15日,兩個版本STAMP的引用次數分別達到了719次和1390次。該軟體除了能夠繪製探索性數據分析的降維、相關圖之外,還提供了假設檢驗的差異比較統計分析功能。此外,STAMP採用了圖形化界面,對用戶比較友好。
STAMP基本設置STAMP允許導入制表符分隔(tab-seprarated)的文件,也可以與主流生信軟體如QIIME、Mothur等對接(通過Fife—Create profile from…實現)。文件包含層級注釋組成表和樣本信息表兩部分,文件第一行為表頭,含有注釋信息的列應當是從最高級到最低級排列,且必須形成嚴格的樹型結構。鑑於目前很多的分類分級系統(包括GreenGenes和SILVA等流行的分類法)的標籤錯誤以及其他一些問題,STAMP網站提供了checkHierarchy.py腳本,可用於識別STAMP配置文件當中所有的非層級條目。而對於未知的條目,應記為unclassified(不區分大小寫)。STAMP對於讀取計數的形式沒有特殊要求,可以為整數或任何實數,這使得標準化的方法可以不止一種。考慮到生物學數據低準確度、低精密度的特點,對於樣本數量,STAMP的作者沒有建議最小的樣本數量,具體的數量應當由樣品本身決定,但如需進行假設檢驗則必須符合相應的數據分布。
圖. 輸入文件1.層級物種或功能組成表
STAMP允許通過元數據(metadata)文件定義與樣本相關聯的其他數據。這一文件也應當是制表符分隔的文件。該文件的第一列表示每個樣品的名稱,並與STAMP配置文件中的樣本名稱一一對應,其他列可以指定為與該樣本相關的任何其他數據。
圖. 輸入文件2.樣本元數據
關於假設檢驗,STAMP提供了對多組、兩組和兩樣品的統計檢驗方式,以及與之相應的事後檢驗 (Post-hoc test) 、置信區間和多重檢驗等。對於多組、兩組以及兩樣品的假設檢驗方法分別如下面表1、表2和表3所示。對於多組樣品,作者推薦使用ANOVA進行假設檢驗,兩組樣品則建議使用Welch’s t-test這一適用性更廣泛的檢驗方式,同時建議使用Fisher精確檢驗應對兩樣品比較的情況。多重檢驗校正方面,可以選擇傳統的Benjamini-Hochberg方法,但作者更偏向使用Storey’s FDR。這一方法的計算量更大,效果較Benjamini-Hochberg也更好。
統計假設
方法描述ANOVA方差分析(analysis of variance)的縮寫,用於檢驗多組均值是否相等的方法。可被認為是可分析多組的t-testKruskal-Wallis H-test無參數的秩合檢驗方法,檢驗多組的中位數是否相等。它考慮樣品排序位置而不是真實數值或比例。它不基於數據是正態分布的前提。此方法要求每組至少5個樣本。事後檢驗
方法描述Games-Howell當ANOVA產生了顯著P值後,檢驗具體哪兩個均值顯著不同。用於組樣本和方差不同。當方差不同,組樣本量小時推薦使用Tukey-Kramer方法Scheffe考慮所有可能的比較,而Tukey-Kramer只考慮成對均值。此種方法較保守Tukey-Kramer用於ANOVA顯著後進一步成對比較。考慮所有可能的均值隊,並考慮多次比較的錯誤率控制。推薦使用Games-Howell輸出最終結果,而Tukey-Kramer用於探索分析。推薦此方法的另一個原因是此法使用廣泛,被研究者所熟知。Welch’s(uncorrected)只是成隊均值比較,但不進行多次比較的錯誤率控制多重檢驗校正
方法描述Benjamini-Hochberg FDR控制假陽性率FDRBonferroni控制整體錯誤率的經典方法,被批評太保守Sidak在整體錯誤率控制中使用不多,但均勻分布數據上比Bonferroni更強,但需要假設個體檢驗是獨立的Storey’s FDR控制FDR的新方法,比BH更強。需要估計一些參數和更多的計算資源。表1:STAMP提供的對於多組樣本的假設檢驗、事後檢驗與多重校正方法。其中加粗為推薦方法,翻譯自STAMP 2.1.3幫助文檔第14頁。
統計假設
方法描述t檢驗T檢驗,亦稱student t檢驗(Student’s t test),假設兩組有相同的方差,當假設成立時,它比Welch’s檢驗更強,主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分布。Welch’s t-testt-test的一種變形,用於當兩組無法滿足方差相同的假設時使用。White’s無參t-test無參數的檢驗,由White為臨床宏基因組數據分析提出。此方法使用排序過程移除標準t-test的正態假設。此外,它使用啟法式鑑定鬆散的特徵,可採用Fisher精確檢驗和pooling的策略,適合組樣本一致,或小於8個樣品。大數據集計算耗時。置信區間
方法描述DP: t-test inverted只有當方差相等的t檢驗可用。Scheffe考慮所有可能的比較,而Tukey-Kramer只考慮成對均值。此種方法較保守DP: Welch’s inverted為Welch’s t檢驗提供置信區間。DP: bootstrap適合White’s 無參t-test多種檢驗校正
方法描述Benjamini-Hochberg FDR控制假陽性率FDRBonferroni控制整體錯誤率的經典方法,被批評太保守Sidak在整體錯誤率控制中使用不多,但均勻分布數據上比Bonferroni更強,但需要假設個體檢驗是獨立的Storey’s FDR控制FDR的新方法,比BH更強。需要估計一些參數和更多的計算資源。表2:STAMP提供的對於兩組樣本的假設檢驗、置信區間與多重校正方法。其中加粗為推薦方法,翻譯自STAMP 2.1.3幫助文檔第17頁。
統計假設
方法描述Bootstrap一種無參方法,與Barnard精確檢驗相似,假設放回抽樣卡方Chi-squre大樣本與Fisher精確檢驗類似,但更自由Yates卡方在卡方基礎上考慮了分布,比Fisher更保守Fisher精確檢驗條件精確檢驗,P值採用最大似然方法。宏基因組大數據樣本計算速度快,應用廣泛且公眾認可G-test大樣本與Fisher近似,比卡方更合適,比Fisher更靈活G-test with Yates』大樣本與Fisher類似,考慮自然離散校正,比Fisher更保守G-test(w/Yates』)+Fisher’s當列聯表中小於20使用Fisher精確檢驗,其它使用G-test。為了結果清楚,我們推薦只使用Fisher精確檢驗。而在探索數據階段,使用混合的統計方法可能更有效超幾何分布P值使用兩種方法的條件精確檢驗。比最小似然法(在R和StatXact中常用)更快。但更保守。置換與Fisher類似,假定無放回抽樣置信區間
方法描述DP: 漸近標準的大樣本方法Scheffe考慮所有可能的比較,而Tukey-Kramer只考慮成對均值。此種方法較保守DP: CC漸近考慮自然離散分布和連續校正DP: Newcombe-WilsonNewcombe推薦的7種漸近方法中最優的OR: Haldane adjustmet大樣本方法結合校正解決退化問題RP: 漸近標準的大樣本方法多重檢驗校正
方法描述Benjamini-Hochberg FDR控制假陽性率FDRBonferroni控制整體錯誤率的經典方法,被批評太保守Sidak在整體錯誤率控制中使用不多,但均勻分布數據上比Bonferroni更強,但需要假設個體檢驗是獨立的Storey’s FDR控制FDR的新方法,比BH更強。需要估計一些參數和更多的計算資源。表3:STAMP提供的對於兩樣品統計檢驗的情況所應用的假設檢驗、置信區間與多重檢驗校正方式。推薦方法加粗。CC = 連續校正,DP = 比例差異,OR = 讓步比,RP = 比例。翻譯自STAMP 2.1.3幫助文檔第19頁。
實例解讀例1:擴展柱狀圖展示組間差異功能本示例來自Raju等人2020年8月在Microbiome發表的文章,報導了生命的前十年使用抗菌藥物會影響唾液微生物群的多樣性和組成,而且男女有別。其中圖4以STAMP分析和可視化以不同頻次使用抗菌藥物的兩組兒童唾液微生物的預測功能的變化。
圖4. 在以低頻次與高頻次使用a)全種類抗菌藥物與b)阿奇黴素的兩組兒童的唾液微生物的MetaCyc功能預測。柱狀圖顯示以PICRUST2預測的差異性MetaCyc通路的平均佔比。組間差異顯示95%的置信區間,並只顯示Welch’s t-test經FDR校正後q value < 0.05的部分。
Fig. 4 Functionally predicted MetaCyc pathways differing in proportions in high and low user groups of a) all AMs and in b) azithromycin. The bar plot shows mean proportions of differential MetaCyc pathways predicted using PICRUSt2. The difference in proportions between the groups is shown with 95% confidence intervals. Only p value < 0.05 (Welch’s t test, FDR adjusted), are shown and composition)
在低頻次和高頻次使用全種類抗菌藥物的兒童當中,功能預測鑑定出21個顯著差異的metaCyc通路(圖4a)。這些通路在低頻組中佔比更高。差異最大的通路包括了L-精氨酸降解、L-穀氨酸降解Ⅴ、多胺生物合成Ⅱ超通路以及嘌呤核苷酸降解Ⅱ。在低、高頻次使用阿奇黴素的兩組中,一共有十個差異通路 (圖4b)。甲醇氧化至一氧化碳、L-精氨酸降解以及GDP-甘露糖生物合成通路在阿奇黴素的低頻使用組中佔比較高,而Kdo轉移至脂質ⅣAⅢ、(5Z)-十二碳烯酸酯生物合成通路在高頻使用組中佔比更高。。
Functional predictions identified 21 differentially present metaCyc pathways between the low and high AM users when all AM use were combined (Fig. 4a). All of the pathways had higher proportions in the low AM use group. The largest significant differences were pathways for L-arginine degradation, L-glutamate degradation V, superpathway of polyamine biosynthesis II and purine nucleotides degradation II. Ten pathways differed between low and high azithromycin use (Fig. 4b). Methanol oxidation to carbon monoxide pathway, L-arginine degradation and GDP-mannose biosynthesis pathways showed higher proportions in the low azithromycin group, while Kdo transfer to lipid IVA III, (5Z)-dodecenoate biosynthesis and peptidoglycan maturation pathways showed higher proportions in the high azithromycin group.
例2. 柱狀圖和PCA散點圖本文於2019年8月發表於AEM雜誌,報導了不同大腸桿菌病原體引起的腸道感染的宏基因組學特徵,揭示了不同致病性大腸桿菌感染造成的腸道微生物物種差異。以圖5為例講解STAMP結果中組間單菌差異柱狀圖、主成分分析散點圖的描述。
圖5. 黏附性彌散型大腸桿菌(DAEC)與腸毒性大腸桿菌(ETEC)感染中的豐度差異性物種。差異性物種的篩選條件為校正後p值小於等於0.05並且效應量(即組間差異大小)為0.8。(A和B)分別表示宏基因組分析注釋為死亡梭桿菌和簡明彎曲菌的序列所佔百分比,(C和D)則分別為長雙歧桿菌和坦納擬普雷沃菌的。(E)為去除宿主與大腸桿菌的序列之後,根據宏基因組確定的分類組成(由MetaPhlAn2根據進化分支特異性標記基因注釋到物種水平)所構建的PCA圖。
FIG 5 Differentially abundant (diagnostic) taxa between DAEC and ETEC infections. Differentially abundant species were reported if they had a corrected P value of ≤ 0.05 and an effect size (the magnitude of the difference between groups) of 0.8. (A and B) Proportions of metagenomic sequences assigned to Fusobacterium mortiferum and Campylobacter concisus, respectively. (C and D) Proportions of sequences assigned to Bifidobacterium longum and Alloprevotella tannerae, respectively. (E) PCA plot based on the taxonomic composition of each metagenome (annotated at the species level using clade-specific marker genes with MetaPhlAn2) after removal of human and E. coli reads from the libraries.
對於DAEC和ETEC感染,在最初的物種注釋當中至少有四個物種出現了差異。其中,死亡梭桿菌(P = 0.025)和簡明彎曲菌(P = 0.011)在ETEC感染組顯著富集,而長雙歧桿菌(P = 0.040)和坦納擬普雷沃菌(P = 0.046)在DAEC感染組豐度顯著上升。基於物種水平的分類組成的PCA圖顯示ETEC感染的樣品更相似,而DAEC組的樣品則顯示了更強的多樣性。
The initial taxonomic characterization revealed at least four species that were discriminatory of DAEC versus ETEC infections. Specifically, Fusobacterium mortiferum (P = 0.025) and Campylobacter concisus (P = 0.011) were significantly more abundant in ETEC infections (Fig. 5A and B), while Bifidobacterium longum (P = 0.040) and Alloprevotella tannerae (P = 0.046) were significantly more enriched in DAEC infections (Fig. 5C and D). A PCA based on taxonomic composition at the species level also revealed that metagenomes associated with ETEC infections tended to be taxonomically more similar among themselves, whereas DAEC samples showed more diversity.
分析實戰下載並安裝軟體在瀏覽器地址欄輸入https://beikolab.cs.dal.ca/software/STAMP ,在Downloads當中找到並點擊STAMP v2.1.3 下載連結,保存安裝程序。下載之後打開安裝程序並選擇路徑進行安裝,注意安裝路徑不得含有中文字符。
這裡選取STAMP安裝路徑中的腸型數據(如Windows下為C:\Program Files (x86)\STAMP\examples\EnterotypesArumugam),Enterotypes.profile.spf為制表符分隔的特徵表,由門(Phyla)和屬(Genera)兩個分類層級構成;Enterotypes.metadata. tsv為tsv格式的元數據,由樣本編號、腸型、國籍等信息組成。部分注釋信息和樣品元數據分別如下圖所示。
圖. spf格式特徵表截圖。為支持層級的制表符分隔特徵表,層級可以為1級,也可以為多級。
圖. 元數據格式預覽。即樣本的分組或屬性信息。
多組比較安裝之後,打開STAMP,點擊左上角的「file」-「load data」,分別導入Enterotypes.profile.spf和Enterotypes.metadata.tsv。
導入之後默認顯示PCA結果,以散點圖的形式展示門水平(注釋層級的最高級)的差異:
點擊「Configure plot」,設置圖例位置於圖像左上角,也可點擊「View」-「Group legend」 查看分組信息。
在右上『Group field』選項當中重新分組,選擇『Enterotype』,並去除後三個非主要腸型,僅保留三種腸型。同時,更改左上「Profile level」為『Genera』可以看到三種腸型在PCA圖中分開較為明顯。
切換圖表類型STAMP允許兩組或多組樣品以及兩個樣品之間的比較,支持的可視化類型除了PCA圖之外還有:
a. 柱狀圖
顯示每個樣品特徵(feature)的相對比例或序列數目(通過Configure plot設置),並添加組均值,圖示為三種腸型當中擬桿菌屬的相對豐度圖。
b. 箱線圖
快速查看各組組內數據分布的基本情況,可通過』Show only active features』查看符合閾值的特徵。
c. 熱圖
顯示每個特徵在樣品中豐度的比例,不僅顯示所有樣本的豐度值,還可以對行與列的各單元進行聚類顯示之間的關係。通過選擇』Show only active features』,可以看到三種腸型的樣品有部分聚到一起,和PCA的結果較為接近。
d. Post-hoc 圖
在對於三組及三組以上的多組統計檢驗當中,零假設(即無效假設)為各組之間均值相等。在選擇這種情況的時候,只能得知各組均值是否是否一致,而不能看到任意兩組之間的均值是否一致。STAMP的post-hoc檢驗提供了四種檢驗方式(具體檢驗方式見表1,默認為Tukey-Kramer),其結果以post-hoc圖的形式展出。用戶可在右側feature table當中選擇感興趣的feature進行展示,展示的結果僅包含有p值小於給定閾值的部分。圖示為Bacteroides的post-hoc檢驗結果,可以看到Bacteroides在三組當中的均值兩兩之間在95%的置信區間上都不一致(p<0.001),且Enterotype 1>Enterotype 3>Enteotype 2 。
以上內容帶大家熟悉了STAMP的基本使用,其他兩組比較、兩樣本比較的結果和圖也是類似的。
更多內容,可以學習宏基因組公眾號之前發布的教程:
參考文獻STAMP. https://beikolab.cs.dal.ca/software/STAMP
STAMP User’s Guide. https://beikolab.cs.dal.ca/software/images/c/cd/STAMP_Users_Guide.zip
STAMP:
擴增子、宏基因組統計分析神器(中文幫助文檔). https://blog.csdn.net/woodcorpse/article/details/80458077
差異分析工具STAMP手冊2:使用手冊(漢化版). https://www.jianshu.com/p/331b6796f8ff
Parks DH, Tyson GW, Hugenholtz P, Beiko RG. STAMP: statistical analysis of taxonomic and functional profiles. Bioinformatics. 2014;30(21):3123-3124. doi:10.1093/bioinformatics/btu494
Parks DH, Beiko RG. Identifying biologically relevant differences between metagenomic communities. Bioinformatics. 2010;26(6):715-721. doi:10.1093/bioinformatics/btq041
Sajan C. Raju, Heli Viljakainen, Rejane A. O. Figueiredo, Pertti J. Neuvonen, Johan G. Eriksson, Elisabete Weiderpass & Trine B. Rounge. (2020). Antimicrobial drug use in the first decade of life influences saliva microbiota diversity and composition. Microbiome 8, 121, doi: https://doi.org/10.1186/s40168-020-00893-y
ngela Peña-Gonzalez, Maria J. Soto-Girón, Shanon Smith, Jeticia Sistrunk, Lorena Montero, Maritza Páez, Estefanía Ortega, Janet K. Hatt, William Cevallos, Gabriel Trueba, Karen Levy & Konstantinos T. Konstantinidis. (2019). Metagenomic Signatures of Gut Infections Caused by Different Escherichia coli Pathotypes. Applied and Environmental Microbiology 85, e01820-01819, doi: https://doi.org/10.1128/aem.01820-19
M. Arumugam, J. Raes, E. Pelletier, D. Le Paslier, T. Yamada, D. R. Mende, G. R. Fernandes, J. Tap, T. Bruls, J. M. Batto, M. Bertalan, N. Borruel, F. Casellas, L. Fernandez, L. Gautier, T. Hansen, M. Hattori, T. Hayashi, M. Kleerebezem, K. Kurokawa, M. Leclerc, F. Levenez, C. Manichanh, H. B. Nielsen, T. Nielsen, N. Pons, J. Poulain, J. Qin, T. Sicheritz-Ponten, S. Tims, D. Torrents, E. Ugarte, E. G. Zoetendal, J. Wang, F. Guarner, O. Pedersen, W. M. de Vos, S. Brunak, J. Dore, H. I. T. Consortium Meta, M. Antolin, F. Artiguenave, H. M. Blottiere, M. Almeida, C. Brechot, C. Cara, C. Chervaux, A. Cultrone, C. Delorme, G. Denariaz, R. Dervyn, K. U. Foerstner, C. Friss, M. van de Guchte, E. Guedon, F. Haimet, W. Huber, J. van Hylckama-Vlieg, A. Jamet, C. Juste, G. Kaci, J. Knol, O. Lakhdari, S. Layec, K. Le Roux, E. Maguin, A. Merieux, R. Melo Minardi, C. M』Rini, J. Muller, R. Oozeer, J. Parkhill, P. Renault, M. Rescigno, N. Sanchez, S. Sunagawa, A. Torrejon, K. Turner, G. Vandemeulebrouck, E. Varela, Y. Winogradsky, G. Zeller, J. Weissenbach, S. D. Ehrlich & P. Bork. (2011). Enterotypes of the human gut microbiome. Nature 473, 174-180, doi: https://doi.org/10.1038/nature09944
責編:劉永鑫 中科院遺傳發育所
版本更新歷史
1.0.0,2020/8/30,趙丹陽,中國藥科大學,初稿
1.0.1,2020/9/3,劉永鑫,大修
1.0.2,2020/9/4,吳翔宇 寧波大學,全文校對
1.0.3,2020/9/4,劉永鑫,整合校對
1.0.4,2020/9/7,趙丹陽,中國藥科大學,修post-hoc部分結果
猜你喜歡10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統計繪圖
16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
在線工具:16S預測培養基 生信繪圖
科研經驗:雲筆記 雲協作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧秘
寫在後面為鼓勵讀者交流、快速解決科研困難,我們建立了「宏基因組」專業討論群,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職稱/年級」。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決群內討論,問題不私聊,幫助同行。
學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」
點擊閱讀原文,跳轉最新文章目錄閱讀