目前有多種相關分析方法被應用於確定 microbe–metabolite 關係。今天分享一個能考慮不同組學數據的特點,適用於 metabolome (代謝組)和 microbiome (微生物組)的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。
GRaMM 通過整合多種方法可以處理兩類組學數據,消除混雜因子的影響,獲得線性和非線性的關係。
GRaMM 包括 4 個步驟:代謝組和微生物組數據的預處理;線性或非線性關係的識別;數據矯正和相關性計算;p 值矯正。
在多個模擬和真實數據集中,與其他三種方法比較,評估 GRaMM 的性能:準確性,敏感性,特異性,假陽性率,適用性以及數據預處理和混雜調整步驟步驟的效果。GRaMM 是為代謝組和微生物組的相關性分析設計的策略。Matlab 函數和 R 包免費提供,供學術研究使用。
Keywords: GRaMM, MIC, MECC, preprocessing, confounder adjustment
Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome
DOI: 10.1021/acs.analchem.9b02948
Journal: Analytical Chemistry [IF 6.35]
First Authors: Dandan Liang, Mengci Li
Correspondence: Wei Jia, Tianlu Chen
Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine, Shanghai Jiao Tong University Affiliated Sixth People's Hospital, Shanghai, China.
Published: 2019-10-22
在組學研究領域,Pearson, Spearman, LR, SparCC, CCLasso 被用於確定微生物組的相關性。maximum information coefficient (MIC) 可以捕獲線性和非線性相關性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被應用於微生物組和代謝組的相關性分析。
代謝組和微生物組數由於獲取方式的不同,數據特徵不同。代謝組數據是連續譜數據,微生物組是基於序列的「計數」方法。此外,代謝組數據是高度稀疏的,通常用相對豐度表示。因此,數預處理(如:歸一化,log轉換)對下遊分析有益。混雜因子(如:年齡,性別,飲食等)可能導致結果偏差。計算相關性時,可以用少量方法(如:LR 和淨相關)調整混雜因子。真實數據集中中存在多種類型相關性(線性,非線性和無相關性)。除了MIC,其他現存分析方法都只能捕獲線性或單調相關性。
GRaMM 綜合考慮上述挑戰和現存方法的特徵,並系統地評估 GRaMM 的效果:(1)在模擬數據集中,與其他三種方法(LR, Spearman 和 MIC)比較,評估基本性能(如:準確率,敏感性,特異性和假陽性率)。(2)在真實數據集中,用 GRaMM 數據重分析,比較結果。(3)用 4 個真實數據集,基於不同樣本來源(mice, rats 和 human)以及不同數據類型(腦組織,腸內容物,盲腸內容物和糞便),測試 GRaMM 的適用性和重複性。
GraMM 流程圖:(1)預處理:代謝-- log 轉換和總強度歸一化;微生物-- 總強度歸一化,稀釋和居中對數比變化。(2)確定相關類型:線性:p<0.05 或 r > 用戶設定的值;非線性:不滿足上述條件。(3)混雜因子:線性(無)-- LR;線性(有)-- mLR(微生物數據和混淆因子做自變量,代謝數據是因變量);非線性(無)-- MIC;非線性(有)-- MCEE 移除特定混雜因子的影響,不需要額外實驗,不丟失樣本/變量。
1.模擬數據比較四種方法
作者首先模擬兩個沒有混雜因子的模擬數據集(SDatabase1,SDatabase2),隨之進行數據預處理:微生物組數據用總強度歸一化。
使用 SDatabase1 數據集的 240 對線性相關數據,比較 4 種方法的效果。結果發現:與 spearman LR 相比,GRaMM 的 r 值離散程度小(圖 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,準確性評估指標) 低於 MIC (圖 1b)。表明:MIC 適用於非線性關係。
使用SDatabase2 數據集,發現:GRaMM 的 FPR (false positive ratio,假陽性率) 高於其餘三種方法(圖 1c)。因為 GRaMM 綜合利用 LR,MIC 以及其他方法,儘可能多的找相關的配對。p 值矯正減少假陽率。
使用 SDatabase1 和 SDatabase2 數據集,ROC 分析計算 4 種方法的 p 值。GRaMM 有最高的AUC值 (0.971),最低的 SE值(0.006)(圖 1d)。GRaMM 優於其他的線性分析方法(LR 和 Spearman)。
使用 SDatabase1 中的 120 對非線性的microbe–metabolite。發現:相較於 LR 和 Spearman,MIC 和 GRaMM 可以確定更多的相關對(圖 1e)。MIC 和 GRaMM 的 RMSE 值低於 LR 和 Spearman(圖 1f)。基於F1函數得到的非線性對,GRaMM 的結果和Spearman 和 LR 更接近,關係更接近線性(圖 1g);基於 F2-F6 函數得到的非線性數據對,GRaMM 的結果和 MIC 更接近,關係更接近非線性(圖 1h-1l)。
總之:GRaMM 在準確率,敏感性,特異性和識別線性以及非線性關係的能力方面優於其他方法。
圖 1. 基於模擬數據集,比較 4 種方法的性能
2.數據預處理的效果
代謝數據做 log 轉換;微生物組數據做總豐度歸一化 和 log-ratio (CLR) 轉換 。
基於 SDatabase1 和 SDatabase2 數據集,比較數據預處理的效果。發現:代謝數據(圖2a)和微生物組數據(圖 2b)處理後更接近正態分布。此外,還發現:數據預處理之後,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法沒有變化(圖 2c)。可能是由於 MIC 受數據分布和結構影響較小。
GRaMM 的數據預處理幾乎對所有的該方法都是有益的。
圖 2. 基於模擬數據集,有效的數據預處理
3.Real Dataset 的評估結果
使用的2個真實數據集:
基於不同的距離方法(Unweighted Unifrac, weight Unifrac, Hellinger, JSD, Spearman,
使用 RDatabse1 ,評估 GRaMM 的性能和數據預處理的效果。發現:GRaMM 可以確定更多的相關對,數據預處理後,MIC 的相關對減少的較少(圖 3a)。GRaMM 聯合LR 和MIC 方法,捕獲線性和非線性關係。更多的線性關係確定,GRaMM 與 LR 和 Spearman 結果更相近。混雜因子調整之後,GRaMM 和 LR 的相關對數目較少(|r| > 0.5 或 |r| >0.3)(圖 3b)。這證明了 GRaMM 可以確定更多的關係對,數據預處理和混雜因子調整對結果重要。
使用 RDatabase2,Spearman 和 GRaMM 分析發現:基於 |r|>0.5 和 p<0.05 標準,確定 38 個相關對,14個為共有相關對(圖 3c);GRaMM 的 R 值高於 Spearman(圖 3d);10 個 Spearman 特有的關係對可能是由混雜因子導致的;14 個 GRaMM 特有的關係對可能是由非線性關係導致的(圖 3e);兩種方法得到的TDCA~ Staphylococcus spp. 關係對結果的不同可能是由於 3 個異常值,GRaMM 混雜因子矯正之後,數據更分散以及相關性不同導致的(圖 3f-g); 兩種方法得到的 GCA~ Bacillus cereus 關係對結果的不同可能是混雜因子導致的(圖 3h-i); 兩種方法得到的 alpha-MCA ~ Clostridium colinum 關係對結果的不同可能由於非線性關係導致(圖 3j-k)。
圖 3. RDataset1(a-b)和 RDataset2(c-k)的結果
4.GRaMM 的適用性
使用的4個真實數據集:
首先對代謝組數據做 log 轉換,微生物組數據做歸一化和 CLR 轉換。使用 4 個真實數據集,GRaMM 分析確定最相關的對(圖 4)。在所有數據集中,GRaMM 發現了3 個一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已經發現前兩個相關對,第三個相關對是新發現的。先前研究中發現:SMB53.spp 在T2D 小鼠中高豐度;高脂飲食小鼠中豐度降低。GDCA 是結合次級膽汁酸,營養吸收和各種細胞信號通路的調控分子,促進多囊性人膽管細胞的增殖,減少法尼醇X受體(FXR)的表達。FXR 是配體激活的核受體,調節肝膽汁酸的合成,轉運和分泌。這些證據支持這一關聯,但是需要大量實驗來驗證這種關聯以及確定這個關聯的調節方向。
圖 4. 使用真實數據集,4 種方法確定顯著相關對的比率(p<0.05 和 FDR<0.05)
GRaMM 能比較集成地處理代謝組和微生物組關聯分析,能處理 數據預處理,相關模型選擇,矯正混雜因子,p 值矯正等,以確保得到可信的結果。但是,GRaMM 的結果仍需要進一步的數據和實驗驗證。
參考文獻
Liang, D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91, 14424-14432 (2019).
撰稿 | Yanni 責編 | NSC
本文系菌探Momics(ID:Momics)原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源菌探Momics。