線性還是非線性,用 GRaMM 便知一二

2020-09-03 新科研



文獻速遞


目前有多種相關分析方法被應用於確定 microbe–metabolite 關係。今天分享一個能考慮不同組學數據的特點,適用於 metabolome (代謝組)和 microbiome (微生物組)的分析策略— GraMM (Generalized coRrelation analysis for Metabolome and Microbiome)。

GRaMM 通過整合多種方法可以處理兩類組學數據,消除混雜因子的影響,獲得線性和非線性的關係。

GRaMM 包括 4 個步驟:代謝組和微生物組數據的預處理;線性或非線性關係的識別;數據矯正和相關性計算;p 值矯正。

在多個模擬和真實數據集中,與其他三種方法比較,評估 GRaMM 的性能:準確性,敏感性,特異性,假陽性率,適用性以及數據預處理和混雜調整步驟步驟的效果。GRaMM 是為代謝組和微生物組的相關性分析設計的策略。Matlab 函數和 R 包免費提供,供學術研究使用。


Keywords: GRaMM, MIC, MECC, preprocessing, confounder adjustment

Title: A Strategy for Inter-correlation Identification between Metabolome and Microbiome

DOI: 10.1021/acs.analchem.9b02948

Journal: Analytical Chemistry [IF 6.35]

First Authors: Dandan Liang, Mengci Li

Correspondence: Wei Jia, Tianlu Chen

Affiliation: Shanghai Key Laboratory of Diabetes Mellitus and Center for Translational Medicine, Shanghai Jiao Tong University Affiliated Sixth People's Hospital, Shanghai, China.

Published: 2019-10-22



研究背景


在組學研究領域,Pearson, Spearman, LR, SparCC, CCLasso 被用於確定微生物組的相關性。maximum information coefficient (MIC) 可以捕獲線性和非線性相關性。partial least squares (PLS) 和 canonical correlation analysis (CCA) 被應用於微生物組和代謝組的相關性分析。

代謝組和微生物組數由於獲取方式的不同,數據特徵不同。代謝組數據是連續譜數據,微生物組是基於序列的「計數」方法。此外,代謝組數據是高度稀疏的,通常用相對豐度表示。因此,數預處理(如:歸一化,log轉換)對下遊分析有益。混雜因子(如:年齡,性別,飲食等)可能導致結果偏差。計算相關性時,可以用少量方法(如:LR 和淨相關)調整混雜因子。真實數據集中中存在多種類型相關性(線性,非線性和無相關性)。除了MIC,其他現存分析方法都只能捕獲線性或單調相關性。

GRaMM 綜合考慮上述挑戰和現存方法的特徵,並系統地評估 GRaMM 的效果:(1)在模擬數據集中,與其他三種方法(LR, Spearman 和 MIC)比較,評估基本性能(如:準確率,敏感性,特異性和假陽性率)。(2)在真實數據集中,用 GRaMM 數據重分析,比較結果。(3)用 4 個真實數據集,基於不同樣本來源(mice, rats 和 human)以及不同數據類型(腦組織,腸內容物,盲腸內容物和糞便),測試 GRaMM 的適用性和重複性。


研究思路

GraMM 流程圖:(1)預處理:代謝-- log 轉換和總強度歸一化;微生物-- 總強度歸一化,稀釋和居中對數比變化。(2)確定相關類型:線性:p<0.05 或 r > 用戶設定的值;非線性:不滿足上述條件。(3)混雜因子:線性(無)-- LR;線性(有)-- mLR(微生物數據和混淆因子做自變量,代謝數據是因變量);非線性(無)-- MIC;非線性(有)-- MCEE 移除特定混雜因子的影響,不需要額外實驗,不丟失樣本/變量。


研究結果


1.模擬數據比較四種方法

作者首先模擬兩個沒有混雜因子的模擬數據集(SDatabase1,SDatabase2),隨之進行數據預處理:微生物組數據用總強度歸一化。

  • SDatabase1:240 組線性對和 120 組非線性的微生物-代謝物對
  • SDatabase2:240 組隨機產生的無相關性的微生物-代謝物對

使用 SDatabase1 數據集的 240 對線性相關數據,比較 4 種方法的效果。結果發現:與 spearman LR 相比,GRaMM 的 r 值離散程度小(圖 1a);GRaMM,LR 和 Spearman 的 RMSE 值(root means square error,準確性評估指標) 低於 MIC (圖 1b)。表明:MIC 適用於非線性關係。

使用SDatabase2 數據集,發現:GRaMM 的 FPR (false positive ratio,假陽性率) 高於其餘三種方法(圖 1c)。因為 GRaMM 綜合利用 LR,MIC 以及其他方法,儘可能多的找相關的配對。p 值矯正減少假陽率。

使用 SDatabase1 和 SDatabase2 數據集,ROC 分析計算 4 種方法的 p 值。GRaMM 有最高的AUC值 (0.971),最低的 SE值(0.006)(圖 1d)。GRaMM 優於其他的線性分析方法(LR 和 Spearman)。

使用 SDatabase1 中的 120 對非線性的microbe–metabolite。發現:相較於 LR 和 Spearman,MIC 和 GRaMM 可以確定更多的相關對(圖 1e)。MIC 和 GRaMM 的 RMSE 值低於 LR 和 Spearman(圖 1f)。基於F1函數得到的非線性對,GRaMM 的結果和Spearman 和 LR 更接近,關係更接近線性(圖 1g);基於 F2-F6 函數得到的非線性數據對,GRaMM 的結果和 MIC 更接近,關係更接近非線性(圖 1h-1l)。

總之:GRaMM 在準確率,敏感性,特異性和識別線性以及非線性關係的能力方面優於其他方法。

圖 1. 基於模擬數據集,比較 4 種方法的性能


2.數據預處理的效果

代謝數據做 log 轉換;微生物組數據做總豐度歸一化 和 log-ratio (CLR) 轉換 。

基於 SDatabase1 和 SDatabase2 數據集,比較數據預處理的效果。發現:代謝數據(圖2a)和微生物組數據(圖 2b)處理後更接近正態分布。此外,還發現:數據預處理之後,GRaMM,LR 和Spearman 方法的 AUC 值增加;MIC方法沒有變化(圖 2c)。可能是由於 MIC 受數據分布和結構影響較小。

GRaMM 的數據預處理幾乎對所有的該方法都是有益的。

圖 2. 基於模擬數據集,有效的數據預處理


3.Real Dataset 的評估結果

使用的2個真實數據集:

  • RDatabase1:42 只小鼠的 17 個門水平的微生物和 14 個代謝物
  • RDatabase2:42 只小鼠的 18 種膽汁酸和42 個 Firmicutes 下的 genu/species

基於不同的距離方法(Unweighted Unifrac, weight Unifrac, Hellinger, JSD, Spearman,

使用 RDatabse1 ,評估 GRaMM 的性能和數據預處理的效果。發現:GRaMM 可以確定更多的相關對,數據預處理後,MIC 的相關對減少的較少(圖 3a)。GRaMM 聯合LR 和MIC 方法,捕獲線性和非線性關係。更多的線性關係確定,GRaMM 與 LR 和 Spearman 結果更相近。混雜因子調整之後,GRaMM 和 LR 的相關對數目較少(|r| > 0.5 或 |r| >0.3)(圖 3b)。這證明了 GRaMM 可以確定更多的關係對,數據預處理和混雜因子調整對結果重要。

使用 RDatabase2,Spearman 和 GRaMM 分析發現:基於 |r|>0.5 和 p<0.05 標準,確定 38 個相關對,14個為共有相關對(圖 3c);GRaMM 的 R 值高於 Spearman(圖 3d);10 個 Spearman 特有的關係對可能是由混雜因子導致的;14 個 GRaMM 特有的關係對可能是由非線性關係導致的(圖 3e);兩種方法得到的TDCA~ Staphylococcus spp. 關係對結果的不同可能是由於 3 個異常值,GRaMM 混雜因子矯正之後,數據更分散以及相關性不同導致的(圖 3f-g); 兩種方法得到的 GCA~ Bacillus cereus 關係對結果的不同可能是混雜因子導致的(圖 3h-i); 兩種方法得到的 alpha-MCA ~ Clostridium colinum 關係對結果的不同可能由於非線性關係導致(圖 3j-k)。

圖 3. RDataset1(a-b)和 RDataset2(c-k)的結果


4.GRaMM 的適用性

使用的4個真實數據集:

  • RDatabase2:42隻小鼠的 18 種膽汁酸和 Firmicutes 門下的 42 個genus/species
  • RDatabase3:12隻小鼠的 20 種膽汁酸和 Firmicutes 門下的 100 個genus/species
  • RDatabase4:10 只小鼠的 39 種膽汁酸和 Firmicutes 門下的 65 個 genus/species
  • RDatabase5:37 個人的 22 種膽汁酸和 Firmicutes 門下的 100 個 genus/species。

首先對代謝組數據做 log 轉換,微生物組數據做歸一化和 CLR 轉換。使用 4 個真實數據集,GRaMM 分析確定最相關的對(圖 4)。在所有數據集中,GRaMM 發現了3 個一致的 microbe–metabolite:Ruminococcus gnavus ~ ursodeoxycholic acid (UDCA),Ruminococcus gnavus ~ chenodeoxycholic acid (CDCA)和 SMB53.spp ~ glycodeoxycholic acid (GDCA)。其中,先前研究中已經發現前兩個相關對,第三個相關對是新發現的。先前研究中發現:SMB53.spp 在T2D 小鼠中高豐度;高脂飲食小鼠中豐度降低。GDCA 是結合次級膽汁酸,營養吸收和各種細胞信號通路的調控分子,促進多囊性人膽管細胞的增殖,減少法尼醇X受體(FXR)的表達。FXR 是配體激活的核受體,調節肝膽汁酸的合成,轉運和分泌。這些證據支持這一關聯,但是需要大量實驗來驗證這種關聯以及確定這個關聯的調節方向。

圖 4. 使用真實數據集,4 種方法確定顯著相關對的比率(p<0.05 和 FDR<0.05)


結論與討論


GRaMM 能比較集成地處理代謝組和微生物組關聯分析,能處理 數據預處理,相關模型選擇,矯正混雜因子,p 值矯正等,以確保得到可信的結果。但是,GRaMM 的結果仍需要進一步的數據和實驗驗證。


參考文獻

Liang, D. et al. Strategy for Intercorrelation Identification between Metabolome and Microbiome. Anal Chem 91, 14424-14432 (2019).



撰稿 | Yanni 責編 | NSC

本文系菌探Momics(ID:Momics)原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源菌探Momics。

相關焦點

  • 詳解:線性/非線性/線性化
    在測量技術中,線性概念一直與系統有關的的問題。然而,這又是什麼意思呢?一個系統可以把輸入的信號轉換成輸出信號。
  • ANSYS大變形典例:線性與非線性分析差別巨大,如何選擇?
    【要點:在幾何非線性影響較大時,應該進行非線性分析。大轉動問題同樣如此,其亦屬於大變形的範疇,但往往更容易忽視。】結構線性分析的假設主要是小變形假設和材料滿足虎克定律。幾何非線性通常分為大應變、大位移(或大轉動、大撓度等)和應力剛化,一般不加區分的成為「大變形」問題。二者根本區別是結構平衡方程在何位置建立?
  • 邏輯回歸:線性二分類和非線性激活
    背景介紹比如,當已知y的區間為[0, 1] 時,線性回歸就保證不了預測值屬於這個區間。Selva Prabhakaran blog邏輯回歸Logistic Regression:二分類線性分類器。NG cs229邏輯回歸屬於線性分類器?邏輯回歸是個二分類器(binary classification)。雖說邏輯函數是"S"形曲線,但其分類邊界還是一條直線,所以歸為線性分類器。
  • OpenAI 研究線性網絡的非線性行為,數值計算的玄機帶來全新的網絡...
    之前已經有證據表明,深度線性網絡如果用浮點數值運算實現的話,結果是不完全線性的,會展現出一些非線性的計算特點。在這項研究中,OpenAI的研究人員們使用了進化計算的策略,在線性網絡中找到帶來非線性特點的參數,希望能夠幫助一些疑難問題。神經網絡是由許多線性層和其後的非線性層堆疊起來形成的,常見的非線性函數有 tanh 或者 ReLU。如果沒有這些非線性的部分,連續的幾個線性層在數學理論上應當等效於單獨一個線性層。
  • 非線性電路的分析方法_非線性電路分析舉例
    下面介紹幾種分析非線性電路的分析方法。 1、圖解分析法 1.1、非線性元件的伏安特性圖解 在模擬電子電路中,用圖解的方法,說明非線性元件電晶體的伏安特性、輸入特性和輸出特性,比較直觀明了,有助於學生對非線性元件電晶體工作特性的理解。
  • 為了提高線性度,濾波器用吸收式還是反射式
    打開APP 為了提高線性度,濾波器用吸收式還是反射式 鄧佳佳 發表於 2018-03-06 11:32:50 為了提高線性度
  • Java數據結構的線性結構和非線性結構,這篇足夠了
    線性結構與非線性結構首先理解概念:1,線性結構是我們作為一個常見的數據結構,它有什麼特點呢?主要是數據元素之間存在一對一的線性關係。2,線性結構它有兩種不同的存儲結構,順序存儲和鏈式存儲結構,也是我們常說的數組和鍊表,如果按順序存儲的線性表我們稱為順序表,順序表的存儲元素是連續的。
  • 「CivilFEM案例」用Python進行線性和非線性結構分析
    案例分析了由杆件和彈簧組成的簡單結構,杆件一端固定,另一端與一線性彈簧連接,這端可以在垂直方向上移動,並受到30磅的集中荷載P,方向如下圖,加載隨時間變化而變化,最後達到30磅。02結構基本參數杆件截面:實心圓柱杆件彈性模量:1e7桿件泊松比:0.3線性彈簧彈性係數
  • 電工基礎:受控電源與非線性電阻(十六)
    這些係數為常數時,被控制量和控制量成正比,這種受控源稱為線性受控源,而我們所學習的都是線性受控電源,所以非線性受控源就不作講解。受控電源可應用於電晶體電路的分析,例如雙極電晶體的集電極電流受基極電流的控制,運算放大器的輸出電壓受輸入電壓的控制等。
  • Python機器學習之支持向量機——非線性SVC
    非線性SVC上一節中,我們要使用一個多項式內核的系統。正如其名字暗示的,我們可以定義一條多項式曲線把決策空間分為兩塊。多項式的次數可以用degree選項指定。即使是非線性SVC,C依然是正則化回歸係數。我們嘗試使用內核為三次多項式、回歸係數C取1的SVC算法。
  • 吳恩達深度學習筆記(19)-非線性激活函數的作用
    為什麼需要非線性激活函數?(why need a nonlinear activation function?)為什麼神經網絡需要非線性激活函數?事實證明:要讓你的神經網絡能夠計算出有趣的函數,你必須使用非線性激活函數,證明如下:這是神經網絡正向傳播的方程(看圖中公式)現在我們去掉函數g,然後令a^([1])=z^([1]),或者我們也可以令g(z)=z,這個有時被叫做線性激活函數(更學術點的名字是恆等激勵函數,因為它們就是把輸入值輸出)。
  • 如何使用支持向量機學習非線性數據集
    如果數據像上面那樣是線性可分離的,那麼我們用一個線性分類器就能將兩個類分開。如果我們的數據是非線性可分的,我們應該怎麼做呢?就像這樣:正如我們所看到的,即使來自不同類的數據點是可分離的,我們也不能簡單地畫一條直線來進行分類。那麼我們如何使用支持向量機來擬合非線性機器學習數據集呢?
  • 新的量子算法破解了非線性方程,計算機能否代替人類成為先知?
    正是由於具有這些功能,量子計算機得以使複雜的線性微分方程式被快速地推翻。長期以來,研究人員一直希望他們可以通過巧妙的量子算法來解決非線性問題。儘管這兩個研究所使用的具體方式差異很大,但都使用了將非線性偽裝成更易理解的線性近似集的一種新方法。所以,現在有兩種不同的使用量子計算機解決非線性問題的方法。
  • 新的量子算法破解了非線性方程,計算機能否代替人類成為「先知」?
    正是由於具有這些功能,量子計算機得以使複雜的線性微分方程式被快速地推翻。長期以來,研究人員一直希望他們可以通過巧妙的量子算法來解決非線性問題。儘管這兩個研究所使用的具體方式差異很大,但都使用了將非線性偽裝成更易理解的線性近似集的一種新方法。所以,現在有兩種不同的使用量子計算機解決非線性問題的方法。
  • 科技的魅力在於非線性的發展
    首先,最讓我感觸深刻的是科技的非線性發展。科技往往會在某一個時刻出現爆炸式的發展,發展的趨勢和速度直線上升,而當你站在爆炸之前的曲線時,你是無法欲知到接下來會發生的一切。所以許多人在科技爆炸發展之前,往往是稀疏平常的感受,只有回過頭看,才真正驚嘆時代的改變。比如說蘋果對於智慧型手機的帶動。
  • 小樂數學科普:新量子算法終於破解非線性方程——譯自量子雜誌
    由於具有這些功能,與傳統機器相比,它們可以指數方式快速地解決複雜的線性微分方程式。長期以來,研究人員一直希望他們可以通過巧妙的量子算法來解決非線性問題。新方法將非線性偽裝成作為更易處理的線性近似集,儘管它們的精確方法差異很大。結果,研究人員現在有兩種使用量子計算機解決非線性問題的獨立方法。
  • 深度神經網絡的樣本空間到特徵空間的非線性映射
    上篇把樣本空間到特徵空間的轉換解釋為一個矩陣,並認為非線性激活函數可以降低網絡的層級。非線性激活函數也有線性區域,tanh、sigmond在0附近接近一條直線,RELU在大於0的區域就是直線y=x,如果處於線性區域完全可以當常數來看。
  • 前饋超線性技術在星用固放中的應用
    摘要前饋技術是一種能有效改善固放線性度指標的方法。為滿足星用固放對線性度指標越來越高的要求,文中以某前饋超線性星用固放為例,介紹了前饋超線性技術在星用固放中的應用。
  • 非線性回歸,R語言最全教程
    線性回歸,大家已經很熟悉了,但是在現實中,很多時候是非線性的。今天我們就在這一起,探討一下如何在R語言中實現非線性回歸。  我們先來個線性模型  # 建立模型  model <- lm(medv ~ lstat, data = train.data)  # 模型預測
  • 8種用Python實現線性回歸的方法
    拋開涉及大量數統的模型分析和檢驗不說,你真的就能熟練應用線性回歸了麼?未必!「寶刀不老」的線性回歸時至今日,深度學習早已成為數據科學的新寵。即便往前推10年,SVM、boosting等算法也能在準確率上完爆線性回歸。為什麼我們還需要線性回歸呢?一方面,線性回歸所能夠模擬的關係其實遠不止線性關係。