最近, 國際頂級方法學期刊《Nature Methods》發表了由加利福尼亞大學聖地牙哥分校兒科、加州大學計算機科學與工程系 、加州大學合作質譜創新中心以及加利福尼亞大學聖地牙哥分校微生物群創新中心 多學科合作研究的最新成果:「Learning representations of microbe–metabolite interactions(可用於分析微生物與代謝產物之間相互作用的人工神經網絡)」,此項研究恢復微生物與代謝物之間關係的能力,並證明了該方法如何發現微生物產生的代謝產物與炎症性腸病之間的關係。
研究人員表示,整合多組學數據集對於微生物組研究至關重要。但是,推斷整個組學數據集之間的交互具有多種統計學上的挑戰。文章中通過使用神經網絡來解決了此問題,其能夠在存在特定微生物的情況下估算每個分子存在的條件概率。研究人員以已知的環境(沙漠土壤溼潤生物結殼)和臨床(囊性纖維化肺)實例為例,展示了這一方法恢復微生物與代謝物之間關係的能力,並證明了該方法如何發現微生物產生的代謝產物與炎症性腸病之間的關係。
雖然已經有廣泛的努力來開發整合多組學數據的方法,但一些概念上的挑戰限制了整合不同組學數據的技術,例如,將微生物測序和非靶向質譜聯繫起來。因此,需要新的方法來處理不同的數據類型。為此,研究人員提出了「mmvec」(微生物-代謝物載體),一種神經網絡,可以從單個微生物序列預測整個代謝物豐度曲線。通過迭代訓練,mmvec可以學習微生物和代謝物之間的共現概率。微生物-代謝物相互作用可以通過標準的降維界面進行排序和可視化,從而產生可解釋的結果。
使用模擬囊性纖維化生物膜的數據集,將mmvec與Pearson’s、Spearman’s、SPIEC-EASI、SparCC和proportionality方法進行基準比較。證明了mmvec優於所有旨在推斷成對微生物-代謝物豐度數據集之間相互作用的現有工具。
圖a.兩個微生物和多個分子之間的相互作用被模擬成單分子動力學和擴散過程,(發酵劑由θf表示,銅綠假單胞菌由θp表示)從推導的微分方程模擬的微生物和代謝物的絕對豐度,圖b. 為圖a.中絕對豐度的比例。這裡模擬了五種代謝物,即糖(SG)、抑制劑(I)、酸(F)、銨(P)和胺基酸(SA)
圖c. 在每種微生物的前100個代謝產物中,使用 F1 score、precision(精確率)和recall curves(召回率)比較了mmvec與Pearson’s、Spearman’s、SparCC、SPIEC-EASI(生態關聯的稀疏逆協方差估計與統計推斷)、比例度量(φ和ρ)。圖中表示mmvec和SPIEC-EASI的隨機表現(Random)優於其它所有工具,其中mmvec表現最好。
圖d.從絕對豐度和從所有基準測試方法獲得的相對豐度的係數比較。圖中顯示mmvec是唯一對比例偏差具有魯棒性的方法。這對於保持絕對豐度和相對豐度之間的一致性至關重要,否則可能導致虛報假陽性和假陰性。
2.沙漠土壤生物潤溼事件,測試mmvec是否可以解決微生物-代謝物相互作用中無法解釋的差異。結果是mmvec解決了陰道分枝桿菌釋放的體外驗證代謝物與環境樣品的測序和質譜分析之間的衝突發現。
圖a. 陰道分枝桿菌-代謝物相互作用的比較,根據Spearman『s和mmvec估計(n = 19個樣品)。由陰道分枝桿菌釋放的所有經實驗驗證的代謝物都被標記。所有與生物潤溼實驗結果和體外實驗結果相矛盾的代謝物都用紅色突出顯示。Spearman『s標記的13個標籤中有7個具有負相關性,表明這些分子被陰道分枝桿菌消耗而不是釋放。
圖b. 經實驗驗證的分子在不同統計方法中的檢測率的基準比較。mmvec具有相當高的真陽性率。
圖cd. 陰道分枝桿菌(c)和4-胍丁酸(d)在生物潤溼事件後的比例
MMVEC和Spearman's之間的衝突結果可以用生物潤溼後微生物生物量的增長(c)和可用資源(d)的轉移來解釋。
3. 囊性纖維化患者的肺粘液微生物組研究,進一步驗證mmvec是否可以檢測已知的微生物-代謝物相互作用。結果表明mmvec可以可靠地識別由銅綠假單胞菌產生的所有經實驗驗證的感興趣的分子。
圖a.依據mmvec在囊性纖維化數據集中估計的條件概率做的雙標圖。箭頭代表微生物,圓點代表代謝物。x軸和y軸表示由mmvec (n = 138個樣本)估計的微生物代謝產物的條件概率的奇異值分解(SVD)的主成分(PCs)。點之間的距離量化了代謝物之間的共現強度,較小的距離表明代謝物有很高的共現概率。箭頭尖端之間的距離可以量化微生物之間的共現強度。箭頭的方向性可以用來確定哪些微生物可以解釋代謝產物的共現模式。綠色箭頭表示推測的囊性纖維化病原體,黃色箭頭表示已知的厭氧菌。只有銅綠假單胞菌產生的已知分子被標記。mmvec清楚地分離了厭氧菌和病原體,左側是已知的厭氧微生物,右側是顯著的病原體。
圖b.從mmvec學習到的第一主成分與代謝物在氧梯度上的對數倍數變化之間存在負相關 ( Pearson『s r=−0.59,P=1.8×10−44,n=442個分子)。Pearson『s法未發現氧梯度與第一微生物主成分之間的這種相關性(r=0.11,P=0.16,n=138個分子)。
圖c. 第一主成分與樣本數量的關係,其中分類群是該樣本中最豐富的分類群。
圖d. 銅綠假單胞菌和鏈球菌最豐富的樣品的熱圖(log ratio t test = 6.51, P = 4.4 × 10−8, n = 49 個樣本)。這提供了證據表明,在本研究的背景下,代謝組學特徵在很大程度上受到最豐富的微生物的影響。
圖e. 與銅綠假單胞菌和鏈球菌共生的前100個代謝物分子的熱圖。圖中表示僅是預測銅綠假單胞菌代謝物譜就可以解釋這些樣品中10%的代謝物變異(r = 0.319, P = 1.18×10−11,n = 442個分子)。
4.膽汁酸研究。證明mmvec能夠在複雜的生物系統中進行探索性分析,並簡化特定代謝物的微生物來源的發現
圖a. 微生物共生模式的可視化,其中點之間的距離近似於微生物之間的Aitchison距離,它量化了微生物發生的情況。較小的距離表明微生物具有很高的共生概率。微生物根據它們與HFD(高脂肪飲食)的關聯被著色,這是通過多項式回歸用差異豐度分析估計的。mmvec的使用顯示了與HFD相關的不同微生物群。
圖b. 微生物-代謝物相互作用的雙圖,代謝物根據它們與HFD的關聯而著色。HFD關聯性通過多項式回歸的差異豐度分析進行估計。點之間的距離近似代謝物之間的Aitchison距離,箭頭間距近似微生物之間的Aitchison距離。表明mmvec根據飲食對質譜數據進行了清晰的分層。
5.炎症性腸病中微生物-代謝產物的相互作用。結果表示mmvec能夠確定IBD研究中對代謝物豐度最強的微生物貢獻,並發現了在最初的研究中被遺漏的一種微生物(Propionibacterium)
圖a.和圖b.分別為在三種菌屬Klebsiella,Roseburia和Clostridium bolteae存在的情況下,推斷各種膽汁酸(a)和肉鹼(b)的條件概率的熱圖
圖c.從宏基因組的概要文件和C18負離子模式LC-MS中學習到的微生物-代謝物相互作用的多組學雙圖。微生物(箭頭)和代謝物(球體)根據多項式回歸估計的差異著色。Klebsiella似乎與IBD密切相關,而Propionibacterium有強烈的負相關。
圖d. 前300條邊緣的網絡,只有包含Klebsiella和Propionibacterium的邊緣可見。
作者表示,鑑於這些發現,目前的方法仍有局限性。目前還不清楚如何使用共現概率來獲得相互作用的統計意義。同樣,還不能計算每個微生物-代謝物相互作用強度的置信區間,還需要理論工作來處理連續值的輸入。
Tips:文章末尾有關於mmvec算法的推導公式。