Nature Protocols:整合宏基因組、代謝組和表型分析的的計算框架

2021-02-16 宏基因組

整合高通量組學數據集鑑定潛在機制聯繫的計算框架

A computational framework to integrate high-throughput 『-omics』 datasets for the identification of potential mechanistic links

Nature Protocols, [12.423], Article, 2018-10-31

原文連結: http://dx.doi.org/10.1038/s41596-018-0064-z

第一作者:Helle Krogh Pedersen

通訊作者:Oluf Pedersen, Henrik Bjørn Nielsen

主要單位:加州大學洛杉機分校,醫學院

其它作者:Sofia K Forslund,  Valborg Guðmundsdóttir,  Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic

導讀

微生物組和代謝組等高維數據和表型關聯分析複雜、解讀困難;

分析的核心思想是降維:代謝組和微生物組物種通過數據驅動的聚類或分箱法降維;微生物組功能組成基於知識驅動如KEGG層級分類法降維;再篩選與表型顯著相關的數據特徵關聯分析;

研究人員可以整理多組學和表型數據,獲得出版級關聯分析結果圖表,快速建立宿主和微生物組與疾病嚴重程度和治療結果間的潛在聯繫;

本計算框架由R腳本編寫,可在個人電腦上1小時完成分析。

摘要

背景:我們最近發表了三管齊下的關聯分析,整合宏基因組測序的人類腸道微生物組數據、非靶向的血清代謝組數據和宿主的生理指標。代謝組和微生物組數據是高維的,對於數據的整合提出了挑戰。

結果:我們提出了逐步的計算方法,詳細討論了降維技術的使用,以及解析異質類型數據整合的方法。降維的方法主要結合數據標準化和共豐度基因和代謝物的分箱,以及整理已知的生物學知識。使用先驗知識克服微生物組物種功能冗餘是我們方法的核心。使用此框架,其它研究人員可以整理多組學和表型數據(如隊列中建立宿主和微生物組與疾病嚴重程度和治療結果間的聯繫),建立三管齊下的聯繫,用於實驗設置。

結論:此框架最初是用於人類代謝組和微生物組研究,同樣適用於其它物種和環境樣本,同樣適合整合其它組學如宏轉錄組、宏蛋白組。提供的R腳本在個人電腦上運行1小時左右。

關鍵點知識點1. 原始數據的序列處理和和輸出文件

在整合分析前,數據必須進行處理。對於微生物組數據,包括:(i) 序列預處理,包括質控、過濾宿主序列;(ii) 構建參考基因集,或選擇己發表的基因集作為參考;(iii) 比對參考序列定量;(iv) 樣本標準化,以便於下遊可比;(v) 對基因分箱為物種組,降低維度。

對於代謝組數據,典型的處理流程包括:(i) 原始文件導入; (ii) 峰檢測;(iii) 過濾和平滑;(iv) 峰列表去同位素;(v) 比對;(vi) 填補空白;(vii) 峰整合;(viii) 標準化;(ix) 最終峰或特徵的鑑定

儘管這些步驟不在本方法的範疇內,我們引用我們之前的文章,或補充方法來進一步描述微生物組和代謝組數據的預處理,以便產生本方法的輸入文件。

可用的示例數據保存於Git倉庫 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括預處理微生物組、代謝組數據,以及397個體的表型信息,以及一系列功能微生物注釋,宏基因組物種組和相應的微生物注釋,以及手動注釋的代謝物簇,詳細描述在材料部分。

這些文件經歷了上面數不盡的預處理過程。對於新數據,必須按具體的實驗方法、實驗過程和分析平臺來進行詳細的預處理。

圖1. 整理人類表型、血清代謝組和腸道微生物組數據方法的流程圖

在微生物組和代謝組預處理後,代謝物聚類為共豐度簇(5-7),微生物組數據整理為物種組成和KEGG模塊豐度矩陣。下一步,表型過濾階段,只保留與表型統計顯著的features(8-12),這些features將用於跨領域的相關或關聯分析(13-15)。最終,使用leave-one-MGS-out分析鑑定KEGG模塊和對應驅動物種與HOMA-IR關聯(17-19)。FDR代表錯誤發現率,IR代表胰島素抗性,IS代表胰島素敏感,Mod模塊,neg負相關,pos正相關。本圖修改自Pdersen等出版書籍中圖片,己獲授權。

表1. 基於數據和知識的降維方法

微生物組數據驅動的方法主要有Binning,而知識驅動的方法主要是各功能注釋資料庫的層級分類。

知識點2. 驅動物種分析背後的原理

圖2. leave-one-MGS-out方法鑑定驅動物種的原理

為了簡化說明原理,我們以一個KEGG模塊為例,它包括三個KOs(KO1,KO2,KO3),並且只有一個KEGG模塊與HOMA-IR表型用於關聯分析

a. 計算Spearman相關係數(SCC)這三個KO與HOMA-IR相關,b. 這三個KO相關的中位數使用代表KEGG信號。

c, 重複a,b方法於所有基因,組成假定的MGS,移除MGSi

d, 計算移除前後的的信號變化。最後c,d步來計算每個MGS。可以鑑定物種驅動的KEGG模塊。

圖3. 微生物組功能與表型和代謝物簇的關聯

流程15步產生的樣本圖。表型組、腸道菌群和代謝組的關聯圖譜。

左側面板為KEGG模塊相關的表型,顏色為關聯的方向,紅為負相關,藍為正相關,灰為不顯著。右則為KEGG與代謝模塊間相關,顏色代表Spearman相關係數,並標註FDR顯著性統計。

結果的解釋,我們看到KEGG模塊和代謝簇分為兩組:代謝偏好和不偏好兩類由胰島素抗性決定,發現廣泛的、正或負相關的、跨組學的關聯;跨領域的關聯分析,經常可以看到規律。但前提是,在一方向特徵在相同的維度上參與,如健康或疾病在相關穩定時,可以預測一些相關的行為。

圖4. 以BCAA生物合成模塊為例顯示評估相關細節

leave-one-MGS-out第19步產生的結果樣本圖展示整合的BCAA生物合成模塊(包括M00019, M00570, M00535和M00432共13個KOs)。

a. 模塊中KOs的SCC分布和背景(藍)比較;

b. 關鍵模塊在總體中去除,去關聯中位數的影響;

c. 基於背景校正的相關係數原理。

表2. 常見問題和解決方案

猜你喜歡

10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公眾號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧秘  

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了「宏基因組」專業討論群,目前己有國內外2400+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職稱/年級」。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」

點擊閱讀原文,跳轉最新文章目錄閱讀

相關焦點

  • Nature子刊:整合宏基因組、代謝組和表型分析的的計算框架
    、解讀困難;分析的核心思想是降維:代謝組和微生物組物種通過數據驅動的聚類或分箱法降維;微生物組功能組成基於知識驅動如KEGG層級分類法降維;再篩選與表型顯著相關的數據特徵關聯分析;研究人員可以整理多組學和表型數據,獲得出版級關聯分析結果圖表,快速建立宿主和微生物組與疾病嚴重程度和治療結果間的潛在聯繫;本計算框架由R腳本編寫,可在個人電腦上1小時完成分析。
  • 表型組學新刊Phenomics開始接受投稿啦!
    感興趣的領域包括但不限於:高通量表型分析研究及技術創新基因和表型關聯研究:模型、算法、數據等基因和環境互作對表型影響的深度解析表型在疾病風險、臨床治療、精準防控中的研究及應用表型相關多組學研究及數據整合融合分析新技術模式動物研究、跨學科多尺度研究等其它表型相關研究● 無需繳納版面費
  • 一文讀懂宏基因組binning
    基於宏基因組binning,主要有兩方面的重要應用:即通過binning得到的bins(暫且簡稱為bins,更確切的說是strain-level clusters 或strain-level taxonomic units)可以進行宏基因組關聯分析以及多組學聯合分析,將特定功能代謝產物與特定物種、
  • 宏基因組binning原理
    宏基因組binning也即將序列進行聚類、分裝,是根據基因組特徵以及組裝信息等將屬於不同基因組的序列分離開來的過程。
  • 宏基因組&代謝組學:兩大組學共同揭示結腸直腸癌中腸道菌群的階段...
    採用宏基因組和代謝組聯合分析,檢測結腸直腸癌不同階段的糞便樣本,揭示結腸直腸癌中腸道菌群的階段特異性表型,為 CRC 發展階段的診斷提供方法。研究結果1.糞便樣本中宏基因組和代謝組學特徵為研究 CRC 中宏基因組和代謝組的特徵,根據結腸鏡和組織學檢查結果分為9組,圖1分別對616例宏基因組數據和406例代謝數據進行分析,結果發現富含芽孢桿菌屬的受試者具有低豐度的普氏菌,與健康對照組相比 Megamonas 菌屬(巨單胞菌屬)在118例患者中為高豐度,在 CRC 發展的各個階段顯著升高。
  • 轉錄組和代謝組解析風信子變色分子機制
    花青素是植物科學中研究最多和最了解的化合物之一,然而,在不同植物中調控花青素分解代謝的分子機制還遠遠沒有定論。 通過轉錄組和代謝組技術,不僅可以對轉錄水平進行研究,還可以對代謝產物進行比較分析,從而深入解析決定表型的分子調控機制。
  • 一文讀懂宏基因組binning及應用
    本文應用TB級規模宏基因組學研究含水層沉積物與地下水,重構了2540個近乎完整和完整的草圖基因組,這些細菌代表了大多數已知的細菌門類以及47個新發現的門水平種系。跨越這一龐大的系統發育多樣性的代謝分析代表了在該生態系統中檢測到的36%的物種,簡單群落間代謝的傳遞與先前的研究結果保持一致,此外我們還發現群落中的少數生物可進行多重連續氧化還原轉換。
  • 分析混合微生物群落內細菌協同代謝關係,「代謝組+」聯合助力!
    為了構建準確預測菌間相互關係的宏組學的分析流程,本研究以降解菌群—雙酚A(BPA)微生物降解為研究模型,利用1). 宏基因組學(metagenomics)恢復菌群中主要微生物的功能潛能以預測其參與的生理過程;2). 宏轉錄組學(metatranscriptomics)分析特定時期主要細菌的表達譜並推測其在不同階段激活的代謝通路;3).
  • 代謝組學在醫學領域機制研究的實驗設計方案
    我們知道隨著代謝組學的不斷發展,對代謝物定性定量準確性不斷提高,代謝組學在醫藥學領域的應用越來越廣泛。小鹿特地總結了代謝組學在醫藥領域的主要應用方向(機制研究、標誌物篩選和藥效評價)及其對應的實驗設計思路(見下圖)。
  • Briefings in Bioinformatics:微生物基因組學和功能基因組學相關軟體和資料庫的研究進展
    user=_jqaatIAAAAJBriefings in BioinformaticsPublished: 21 February 2018這是一篇編輯部評論文章。對用於微生物基因組學研究的新工具、資料庫和新方法做了簡單地介紹。文章的13篇引文全是本雜誌前一年的文章,相當於對之前工作的匯總。
  • 宏基因組bining+宏轉錄組強強聯合
    採用宏基因組genome bining以及宏轉錄組的方法,發現並驗證新物種和新功能。然而,這些微生物的種屬和生理特性在很大程度上是未知的。通過功能宏基因組學的方法,研究者從酸性泥炭地中恢復了7株新的酸桿菌基因組草圖,這些酸桿菌都具有潛在的異化亞硫酸鹽(dsrAB, dsrC, dsrD, dsrN, dsrT, dsrMKJOP)或硫酸鹽呼吸(sat, aprBA, qmoABC和dsr)相關功能基因。
  • Nature綜述:Rob Knight帶你分析微生物組數據(2020版)
    比如對近期快速發展的精確序列變異(exact sequence variants/ESV,詳者註:目前更多使用ASV的名稱)的方法替代傳統基於聚類的OTU分析,整合宏基因組學和代謝組學的方法,組成型數據分析問題等方面的近期突破性的進展開展探討。值得注意的是,儘管這些方法很新穎,但在研究中還是應當關注實驗設計和與研究可重複性相關的經典問題。
  • 革新範式,人類表型組學策動生命科學原始創新
    促進人類健康、解析健康原因始終是驅動生命科學原始創新的核心需求和問題之一。表型是生命體的生物特徵。表型組,是指生物體從微觀組成到宏觀、從胚胎發育到衰老死亡全過程中所有表型的集合。表型組學是繼基因組之後生命科學的又一個戰略制高點和原始創新源。
  • Nature Protocols | SCENIC:改良版單細胞基因調控網絡分析工作流程
    而單細胞RNA測序(scRNA-seq)的出現為轉錄組學領域提供了前所未有的解決方案。目前,已經開發出來許多軟體工具用於scRNA-seq數據分析,例如:Seurat和Scanpy。這些軟體包包括對scRNA-seq數據的質量控制、預處理、可視化、基於表達的方法細胞簇的分析,和一套相關的分析,目前作為金標準的例子scRNA-seq分析。
  • Hortic Res | 轉錄組+代謝組助力西瓜果實糖、有機酸基因調控網絡研究
    組學方法和定量生物學的進展提供了幾種方法來識別生命系統中的基因網絡及其調控機制,其中一種利用mRNA-Seq數據識別共表達基因網絡的有前途的方法是加權基因共表達網絡分析(WGCNA)。WGCNA用於鑑定共表達基因的模塊/網絡,將這些模塊與表型性狀聯繫起來,並檢測網絡中的關鍵基因。
  • Nature Protocols:空氣微生物宏基因組測序新技術
    目前DNA測序和宏基因組學方法雖已被廣泛用於其它環境微生物研究,但將其應用於空氣微生物的研究一直存在樣品DNA含量少,傳統方法難以獲得足夠DNA進行測序等技術困難。朱聽課題組建立了一套從空氣顆粒物樣品中提取、純化DNA、測序及宏基因組學分析的技術。這套新技術的建立使得對空氣微生物的全面宏基因組研究成為可能,也為其它環境微生物研究提供了一種通用方法。
  • 服務700+科研所和三甲醫院,帕諾米克如何布局代謝組學技術?
    覆蓋30餘種細分服務,提供全面、個性化的代謝組學科研解決方案基於自身完整的樣品預處理平臺、多臺高解析度質譜平臺以及自主智慧財產權的雲端數據分析系統,帕諾米克面向國內外超700個科研院所、三甲醫院和藥企提供全面、專業的代謝組學科研檢測分析服務。
  • 代謝研究及組學中的分析技術
    這使得代謝組在許多領域都非常吃香,如環境毒理學、進化和發育、疾病診斷與治療反饋、以及藥物、殺蟲劑和除草劑的研發等。代謝組流動檢測幫助合成生物學家揭示遺傳改變如何影響通路和產物。David Wishart當前用於代謝組學研究的技術主要是核磁共振譜(NMR)以及質譜(MS)。
  • 16S rDNA測序+代謝組學,讓科研結果更「近」一步
    測序分析和代謝組學聯合研究的必要性生物體內的基因系統調控是一個整體,單一組學看到的只是冰山一角,並不能完整的解釋生物學問題,而且通常文章的影響因子也比較低。所以利用多組學技術將各組學的數據進行整合分析並深入挖掘生物學數據,可以對生物樣本進行系統全面的研究。
  • 宏基因組生信分析方法
    HUMAnN2 (The HMP Unified Metabolic Analysis Network 2) 是基於宏基因組、宏轉錄組數據分析微生物通路豐度的有效工具。這一過程稱為功能譜,目的是描述群體成員的代謝潛能。可以回答微生物群體成員可以幹什麼,或在幹什麼的問題。