A computational framework to integrate high-throughput 『-omics』 datasets for the identification of potential mechanistic links
Nature Protocols, [12.423], Article, 2018-10-31
原文連結: http://dx.doi.org/10.1038/s41596-018-0064-z
第一作者:Helle Krogh Pedersen
通訊作者:Oluf Pedersen, Henrik Bjørn Nielsen
主要單位:加州大學洛杉機分校,醫學院
其它作者:Sofia K Forslund, Valborg Guðmundsdóttir, Anders Østergaard Petersen, Falk Hildebrand, Tuulia Hyötyläinen, Trine Nielsen, Torben Hansen, Peer Bork, S Dusko Ehrlich, Søren Brunak, Matej Oresic
導讀微生物組和代謝組等高維數據和表型關聯分析複雜、解讀困難;
分析的核心思想是降維:代謝組和微生物組物種通過數據驅動的聚類或分箱法降維;微生物組功能組成基於知識驅動如KEGG層級分類法降維;再篩選與表型顯著相關的數據特徵關聯分析;
研究人員可以整理多組學和表型數據,獲得出版級關聯分析結果圖表,快速建立宿主和微生物組與疾病嚴重程度和治療結果間的潛在聯繫;
本計算框架由R腳本編寫,可在個人電腦上1小時完成分析。
摘要背景:我們最近發表了三管齊下的關聯分析,整合宏基因組測序的人類腸道微生物組數據、非靶向的血清代謝組數據和宿主的生理指標。代謝組和微生物組數據是高維的,對於數據的整合提出了挑戰。
結果:我們提出了逐步的計算方法,詳細討論了降維技術的使用,以及解析異質類型數據整合的方法。降維的方法主要結合數據標準化和共豐度基因和代謝物的分箱,以及整理已知的生物學知識。使用先驗知識克服微生物組物種功能冗餘是我們方法的核心。使用此框架,其它研究人員可以整理多組學和表型數據(如隊列中建立宿主和微生物組與疾病嚴重程度和治療結果間的聯繫),建立三管齊下的聯繫,用於實驗設置。
結論:此框架最初是用於人類代謝組和微生物組研究,同樣適用於其它物種和環境樣本,同樣適合整合其它組學如宏轉錄組、宏蛋白組。提供的R腳本在個人電腦上運行1小時左右。
關鍵點知識點1. 原始數據的序列處理和和輸出文件在整合分析前,數據必須進行處理。對於微生物組數據,包括:(i) 序列預處理,包括質控、過濾宿主序列;(ii) 構建參考基因集,或選擇己發表的基因集作為參考;(iii) 比對參考序列定量;(iv) 樣本標準化,以便於下遊可比;(v) 對基因分箱為物種組,降低維度。
對於代謝組數據,典型的處理流程包括:(i) 原始文件導入; (ii) 峰檢測;(iii) 過濾和平滑;(iv) 峰列表去同位素;(v) 比對;(vi) 填補空白;(vii) 峰整合;(viii) 標準化;(ix) 最終峰或特徵的鑑定
儘管這些步驟不在本方法的範疇內,我們引用我們之前的文章,或補充方法來進一步描述微生物組和代謝組數據的預處理,以便產生本方法的輸入文件。
可用的示例數據保存於Git倉庫 https://bitbucket.org/hellekp/clinical-micro-meta-integration 。它包括預處理微生物組、代謝組數據,以及397個體的表型信息,以及一系列功能微生物注釋,宏基因組物種組和相應的微生物注釋,以及手動注釋的代謝物簇,詳細描述在材料部分。
這些文件經歷了上面數不盡的預處理過程。對於新數據,必須按具體的實驗方法、實驗過程和分析平臺來進行詳細的預處理。
圖1. 整理人類表型、血清代謝組和腸道微生物組數據方法的流程圖在微生物組和代謝組預處理後,代謝物聚類為共豐度簇(5-7),微生物組數據整理為物種組成和KEGG模塊豐度矩陣。下一步,表型過濾階段,只保留與表型統計顯著的features(8-12),這些features將用於跨領域的相關或關聯分析(13-15)。最終,使用leave-one-MGS-out分析鑑定KEGG模塊和對應驅動物種與HOMA-IR關聯(17-19)。FDR代表錯誤發現率,IR代表胰島素抗性,IS代表胰島素敏感,Mod模塊,neg負相關,pos正相關。本圖修改自Pdersen等出版書籍中圖片,己獲授權。
表1. 基於數據和知識的降維方法微生物組數據驅動的方法主要有Binning,而知識驅動的方法主要是各功能注釋資料庫的層級分類。
知識點2. 驅動物種分析背後的原理圖2. leave-one-MGS-out方法鑑定驅動物種的原理為了簡化說明原理,我們以一個KEGG模塊為例,它包括三個KOs(KO1,KO2,KO3),並且只有一個KEGG模塊與HOMA-IR表型用於關聯分析
a. 計算Spearman相關係數(SCC)這三個KO與HOMA-IR相關,b. 這三個KO相關的中位數使用代表KEGG信號。
c, 重複a,b方法於所有基因,組成假定的MGS,移除MGSi
d, 計算移除前後的的信號變化。最後c,d步來計算每個MGS。可以鑑定物種驅動的KEGG模塊。
圖3. 微生物組功能與表型和代謝物簇的關聯流程15步產生的樣本圖。表型組、腸道菌群和代謝組的關聯圖譜。
左側面板為KEGG模塊相關的表型,顏色為關聯的方向,紅為負相關,藍為正相關,灰為不顯著。右則為KEGG與代謝模塊間相關,顏色代表Spearman相關係數,並標註FDR顯著性統計。
結果的解釋,我們看到KEGG模塊和代謝簇分為兩組:代謝偏好和不偏好兩類由胰島素抗性決定,發現廣泛的、正或負相關的、跨組學的關聯;跨領域的關聯分析,經常可以看到規律。但前提是,在一方向特徵在相同的維度上參與,如健康或疾病在相關穩定時,可以預測一些相關的行為。
圖4. 以BCAA生物合成模塊為例顯示評估相關細節leave-one-MGS-out第19步產生的結果樣本圖展示整合的BCAA生物合成模塊(包括M00019, M00570, M00535和M00432共13個KOs)。
a. 模塊中KOs的SCC分布和背景(藍)比較;
b. 關鍵模塊在總體中去除,去關聯中位數的影響;
c. 基於背景校正的相關係數原理。
表2. 常見問題和解決方案猜你喜歡10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統計繪圖
16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
在線工具:16S預測培養基 生信繪圖
科研經驗:雲筆記 雲協作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧秘
寫在後面為鼓勵讀者交流、快速解決科研困難,我們建立了「宏基因組」專業討論群,目前己有國內外2400+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職稱/年級」。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論,問題不私聊,幫助同行。
學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」
點擊閱讀原文,跳轉最新文章目錄閱讀