8 月 22 日的《熱心腸日報》,我們解讀了 9 篇文獻,分別關注:生物信息學,宏基因組學,菌株水平,絕對豐度,分析方法和工具,注釋,噬菌體。
Annual Review of Microbiology——[11]
① 鳥槍法宏基因組測序改變了我們檢測和表徵複雜微生物群落多樣性和功能的能力;② 本文介紹了宏基因組學的優點及使用當前可用分析工具所能得出的結論,例如種株解析度的物種和功能組成,同時強調了宏基因組學數據分析的挑戰;③ 鑑於與模式生物相比,環境細菌功能資料庫的缺乏以及異質環境樣品中宏基因組組裝和定量的技術難度,功能注釋仍面臨重大挑戰;④ 使用多種技術平臺的數據整合將使人們更好地了解如何利用宏基因組技術。
【主編評語】
本文介紹了使用宏基因組學的優勢,以及當前可用的分析工具得出的結論的範圍,例如跨門和功能組成在物種和菌株水平的高解析度,同時強調了宏基因組學數據分析的挑戰,且表明將來技術和方法的改進和創新將導致成本降低,並預期我們將不僅能夠表徵複雜的微生物群,而且能夠操縱群落以實現人類健康、農業和環境可持續性發展的結果。(@劉永鑫-中科院-宏基因組)
【原文信息】
What Is Metagenomics Teaching Us, and What Is Missed?
2020-06-30, doi: 10.1146/annurev-micro-012520-072314
Genome Medicine——[10.675]
① 本文綜述人類微生物組中菌株的作用差異、菌株分布的定量方法和潛在的菌株宏基因組研究方法等內容;② 人類微生物組中,菌株多樣性和分布與不同的身體部位、疾病和健康狀況、飲食結構及藥物使用等有關,不同菌株的功能存在巨大差異;③ 通過高通量測序的單核苷酸變異(SNV)等標記,或者結合培養、成像以及其他分子生物學方法能夠鑑定、定量和跟蹤不同的菌株;④ 菌株水平的鑑定及其功能信息有助於疾病標誌物鑑定和菌群治療方法創新。
【主編評語】
本文是宏基因組菌株研究系列軟體開發團隊、iHMP項目數據整合分析負責人Huttenhower課題組撰寫的綜述,回顧了菌株的操作定義(例如遺傳和結構變異),使用不同的高通量技術(通常為不依賴於培養的技術)從微生物群落中鑑定出菌株。作者總結了菌株在人體的分布和多樣性,以及它們與健康維護、疾病風險和進展的新聯繫,以及對飲食或藥物等擾動的生化反應。文中列出了利用高通量測序以及其他分子和「培養組學」技術鑑定,定量和追蹤菌株的方法,最後作者討論了人口群體水平中實驗研究缺乏的現狀,以及更好地了解菌株對人類微生物組健康影響方面的意義。(@劉永鑫-中科院-宏基因組)
【原文信息】
Strain-level epidemiology of microbial communities and the human microbiome
2020-08-13, doi: 10.1186/s13073-020-00765-y
Chinese Medical Journal——[1.585]
① 本綜述為醫學研究人員,特別是那些沒有生物信息學背景的研究者提供簡單易懂的微生物組學知識;② 介紹了基本概念,例如微生物群(microbiota)、微生物組(microbiome)和宏基因組(metagenome)等;③ 討論了研究設計方案、樣本量計算方法以及提高研究可靠性的方法;④ 討論了微生物組研究中常用的統計分析方法,重點關注多重比較的問題以及組間β多樣性分析的方法;⑤ 最後,文章介紹了生物信息學分析的具體流程。
【主編評語】
本文討論了用於微生物組研究的研究設計、樣本收集、統計方法和生物信息學分析方法。在「研究設計」部分,強調了研究設計的重要性,特別是設計方案、樣本量計算以及用於提高研究可靠性的多種措施。在「統計分析」部分,介紹了詳細的多重比較P值校正方法。選擇合適的統計方法對於準確解釋微生物組數據很重要。最後,「生物信息學分析」部分介紹了用於分析微生物組數據分析的方法。對於微生物組研究而言,嚴謹的研究設計在獲得有意義的結果方面具有舉足輕重的作用,而適當的統計方法對於準確解釋微生物組數據非常重要。循序漸進的分析流程為研究者掌握最新生物信息學分析方法提供了幫助。通過閱讀這篇文章,研究者能獲得研究設計、樣本採集和生物信息分析等全方位的微生物組學知識。(@劉永鑫-中科院-宏基因組)
【原文信息】
A guide to human microbiome research: study design, sample collection, and bioinformatics analysis
2020-06-26, doi: 10.1097/CM9.0000000000000871
Nature Communications——[12.121]
① 生態系統中單個分類單元的絕對豐度,能夠改變所有分類單元的相對豐度;② 基於文庫大小的標準方法忽視了抽樣率,會由交叉樣本變化引起偏差性;③ 與其他方法相比,偏差校正的微生物組成分析(ANCOM-BC)的歸一化方法可以消除樣本間抽樣率差異所帶來的偏差;④ ANCOM-BC不僅控制假陽性率在5%的水平,對所有模擬設置中保持足夠的準確性;⑤ ANCOM-BC考慮了菌群結構,在屬、門水平分析了腸道菌群,證明了ANCOM-BC的有效性。
【主編評語】
由於數據的組成型問題,微生物組數據的差異豐度(DA)分析仍然是一個具有挑戰性的問題。在本文,作者定義了「抽樣比例」的概念,並證明了進行微生物組數據的DA分析的主要障礙是樣本之間抽樣比例差異所帶來的偏差。本文引入了一種方法,該方法稱為偏差校正法分析微生物群落的組成(ANCOM-BC),該方法可以估計未知的抽樣比例,並校正由樣品之間的差異引起的偏差,絕對豐度數據使用線性回歸框架建模,該方法在該領域取得了根本性的進步。(@劉永鑫-中科院-宏基因組)
【原文信息】
Analysis of compositions of microbiomes with bias correction
2020-07-14, doi: 10.1038/s41467-020-17041-7
mSystems——[6.633]
① 16S擴增子測序可定量分析細菌類群的相對豐度,但樣品之間總細菌負荷的差異限制了其反映單個細菌物種絕對豐度的能力;② 對20名個體的1320份樣本通過16S擴增子測序獲得相對豐度和qPCR總細菌載量的乘積來推斷每個細菌的絕對豐度;③ 當一個物種的相對豐度大於10%時,基於兩種技術聯合推斷的絕對豐度是可以代替靶向qPCR的檢測結果;④ 靶向qPCR更適合檢測相對豐度低的細菌,並且對於表徵單個物種的生長和衰變動力學靶向qPCR是第一選擇。
【主編評語】
微生物組研究主要使用16S rRNA基因擴增子測序來評估細菌類群的相對豐度。但是16S rRNA基因擴增子測序不能準確反映物種的絕對豐度。本研究試圖確定通過細菌16S通用引物qPCR獲得總細菌載量和16S rRNA基因擴增子測序獲得的物種相對豐度的兩者乘積是否可以準確地代替特異性qPCR所檢測的單個物種的絕對豐度。總體而言,基於兩種技術聯合推斷的特定物種的絕對豐度在某種程度上是物種特異性qPCR檢測結果的合理替代,尤其是當細菌以較高的相對豐度存在時。這種方法提供了一個機會來評估細菌物種的絕對豐度,而無需為每個特定物種開發單獨的qPCR分析方法。(@劉永鑫-中科院-宏基因組)
【原文信息】
Complementing 16S rRNA Gene Amplicon Sequencing with Total Bacterial Load To Infer Absolute Species Concentrations in the Vaginal Microbiome
2020-04-07, doi: 10.1128/mSystems.00777-19
Nucleic Acids Research——[11.501]
① DRAM是一個可擴展的、代謝層面的微生物基因組功能注釋工具;② 該工具通過Prodigal預測基因,比對Pfam、Uniref90、CAZy、KEGG和VOGDB等資料庫並整合、提煉,按代謝通路和功能整理基因注釋結果;③ DRAM的注釋率高於其他工具(Prokka等),既能夠準確地定量微生物在生物地球化學循環中的作用,也能夠實現酶特異性的微生物功能分類;④ 其病毒模式DRAMv制定了相應的病毒輔助代謝基因(AMGs)判斷標準,對環境中存在的大量AMGs進行分類注釋。
【主編評語】
微生物(含病毒)群落改變了地球化學生態系統,但是由於缺乏可擴展的、分解代謝的注釋軟體,這些生物催化的特定反應難以解讀。本文介紹了DRAM(新陳代謝的精煉注釋),一個將海量的微生物基因組信息轉化為微生物性狀集的框架,本文表明,DRAM精確地分配了微生物對地球化學循環的貢獻,並在底物水平自動劃分腸道微生物碳水化合物代謝。作為DRAM的病毒模式,DRAM-v建立了識別病毒編碼的輔助代謝基因(AMGs)的規則,從而對來自土壤和腸道的數千個假定的輔助代謝基因進行了代謝分類。DRAM和DRAM-v一起提供了關鍵的代謝譜分析功能,這些功能可用於破解微生物組功能。(@劉永鑫-中科院-宏基因組)
【原文信息】
DRAM for distilling microbial metabolism to automate the curation of microbiome function
2020-08-07, doi: 10.1093/nar/gkaa621
Bioinformatics——[5.61]
① SOAPMetaS是一個高效的宏基因組大樣本分析軟體,可在30分鐘內分析80個樣本(416GiB)數據;② 基於Bowtie2和MetaPhlAn2算法,通過分布式計算技術提高分析效率;③ 主要功能包括數據(data)、比對(alignment)和定量(profiling)三個模塊,分別實現數據讀取分發、分組並行比對和宏基因組物種定量三個功能;④ 使用不同的宏基因組數據驗證,其準確率與MetaPhlAn2相當,而性能和擴展性均超過其他軟體。
【主編評語】
在宏基因組研究中,數據量的快速增長對有效處理大型數據集的新工具提出了更高的要求。為了在大數據情況下加速宏基因組分析過程,作者開發了SOAPMetaS,這是一種基於標記基因的多樣本宏基因組分析工具,該工具建立在Apache Spark之上。SOAPMetaS展示了處理大型數據集的高性能和可擴展性。SOAPMetaS可以加速大量多樣本宏基因組數據的分析過程,並生成準確的分析結果並可以幫助研究人員有效地獲取各種微生物組群落的物種分類和基因組成信息。除了對宏基因組分析外,用戶還可以將「比對」模塊用作快速的獨立分布式比對工具。(@劉永鑫-中科院-宏基因組)
【原文信息】
SOAPMetaS: profiling large metagenome datasets efficiently on distributed clusters
2020-08-07, doi: 10.1093/bioinformatics/btaa697
Genome Biology——[10.806]
① Kraken基於k-mer的方法對宏基因組數據進行快速的分類,但其高內存需求會限制某些應用;② Kraken 2引入壓縮的哈希表和內部分類ID號,對Kraken的數據結構和算法進行優化,與Kraken相比減少85%的內存使用量、保持高準確性且速度提高五倍;③ Kraken 2還引入了類似於Bowtie 2 最新版本中的翻譯搜索模式,從而提高了病毒宏基因組學分析的敏感性;④ Kraken 2是開源軟體且安裝使用方便,提供Conda安裝方式,單樣本分析僅需幾分鐘。
【主編評語】
Kraken 2是對Kraken的優化升級後的全新版本,帶來了對宏基因組數據進行快速分類注釋的質的飛躍,相較於Kraken,Kraken 2擁有更先進的資料庫索引方式,可以大大減少計算機內存的使用,並提高分類速度,並保持較高準確率。支持源代友、conda、docker等多種方式方便安裝,分析也只需一行命令即可完成,結果格式有多種可選格式可與常見的下遊分析工具STAMP、LEfSe等聯用,是宏基因組物種分類的首選工具,也是Cell雜誌評估20種物種分類工具中綜合表現最好的工具(查看文章)。(@劉永鑫-中科院-宏基因組)
【原文信息】
Improved metagenomic analysis with Kraken 2
2019-11-28, doi: 10.1186/s13059-019-1891-0
Nucleic Acids Research——[11.501]
① 溶源噬菌體是將自身的基因整合到宿主細菌基因組中,並作為宿主細菌基因組的一部分進行複製,可對宿主的基因組和表型產生巨大影響;② 本研究基於噬菌體蛋白長度、轉錄鏈方向性、AT/CG的偏斜性(skew)、噬菌體特異字長(words)的豐度、噬菌體插入位點和噬菌體蛋白相似性等7個特徵,開發了一種加權噬菌體檢測算法PhiSpy;③ PhiSpy還使用基於相似性的方法,從而能夠完全識別基因組中的噬菌體。
【主編評語】
在微生物基因組中發現溶源噬菌體仍然是一個沒有明確解決辦法的問題。之前的大多數工具依賴於檢測含有已知噬菌體同源物的蛋白質編碼基因的基因組區域,這阻礙了噬菌體區域的從頭發現。在本文中,作者結合了兩種方法(基於相似性和基於成分的分析),提出了一種自動化應用程式-PhiSpy,該應用程式可以識別與已知噬菌體基因具有或不具有同源性的噬菌體。PhiSpy是一個在細菌(或者古菌)基因組中識別溶源噬菌體的工具。輸入一個經過注釋的基因組,它會識別出其中最可能是噬菌體的區域。PhiSpy的原理是識別出溶源噬菌體的幾個顯著特徵,包括:蛋白質長度,轉錄鏈的方向,AT、CG的偏斜性,噬菌體特異字長的豐度,噬菌體的插入位點和噬菌體蛋白的相似性。在測試數據集中,其可以準確預測94%的溶源噬菌體,假陰性率為6%,假陽性率為0.66%。(@劉永鑫-中科院-宏基因組)
【原文信息】
PhiSpy: a novel algorithm for finding prophages in bacterial genomes that combines similarity- and composition-based strategies
2012-05-14, doi: 10.1093/nar/gks406
感謝本期日報的創作者:白藍木,少博,劉永鑫-中科院-宏基因組,陳國忠,orchid
點擊閱讀過去10天的日報: