宏基因組生信分析方法

2021-02-20 APExBIO

上節簡單跟大家講解了宏基因組的實驗過程(點擊關於宏基因組學的實驗操作進行複習),當我們拿到測序數據後,就該考慮如何進行下一步的分析了,今天我們就來看一下宏基因組數據生信分析的基本流程。

宏基因組的分析策略主要分為:

(1)基於拼接的分析;

(2)不基於拼接的分析。

又可以分為:

(1)物種注釋分析;(2)功能注釋分析;(3)差異物種分析;(4)差異基因分析。

可構建多物種基因組,但只有達到足夠覆蓋度的物種才能被較好地組裝。低豐度菌株信息容易被丟掉,因而reads利用率低

可提供多物種功能、結構信息,但局限於資料庫提供的已知信息,且在mapping時可能產生誤判

只要資料庫內容足夠、測序量足夠,可以有效地分析大多數複雜群落

基因組組裝需要經驗與技巧,還需要其它實驗驗證或輔助填gap

1. 測序數據質控,2. 過濾和去宿主,3. 數據組裝,4. 基因預測,5. 物種注釋,6. 功能注釋。

HUMAnN2 (The HMP Unified Metabolic Analysis Network 2) 是基於宏基因組、宏轉錄組數據分析微生物通路豐度的有效工具。這一過程稱為功能譜,目的是描述群體成員的代謝潛能。可以回答微生物群體成員可以幹什麼,或在幹什麼的問題

軟體特點

1. 可對已知和末知生物分析群體功能譜

2. 可獲得基因組、基因和通路層面的結果

UniRef資料庫提供基因家族的定義

MetaCyc提供基因通路的定義

MinPath提供定義的最小通路集

3. 簡單的使用界面(單行命令工作流)

4. 加速序列比對

採用Bowtie2加速核酸水平搜索

採用Diamond加速翻譯蛋白水平搜索

1conda install humann2
2~/conda/bin/humann2_databases --download chocophlan full /data/humann2
3~/conda/bin/humann2_databases --download uniref uniref90_diamond /data/humann2
4wget http://github.com/bbuchfink/diamond/releases/download/v0.9.21/diamond-linux64.tar.gz
5tar xzf diamond-linux64.tar.gz
6sudo ln -fs `pwd`/diamond /usr/local/bin/
7##運行humann2
8## $SAMPLE為宏基因組測序過濾後的數據,可以是fastq,fastq.gz格式。
9## $OUTPUT_DIR為輸出文件夾輸出文件包括:
10## $OUTPUT_DIR/$SAMPLENAME_genefamilies.tsv*
11## $OUTPUT_DIR/$SAMPLENAME_pathcoverage.tsv
12## $OUTPUT_DIR/$SAMPLENAME_pathabundance.tsv

https://huttenhower.sph.harvard.edu/humannhumann2 –input $SAMPLE –output $OUTPUT_DIR 宏基因組研究中,你想不想知道哪些序列來自哪些菌,想不想拼出末培養菌或末知菌的基因組呢?其實這些可以有,很多高水平文章中都有,這個過程就叫Binning(我習慣將其翻譯為分箱),是宏基因組分析提升檔次的關鍵步驟。即通過binning得到的bins (strain-level clusters / strain-level taxonomic units) 可以進行宏基因組關聯分析以及多組學聯合分析,將特定功能代謝產物與特定物種、特定基因進行關聯研究,推動其因果機制的探究,為疾病監控、環境監測提供了菌株水平的生物靶標。通過對binning得到的bins進行後續組裝,可以得到很多不能在實驗室裡培養的細菌、古菌或病毒的基因組草圖,然後根據單菌組裝結果進行菌株水平的基因和功能注釋、比較基因組分析、進化分析等,使我們得以洞察菌株的生態適應、營養互作和新陳代謝等,研究在生態環境和複雜疾病中作用的菌種以及致病菌和宿主的互作機制及其微進化機制。分箱一般在基因組組裝之後進行,有許多工具可進行分箱。跟大家介紹兩個易用且高引的軟體——MaxBin和MetaBAT。為了進行分箱,我們先要使用bwa比對原始序列到拼接結果,估計疊連群的相對豐度。對於分箱的結果,我們要使用VizBin進行檢查。

1curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
2tar xzvf MaxBin-2.2.2.tar.gz
3cd MaxBin-2.2.2/src
4make

1curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
2tar xvf metabatv0.32.4.tar.gz

Maxbin考慮每個contig的序列覆蓋度和四鹼基頻率,以記錄每個bin的標誌基因數量。

1run_MaxBin.pl -contig subset_assembly.fa -abund_list abundance.list -max_iteration 5 -out mbin

此步驟會產生一系列文件。會發現產生一系列*.fasta的按數字排列的文件,這些就是預測的基因組bins。MetaBAT分箱考慮三點:測序reads覆蓋度 (read coverage)、覆蓋度變異 (coverage variance)、和四鹼基頻率 (tetranucleotide frequencies)。

1metabat/metabat -i subset_assembly.fa -a depth_var.txt --verysensitive -o metabat -v > log.txt

## 可對binning進行可視化用CheckM軟體

1pip install checkm-genome
2wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_v1.0.7.tar.gz
3checkm test ~/checkm_test_results
4#Run
5checkm lineage_wf -t 8 -x .genome.fa input_File output_File

## 處理基因中的胺基酸文件時,使用擴展名為faa的文件

1checkm lineage_wf --genes -t 8 -x faa <bin folder> <output folder>

1. 數據質量評估

1fastqc fastq1.gz
2fastqc fastq2.gz
3##質控後可以查看結果,將數據轉到桌面檢查
4Sz fastqc1/fastqc_report.html
5Sz fastqc2/fastqc_report.html

2. 質控數據的處理

1java -jar /opt/biosoft/Trimmomatic-0.30/trimmomatic-0.30.jar PE -threads 20 -phred33 fastq1.gz fastq2.gz clean.fastq1.gz unpaired.fastq1.gz clean.fastq2.gz unpaired.fastq2.gz 
2ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.30/adapters/TruSeq3-PE.fa:2:30:10 \
3LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:50
4##再用FASTQC查看過濾後的結果,步驟同上
5##MultiQC
6#在工作目錄中的未修剪和修剪文件上運行Mulitqc:
7Multiqc ./

3. Metahit組裝宏基因組

MEGAHIT是一款非常快速,非常好的組裝程序,專為宏基因組而設計。

1##安裝
2git clone https://github.com/voutcn/megahit.git
3make
4##運行megahit
5~/megahit/megahit --12 clean.fastq1.gz, clean.fastq2.gz -o combined
6##運行QUAST
7~/quast/quast.py combined/final.contigs.fa -o combined-report

到這一步,我們就已經完成了宏基因組數據分析的基礎步驟,可以開始進行後續的數據分析,這個分析是多種多樣的,可以根據研究方向的需求進行調整。4. 宏基因組拼接以後,接下來常用的分析就是分箱 (binning),即將組裝的疊連群 (contigs) 進行分組或分箱,這些組內可能來自相近的分類學單元。5. 宏基因組基因預測 ——MetaGeneMark,Prokka## 下載:http://topaz.gatech.edu/GeneMark/license_download.cgi

1##基於單個樣本的基因預測
2gmhmmp -a -d -f G -m MetaGeneMark_v1.modsample1.cut500.scafSeq -A sample1_protein.fasta -D sample1_nucleotide.fasta
3##基於混合組裝的基因預測
4gmhmmp -a -d -f G -m MetaGeneMark_v1.modmix.cut500.scafSeq -A mix_protein.fasta -D mix_nucleotide.fasta

-m 用於基因預測的模型文件,MetaGeneMark提供的MetaGeneMark_v1.mod適用於宏基因組預測

1prokka assembly.fa --outdir prokka.annotation --prefix metagG –metagenome

該命令會產生prokka.annotation文件夾,其中包含一系列文件。可採用基於reads的Metaphlan2軟體進行物種注釋Anvi'o是一款非常強大且可擴展的工具箱,主要用於泛基因組分析,也同樣適用於宏基因組分析。

1conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2
2source activate anvio232

https://2017-cicese-metagenomics.readthedocs.io/en/latest/anvio.html好啦!今天關於宏基因組的分析部分就介紹完啦,歡迎大家諮詢我們的技術人員~

···

最後:

       對基因組學,轉錄組學,代謝組學等多組學感興趣的老師可加入「APExBIO組學及生信」學術群,以參與數據統計分析、16S/18S擴增子分析、宏基因組測序、轉錄組測序(RNA-seq)等學術討論和問題解答,入群請註明「姓名+單位+研究方向」。進群還可以實時領取系列講座操作指南和示例數據哦。

由於群人數限制,請加下方群主微信進群:

APExBIO組學及生信

關注APExBIO了解更多生命科學領域前沿熱點知識!

相關焦點

  • 宏基因組binning原理
    宏基因組binning也即將序列進行聚類、分裝,是根據基因組特徵以及組裝信息等將屬於不同基因組的序列分離開來的過程。
  • Nature Protocols:整合宏基因組、代謝組和表型分析的的計算框架
    摘要背景:我們最近發表了三管齊下的關聯分析,整合宏基因組測序的人類腸道微生物組數據、非靶向的血清代謝組數據和宿主的生理指標。代謝組和微生物組數據是高維的,對於數據的整合提出了挑戰。結果:我們提出了逐步的計算方法,詳細討論了降維技術的使用,以及解析異質類型數據整合的方法。降維的方法主要結合數據標準化和共豐度基因和代謝物的分箱,以及整理已知的生物學知識。
  • 一文讀懂宏基因組binning
    基於宏基因組binning,主要有兩方面的重要應用:即通過binning得到的bins(暫且簡稱為bins,更確切的說是strain-level clusters 或strain-level taxonomic units)可以進行宏基因組關聯分析以及多組學聯合分析,將特定功能代謝產物與特定物種、
  • Nature子刊:整合宏基因組、代謝組和表型分析的的計算框架
    摘要背景:我們最近發表了三管齊下的關聯分析,整合宏基因組測序的人類腸道微生物組數據、非靶向的血清代謝組數據和宿主的生理指標。代謝組和微生物組數據是高維的,對於數據的整合提出了挑戰。結果:我們提出了逐步的計算方法,詳細討論了降維技術的使用,以及解析異質類型數據整合的方法。降維的方法主要結合數據標準化和共豐度基因和代謝物的分箱,以及整理已知的生物學知識。
  • 專題報導丨宏基因二代測序技術對醫院傳染性疾病防控的價值
    SIFIC團隊特此專欄報導,昨天已為大家帶來兩篇精彩文章,今天繼續為大家帶來《宏基因二代測序技術對醫院傳染性疾病防控的價值》,看中山醫院感染團隊為我們解讀二代測序技術在醫院傳染性疾病中的應用,希望您能從中獲益。
  • 2019微生物組—宏基因組分析專題培訓開課啦!
    為滿足廣大讀者進一步學習的需求,現聯合《生信寶典》組織宏基因組學專題培訓課程,進一步學習和交流宏基因組學分析技術,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日產出。本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以學會並自己實現的分析)。
  • 宏基因組bining+宏轉錄組強強聯合
    採用宏基因組genome bining以及宏轉錄組的方法,發現並驗證新物種和新功能。通過功能宏基因組學的方法,研究者從酸性泥炭地中恢復了7株新的酸桿菌基因組草圖,這些酸桿菌都具有潛在的異化亞硫酸鹽(dsrAB, dsrC, dsrD, dsrN, dsrT, dsrMKJOP)或硫酸鹽呼吸(sat, aprBA, qmoABC和dsr)相關功能基因。令人驚訝的是,這些基因組也編碼了DsrL蛋白,迄今為止該基因只在硫氧化微生物中發現。
  • 中國學者比較了兩種方法
    然而,環境中抗生素抗性基因多樣複雜,導致對其全面、系統的定量和定性檢測分析難度極大。論文中提到,目前高通量定量PCR和宏基因組學方法是兩種最常用也是應用潛力最大的環境抗生素抗性基因定性、定量檢測手段。但是,在研究水環境抗生素抗性基因時採用不同檢測方法分析同一份環境樣本很可能會得出不同的結果。
  • 微生物組-宏基因組分析(線上/線下同時開課,2021.1)
    為滿足廣大讀者進一步學習的需求,現聯合《生信寶典》組織宏基因組學專題培訓課程,進一步學習和交流宏基因組學分析技術,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日產出。本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以學會並自己實現的分析)。
  • 最後一周 | 微生物組-宏基因組分析(線上/線下同時開課,2021.1)
    為滿足廣大讀者進一步學習的需求,現聯合《生信寶典》組織宏基因組學專題培訓課程,進一步學習和交流宏基因組學分析技術,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日產出。本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(只要課上講的都是可以學會並自己實現的分析)。
  • 一文讀懂宏基因組binning及應用
    本文應用TB級規模宏基因組學研究含水層沉積物與地下水,重構了2540個近乎完整和完整的草圖基因組,這些細菌代表了大多數已知的細菌門類以及47個新發現的門水平種系。跨越這一龐大的系統發育多樣性的代謝分析代表了在該生態系統中檢測到的36%的物種,簡單群落間代謝的傳遞與先前的研究結果保持一致,此外我們還發現群落中的少數生物可進行多重連續氧化還原轉換。
  • Nanopore宏基因組學臨床快速診斷細菌性下呼吸道感染
    Nanopore metagenomics enables rapid clinical diagnosis of bacterial lower respiratory infectionNanopore宏基因組學臨床快速診斷細菌性下呼吸道感染作者:Themoula Charalampous
  • 宏基因組 微生物組 微生態雜誌簡介及2019最新影響因子
    此刊發表有大量本領域的方法、軟體、測評的文章,上圖中的三期封面分別為:18年11月宏基因組建庫組裝方法、19年2月超高速細菌基因組檢索、和19年6月水稻根系微生物組,本平臺均進行了專題報導。此外,我們還報導多篇此雜誌文章如下:自然方法 Nature Methods
  • 分析混合微生物群落內細菌協同代謝關係,「代謝組+」聯合助力!
    Microbiome: 應用多維宏組學方法協同揭示複雜細菌群落對目標底物代謝的菌間相互關係香港大學張彤教授團隊與北京大學餘珂博士研究團隊,以生物降解菌群為研究模型,運用多維宏組學方法(宏基因組、宏轉錄組及目標性代謝組學聯合)解析混合微生物群落內細菌間協同代謝關係。
  • 宏基因組binning分析免費做
    、多組學……今天,我們通過1篇經典案例,具體看看「可視化」和「高級分析」這些策略在文章中的應用。策略:小提琴圖、組合圖的專業可視化 + SEM、binning的高級分析文章主要圍繞兩種藍藻聚集體開展深入的微生物多樣性分析。對於常規的分析點,大家可以查看原文。這裡我們主要分享文章的特色之處。
  • 16S擴增子分析專題研討論會——背景介紹
    我本科學習的是微生物學專業,之後又獲得了生物信息學博士學位,在短暫的兩年博士後科研工作後,留所任工程師,主要負責宏基因組學的數據分析。在過去的兩年工作裡,主要參與並發表的文章有10餘篇,累積影響因子150多分,其中包括一篇Science和兩篇Nature Biotechnology。
  • USEARCH — 最簡單易學的擴增子分析流程(中國總代理)
    圖1.這些新算法和軟體的推出,極大的提高了擴增子數據分析的速度和準確度。USEARCH不僅分析速度快,而且軟體可用性強,可有效降低入門學習成本並節約寶貴時間。進一步閱讀,歡迎點擊下方連結,閱讀宏基因組公眾號關於USEARCH的歷史文章。
  • 最後1天|宏基因組分析第8期(報名直播課免費參加線下2020.7)
    目前可以通報的信息:宏基因組線上直播時間:2020/07/24-2020/07/26擴增子線上直播時間:2020/08/14-2020/08/16報名連結:http://www.ehbio.com/Training/