上節簡單跟大家講解了宏基因組的實驗過程(點擊關於宏基因組學的實驗操作進行複習),當我們拿到測序數據後,就該考慮如何進行下一步的分析了,今天我們就來看一下宏基因組數據生信分析的基本流程。
宏基因組的分析策略主要分為:
(1)基於拼接的分析;
(2)不基於拼接的分析。
又可以分為:
(1)物種注釋分析;(2)功能注釋分析;(3)差異物種分析;(4)差異基因分析。
可構建多物種基因組,但只有達到足夠覆蓋度的物種才能被較好地組裝。低豐度菌株信息容易被丟掉,因而reads利用率低
可提供多物種功能、結構信息,但局限於資料庫提供的已知信息,且在mapping時可能產生誤判
只要資料庫內容足夠、測序量足夠,可以有效地分析大多數複雜群落
基因組組裝需要經驗與技巧,還需要其它實驗驗證或輔助填gap
1. 測序數據質控,2. 過濾和去宿主,3. 數據組裝,4. 基因預測,5. 物種注釋,6. 功能注釋。
HUMAnN2 (The HMP Unified Metabolic Analysis Network 2) 是基於宏基因組、宏轉錄組數據分析微生物通路豐度的有效工具。這一過程稱為功能譜,目的是描述群體成員的代謝潛能。可以回答微生物群體成員可以幹什麼,或在幹什麼的問題。軟體特點
1. 可對已知和末知生物分析群體功能譜
2. 可獲得基因組、基因和通路層面的結果
UniRef資料庫提供基因家族的定義
MetaCyc提供基因通路的定義
MinPath提供定義的最小通路集
3. 簡單的使用界面(單行命令工作流)
4. 加速序列比對
採用Bowtie2加速核酸水平搜索
採用Diamond加速翻譯蛋白水平搜索
1conda install humann2
2~/conda/bin/humann2_databases --download chocophlan full /data/humann2
3~/conda/bin/humann2_databases --download uniref uniref90_diamond /data/humann2
4wget http://github.com/bbuchfink/diamond/releases/download/v0.9.21/diamond-linux64.tar.gz
5tar xzf diamond-linux64.tar.gz
6sudo ln -fs `pwd`/diamond /usr/local/bin/
7##運行humann2
8## $SAMPLE為宏基因組測序過濾後的數據,可以是fastq,fastq.gz格式。
9## $OUTPUT_DIR為輸出文件夾輸出文件包括:
10## $OUTPUT_DIR/$SAMPLENAME_genefamilies.tsv*
11## $OUTPUT_DIR/$SAMPLENAME_pathcoverage.tsv
12## $OUTPUT_DIR/$SAMPLENAME_pathabundance.tsv
1curl https://downloads.jbei.org/data/microbial_communities/MaxBin/getfile.php?MaxBin-2.2.2.tar.gz > MaxBin-2.2.2.tar.gz
2tar xzvf MaxBin-2.2.2.tar.gz
3cd MaxBin-2.2.2/src
4make
1curl -L https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v0.32.4.tar.gz > metabatv0.32.4.tar.gz
2tar xvf metabatv0.32.4.tar.gz
1run_MaxBin.pl -contig subset_assembly.fa -abund_list abundance.list -max_iteration 5 -out mbin
1metabat/metabat -i subset_assembly.fa -a depth_var.txt --verysensitive -o metabat -v > log.txt
1pip install checkm-genome
2wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_v1.0.7.tar.gz
3checkm test ~/checkm_test_results
4#Run
5checkm lineage_wf -t 8 -x .genome.fa input_File output_File
1checkm lineage_wf --genes -t 8 -x faa <bin folder> <output folder>
1. 數據質量評估
1fastqc fastq1.gz
2fastqc fastq2.gz
3##質控後可以查看結果,將數據轉到桌面檢查
4Sz fastqc1/fastqc_report.html
5Sz fastqc2/fastqc_report.html
2. 質控數據的處理
1java -jar /opt/biosoft/Trimmomatic-0.30/trimmomatic-0.30.jar PE -threads 20 -phred33 fastq1.gz fastq2.gz clean.fastq1.gz unpaired.fastq1.gz clean.fastq2.gz unpaired.fastq2.gz
2ILLUMINACLIP:/opt/biosoft/Trimmomatic-0.30/adapters/TruSeq3-PE.fa:2:30:10 \
3LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:50
4##再用FASTQC查看過濾後的結果,步驟同上
5##MultiQC
6#在工作目錄中的未修剪和修剪文件上運行Mulitqc:
7Multiqc ./
3. Metahit組裝宏基因組
MEGAHIT是一款非常快速,非常好的組裝程序,專為宏基因組而設計。1##安裝
2git clone https://github.com/voutcn/megahit.git
3make
4##運行megahit
5~/megahit/megahit --12 clean.fastq1.gz, clean.fastq2.gz -o combined
6##運行QUAST
7~/quast/quast.py combined/final.contigs.fa -o combined-report
1##基於單個樣本的基因預測
2gmhmmp -a -d -f G -m MetaGeneMark_v1.modsample1.cut500.scafSeq -A sample1_protein.fasta -D sample1_nucleotide.fasta
3##基於混合組裝的基因預測
4gmhmmp -a -d -f G -m MetaGeneMark_v1.modmix.cut500.scafSeq -A mix_protein.fasta -D mix_nucleotide.fasta
1prokka assembly.fa --outdir prokka.annotation --prefix metagG –metagenome
1conda create -n anvio232 -c bioconda -c conda-forge gsl anvio=2.3.2
2source activate anvio232
···
最後:
對基因組學,轉錄組學,代謝組學等多組學感興趣的老師可加入「APExBIO組學及生信」學術群,以參與數據統計分析、16S/18S擴增子分析、宏基因組測序、轉錄組測序(RNA-seq)等學術討論和問題解答,入群請註明「姓名+單位+研究方向」。進群還可以實時領取系列講座操作指南和示例數據哦。
由於群人數限制,請加下方群主微信進群:
APExBIO組學及生信
關注APExBIO,了解更多生命科學領域前沿熱點知識!