隨機宏基因組測序數據質量控制和去宿主的分析流程和常見問題

2021-02-15 宏基因組

為進一步提高《微生物組實驗手冊》稿件質量，本項目新增大眾評審環節。文章在通過同行評審後，採用公眾號推送方式分享全文，任何人均可在線提交修改意見。公眾號格式顯示略有問題，建議點擊文末閱讀原文下載PDF審稿。在線文檔(https://kdocs.cn/l/cL8RRqHIL)大眾評審頁面登記姓名、單位和行號索引的修改建議。修改意見的徵集截止時間為推文發布後的72小時，文章將會結合有建設性的修改意見進一步修改後獲得DOI在線發表，同時將致謝審稿人。感謝廣大同行提出寶貴意見。

Analysis pipeline and frequently asked questions of quality control and host removal in shotgun metagenomic sequencing

劉永鑫1, 2, 3, #, *，劉芳1, 2, 3, #，陳同4，白洋1, 2, 3, 5, *

1中國科學院遺傳與發育生物學研究所，植物基因組學國家重點實驗室，北京；2中國科學院大學，生物互作卓越創新中心，北京；3中國科學院遺傳與發育生物學研究所，中國科學院–英國約翰英納斯中心植物和微生物科學聯合研究中心，北京；4中國中醫科學院，中藥資源中心，北京；5中國科學院大學現代農學院，北京

*通訊作者郵箱: yxliu@genetics.ac.cn ; ybai@genetics.ac.cn

#共同第一作者/同等貢獻

摘要: 隨機宏基因組測序，也稱鳥槍法宏基因組測序，是指對環境樣品的總DNA進行高通量測序以獲得微生物群落的物種組成及其潛在功能，抑或通過序列拼接和分箱得到其微生物的基因組。宏基因組測序數據預處理包括兩方面：一方面，與轉錄組、基因組測序等分析相似的數據質量控制過程，包括質量評估，去除低質量、引物和接頭序列；另一方面，涉及到宿主相關微生物的宏基因組樣本易受宿主序列的汙染，需要去除宿主序列並評估宿主比例，以獲得高質量的微生物組相關數據以方便開展下遊分析。本文主要介紹FastQC、MultiQC、KneadData（涵蓋並調用Trimmomatic + Bowtie 2）等軟體組合分析流程的安裝、使用方法和結果解讀，實現數據質量評估、質量控制和去宿主汙染、質量再評估的分析過程，同時對各步驟常見問題和解決方法進行總結，方便同行更準確、高效地實現宏基因組數據的預處理，為下遊分析提供高質量的宏基因組數據。

關鍵詞: 宏基因組測序，質量控制，去宿主，FastQC，KneadData

儀器設備

1. 計算伺服器（作業系統：Linux主流發行版本，如CentOS 7+ / Ubuntu 16.04+；CPU：8核+；內存：32G+；硬碟：> 30 GB，且大於原始數據大小3倍），網絡訪問暢通。

2. 個人電腦（Windows用戶需安裝XShell或Putty等終端類軟體，Mac使用系統內置終端）即可遠程訪問計算伺服器。

軟體和資料庫

1. 遠程文件傳輸工具FileZilla客戶端3.49.1+：https://filezilla-project.org/

2. （可選）Windows遠程訪問伺服器終端工具Xshell 6.0.0197p+：https://www.netsarang.com/zh/free-for-home-school/

3. 軟體管理器Miniconda2 Linux 64-bit （Python 2.7）: https://conda.io/miniconda.html

4. 測序數據質量評估FastQC v0.11.9：https://www.bioinformatics.babraham.ac.uk/projects/download.html

5. 質量評估報告匯總MultiQC version 1.6 （Ewels等，2016）：https://multiqc.info/

6. 宏基因組質量控制和去宿主分析流程KneadData v0.7.4: http://huttenhower.sph.harvard.edu/kneaddata

7. （可選）並行任務隊列管理Parallel 20200522 （Tange，2020）：https://www.gnu.org/software/parallel/

8. 常用宿主基因組下載Ensembl Genome：http://ensemblgenomes.org/ ，如人類基因組（International Human Genome Sequencing，2001），擬南芥基因組（The Arabidopsis Genome，2000）。

9. 流程參考代碼詳見：https://github.com/YongxinLiu/MicrobiomeProtocol/blob/master/e1.KneadData/QualityControl_HostRemoval_Pipelie.sh

軟體安裝和資料庫部署

Windows/Mac用戶安裝FileZilla客戶端，用於上傳測序數據至伺服器或數據中心，也可下載分析結果本地查看。Windows用戶安裝Xshell用於遠程訪問伺服器並開展分析，Mac用戶可使用系統自帶Terminal中的ssh命令遠程訪問伺服器。

在Linux系統的計算伺服器端，以Miniconda2軟體和Python2虛擬環境安裝所需軟體，在將來隨著軟體的更新可能需要新建Python3虛擬環境才能安裝新版本；然後下載人類基因組索引，同時以擬南芥為例介紹下載基因組並建立索引的步驟。

註：代碼行添加灰色底紋背景，其中需要根據系統環境修改的部分標為藍色。

1. 安裝Miniconda2 Linux 64-bit（Python 2.7），已經安裝Conda可跳過此步驟。

wget -c https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh

bash Miniconda2-latest-Linux-x86_64.sh

2. 配置Conda環境，添加Bioconda生物頻道以方便安裝生物學相關的分析軟體。

conda config --add channels bioconda

conda config --add channels conda-forge

3. Conda新建Python 2.7環境，命名為qc2（quality control python2），然後進入。

conda create -n qc2 python=2.7

conda activate qc2

註：新建虛擬環境，然後在新建的環境下安裝工作流程，可以防止新裝的軟體或者其依賴軟體與系統默認環境中的版本相互衝突。另外，將整個分析流程的軟體存放在虛擬環境並放置在指定目錄下，不用時可以輕鬆移除，不會對系統產生任何影響。

4. Conda安裝相關軟體，-y默認同意直接安裝，不再提示是否確認。

conda install fastqc -y

conda install multiqc -y

conda install kneaddata -y

conda install parallel -y

註：如果軟體下載慢或無法下載，詳見常見問題1。Conda默認安裝Bioconda中的最新版本或所處系統環境支持的最新版本；如果無法安裝或安裝後使用存在問題，可使用conda remove xxx移除某軟體，再指定版本安裝，如指定安裝KneadData的0.6.1版本：conda install kneaddata=0.6.1。

5. 宿主基因組資料庫下載。

為了方便指定接下來的文件路徑，我們首先使用mkdir命令為整個分析流程建立一個文件夾，並命名為meta_preprocess（參數-p允許建立多級文件夾、多個文件夾且不報錯）。然後使用cd命令進入該文件夾。

mkdir -p meta_preprocess

cd meta_preprocess

為了去除宿主序列，我們需要建立宿主序列的索引以供KneadData通過序列比對找到並去除宿主序列。KneadData提供了多個預先建立的常用的宿主序列索引。下面的命令可供我們查看KneadData軟體整理好的可用的資料庫索引，包括人類基因組、小鼠基因組、人類轉錄組和核糖體資料庫等。

kneaddata_database

以人類基因組為例，下載Bowtie 2格式索引，此類索引文件通過包含多個文件，推薦建立文件夾並指定下載位置。

mkdir -p db

kneaddata_database --download human_genome bowtie2 db/

如果默認資料庫下載速度慢或無法下載，可使用國內備份連結，詳見常見問題2。

KneadData包括的資料庫種類有限，用戶可自行下載參考基因組並建索引，以擬芥為例的實例詳見常見問題3。

6. 準備輸入數據

通常測序公司會返回原始（raw）或純淨（clean）數據兩類數據：原始數據為下機後按測序文庫的索引（Index）拆分獲得的樣本序列，純淨數據是去除了明顯的低質量、測序引物和接頭汙染序列後的結果。推薦大家使用體積更小、質量更高的純淨序列進行下遊分析和提交數據中心。此外，涉及人類研究的數據，需要上傳去除人類相關序列後再上傳數據中心（即本文的輸出結果）。

本文使用的數據來自人類口腔癌症研究的文章（Schmidt等，2014），NCBI的SRA項目號為PRJEB4953。為方便演示流程的使用，我們從中選取4個樣本，並且隨機抽取了75000對序列作為軟體的測序數據，可以從中國科學院基因組研究所的原始數據歸檔庫（Genome Sequence Archive，GSA，https://bigd.big.ac.cn/gsa/ ）（Wang等，2017）中按批次編號CRA002355搜索並下載，也可通過wget並結合for循環通過批次和樣本編號批量下載至seq目錄（代碼如下）。

mkdir -p seq

使用wget下載單個樣本，-c為支持斷點續傳，-O指定保存位置並可重命名，每個雙端樣本需要下載兩個文件。

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR117732/CRR117732_ f1.fq.gz -O seq/C2_1.fq.gz

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR117732/CRR117732_ r2.fq.gz -O seq/C2_2.fq.gz

結合for循環再下載3個樣本，seq命令產生連續序列，$i替換命令中可變部分，結尾加保證變量名結束而被識別。

for i in `seq 3 5`;do

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR11773$i/CRR11773$i_f1.fq.gz

-O seq/C$i_1.fq.gz

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR11773$i/CRR11773$i_r2.fq.gz

-O seq/C$i_2.fq.gz

done

視頻1. 宏基因組測序數據分析流程演示視頻和講解

（https://v.qq.com/x/page/a3128efr2t3.html ）

實驗步驟

開始分析前，我們應處於項目所在目錄（如meta_preprocess），並啟動軟體所在的Conda環境。

cd meta_preprocess

conda activate qc2

1. FastQC測序數據質量評估。

fastqc seq/*.fq.gz -t 3

*.fq.gz代表所有以.fq.gz結尾的文件，即所有測序數據；-t 3指定3個線程，即同時對3個文件進行並行分析。

圖1. FastQC質量評估報告中的主要結果和注意事項。A. 序列中每個鹼基的質量分布（Per base sequence quality）。B. 所有序列的GC含量（Per sequence GC content）分布（紅色）與理論值分布（藍色）曲線。C. 接頭含量（Adapter content）。本圖數據為樣本C3右端序列為列對fastQC的評估結果進行說明，完整評估報告詳見seq/C3_2_fastqc.html。

FastQC質量評估包括基本統計（比如對應樣本總序列數，序列長度和GC含量等簡要總結）、單鹼基位點測序質量、GC含量及接頭含量等10大類的評估。我們以C3樣本右端報告為例，首先查看基本統計中的總序列數（Total Sequences）和GC含量（%GC）等。其次查看每個鹼基位點的質量分數的箱線圖（圖1A），每個箱體中間的紅線代表此位置上所有序列的測序質量的中位數，然後黃色箱體代表25%-75%百分位數內的質量分布，而兩端黑線頂端對應10%和90%百分位的質量數，另外連接每個箱體的藍色線代表的是平均值。根據Y軸序列質量，整個圖片區域被劃分為高（綠色，得分>=28）、中（黃色，<=20得分<28）、低（紅色，得分<20）三個區域。通常Illumina測序數據質量從左往右逐漸降低，從圖1A可以看到序列結尾的箱體進入紅色區域，即序列末端存在大量低質量區，這是我們要質量控制中重點關注並需要去除的部分，待質量控制後再次查看此區域。其次查看所有序列的GC含量（Per sequence GC content）分布，經常會出現實際值與理論值存在明顯差異無法通過評估（圖1B），因為理論值是基於單物種的估計結果，而宏基因組測序對象是多物種的混合物，出現分布明顯偏移或多峰屬於正常現象。過多的序列（Overrepresented sequences）處有時可以查看到汙染的引物、接頭序列（常見問題4），或樣本中特別豐富的序列。接頭含量（Adapter Content）評估通用接頭的比例，圖1C顯示C3樣本中存在少量Illumina通用接頭的汙染。

2. MultiQC對多樣本的FastQC評估結果進行匯總。

研究中通常包含大量樣本，而且單個樣本又包括雙端測序兩個結果報告，分別查看每個報告是非常巨大的工作量，而且在缺少比較的條件下判斷結果的優劣是比較困難的。MultiQC可以將所有結果匯總為單個網頁報告，實現了樣本間的同屏比較，同時方便篩選異常樣本。

multiqc -d seq/ -o ./

-d指定輸入目錄，-o指定輸出目錄，./代表當前目錄。

圖2. MultiQC質量評估匯總報告中的重要結果。A. 綜合統計（General Statistics）。B.單位點測序質量的平均值分布（Mean Quality Scores）。C. 單鹼基位點N含量（Per Base N Content）。D. 過多序列的比例（Overrepresented sequences）。本報告匯總了樣本C2-5共4個樣本包含的8個序列評估報告的匯總，詳見multiqc_report.html。

我們對多樣本質量評估匯總報告（multiqc_report.html）進行觀察，發現樣本C3/C4中有較高的重複序列（圖2A），可能原因是測序質量低、測序引物和接頭序列汙染、樣本DNA含量低採用較多PCR循環擴增等原因。還發現C3/C5的GC含量明顯更高（圖2A），可能存在微生物群落組成的差異。我們還可以通過移動滑鼠交互地探索每個樣本在每個鹼基位置上的質量平均值（圖2B）。此外關注鹼基中N的含量（圖2C），並記錄存在較高N含量的樣本。如果在下遊分析中這些樣本也異常時，可以考慮制定質量篩選標準過濾部分低質量樣本，以減少由於實驗或測序過程引用的錯誤。最後重點關注過多序列的比例（圖2D），可能是測序引物和接頭汙染，也可能是微量DNA的PCR擴增導致，具體原因需要進一步查看過多序列含量其對應樣本的FastQC報告，結合其對過多序列的詳細信息進一步核實是否被標記為測序引物和接頭，另外，未知序列也可在線BLAST（https://blast.ncbi.nlm.nih.gov/Blast.cgi ）分析來源（Altschul等，1997）。

3. 檢查測序雙端序列標籤是否對應且唯一。

zcat查看樣本壓縮格式內容，head顯示文件前10行，注意觀察標籤是否重複(圖3A)。

zcat seq/C2_1.fq.gz|head

zcat seq/C2_2.fq.gz|head

雙端序列標籤對應且唯一是分析中保證準確識別每條序列的前提，通常測序下機數據符合序列名唯一的格式要求(圖3B)。但NCBI發布的數據為節約存儲空間簡化序列標籤(圖3A)，下載的數據會出現雙端序列標籤完全相同而無法區分正反序列的問題。為保證下遊分析的正常，需要修改雙端序列標籤使之對應且唯一(圖3B)。代碼詳見常見問題4。

圖3. NCBI SRA序列標籤修改前（重複）後（唯一）對比。A. NCBI SRA下載雙端序列雙端標籤完全相同。B. 修改後序列雙端標籤對應且唯一。藍色代表命令行，其他顏色為fastq格式序列內容，其中序列標籤標記為紅色。

4. KneadData流程實現數據質量控制和去宿主。

KneadData流程主要依賴Trimmomatic （Bolger等，2014）進行質量控制和去除引物和接頭，Bowtie 2 （Langmead and Salzberg，2012）用來比對宿主基因組，然後通過自定義腳本篩選未能比對到宿主的序列作為輸出結果用於下遊分析。軟體的詳細信息，運行kneaddata -h查看。序列接頭可從測序供應商處獲得，基於質量評估結果查找接頭序列的方法詳見常見問題5，軟體運行提示Java版本不支持的處理方法詳見常見問題6。

單個樣本質控和去宿主，可逐個或結合for循環處理每個樣本。

kneaddata -i seq/C2_1.fq.gz -i seq/C2_2.fq.gz

-o qc/ -v -t 8 --remove-intermediate-output

--trimmomatic ~/.conda/envs/qc2/share/trimmomatic

--trimmomatic-options 'ILLUMINACLIP:~/.conda/envs/qc2/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50'

--bowtie2-options '--very-sensitive --dovetail'

--bowtie2-options="--reorder"

-db db/Homo_sapiens

使用parallel管理隊列，允許多個任務並行提高工作效率，詳見軟體和資料庫7. 流程參考代碼。

KneadData流程自帶了kneaddata_read_count_table流程可完成多樣本的質控結果匯總。

kneaddata_read_count_table

--input qc

--output kneaddata_sum.txt

提取原始（raw）、質量控制後（trim）和去宿主後（final）序列數量，詳見表1。

cut -f 1-5,12-13 kneaddata_sum.txt | sed 's/_1_kneaddata//;s/pair//g'

> kneaddata_report.txt

表1. KneadData流程質量控制和去宿主結果統計。

Sample

raw 1

raw 2

trimmed 1

trimmed 2

final 1

final 2

75000

65316

64876

75000

48082

30897

75000

50387

29343

75000

60959

57379

註：Sample為樣本名，raw 1/2是雙端測序的數據量，trimmed 1/2是經Trimmomatic質量控制後仍成對的序列，final 1/2是指經過質量控制和去宿主仍成對的序列。注意1/2必須一致，否則是程序出錯，請檢查上一步。

5. 質控後質量再評估。

fastqc qc/*_1_kneaddata_paired_*.fastq -t 3

multiqc -d qc/ -o ./

使用fastqc評估質控後的每對測序數據。然後再次使用multiqc進行結果匯總(圖4)。結果不僅有序列基本信息統計，還包括質控去除比例(%Dropped)和宿主汙染比例(%Aligned)的信息(圖4A)。其中質控部分還採用堆疊柱狀圖展示質控後各部分的百分比(圖4B)。去宿主部分用堆疊柱狀圖展示了序列是否比對宿主基因組的讀長數量(圖4C)。此外，我們還要重點關注質控後的整體質量分布，以均值位於綠色區間為宜(圖4D)。

圖4. MultiQC匯總質量控制、去宿主和最終序列的情況。A. 綜合統計（General Statistics），%Aligned是指比對至宿主基因組的比例，即宿主汙染所佔比例，%Dropped為低質量或建庫汙染的比例。B. Trimmomatic質量控制結果柱狀圖，藍色為質控後結果，粉紅為去除的低質量序列，可交互圖片移動滑鼠至目標區域可顯示細節。C. 比對宿主後各部分序列的比例。藍色為比對至宿主基因組且有唯一位置，橙色為比對至宿主中有多個位置，紅色為非宿主序列。D. 質控後序列質量，一般全部在高質量區（綠色）。詳見multiqc_report_1.html。

常見問題

1. 軟體下載慢或無法下載。

大部分軟體可通用Conda（類似於360軟體管家或騰訊軟體管理）快速安裝，有時會出現無法下載的問題，請檢查網絡是否正常，或換個時間再試。對於下載速度較慢的情況，也可以添加Conda國內鏡像站點加速下載，如清華大學、中國科技大學鏡像站等，以添加清華Conda鏡像站為例：

site=https://mirrors.tuna.tsinghua.edu.cn/anaconda

conda config --add channels $site/pkgs/free/

conda config --add channels $site/pkgs/main/

conda config --add channels $site/cloud/conda-forge/

conda config --add channels $site/pkgs/r/

conda config --add channels $site/cloud/bioconda/

2. 資料庫下載慢或無法下載。

很多國外資料庫下載緩慢，甚至託管於Google或Dropbox等國內無法訪問的站點。宏基因組公眾號團隊建立了本領域常用資料庫下載的國內備份連結和百度雲連結，方便國內同行下載和使用，詳見：https://github.com/YongxinLiu/MicrobiomeStatPlot/blob/master/Data/BigDataDownlaodList.md 。

3. 物種參考基因組下載和建索引，以擬南芥為例。

下載目標物種的參考基因組序列，如在Ensembl Genomes中按分類查找目標物種的基因組下載連結，使用wget下載。

wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-47/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

-O ath.fa.gz

-c實現斷點續傳，-O實現文件重命名，「」用於代碼換行。

然後使用bowtie2-build建立索引，輸入文件可以是gz壓縮格式的fasta文件，並指定輸出索引文件前綴。

bowtie2-build ath.fa.gz ath.bt2

4. 檢查測序雙端序列標籤是否唯一

質控後雙端序列數量不同，或雙端文件標籤不對應（視頻1），可能是輸入序列標籤不唯一，需要檢查測序雙端序列標籤是否唯一。

zcat seq/C2_1.fq.gz|head

zcat seq/C2_2.fq.gz|head

如果標籤重名，需要進行數據解壓、對序列的左、右端標題行分別添、。

gunzip seq/*.gz

sed -i '1~4 s/$/\1/g' seq/*_1.fq

sed -i '1~4 s/$/\2/g' seq/*_2.fq

再次核對樣本是否標籤有重複。

head seq/C2_1.fq

head seq/C2_2.fq

結果壓縮節省空間，同時與原始序列保持文件名一致。

gzip seq/*.fq

5. 根據質量評估報告確定接頭序列

在MultiQC的匯總報告中記錄每個過多序列較多的樣本，如C3/4/5，然後並別查看每個樣本對應的FastQC報告中過多序列部分的序列，並複製部分注釋為接頭的序列，在trimmomatic的接頭文件庫中搜索。

使用type命令確定trimmomatic軟體位置

type trimmomatic

根據上面顯示的環境路徑+share/trimmomatic/adapters目錄匹配接頭序列的文件，本例為C3樣本的右端FastQC評估報告中過多的序列欄目可查看到接頭序列。

grep 'ATCGGAAGAGCACACGTCTGAAC' ~/.conda/envs/qc2/share/trimmomatic/adapters/*

6. KneadData運行提示Java版本不支持

嘗試使用conda安裝指定版本的Java開發環境即可。

conda install openjdk=8.0.152

致謝

本項目由中國科學院戰略先導專項(編號：XDA24020104)、中國科學院前沿科學重點研究項目(編號：QYZDB-SSW-SMC021)、國家自然科學基金項目(編號：31772400, 31761143017, 31801945, 31701997)和中國科學院青年創新促進會(編號：2020101) [Supported by the Strategic Priority Research Program of the Chinese Academy of Sciences (Precision Seed Design and Breeding, No. XDA24020104), the Key Research Program of Frontier Sciences of the Chinese Academy of Science (No. QYZDB-SSW-SMC021), the National Natural Science Foundation of China (No. 31772400, 31761143017, 31801945, 31701997), the Chinese Academy of Sciences Youth Innovation Promotion Association (No. 2020101)]支持。此分析流程在最近發表的綜述中被提及（劉永鑫等，2019; Liu等，2020）。感謝西北農林科技大學席嬌對本文的修改。

參考文獻

1. Altschul, S. F., Madden, T. L., Schäffer, A. A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25 (17): 3389-3402.

2. Bolger, A. M., Lohse, M. and Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30 (15): 2114-2120.

3. Ewels, P., Magnusson, M., Lundin, S. and Käller, M. (2016). MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics 32 (19): 3047-3048.

4. International Human Genome Sequencing, C. (2001). Initial sequencing and analysis of the human genome. Nature 409 (6822): 860-921.

5. Langmead, B. and Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nat Methods 9 (4): 357-359.

6. Liu, Y.-X., Qin, Y., Chen, T., Lu, M., Qian, X., Guo, X. and Bai, Y. (2020). A practical guide to amplicon and metagenomic analysis of microbiome data. Protein Cell 11.

7. Schmidt, B. L., Kuczynski, J., Bhattacharya, A., Huey, B., Corby, P. M., Queiroz, E. L. S., Nightingale, K., Kerr, A. R., DeLacure, M. D., Veeramachaneni, R., Olshen, A. B., Albertson, D. G. and Muy-Teck, T. (2014). Changes in abundance of oral microbiota associated with oral cancer. PLoS One 9 (6): e98741.

8. Tange, O. (2020). GNU Parallel 20200522 ( 'Kraftwerk' ) . Zenodo.

9. The Arabidopsis Genome, I. (2000). Analysis of the genome sequence of the flowering plant Arabidopsis thaliana . Nature 408 (6814): 796-815.

10. Wang, Y., Song, F., Zhu, J., Zhang, S., Yang, Y., Chen, T., Tang, B., Dong, L., Ding, N., Zhang, Q., Bai, Z., Dong, X., Chen, H., Sun, M., Zhai, S., Sun, Y., Yu, L., Lan, L., Xiao, J., Fang, X., Lei, H., Zhang, Z. and Zhao, W. (2017). GSA: Genome Sequence Archive*. Genom Proteom Bioinf 15 (1): 14-18.

11. 劉永鑫, 秦媛, 郭曉璇和白洋 (2019). 微生物組數據分析方法與應用 . 遺傳 41 (9): 845-826.

請通過以下連結下載視頻：

視頻1：

https://os.bio-protocol.org/doc/upprotocol/p3347/Abstract3347_20200803025729579/kneaddata%20pipeline.wmv

隨機宏基因組測序數據質量控制和去宿主的分析流程和常見問題

相關焦點

腸道菌群:宏基因組測序分析流程解讀(上)

基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究

16S擴增子測序數據分析介紹

宏基因組測序技術在病原微生物檢測中的臨床應用與存在的問題及面臨挑戰

Nature綜述：Rob Knight帶你分析微生物組數據(2020版)

研究思路|三代宏基因組應用案例解讀(第3期)

數據的質量控制軟體——fastQC

菌群數據的統計和可視化方法

利用宏基因組數據組裝巨病毒基因組的優勢與限制

2019微生物組—宏基因組分析專題培訓開課啦!

微生物組-宏基因組分析(線上/線下同時開課,2021.1)

最後一周 | 微生物組-宏基因組分析(線上/線下同時開課,2021.1)

NAR:MicrobiomeAnalyst微生物組分析師——統計、可視化和元分析微生物組數據的網頁工具

如果想了解NGS測序原理,那麼首推

16S擴增子分析專題研討論會——背景介紹

Nature Protocols:空氣微生物宏基因組測序新技術

【支持線上直播】微生物組學數據分析與挖掘專題培訓班(3.17-19)

Nature Protocols:整合宏基因組、代謝組和表型分析的的計算框架

Nature子刊:整合宏基因組、代謝組和表型分析的的計算框架

高級轉錄組調控分析和R語言數據可視化第十三期 (線上開課)