隨機宏基因組測序數據質量控制和去宿主的分析流程和常見問題

2021-02-15 宏基因組

為進一步提高《微生物組實驗手冊》稿件質量,本項目新增大眾評審環節。文章在通過同行評審後,採用公眾號推送方式分享全文,任何人均可在線提交修改意見。公眾號格式顯示略有問題,建議點擊文末閱讀原文下載PDF審稿。在線文檔(https://kdocs.cn/l/cL8RRqHIL)大眾評審頁面登記姓名、單位和行號索引的修改建議。修改意見的徵集截止時間為推文發布後的72小時,文章將會結合有建設性的修改意見進一步修改後獲得DOI在線發表,同時將致謝審稿人。感謝廣大同行提出寶貴意見。

隨機宏基因組測序數據質量控制和去宿主的分析流程和常見問題

Analysis pipeline and frequently asked questions of quality control and host removal in shotgun metagenomic sequencing

劉永鑫1, 2, 3, #, *,劉芳1, 2, 3, #,陳同4,白洋1, 2, 3, 5, *

1中國科學院遺傳與發育生物學研究所,植物基因組學國家重點實驗室,北京;2中國科學院大學,生物互作卓越創新中心,北京;3中國科學院遺傳與發育生物學研究所,中國科學院–英國約翰英納斯中心植物和微生物科學聯合研究中心,北京;4中國中醫科學院,中藥資源中心,北京;5中國科學院大學現代農學院,北京

*通訊作者郵箱: yxliu@genetics.ac.cn ; ybai@genetics.ac.cn

#共同第一作者/同等貢獻

摘要: 隨機宏基因組測序,也稱鳥槍法宏基因組測序,是指對環境樣品的總DNA進行高通量測序以獲得微生物群落的物種組成及其潛在功能,抑或通過序列拼接和分箱得到其微生物的基因組。宏基因組測序數據預處理包括兩方面:一方面,與轉錄組、基因組測序等分析相似的數據質量控制過程,包括質量評估,去除低質量、引物和接頭序列;另一方面,涉及到宿主相關微生物的宏基因組樣本易受宿主序列的汙染,需要去除宿主序列並評估宿主比例,以獲得高質量的微生物組相關數據以方便開展下遊分析。本文主要介紹FastQC、MultiQC、KneadData(涵蓋並調用Trimmomatic + Bowtie 2)等軟體組合分析流程的安裝、使用方法和結果解讀,實現數據質量評估、質量控制和去宿主汙染、質量再評估的分析過程,同時對各步驟常見問題和解決方法進行總結,方便同行更準確、高效地實現宏基因組數據的預處理,為下遊分析提供高質量的宏基因組數據。

關鍵詞: 宏基因組測序,質量控制,去宿主,FastQC,KneadData

儀器設備

1. 計算伺服器(作業系統:Linux主流發行版本,如CentOS 7+ / Ubuntu 16.04+;CPU:8核+;內存:32G+;硬碟:> 30 GB,且大於原始數據大小3倍),網絡訪問暢通。

2. 個人電腦(Windows用戶需安裝XShell或Putty等終端類軟體,Mac使用系統內置終端)即可遠程訪問計算伺服器。

軟體和資料庫

1. 遠程文件傳輸工具FileZilla客戶端3.49.1+:https://filezilla-project.org/

2. (可選)Windows遠程訪問伺服器終端工具Xshell 6.0.0197p+:https://www.netsarang.com/zh/free-for-home-school/

3. 軟體管理器Miniconda2 Linux 64-bit (Python 2.7): https://conda.io/miniconda.html

4. 測序數據質量評估FastQC v0.11.9:https://www.bioinformatics.babraham.ac.uk/projects/download.html

5. 質量評估報告匯總MultiQC version 1.6 (Ewels等,2016):https://multiqc.info/

6. 宏基因組質量控制和去宿主分析流程KneadData v0.7.4: http://huttenhower.sph.harvard.edu/kneaddata

7. (可選)並行任務隊列管理Parallel 20200522 (Tange,2020):https://www.gnu.org/software/parallel/     

8. 常用宿主基因組下載Ensembl Genome:http://ensemblgenomes.org/ ,如人類基因組(International Human Genome Sequencing,2001),擬南芥基因組(The Arabidopsis Genome,2000)。

9. 流程參考代碼詳見:https://github.com/YongxinLiu/MicrobiomeProtocol/blob/master/e1.KneadData/QualityControl_HostRemoval_Pipelie.sh

軟體安裝和資料庫部署

Windows/Mac用戶安裝FileZilla客戶端,用於上傳測序數據至伺服器或數據中心,也可下載分析結果本地查看。Windows用戶安裝Xshell用於遠程訪問伺服器並開展分析,Mac用戶可使用系統自帶Terminal中的ssh命令遠程訪問伺服器。

在Linux系統的計算伺服器端,以Miniconda2軟體和Python2虛擬環境安裝所需軟體,在將來隨著軟體的更新可能需要新建Python3虛擬環境才能安裝新版本;然後下載人類基因組索引,同時以擬南芥為例介紹下載基因組並建立索引的步驟。

註:代碼行添加灰色底紋背景,其中需要根據系統環境修改的部分標為藍色。

1. 安裝Miniconda2 Linux 64-bit(Python 2.7),已經安裝Conda可跳過此步驟。

wget -c https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh

bash Miniconda2-latest-Linux-x86_64.sh

2. 配置Conda環境,添加Bioconda生物頻道以方便安裝生物學相關的分析軟體。

conda config --add channels bioconda

conda config --add channels conda-forge

3. Conda新建Python 2.7環境,命名為qc2(quality control python2),然後進入。

conda create -n qc2 python=2.7

conda activate qc2

註:新建虛擬環境,然後在新建的環境下安裝工作流程,可以防止新裝的軟體或者其依賴軟體與系統默認環境中的版本相互衝突。另外,將整個分析流程的軟體存放在虛擬環境並放置在指定目錄下,不用時可以輕鬆移除,不會對系統產生任何影響。

4. Conda安裝相關軟體,-y默認同意直接安裝,不再提示是否確認。

conda install fastqc -y

conda install multiqc -y

conda install kneaddata -y

conda install parallel -y

註:如果軟體下載慢或無法下載,詳見常見問題1。Conda默認安裝Bioconda中的最新版本或所處系統環境支持的最新版本;如果無法安裝或安裝後使用存在問題,可使用conda remove xxx移除某軟體,再指定版本安裝,如指定安裝KneadData的0.6.1版本:conda install kneaddata=0.6.1。

5. 宿主基因組資料庫下載。

為了方便指定接下來的文件路徑,我們首先使用mkdir命令為整個分析流程建立一個文件夾,並命名為meta_preprocess(參數-p允許建立多級文件夾、多個文件夾且不報錯)。然後使用cd命令進入該文件夾。

mkdir -p meta_preprocess

cd meta_preprocess

為了去除宿主序列,我們需要建立宿主序列的索引以供KneadData通過序列比對找到並去除宿主序列。KneadData提供了多個預先建立的常用的宿主序列索引。下面的命令可供我們查看KneadData軟體整理好的可用的資料庫索引,包括人類基因組、小鼠基因組、人類轉錄組和核糖體資料庫等。

            kneaddata_database

以人類基因組為例,下載Bowtie 2格式索引,此類索引文件通過包含多個文件,推薦建立文件夾並指定下載位置。

mkdir -p db

kneaddata_database --download human_genome bowtie2 db/

如果默認資料庫下載速度慢或無法下載,可使用國內備份連結,詳見常見問題2。

KneadData包括的資料庫種類有限,用戶可自行下載參考基因組並建索引,以擬芥為例的實例詳見常見問題3。

6. 準備輸入數據

通常測序公司會返回原始(raw)或純淨(clean)數據兩類數據:原始數據為下機後按測序文庫的索引(Index)拆分獲得的樣本序列,純淨數據是去除了明顯的低質量、測序引物和接頭汙染序列後的結果。推薦大家使用體積更小、質量更高的純淨序列進行下遊分析和提交數據中心。此外,涉及人類研究的數據,需要上傳去除人類相關序列後再上傳數據中心(即本文的輸出結果)。

本文使用的數據來自人類口腔癌症研究的文章(Schmidt等,2014),NCBI的SRA項目號為PRJEB4953。為方便演示流程的使用,我們從中選取4個樣本,並且隨機抽取了75000對序列作為軟體的測序數據,可以從中國科學院基因組研究所的原始數據歸檔庫(Genome Sequence Archive,GSA,https://bigd.big.ac.cn/gsa/ )(Wang等,2017)中按批次編號CRA002355搜索並下載,也可通過wget並結合for循環通過批次和樣本編號批量下載至seq目錄(代碼如下)。

    mkdir -p seq

使用wget下載單個樣本,-c為支持斷點續傳,-O指定保存位置並可重命名,每個雙端樣本需要下載兩個文件。

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR117732/CRR117732_ f1.fq.gz -O seq/C2_1.fq.gz

wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR117732/CRR117732_ r2.fq.gz -O seq/C2_2.fq.gz

結合for循環再下載3個樣本,seq命令產生連續序列,$i替換命令中可變部分,結尾加保證變量名結束而被識別。

    for i in `seq 3 5`;do

 wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR11773$i/CRR11773$i_f1.fq.gz

        -O seq/C$i_1.fq.gz

 wget -c ftp://download.big.ac.cn/gsa/CRA002355/CRR11773$i/CRR11773$i_r2.fq.gz

       -O seq/C$i_2.fq.gz

done

視頻1. 宏基因組測序數據分析流程演示視頻和講解

(https://v.qq.com/x/page/a3128efr2t3.html )

實驗步驟

開始分析前,我們應處於項目所在目錄(如meta_preprocess),並啟動軟體所在的Conda環境。

cd meta_preprocess

conda activate qc2

1. FastQC測序數據質量評估。

fastqc seq/*.fq.gz -t 3

*.fq.gz代表所有以.fq.gz結尾的文件,即所有測序數據;-t 3指定3個線程,即同時對3個文件進行並行分析。

圖1. FastQC質量評估報告中的主要結果和注意事項。A. 序列中每個鹼基的質量分布(Per base sequence quality)。B. 所有序列的GC含量(Per sequence GC content)分布(紅色)與理論值分布(藍色)曲線。C. 接頭含量(Adapter content)。本圖數據為樣本C3右端序列為列對fastQC的評估結果進行說明,完整評估報告詳見seq/C3_2_fastqc.html。

FastQC質量評估包括基本統計(比如對應樣本總序列數,序列長度和GC含量等簡要總結)、單鹼基位點測序質量、GC含量及接頭含量等10大類的評估。我們以C3樣本右端報告為例,首先查看基本統計中的總序列數(Total Sequences)和GC含量(%GC)等。其次查看每個鹼基位點的質量分數的箱線圖(圖1A),每個箱體中間的紅線代表此位置上所有序列的測序質量的中位數,然後黃色箱體代表25%-75%百分位數內的質量分布,而兩端黑線頂端對應10%和90%百分位的質量數,另外連接每個箱體的藍色線代表的是平均值。根據Y軸序列質量,整個圖片區域被劃分為高(綠色,得分>=28)、中(黃色,<=20得分<28)、低(紅色,得分<20)三個區域。通常Illumina測序數據質量從左往右逐漸降低,從圖1A可以看到序列結尾的箱體進入紅色區域,即序列末端存在大量低質量區,這是我們要質量控制中重點關注並需要去除的部分,待質量控制後再次查看此區域。其次查看所有序列的GC含量(Per sequence GC content)分布,經常會出現實際值與理論值存在明顯差異無法通過評估(圖1B),因為理論值是基於單物種的估計結果,而宏基因組測序對象是多物種的混合物,出現分布明顯偏移或多峰屬於正常現象。過多的序列(Overrepresented sequences)處有時可以查看到汙染的引物、接頭序列(常見問題4),或樣本中特別豐富的序列。接頭含量(Adapter Content)評估通用接頭的比例,圖1C顯示C3樣本中存在少量Illumina通用接頭的汙染。

2. MultiQC對多樣本的FastQC評估結果進行匯總。

研究中通常包含大量樣本,而且單個樣本又包括雙端測序兩個結果報告,分別查看每個報告是非常巨大的工作量,而且在缺少比較的條件下判斷結果的優劣是比較困難的。MultiQC可以將所有結果匯總為單個網頁報告,實現了樣本間的同屏比較,同時方便篩選異常樣本。

multiqc -d seq/ -o ./

-d指定輸入目錄,-o指定輸出目錄,./代表當前目錄。

圖2. MultiQC質量評估匯總報告中的重要結果。A. 綜合統計(General Statistics)。B.單位點測序質量的平均值分布(Mean Quality Scores)。C. 單鹼基位點N含量(Per Base N Content)。D. 過多序列的比例(Overrepresented sequences)。本報告匯總了樣本C2-5共4個樣本包含的8個序列評估報告的匯總,詳見multiqc_report.html。

我們對多樣本質量評估匯總報告(multiqc_report.html)進行觀察,發現樣本C3/C4中有較高的重複序列(圖2A),可能原因是測序質量低、測序引物和接頭序列汙染、樣本DNA含量低採用較多PCR循環擴增等原因。還發現C3/C5的GC含量明顯更高(圖2A),可能存在微生物群落組成的差異。我們還可以通過移動滑鼠交互地探索每個樣本在每個鹼基位置上的質量平均值(圖2B)。此外關注鹼基中N的含量(圖2C),並記錄存在較高N含量的樣本。如果在下遊分析中這些樣本也異常時,可以考慮制定質量篩選標準過濾部分低質量樣本,以減少由於實驗或測序過程引用的錯誤。最後重點關注過多序列的比例(圖2D),可能是測序引物和接頭汙染,也可能是微量DNA的PCR擴增導致,具體原因需要進一步查看過多序列含量其對應樣本的FastQC報告,結合其對過多序列的詳細信息進一步核實是否被標記為測序引物和接頭,另外,未知序列也可在線BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi )分析來源(Altschul等,1997)。

3. 檢查測序雙端序列標籤是否對應且唯一。

zcat查看樣本壓縮格式內容,head顯示文件前10行,注意觀察標籤是否重複(圖3A)。

    zcat seq/C2_1.fq.gz|head

    zcat seq/C2_2.fq.gz|head

雙端序列標籤對應且唯一是分析中保證準確識別每條序列的前提,通常測序下機數據符合序列名唯一的格式要求(圖3B)。但NCBI發布的數據為節約存儲空間簡化序列標籤(圖3A),下載的數據會出現雙端序列標籤完全相同而無法區分正反序列的問題。為保證下遊分析的正常,需要修改雙端序列標籤使之對應且唯一(圖3B)。代碼詳見常見問題4。

圖3. NCBI SRA序列標籤修改前(重複)後(唯一)對比。A. NCBI SRA下載雙端序列雙端標籤完全相同。B. 修改後序列雙端標籤對應且唯一。藍色代表命令行,其他顏色為fastq格式序列內容,其中序列標籤標記為紅色。

4. KneadData流程實現數據質量控制和去宿主。

KneadData流程主要依賴Trimmomatic (Bolger等,2014)進行質量控制和去除引物和接頭,Bowtie 2 (Langmead and Salzberg,2012)用來比對宿主基因組,然後通過自定義腳本篩選未能比對到宿主的序列作為輸出結果用於下遊分析。軟體的詳細信息,運行kneaddata -h查看。序列接頭可從測序供應商處獲得,基於質量評估結果查找接頭序列的方法詳見常見問題5,軟體運行提示Java版本不支持的處理方法詳見常見問題6。

單個樣本質控和去宿主,可逐個或結合for循環處理每個樣本。

kneaddata -i seq/C2_1.fq.gz -i seq/C2_2.fq.gz

 -o qc/ -v -t 8 --remove-intermediate-output

 --trimmomatic ~/.conda/envs/qc2/share/trimmomatic

 --trimmomatic-options 'ILLUMINACLIP:~/.conda/envs/qc2/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50'

 --bowtie2-options '--very-sensitive --dovetail'

 --bowtie2-options="--reorder"

 -db db/Homo_sapiens

使用parallel管理隊列,允許多個任務並行提高工作效率,詳見軟體和資料庫7.     流程參考代碼。

KneadData流程自帶了kneaddata_read_count_table流程可完成多樣本的質控結果匯總。

kneaddata_read_count_table

--input qc

--output kneaddata_sum.txt

提取原始(raw)、質量控制後(trim)和去宿主後(final)序列數量,詳見表1。

cut -f 1-5,12-13 kneaddata_sum.txt | sed 's/_1_kneaddata//;s/pair//g'

 > kneaddata_report.txt

表1. KneadData流程質量控制和去宿主結果統計。

Sample

raw 1

raw 2

trimmed 1

trimmed 2

final 1

final 2

C2

75000

75000

65316

65316

64876

64876

C3

75000

75000

48082

48082

30897

30897

C4

75000

75000

50387

50387

29343

29343

C5

75000

75000

60959

60959

57379

57379

註:Sample為樣本名,raw 1/2是雙端測序的數據量,trimmed 1/2是經Trimmomatic質量控制後仍成對的序列,final 1/2是指經過質量控制和去宿主仍成對的序列。注意1/2必須一致,否則是程序出錯,請檢查上一步。

5. 質控後質量再評估。

fastqc qc/*_1_kneaddata_paired_*.fastq -t 3

multiqc -d qc/ -o ./

使用fastqc評估質控後的每對測序數據。然後再次使用multiqc進行結果匯總(圖4)。結果不僅有序列基本信息統計,還包括質控去除比例(%Dropped)和宿主汙染比例(%Aligned)的信息(圖4A)。其中質控部分還採用堆疊柱狀圖展示質控後各部分的百分比(圖4B)。去宿主部分用堆疊柱狀圖展示了序列是否比對宿主基因組的讀長數量(圖4C)。此外,我們還要重點關注質控後的整體質量分布,以均值位於綠色區間為宜(圖4D)。

圖4. MultiQC匯總質量控制、去宿主和最終序列的情況。A. 綜合統計(General Statistics),%Aligned是指比對至宿主基因組的比例,即宿主汙染所佔比例,%Dropped為低質量或建庫汙染的比例。B. Trimmomatic質量控制結果柱狀圖,藍色為質控後結果,粉紅為去除的低質量序列,可交互圖片移動滑鼠至目標區域可顯示細節。C. 比對宿主後各部分序列的比例。藍色為比對至宿主基因組且有唯一位置,橙色為比對至宿主中有多個位置,紅色為非宿主序列。D. 質控後序列質量,一般全部在高質量區(綠色)。詳見multiqc_report_1.html。

常見問題

1. 軟體下載慢或無法下載。

大部分軟體可通用Conda(類似於360軟體管家或騰訊軟體管理)快速安裝,有時會出現無法下載的問題,請檢查網絡是否正常,或換個時間再試。對於下載速度較慢的情況,也可以添加Conda國內鏡像站點加速下載,如清華大學、中國科技大學鏡像站等,以添加清華Conda鏡像站為例:

site=https://mirrors.tuna.tsinghua.edu.cn/anaconda

conda config --add channels $site/pkgs/free/

conda config --add channels $site/pkgs/main/

conda config --add channels $site/cloud/conda-forge/

conda config --add channels $site/pkgs/r/

conda config --add channels $site/cloud/bioconda/

2. 資料庫下載慢或無法下載。

很多國外資料庫下載緩慢,甚至託管於Google或Dropbox等國內無法訪問的站點。宏基因組公眾號團隊建立了本領域常用資料庫下載的國內備份連結和百度雲連結,方便國內同行下載和使用,詳見:https://github.com/YongxinLiu/MicrobiomeStatPlot/blob/master/Data/BigDataDownlaodList.md 。

3. 物種參考基因組下載和建索引,以擬南芥為例。

下載目標物種的參考基因組序列,如在Ensembl Genomes中按分類查找目標物種的基因組下載連結,使用wget下載。

wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-47/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

         -O ath.fa.gz

-c實現斷點續傳,-O實現文件重命名,「」用於代碼換行。

然後使用bowtie2-build建立索引,輸入文件可以是gz壓縮格式的fasta文件,並指定輸出索引文件前綴。

    bowtie2-build ath.fa.gz ath.bt2

4. 檢查測序雙端序列標籤是否唯一

質控後雙端序列數量不同,或雙端文件標籤不對應(視頻1),可能是輸入序列標籤不唯一,需要檢查測序雙端序列標籤是否唯一。

    zcat seq/C2_1.fq.gz|head

    zcat seq/C2_2.fq.gz|head

如果標籤重名,需要進行數據解壓、對序列的左、右端標題行分別添、。

    gunzip seq/*.gz

sed -i '1~4 s/$/\1/g' seq/*_1.fq

sed -i '1~4 s/$/\2/g' seq/*_2.fq

再次核對樣本是否標籤有重複。

    head seq/C2_1.fq

    head seq/C2_2.fq

結果    壓縮節省空間,同時與原始序列保持文件名一致。

gzip seq/*.fq

5. 根據質量評估報告確定接頭序列

在MultiQC的匯總報告中記錄每個過多序列較多的樣本,如C3/4/5,然後並別查看每個樣本對應的FastQC報告中過多序列部分的序列,並複製部分注釋為接頭的序列,在trimmomatic的接頭文件庫中搜索。

使用type命令確定trimmomatic軟體位置

    type trimmomatic

根據上面顯示的環境路徑+share/trimmomatic/adapters目錄匹配接頭序列的文件,本例為C3樣本的右端FastQC評估報告中過多的序列欄目可查看到接頭序列。

    grep 'ATCGGAAGAGCACACGTCTGAAC' ~/.conda/envs/qc2/share/trimmomatic/adapters/*

6. KneadData運行提示Java版本不支持

嘗試使用conda安裝指定版本的Java開發環境即可。

conda install openjdk=8.0.152

致謝

本項目由中國科學院戰略先導專項(編號:XDA24020104)、中國科學院前沿科學重點研究項目(編號:QYZDB-SSW-SMC021)、國家自然科學基金項目(編號:31772400, 31761143017, 31801945, 31701997)和中國科學院青年創新促進會(編號:2020101) [Supported by the Strategic Priority Research Program of the Chinese Academy of Sciences (Precision Seed Design and Breeding, No. XDA24020104), the Key Research Program of Frontier Sciences of the Chinese Academy of Science (No. QYZDB-SSW-SMC021), the National Natural Science Foundation of China (No. 31772400, 31761143017, 31801945, 31701997), the Chinese Academy of Sciences Youth Innovation Promotion Association (No. 2020101)]支持。此分析流程在最近發表的綜述中被提及(劉永鑫等,2019; Liu等,2020)。感謝西北農林科技大學席嬌對本文的修改。

參考文獻

1.    Altschul, S. F., Madden, T. L., Schäffer, A. A., Zhang, J., Zhang, Z., Miller, W. and Lipman, D. J.  (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25 (17): 3389-3402.

2.    Bolger, A. M., Lohse, M. and Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics 30 (15): 2114-2120.

3.    Ewels, P., Magnusson, M., Lundin, S. and Käller, M. (2016). MultiQC: summarize analysis results for multiple tools and samples in a single report. Bioinformatics 32 (19): 3047-3048.

4.    International Human Genome Sequencing, C. (2001). Initial sequencing and analysis of the human genome. Nature 409 (6822): 860-921.

5.    Langmead, B. and Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nat Methods 9 (4): 357-359.

6.    Liu, Y.-X., Qin, Y., Chen, T., Lu, M., Qian, X., Guo, X. and Bai, Y. (2020). A practical guide to amplicon and metagenomic analysis of microbiome data. Protein Cell 11.

7.    Schmidt, B. L., Kuczynski, J., Bhattacharya, A., Huey, B., Corby, P. M., Queiroz, E. L. S., Nightingale, K., Kerr, A. R., DeLacure, M. D., Veeramachaneni, R., Olshen, A. B., Albertson, D. G. and Muy-Teck, T. (2014). Changes in abundance of oral microbiota associated with oral cancer. PLoS One 9 (6): e98741.

8.    Tange, O. (2020). GNU Parallel 20200522 ( 'Kraftwerk' ) . Zenodo.

9.    The Arabidopsis Genome, I. (2000). Analysis of the genome sequence of the flowering plant Arabidopsis thaliana . Nature 408 (6814): 796-815.

10.    Wang, Y., Song, F., Zhu, J., Zhang, S., Yang, Y., Chen, T., Tang, B., Dong, L., Ding, N., Zhang, Q., Bai, Z., Dong, X., Chen, H., Sun, M., Zhai, S., Sun, Y., Yu, L., Lan, L., Xiao, J., Fang, X., Lei, H., Zhang, Z. and Zhao, W. (2017). GSA: Genome Sequence Archive*. Genom Proteom Bioinf 15 (1): 14-18.

11.    劉永鑫, 秦媛, 郭曉璇 和白洋 (2019). 微生物組數據分析方法與應用 . 遺傳 41 (9): 845-826.

請通過以下連結下載視頻:

視頻1:

https://os.bio-protocol.org/doc/upprotocol/p3347/Abstract3347_20200803025729579/kneaddata%20pipeline.wmv

猜你喜歡

10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦

系列教程:微生物組入門 Biostar 微生物組  宏基因組

專業技能:學術圖表 高分文章 生信寶典 不可或缺的人

一文讀懂:宏基因組 寄生蟲益處 進化樹

必備技能:提問 搜索  Endnote

文獻閱讀 熱心腸 SemanticScholar Geenmedical

擴增子分析:圖表解讀 分析流程 統計繪圖

16S功能預測   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在線工具:16S預測培養基 生信繪圖

科研經驗:雲筆記  雲協作 公眾號

編程模板: Shell  R Perl

生物科普:  腸道細菌 人體上的生命 生命大躍進  細胞暗戰 人體奧秘  

寫在後面

為鼓勵讀者交流、快速解決科研困難,我們建立了「宏基因組」專業討論群,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職稱/年級」。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決群內討論,問題不私聊,幫助同行。

學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」

點擊閱讀原文,下載帶行號的PDF全文參與審稿

相關焦點

  • 腸道菌群:宏基因組測序分析流程解讀(上)
    - 宏基因組測序實驗流程- 宏基因組分析流程- 文章分析思路- 常見問題- 相關名詞解釋- 參考文獻宏基因組分析流程下面先放一張宏基因組分析流程圖,供小夥伴們快速了解一下。採用 Illumina 測序平臺測序獲得的原始數據(Raw Data)存在一定比例低質量數據,裡面含有帶接頭的、重複的,以及測序質量很低的reads,這些 reads 會影響組裝和後續分析,為了保證後續分析的結果準確可靠,需要對原始的測序數據進行預處理,獲取用於後續分析的有效數據(Clean Data)。
  • 基於「三+二」宏基因組測序的抗性基因和可移動元件的精確研究
    今天美格基因的佳作推薦基於「三+二」宏基因組測序策略提出了一套高效組裝宏基因組數據的分析流程,為抗性基因和可移動元件的精確研究提供了可靠方法。2、宏基因組組裝:分別使用組裝流程OPERA-MS(圖1)和其他組裝器進行宏基因組組裝,並對組裝集進行質量評估。3、人工構建GIS20腸道微生物群落及其測序:將20種已知的細菌菌株的DNA混合在一起,菌株DNA的豐度為0.1%到30%,再進行三代測序。比較不同工具對該數據的組裝效果。
  • 16S擴增子測序數據分析介紹
    微生物群:採用16S rRNA基因測序的方法鑑定此環境中微生物的種類。- b. 宏基因組:微生物群的基因和基因組,包括質粒、強調群體的遺傳學潛能。- c. 微生物組:微生物群的基因和基因組,以及微生物群的產物與宿主環境。
  • 宏基因組測序技術在病原微生物檢測中的臨床應用與存在的問題及面臨挑戰
    呼吸道標本微生物複雜多樣,宿主轉錄組學將有助於感染的診斷與鑑別診斷。二、影響結果判讀的問題與挑戰受測序靈敏度、取樣及病程變化、實驗室檢測能力及生物信息學分析水平的影響,mNGS陽性或陰性結果不能作為臨床診療決策的唯一依據,即使無菌部位標本的mNGS結果也需結合臨床進行綜合判斷。mNGS測序結果判讀應結合臨床與微生物專業知識。
  • Nature綜述:Rob Knight帶你分析微生物組數據(2020版)
    與早期方法相再比,DNA測序技術的和數據分析發展極大地推動了微生物組學分析的發展,包括物種分類精度、假陽性率控制等方面。本文作者從實驗設計、分子分析技術的選擇、數據分析方法以及多種組學數據的解析等方面,對如何實現最優的微生物組學研究進行探討。
  • 研究思路|三代宏基因組應用案例解讀(第3期)
    隨著新一代高通量測序技術的發展,三代宏基因組測序運用越來越廣泛。美格基因現已推出「三+二」測序服務,三代測序可有效減少部分拼接錯誤,提高基因組組裝準確性和微生物群落鑑定的解析度。以下為大家分享幾篇三代宏基因組應用在腸道樣本中的文獻。
  • 數據的質量控制軟體——fastQC
    編者按目前的高通量測序技術可以在單次運行中產生數億個序列。在分析此序列以得出生物學結論之前,應該執行一些簡單的質量控制檢查,以獲得較好的原始數據,並且確保數據中沒有任何問題或偏差,本文就來介紹一款簡單常用的質量檢測工具fastQC。
  • 菌群數據的統計和可視化方法
    然而微生物組數據分析過程複雜,分析工具眾多,也限制了研究者對該領域的探索。微生物組研究主要分為三步走,之前已經給大家講解了實驗設計與生信分析的方法(從樣本測序數據到生成物種和功能組成表),那麼接下來為大家介紹菌群測序數據下遊分析的統計和可視化方法,包括多樣性分析、物種組成分析、微生物差異分析、相關性分析、網絡分析、機器學習(構建疾病預測模型)、進化分析、來源分析以及常用可視化方法。
  • 利用宏基因組數據組裝巨病毒基因組的優勢與限制
    作者通過將已知巨病毒顆粒摻入到廢水樣品中,通過採取宏基因組的方式嘗試是否能從數據中恢復巨病毒基因組,從而判斷此方式對於巨病毒研究的可靠性和有效性。二、研究結果作者將最近分離得到基因組大小為1.595Mb的Fadolivirus分別按照0病毒顆粒/mL(無)、103病毒顆粒/mL(低)、105病毒顆粒/mL(中)和107病毒顆粒/mL(高)摻入到廢水樣品中,並對每個廢水樣品提取得到的DNA進行宏基因組測序,使用metaSPAdes對數據進行組裝然後使用MetaBAT
  • 2019微生物組—宏基因組分析專題培訓開課啦!
    從Linux和R基礎、宏基因組Linux伺服器分析平臺搭建、Windows常用統計分析軟體、數據分析圖表解讀和實戰、宏基因組有參(Reference-based適合人類、動物腸道等)和無參(De novo適合植物、環境樣本等)標準分析流程、Binning(挖掘單菌基因組)、統計分析以及各類高級分析(多基因連接進化樹、網絡圖繪製和美化、網絡屬性比較、機器學習等),和CNS級圖片修改排版。
  • 微生物組-宏基因組分析(線上/線下同時開課,2021.1)
    《宏基因組分析課程》屬於「擴增子分析的進階」,主要是鳥槍法宏基因組數據分析和Linux下流程使用等。剛入門微生物組分析、想學繪圖、和16S/ITS擴增子分析的同行請先報名《擴增子分析專題研討會》。宏基因組分析流程的搭建——系統、安裝方法和主要軟體伺服器推薦使用Ubuntu系統。最低配置32G內存、8核;推薦256G內存,24線程起;配置越高,分析更快更流暢。沒有軟體的計算機只是一堆廢鐵,沒有宏基因組分析系統的伺服器也和你的數據分析沒有半毛錢關係。想要搭建整套的宏基因組分析流程,網上的資源即零散、又稀少。
  • 最後一周 | 微生物組-宏基因組分析(線上/線下同時開課,2021.1)
    《宏基因組分析課程》屬於「擴增子分析的進階」,主要是鳥槍法宏基因組數據分析和Linux下流程使用等。剛入門微生物組分析、想學繪圖、和16S/ITS擴增子分析的同行請先報名《擴增子分析專題研討會》。宏基因組分析流程的搭建——系統、安裝方法和主要軟體伺服器推薦使用Ubuntu系統。最低配置32G內存、8核;推薦256G內存,24線程起;配置越高,分析更快更流暢。沒有軟體的計算機只是一堆廢鐵,沒有宏基因組分析系統的伺服器也和你的數據分析沒有半毛錢關係。想要搭建整套的宏基因組分析流程,網上的資源即零散、又稀少。
  • NAR:MicrobiomeAnalyst微生物組分析師——統計、可視化和元分析微生物組數據的網頁工具
    本文全文推薦閱讀,不僅是整體微生物組分析方法系統的比較和總結,也是對文章寫方法部分最好的參考資料。摘要廣泛的新一代測序技術,在揭示微生物群體和基因組成上的巨大優勢,帶來了微生物組研究的革命。如何去分析龐大複雜的數據集,對當前微生物組研究充滿挑戰。過去的十幾年裡,強大的計算流程,和穩健的工具已經可以有效的處理原始序列和注釋。目前重點已經轉換至下遊統計分析和功能解析。
  • 如果想了解NGS測序原理,那麼首推
    進行測序前文庫的質量控制及文庫質控結果的troubleshooting,通過本次講座,您將知道理想文庫的條帶分布,能夠識別異常文庫條帶分布並分析其原因,同時了解如何防止異常文庫的出現。通過本次講座,您將了解到RNA-seq的建庫原理、流程、數據分析步驟以及數據結果等相關內容。講座內容適用於所有使用Illumina測序平臺的用戶。查看視頻
  • 16S擴增子分析專題研討論會——背景介紹
    微生物群:採用16S rRNA基因測序的方法鑑定此環境中微生物的種類。- b. 宏基因組:微生物群的基因和基因組,包括質粒、強調群體的遺傳學潛能。- c. 微生物組:微生物群的基因和基因組,以及微生物群的產物與宿主環境。
  • Nature Protocols:空氣微生物宏基因組測序新技術
    2015年4月23日,Nature Protocols在線發表了題為Optimized DNA extraction and metagenomic sequencing of airbornemicrobial communities(空氣微生物DNA提取及宏基因組測序方法
  • 【支持線上直播】微生物組學數據分析與挖掘專題培訓班(3.17-19)
    本次生信培訓班分為四個階段1、掌握必備的基礎知識如微生物組研究現狀與應用、分析流程、方案設計以及Linux的常用操作和軟體安裝等。2、掌握16S以及宏基因組數據分析結果及應用深度剖析16S與宏基因組建庫測序原理及分析結果解讀,深度詮釋各個分析結果。
  • Nature Protocols:整合宏基因組、代謝組和表型分析的的計算框架
    、解讀困難;分析的核心思想是降維:代謝組和微生物組物種通過數據驅動的聚類或分箱法降維;微生物組功能組成基於知識驅動如KEGG層級分類法降維;再篩選與表型顯著相關的數據特徵關聯分析;研究人員可以整理多組學和表型數據,獲得出版級關聯分析結果圖表,快速建立宿主和微生物組與疾病嚴重程度和治療結果間的潛在聯繫;本計算框架由R腳本編寫,可在個人電腦上1小時完成分析。
  • Nature子刊:整合宏基因組、代謝組和表型分析的的計算框架
    、解讀困難;分析的核心思想是降維:代謝組和微生物組物種通過數據驅動的聚類或分箱法降維;微生物組功能組成基於知識驅動如KEGG層級分類法降維;再篩選與表型顯著相關的數據特徵關聯分析;研究人員可以整理多組學和表型數據,獲得出版級關聯分析結果圖表,快速建立宿主和微生物組與疾病嚴重程度和治療結果間的潛在聯繫;本計算框架由R腳本編寫,可在個人電腦上1小時完成分析。
  • 高級轉錄組調控分析和R語言數據可視化第十三期 (線上開課)
    期待和大家的線上線下相識。常規轉錄組是我們最常接觸到的一種高通量測序數據類型,其實驗方法成熟,花費較低,是大部分CNS必備的技術,現在就如做個PCR一樣常見。而且分析思路簡潔清晰,是入門生信,學習生信分析思路和數據可視化的首選。數據分析是相通的,通過一個簡單的課程理解其中的原理,就可以推而廣之,延伸到其它類型的數據分析,如擴增子、宏基因組、單細胞等。