16s rRNA分析流程和工具的介紹

2021-02-20 基迪奧生物

本文轉載自肖斌科學網博客

16s rRNA早期的分析策略,如FISH(fluorescent in situ hybridization)、DDGE(denaturing gradient gel electrophoresis)、PCR cloning、T-RFLP(terminal restriction fragment length polymorphism)。隨著NGS(next generation sequencing)測序技術的發展,在此主要討論NGS技術在16s rRNA分析中的應用。

16s rRNA NGS數據分析的主要工具有:


16s rRNA NGS數據的分析主要有3個大步驟:

原始數據預處理:包括去接頭,數據過濾,信號雜音去除,嵌合體檢查,數據均一化;

微生物多樣性分析:OTU和OTU代表序列界定,包括OTU和代表序列的挑選,物種分類分配,進化樹分析等;

數據深入及可視化分析:包括alpha和beta多樣性分析,聚類和相關性分析,數據可視化等。


下面詳細說一下整個流程步驟~

16s經常是pooling測序,為此需要將下機數據根據barcode序列信息將數據拆分到各樣品中。QIIME中的「split_libraries.py」 和「split_libraries_fastq.py」實現數據拆分和數據過濾的雙重目的。Mothur利用「Trim.seqs」。不過QIIME和Mothur都不能直接處理sff文件(454下機產生的數據格式),不過可各自利用「process_sff.py」和Sffinfo將sff格式轉換為FASTA和QUAL文件。

數據過濾考慮的參數有:minimum average quality score allowed in a read、maximum number of ambiguous bases allowed、minimum and maximum sequence length、maximum length of homopolymer allowed、maximum mismatches inprimer or barcode allowed、whether to truncate reverse primer,and so on.

16s建庫的pcr過程、測序過程均會導致序列出現錯誤,在分析過程過程中需要有效排除這種錯誤。測序誤差矯正常用的工具有Denoiser(implemented in QIIME)、AmpliconNoise、Acacia、Pre.cluster(implemented in Mothur)。嵌合體查找的工具有ChimeraSlayer、UCHIME、Persus、DECIPHER,ChimeraSlayer、UCHIME、Persus在mothur中均可調用。在這些工具中,存在有待於優化的問題(these different methods often disagree with one another on the list of identified chimeras,probably because of their different mechanisms or algorithms. More efforts are required to evaluate these methods and coordinate their inconsistencies in chimera identification.)


在分析中有個關於古細菌序列的情況需要注意:a very small proportion of archaeal sequences may be generated for 16S rRNA gene amplicon datasets amplified with bacteria-specific primers. These unexpected sequences should be identified after denoising and chimera removal, and are advised to be discarded before subsequent data normalization.

測序深度不理想和不均勻的話會對alpha多樣性及beta多樣性均有影響。Uneven sequencing depth can affect diversity estimates in a single sample(i.e.,alpha diversity),as well as comparisons across different samples(i.e., beta diversity),thus data normalization is required. 對於此問題有兩種處理策略,分別是relative abundance and random sampling(i.e., rarefaction),in addition,z-score亦用於normalization的過程中。但不同的方法均會有缺點。

OTU的界定主要根據序列的一致性進行,(The OTUs are picked based on sequence identity,and various identity cutoffs of 16S rRNA gene have been used for different taxonomic ranks. For example, identity cutoffs recommended by MEGAN are 99 % for species,97 % for genus,95 % for family,and 90 % for order level,respectively)。OTU界定時選擇的工具與算法對後期分析有很大影響(The OTU picking strategy and algorithms have significant effects in the downstream data interpretation. )。

根據分析過程中是否使用資料庫,OTU界定的策略可分為de novo、closed reference和open reference。在OTU界定中有很多聚類的方法,There are many clustering or alignment tools available for OTU picking,such as Uclust,cd-hit,BLAST,mothur,usearch,and prefix/suffix. These tools are implemented in QIIME. Among them,the mothur method contains three clustering algorithms to pick de novo OTUs,namely, nearest neighbor,furthest neighbor,or average neighbor.

當序列聚類好後,代表了一個OTU,接下來就是從這個OTU找到代表序列,一種做法是a representative sequence can be a random,the longest,the most abundant(as default in QIIME), 另一種操作方法是the first sequence in an OTU cluster。 還有一種策略是the distance method in mothur identifies the   sequence with the smallest maximum distance to the other sequences as the representative sequence。

taxonomic assignment的策略有:

word match,如RDP classfier;

best hit;

Lowest Common Ancestor,如MEGAN、SINA Alignment Service。

Phylogenetic relationships一般可以用樹來表示,phylogenetic relationships主要是通過序列比對來實現的,序列比對的工具有ClustalW,MUSCLE,Clustal Omega,Kalign,T-COFFEE,COBLAT和FastTree。目前針對16s rRNA NGS數據的分析工具都可以實現,如MEGA,RAxML,MRBAYES,PhyML,TreeView,Clearcut,FitTree。其中RAxMLand PhyML are the most widely used programs for maximum-likelihood phylogenetic analysis,probably because they are specifically designed and optimized for such purpose。

alpha多樣性有眾多指標可以表示,在mothur中有Shannon,Berger-Parker,Simpson,Q statistic;observed richness,Chao1,ACE,and jackknife。而在QIIME中,有phylogenetic diversity(PD)-whole tree,chao1,and observed species。

還有一種物種豐度的比較方法:rarefaction curve。QIIME中主要用「single_rarefaction.py」、 「multiple_rarefaction.py」,在mothur中主要用「Rarefaction.single」和「Rarefaction.shared」。

beta多樣性計算主要反映不同樣本之間的差異度,several distance metrics,such as Unifrac,Bray-Curtis,Euclidean,Jaccard index,Yue & Clayton,and Morisita-Horn,have been often employed。beta多樣性計算根據是否考慮OTU的相對豐度,可分為定量指數和定性指數。

在Two-sample/group中,多考慮t-test。在其中需要注意,Particularly for independent two-sample t-test, independence and equal variances(which canbe tested by F-test,Levene’s test,etc.)of two populations arerequired. In the case of non-normal distribution of data sets,nonparametric two-sample tests robust to data non-normality,such as Wilcoxon signed-rank test,and Mann-Whitney U testare applicable for significance testing of difference betweengroup medians。

在Multiple-sample/group tests中,用ANOVA。

clustering可以分析樣品之間的親疏關係。classfication的策略用來對樣品進行類別判定。

在樣本的相似度和距離計算完後,可以利用principal component analysis(PCA),principal coordinates analysis(PCoA,also known as metric multidimensional scaling),Nonmetric multidimensional scaling(NMDS),canonical correspondence analysis(CCA),linear discriminantanalysis(LDA),and redundancy analysis(RDA)等構建樣本間的關係。

與基因表達、代謝分子、蛋白等數據一起分析共表達網路或者共表達模式(co-occurrence and co-exclusion patterns)。

參考文獻:JuF, ZhangT.  16s rRNA gene high throughput sequencing data mining of microbiota diversity and interactions, Appl Microbiol Biotechnol. 2015, 99(10):4119-4129

這篇文章還是寫得很不錯的,小編今天分享給大家,有興趣的同學可以複製下方地址查看原文,就醬啦~

http://blog.sciencenet.cn/blog-306699-933182.html

相關焦點

  • 9文聚焦:宏基因組學與微生物組分析方法和工具
    (綜述)Annual Review of Microbiology——[11]① 鳥槍法宏基因組測序改變了我們檢測和表徵複雜微生物群落多樣性和功能的能力;② 本文介紹了宏基因組學的優點及使用當前可用分析工具所能得出的結論,例如種株解析度的物種和功能組成
  • Mentor工具被納入臺積電16納米FinFET製程技術參考流程
    Mentor Graphics公司(納斯達克代碼:MENT)日前宣布它已完成其用於臺積電16納米FinFET製程的數字成套工具。
  • 「競品分析」的理念、流程、方法、工具
    本文將對競品分析的「道、法、術、器」(即競品分析的理念、流程、方法、工具)做系統性介紹,可以為你解答以下關鍵問題:競品分析與市場分析有什麼區別?為什麼要做競品分析?專業有效的競品分析流程是怎樣的?在對競品做分析時,需要重點關注什麼問題?競品分析報告應該怎麼寫?...
  • 數字IC設計全流程介紹
    作者:溫戈連結:https://zhuanlan.zhihu.com/p/85063131數字IC設計流程是每個IC從業者的第一課,無論你是做前端,後端,還是驗證,都需要對晶片的整個設計流程有個基本的了解。本文章主要介紹以下三點內容:一.
  • From 16S rDNA測序 To 宏基因組學研究—應用的策略和主要流程
    在實驗開始之前,規劃樣本結構和數據的獲取以及要使用的分析流程,將會避免一些不必要的麻煩並節省資金成本。  統計分析計劃應考慮到實驗的特點(在人體研究中的納入和排除標準)  樣本採集率(一批或多批受試者招募率)研究對象的描述,假設的驗證,獨立或嵌合在生物信息工具或流程中的分析方法等。
  • 2017年初版Cadence全套新版EDA工具技術特性特點分析
    ——這就是為何Virtuoso包含了Verilog/VHDL以及Digital Implemantion等工具/功能在內。國內晶片設計業似乎大都對此並不是很清楚)! Virtuoso包括了前端到後端的全流程設計功能。與其他工具如多模仿真工具和物理驗證工具等結合在一起使用構成了完整的定製晶片設計流程。
  • 非編碼RNA預測:rRNA
    按照長度劃分大致可以分為兩類:小於50nt的miRNA、siRNA和50-500nt的rRNA、tRNA、snRNA、snoRNA等。對於細菌而言,ncRNA主要指tRNA、rRNA、sRNA三種,其中常見以tRNA和rRNA為主。在往期文章基因組編碼基因預測中介紹了CDS的預測,今天為大家介紹ncRNA的預測。
  • 新工具可定量分析RNA鹼基編輯器活性
    新工具可定量分析RNA鹼基編輯器活性 作者:小柯機器人 發布時間:2019/10/23 16:10:10 以色列特拉維夫大學Eli Eisenberg團隊在研究中取得進展。
  • 從零開始入門 K8s:調度器的調度流程和算法介紹
    導讀:Kubernetes 作為當下最流行的容器自動化運維平臺,以聲明式實現了靈活的容器編排,本文以 v1.16 版本為基礎詳細介紹了 K8s 的基本調度框架、流程,以及主要的過濾器、Score 算法實現等,並介紹了兩種方式用於實現自定義調度能力。
  • 微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組
    關於16S的全流程,我在生信者言的千聊直播間裡和大家做過系列課程分享,ppt可聯繫小秘書Anymore(微信號:genegogo007)獲取,另外,專門針對16S的生信分析,也給大家做過一個詳細的工具單和點評:《9個模塊+40
  • 6篇16S rRNA基因測序+代謝組學聯合項目文章助力您快速發文
    編者按:16S rRNA基因測序是目前主要的高通量測序依賴的腸道微生物研究的方法之一,16S rRNA基因測序測序可以對腸道微生物中的所有菌種進行精確定量,可以回答「樣本當中有哪些微生物,他們具有哪些功能」。然而蛋白質組學和代謝組學等下遊組學研究可以回答「這些功能是否真的發生了,發生的程度是什麼樣的」。
  • 測試後精選的6個標題生成和分析工具推薦!
    公眾號:運營有道理,跨境電商工具、國外SaaS介紹。
  • EEG信號處理與分析常用工具包介紹
    幸運的是,目前國內外研究者開發出了多款EEG信號處理和分析的開源工具包,供大家免費下載使用。這些開源的EEG工具包促進了腦科學領域的蓬勃發展,也使得「技術小白們」經過簡單的學習就可以運用那些高大上的EEG分析技術。這裡,腦之說kervin就對這些常用的EEG信號分析與處理工具包進行簡單的介紹。
  • 16S rDNA測序
    其具有9個高變區域(V1-V9)和10個保守區域,保守區反映細菌種屬間親緣關係,而高變區則反映了物種間的特異性。因此通過分析16S rDNA 可變區的序列即可得到各細菌的分類學特徵,結合高通量測序可研究環境或者臨床樣本中的微生物組成及群落功能。
  • IR Drop分析之Redhawk分析流程
    今天跟大家分享數字IC後端設計實現中IR drop的分析流程以及如何改善IR drop,實現一個robust的晶片。這個topic也是吾愛IC社區的粉絲們提出來的。小編這麼給力,是不是得給點個讚或來個讚賞啥的,呵呵!好了,下面進入今日的主題。1.IR drop的定義IR drop是指在集成電路中電源和地網絡上電壓下降和升高的一種現象。
  • 大數據信息分析的方法與工具
    關係是指事物之間因為時間、秩序、結構、運動等產生的聯繫,包括時間、空間、發生和發展邏輯(包括流程,如工業流程、業務流程等;規律,如生命體的生老病死循環、自然運動規律等)   事物、現象、數據、信息之間的關係十分複雜且多種多樣,但都可歸為不確定關係和確定性關係兩種,不確定性關係主要是相關關係,是定性分析的基礎
  • Clustergrammer——基於網絡的高維生物數據熱圖可視化和分析工具
    Gundersen, Adeeb Rahman, Mark L.Grimes, Klarisa Rikova, Peter Hornbeck, Avi Ma』ayan 發表時間:2017/10/10 數字識別碼:10.1038/sdata.2017.151 原文連結:https://www.nature.com/articles/sdata2017151?
  • 高通量分離培養和鑑定植物根系細菌的實驗流程與分析方法
    ,對微生物組的物種分類和基因組成進行描述。原位分離培養微生物對於揭示微生物在植物生長和健康中的功能非常重要。分離培養的微生物和無菌體系相結合,將揭示根系微生物與植物生長表型之間的因果關係和互作機制,是推動根系微生物組從描述向功能研究發展的重要技術。白洋研究組在Nature Protocols 雜誌撰寫文章詳細介紹高通量分離培養和鑑定植物根系細菌的實驗流程與分析方法。