擴增子-β多樣性分析

2020-12-16 美格基因

一、關於擴增子β多樣性分析

β多樣性(Beta Diversity)是指不同樣品間的生物多樣性的比較,是對不同樣品間的微生物群落構成進行比較。β多樣性分析通常由計算環境樣本間的距離矩陣開始,對群落數據結構進行自然分解,並通過對樣本進行排序(Ordination),從而觀測樣本之間的差異。β多樣性與α多樣性一起構成了總體多樣性或一定環境群落的生物異質性。

β多樣性分析中通常採用以下幾種算法:bray_curtis、euclidean、abund_jaccard、unweighted_unifrac、weighted_unifrac等計算任意兩個樣本間的距離從而獲得樣本距離矩陣,這些算法主要分為兩大類:加權(如Bray-Curtis和Weighted Unifrac)與非加權(如Jaccard和Unweightde Unifrac)。

利用非加權的計算方法,主要比較的是物種的有無,如果兩個群體的β多樣性越小,則說明兩個群體的物種類型越相似。而加權方法,則需要同時考慮物種有無和物種豐度兩個層面。

Bray curtis 距離基於物種的豐度信息計算,是生態學上反應群落之間差異性常用的指標之一。 Weighted Unifrac 距離是一種同時考慮各樣品中微生物的進化關係和物種的相對豐度,計算樣品的距離,而(Unweighted Unifrac)則只考慮物種的有無,忽略物種間的相對豐度差異。Uweighted Unifrac 距離對稀有物種比較敏感,而 Bray curtis 和 Weighted Unifrac 距離則對豐度較高的物種更加敏感。

最後,基於以上的距離矩陣,通過多變量統計學方法主坐標分析(PcoA,Principal co-ordinatesAnalysis),非加權組平均聚類分析(UPGMA, UnweightedPair-groupMethod with Arithmetic Means)等分析,進一步從結果中挖掘各樣品間微生物群落結構的差異和不同分類對樣品間的貢獻差異。

1、樣本距離heatmap圖

β多樣性分析首先需要計算任意兩個樣本間的距離從而獲得樣本距離矩陣,輸入抽平的out_table,選擇合適的距離算法(通常為Bray_Cutis),使用usearch軟體計算任意兩個樣本間的距離,得到相異係數距離矩陣,對矩陣進行層級聚類,可以清楚地看出樣本分支的距離遠近。

圖1 樣本距離heatmap圖

顏色越藍表示樣本間距離越近,相似度越高,越紅則距離越遠。熱圖中對樣本間做了聚類,通過聚類樹亦可看出樣本間的距離關係。

2、PCA分析

PCA(Principal componentanalysis,主成分分析)分析是一種非約束性的數據降維方法,常用於簡化數據集。它基於euclidean(歐式距離),運用方差分解尋找造成樣本間差異的主成分(特徵值)及其貢獻率。PCA分析能夠從原始數據中提取樣本間最主要的差異特徵,並根據這些差異特徵將樣本在新的低維坐標系中依次排序,使得樣本在新坐標系中的距離遠近能在最大程度上還原樣本間的實際差異。在這排序過程中,每一坐標軸對原始數據中樣本差異的解釋比例依次下降。

因此,通常選取PCA分析得到的前二維(PC1和PC2)或三維(PC1、PC2和PC3)數據作圖,可以得知群落樣本的主要分布特徵,從而量化樣本間的差異和相似度。

使用R軟體,基於euclidean相異係數計算結果,對OTU水平的群落組成結構進行PCA分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在PCA圖中的距離越接近。

圖2 PCA分析二維排序圖

註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前兩個主成分PC1和PC2作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。點與點空間距離表示物種組成結構的差異程度。

圖3 PCA分析三維排序圖

註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前三個主成分PC1、PC2和PC3作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。點與點空間距離表示物種組成結構的差異程度。

3、PCOA分析

PCoA(Principal coordinateanalysis,主坐標分析)是一種經典的MDS分析方法(Ramette, 2007),與PCA最大的差別是PCoA可以基於除歐式距離以外的其他距離尺度評價樣本之間的相似度。PCoA通過對樣本距離矩陣作降維分解,從而簡化數據結構,展現樣本在某種特定距離尺度下的自然分布。

使用R軟體,調用除歐式距離以外的其他距離矩陣,對OTU水平的群落組成結構進行PCoA分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在PCoA圖中的距離越接近。

圖4 PCoA分析二維排序圖

註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前兩個主成分PC1和PC2作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。點與點空間距離表示物種組成結構的差異程度。

圖5 PCoA分析三維排序圖

註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前三個主成分PC1、PC2和PC3作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。點與點空間距離表示物種組成結構的差異程度。

4、NMDS分析

NMDS與PCoA類似,也是一種基於樣本距離矩陣的多維尺度分析方法,與PCoA不同的是,NMDS不再依賴特徵根和特徵向量的計算,而是通過對樣本距離進行等級排序,使樣本在低維空間中的排序儘可能符合彼此之間的距離遠近關係(而非確切的距離數值)。因此,NMDS分析不受樣本距離的數值影響,僅考慮彼此之間的大小關係,是非線性的模型,對於結構複雜的數據,排序結果可能更穩定。

使用R軟體,調用任意距離矩陣,對OTU水平的群落組成結構進行NMDS分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在NMDS圖中的距離越接近。

圖6 NMDS分析二維排序圖

註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。Stress是反映NMDS分析結果優劣的指標,通常認為stress<0.2時可用NMDS的二維點圖表示,其圖形有一定的解釋意義;當stress<0.1時,可認為是一個好的排序;當stress<0.05時,則具有很好的代表性。點與點空間距離表示物種組成結構的差異程度。

5、聚類分析

聚類分析主要指層次聚類(Hierarchical clustering)的分析方法,以等級樹的形式展示樣本間的相似度,通過聚類樹的分枝長度衡量聚類效果的好壞。與MDS分析相同,聚類分析可以採用任何距離評價樣本之間的相似度。常用的聚類分析方法包括非加權組平均法(Unweighted pair-groupmethod with arithmetic means,UPGMA)、單一連接法(single-linkage clustering)、完全連接法(complete-linkageclustering)和平均連接法(average-linkage clustering)等。

通常,為了更深入地了解 PCoA 的結果,分別基於 Weighted Unifrac 距離矩陣和 Unweighted Unifrac 距離矩陣,通過 UPGMA(非加權組平均法)方法對樣品進行聚類分析,並將聚類結果與各樣品在門水平上的物種相對豐度整合展示。

圖7 非加權組平均法樣本層次聚類樹

註:左側是UPGMA聚類樹結構,每個分支代表一個樣本,右側是各樣本在門水平的物種/功能相對豐度柱狀圖。圖中左下角的圖例為距離標尺,兩樣本在聚類樹上點分支距離越短,表明它們的群落結構越相似。

以上就是美格基因對於擴增子-β多樣性分析介紹的全部內容了,更多的精彩高分文章都在美格基因公眾號。

您可能還喜歡:乾貨‖擴增子—α多樣性分析

擴增子-環境因子關聯分析

擴增子-物種注釋四部曲

擴增子裡妥妥的C位是它,你想到了嗎?

相關焦點

  • 擴增子統計繪圖1箱線圖:Alpha多樣性
    第二部《擴增子分析解讀》:學習數據分析的基本思路和流程。第三部《擴增子統計繪圖》:對結果進行可視和統計檢驗,達到出版級的圖表結果。《擴增子統計繪圖》系列文章介紹《擴增子統計繪圖》是之前發布的《擴增子圖表解讀》和《擴增子分析解讀》的進階篇,是在大家可以看懂文獻圖表,並能開展標準擴增子分析的基礎上,進行結果的統計與可視化。
  • 群落生態學的 α-、β-、γ-多樣性
    這個值即為群落的多樣性度量指標。據此,生態學家開發了多種多樣的度量指標,比如本文將要介紹的α-多樣性、β-多樣性、和γ-多樣性。(備註:位於倫敦的英國皇家植物園--邱園,是世界上最富盛名的植物園和植物分類學研究中心之一,始建於1759年。感興趣的同學可以自行google)。
  • USEARCH — 最簡單易學的擴增子分析流程(中國總代理)
    USEARCH —— 最簡單易學的擴增子分析流程USEARCH官方英文主頁:http://www.drive5.com/usearch
  • 16S擴增子分析專題研討論會——背景介紹
    首先介紹,我們為什麼要學習生物信息學最後我們總結一下擴增子分析的基本思路。定量分析微生物生態;去複雜化、質控、OUT鑑定、物種分類、進化關係重建、多樣性分析及可視化;它把這個領域打通了,整理了200多個軟體和包,編寫了150+腳本,幾乎可以做本領域的任何分析。內容太多,學習成本太高,新用戶無從選擇。
  • 擴增子圖表解讀2散點圖:組間整體差異分析(Beta多樣性)
    背景介紹(Introduction)宏基因組學宏基因組學目前的主要研究方法包括:16S/ITS/18S擴增子、宏基因組、宏轉錄組和代謝組,其中以擴增子研究最為廣泛。目的意義本系列文章將帶領大家結合較新的16S擴增子相關文獻,來理解宏基因組16S擴增子文章中常用圖表種類、圖中包括的基本信息,以及作者想表達的結果。主要內容本系列文章內容包括:箱線圖、散點圖、熱圖、曼哈頓圖、維恩圖、三元圖和網絡圖等。
  • 青藏高原天然草地土壤真菌多樣性:與植物多樣性和生產力的關係
    本文利用轉錄內間隔2(ITS2)區的Illumina序列對青藏高原60個草地的土壤真菌多樣性、植物多樣性和生產力之間的內在關係進行了研究。當考慮到環境驅動因素和地理距離時,真菌α和β的多樣性分別最好地解釋為植物α和β的多樣性。
  • Methods in Ecology and Evolution | 取樣不一致下的β多樣性計算: CNESS指數評估
    在生態學研究中,度量不同樣本之間的物種組成差異性是β多樣性的常見計算方法。然而,樣本中採集到的物種數往往受到樣本大小的影響。常用的β多樣性指數(如Jaccard, Sørensen等)並不考慮不同樣本大小對計算結果造成的影響,從而造成觀察值與實際值有較大的偏差。
  • 基於擴增子與GeoChip 5.0 聯合分析的噬菌體與原核微生物群落研究
    然後對獲得的序列信息進行一系列的分析。圖2 (A) 噬菌體豐度、 (B) 原核微生物豐度、 (C) 噬菌體α多樣性、(D) 原核微生物α多樣性的時空變化註:BJ: Beijing samples; QD: Qingdao samples; Ningbo-M: samples from Ningbo anaerobic digester maintained
  • 用db-RDA進行微生物環境因子分析-「ggvegan「介紹
    前言在進行微生物多樣性分析時,大家一定會做α,β多樣性分析。通俗來講,α多樣性就是樣本內的物種多樣性。
  • 微生物組-擴增子16S分析和可視化(線上/線下同時開課,2021.4)
    ),為大家提供一條走進生信大門的捷徑、為同行提供一個擴增子分析實戰學習和交流的機會、助力學員真正理解分析原理和完成實戰分析,獨創四段式教學(3天集中授課+自行練習2周+集中講解答疑+上課視頻回看反覆練習),「教—練—答—用」四個環節統一協調,真正實現獨立分析大數據。
  • 微生物組-擴增子16S分析和可視化第10期(線上/線下同時開課,本年最後一期)
    ),為大家提供一條走進生信大門的捷徑、為同行提供一個擴增子分析實戰學習和交流的機會、助力學員真正理解分析原理和完成實戰分析,獨創四段式教學(3天集中授課+自行練習2周+集中講解答疑+上課視頻回看反覆練習),「教—練—答—用」四個環節統一協調,真正實現獨立分析大數據。
  • 第七篇 picante:怎麼玩譜系多樣性
    這裡介紹一下最近重新學習的picante包(picante: Phylocom integration, community analyses, null-models, traits and evolution in R),整合了譜系進化關係、群落結構、功能結構以及零模型的分析方法,是一個綜合性的研究方法。
  • 【科普】種質資源——遺傳多樣性分析
    獲得基因分型之後,我們可以藉助一系列的數據分析軟體對標記基因型進行分析。遺傳多樣性分析軟體主要有:POWERMARKER3.0、Genalex6.2、NTSYSPC2.10e、POPGene32,STRUCUTRE V2.0和CLUMPP2.0等(後續會介紹軟體的使用方法)。
  • 微生物群落多樣性測序與功能分析
    對微生物群落進行測序包括兩類,一類是通過16s rDNA,18s rDNA,ITS區域進行擴增測序分析微生物的群體構成和多樣性;還有一類是宏基因組測序,是不經過分離培養微生物,而對所有微生物DNA進行測序,從而分析微生物群落構成,基因構成,挖掘有應用價值的基因資源。
  • Stegen(基於βNTI和RCbray)的群落構建方法
    為了推斷生態過程,分析框架部分依賴於系統發育更替,即一個群落中發現的OTUs與另一個群落中發現的OTUs之間的進化距離。利用系統發育周轉率來推斷生態過程需要OTUs的最佳生境條件中的「系統發育信號(phylogenetic signal)」,其中親緣關係密切的類群的棲息地偏好比遠親的棲息地偏好更相似。
  • 全球與中國β受體阻滯劑類降壓藥行業市場調研與發展趨勢分析報告...
    《全球與中國β受體阻滯劑類降壓藥行業市場調研與發展趨勢分析報告(2020年)》是專門針對β受體阻滯劑類降壓藥產業的調研報告,採用客觀公正的方式對β受體阻滯劑類降壓藥產業的發展走勢進行深入分析闡述,為客戶進行競爭分析、發展規劃、投資決策提供支持和依據,本項目在運作過程中得到了眾多
  • Nature:研究揭示激發態β2-腎上腺素受體的結構
    該研究報告了與不同激動劑(即BI167107、hydroxybenzyl isoproterenol和內源性激動劑「腎上腺素」)形成複合物的、完全具有活性的人β2-腎上腺素受體(β2AR)的三個結構。β2AR是一種「G-蛋白耦合受體」 (GPCR),後者是很多臨床藥物作為作用目標的普遍存在的膜蛋白。
  • Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)
    ,本文將不會花費大量篇幅介紹這些基礎知識,而是重點帶來對alpha多樣性進行統計學分析並直接生成圖像的方法。Alpha多樣性指數Alpha多樣性用於分析樣品內(Within-community)的微生物群落多樣性,可以反映樣品內的微生物群落的豐富度和多樣性。alpha多樣性指數包括豐富度、多樣性、均一性等。
  • β澱粉樣蛋白原纖維結構揭開
    德國科學家團隊開展的一項神經科學研究,首次報告了從阿爾茨海默病和腦澱粉樣血管病患者腦組織中分離的β澱粉樣蛋白原纖維的結構。這一成果為理解阿爾茨海默病的結構基礎提供了新認識,亦有助於相關藥物開發。相關研究發表於29日的英國《自然·通訊》雜誌上。
  • β-葡聚糖=超級靈芝?
    β-葡聚糖作為中天然存在的膳食纖維/多糖,有許多來源,在穀物、真菌、酵母、細菌和藻類中都能找到β-葡聚糖的身影。經過長期的臨床研究,分析得出β-葡聚糖是優良的免疫激活劑,能夠提高皮膚自身的免疫力,有清除自由基的功效,協助受損組織加速恢復產生細胞素,在敏感肌膚修複方面有獨特的生物活性的功效。那麼,β-葡聚糖提供免疫支持的功效如何?事實上,這取決於β-葡聚糖的結構。