一、關於擴增子β多樣性分析
β多樣性(Beta Diversity)是指不同樣品間的生物多樣性的比較,是對不同樣品間的微生物群落構成進行比較。β多樣性分析通常由計算環境樣本間的距離矩陣開始,對群落數據結構進行自然分解,並通過對樣本進行排序(Ordination),從而觀測樣本之間的差異。β多樣性與α多樣性一起構成了總體多樣性或一定環境群落的生物異質性。
β多樣性分析中通常採用以下幾種算法:bray_curtis、euclidean、abund_jaccard、unweighted_unifrac、weighted_unifrac等計算任意兩個樣本間的距離從而獲得樣本距離矩陣,這些算法主要分為兩大類:加權(如Bray-Curtis和Weighted Unifrac)與非加權(如Jaccard和Unweightde Unifrac)。
利用非加權的計算方法,主要比較的是物種的有無,如果兩個群體的β多樣性越小,則說明兩個群體的物種類型越相似。而加權方法,則需要同時考慮物種有無和物種豐度兩個層面。
Bray curtis 距離基於物種的豐度信息計算,是生態學上反應群落之間差異性常用的指標之一。 Weighted Unifrac 距離是一種同時考慮各樣品中微生物的進化關係和物種的相對豐度,計算樣品的距離,而(Unweighted Unifrac)則只考慮物種的有無,忽略物種間的相對豐度差異。Uweighted Unifrac 距離對稀有物種比較敏感,而 Bray curtis 和 Weighted Unifrac 距離則對豐度較高的物種更加敏感。
最後,基於以上的距離矩陣,通過多變量統計學方法主坐標分析(PcoA,Principal co-ordinatesAnalysis),非加權組平均聚類分析(UPGMA, UnweightedPair-groupMethod with Arithmetic Means)等分析,進一步從結果中挖掘各樣品間微生物群落結構的差異和不同分類對樣品間的貢獻差異。
1、樣本距離heatmap圖
β多樣性分析首先需要計算任意兩個樣本間的距離從而獲得樣本距離矩陣,輸入抽平的out_table,選擇合適的距離算法(通常為Bray_Cutis),使用usearch軟體計算任意兩個樣本間的距離,得到相異係數距離矩陣,對矩陣進行層級聚類,可以清楚地看出樣本分支的距離遠近。
顏色越藍表示樣本間距離越近,相似度越高,越紅則距離越遠。熱圖中對樣本間做了聚類,通過聚類樹亦可看出樣本間的距離關係。
2、PCA分析
PCA(Principal componentanalysis,主成分分析)分析是一種非約束性的數據降維方法,常用於簡化數據集。它基於euclidean(歐式距離),運用方差分解尋找造成樣本間差異的主成分(特徵值)及其貢獻率。PCA分析能夠從原始數據中提取樣本間最主要的差異特徵,並根據這些差異特徵將樣本在新的低維坐標系中依次排序,使得樣本在新坐標系中的距離遠近能在最大程度上還原樣本間的實際差異。在這排序過程中,每一坐標軸對原始數據中樣本差異的解釋比例依次下降。
因此,通常選取PCA分析得到的前二維(PC1和PC2)或三維(PC1、PC2和PC3)數據作圖,可以得知群落樣本的主要分布特徵,從而量化樣本間的差異和相似度。
使用R軟體,基於euclidean相異係數計算結果,對OTU水平的群落組成結構進行PCA分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在PCA圖中的距離越接近。
註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前兩個主成分PC1和PC2作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。點與點空間距離表示物種組成結構的差異程度。
註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前三個主成分PC1、PC2和PC3作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。點與點空間距離表示物種組成結構的差異程度。
3、PCOA分析
PCoA(Principal coordinateanalysis,主坐標分析)是一種經典的MDS分析方法(Ramette, 2007),與PCA最大的差別是PCoA可以基於除歐式距離以外的其他距離尺度評價樣本之間的相似度。PCoA通過對樣本距離矩陣作降維分解,從而簡化數據結構,展現樣本在某種特定距離尺度下的自然分布。
使用R軟體,調用除歐式距離以外的其他距離矩陣,對OTU水平的群落組成結構進行PCoA分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在PCoA圖中的距離越接近。
註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前兩個主成分PC1和PC2作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。點與點空間距離表示物種組成結構的差異程度。
註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。選取前三個主成分PC1、PC2和PC3作圖,坐標軸括號中的百分比代表了對應的主成分所能解釋的原始數據中差異的比例(方差貢獻率)。點與點空間距離表示物種組成結構的差異程度。
4、NMDS分析
NMDS與PCoA類似,也是一種基於樣本距離矩陣的多維尺度分析方法,與PCoA不同的是,NMDS不再依賴特徵根和特徵向量的計算,而是通過對樣本距離進行等級排序,使樣本在低維空間中的排序儘可能符合彼此之間的距離遠近關係(而非確切的距離數值)。因此,NMDS分析不受樣本距離的數值影響,僅考慮彼此之間的大小關係,是非線性的模型,對於結構複雜的數據,排序結果可能更穩定。
使用R軟體,調用任意距離矩陣,對OTU水平的群落組成結構進行NMDS分析,並以二維或三維圖像描述樣本間的自然分布特徵。如樣本的物種組成越相似,它們在NMDS圖中的距離越接近。
註:一個點代表一個樣本,不同顏色的點屬於不同樣本(組)。十字交叉線僅作為0點基線存在,起到輔助分析點作用,並無實際意義。橫、縱坐標軸的刻度是相對距離,也無實際意義。Stress是反映NMDS分析結果優劣的指標,通常認為stress<0.2時可用NMDS的二維點圖表示,其圖形有一定的解釋意義;當stress<0.1時,可認為是一個好的排序;當stress<0.05時,則具有很好的代表性。點與點空間距離表示物種組成結構的差異程度。
5、聚類分析
聚類分析主要指層次聚類(Hierarchical clustering)的分析方法,以等級樹的形式展示樣本間的相似度,通過聚類樹的分枝長度衡量聚類效果的好壞。與MDS分析相同,聚類分析可以採用任何距離評價樣本之間的相似度。常用的聚類分析方法包括非加權組平均法(Unweighted pair-groupmethod with arithmetic means,UPGMA)、單一連接法(single-linkage clustering)、完全連接法(complete-linkageclustering)和平均連接法(average-linkage clustering)等。
通常,為了更深入地了解 PCoA 的結果,分別基於 Weighted Unifrac 距離矩陣和 Unweighted Unifrac 距離矩陣,通過 UPGMA(非加權組平均法)方法對樣品進行聚類分析,並將聚類結果與各樣品在門水平上的物種相對豐度整合展示。
註:左側是UPGMA聚類樹結構,每個分支代表一個樣本,右側是各樣本在門水平的物種/功能相對豐度柱狀圖。圖中左下角的圖例為距離標尺,兩樣本在聚類樹上點分支距離越短,表明它們的群落結構越相似。
以上就是美格基因對於擴增子-β多樣性分析介紹的全部內容了,更多的精彩高分文章都在美格基因公眾號。
您可能還喜歡:乾貨‖擴增子—α多樣性分析
擴增子-環境因子關聯分析
擴增子-物種注釋四部曲
擴增子裡妥妥的C位是它,你想到了嗎?