如何理解mantel檢驗-就知道矩陣和單列變量數據的相關

2021-03-01 微生信生物
寫在前面

在微生物生態學領域,經常用的mantel檢驗,原理來講,很是簡單,就是一個距離矩陣的相關分析而已,但是這層窗戶紙似乎存在很長時間,大家都對這個分析的原理有些忌憚,所以今天就之前的文檔,來告訴大家如何理解mantel並且在一些文章中的運用做一個解釋。

數據框—矩陣—距離矩陣

這三個數據類型類似,但是在R語言中是區分的,我們要做一個了解:

注意,距離矩陣是只有左下方一半的對角陣。

#數據框
data.frame()
as.data.frame()
# 矩陣
matrix()
as.matrix()
# 距離矩陣
dist()
as.dist()

mantel檢驗的原理

mantel檢驗在生態中運用的十分多,尤其是在微生物群落和環境因子之間關係的檢驗上:

mantel檢驗是Mantel’s 在1967年提出來的,基於回歸分析。

使用相似性距離或者相異性距離矩陣來做雙向檢驗。

計算原理

x矩陣中的每個元素與均值的差與y矩陣每個元素與均值的差的乘積與像個矩陣的的標準差之乘積的商。這樣標準化之後整個數值就會在1到-1之間。

function (xdis, ydis, method = "pearson", permutations = 999,
strata = NULL, na.rm = FALSE, parallel = getOption("mc.cores"))
{
EPS <- sqrt(.Machine$double.eps)
xdis <- as.dist(xdis)
ydis <- as.vector(as.dist(ydis))
if (na.rm)
use <- "complete.obs"
else use <- "all.obs"
statistic <- cor(as.vector(xdis), ydis, method = method,
use = use)

········

這裡我們就可以看到首先將兩個矩陣轉換為距離矩陣,然後轉化為向量as.vector,後使用cor函數計算相關性 statistic,這便是我們所得到的相關係數:

library(vegan)
## Is vegetation related to environment?
data(varespec)
data(varechem)
veg.dist <- vegdist(varespec) # Bray-Curtis
env.dist <- vegdist(scale(varechem), "euclid")
mantel(veg.dist, env.dist)
mantel(veg.dist, env.dist, method="spear")

mantel相關大小的區間

這份ppt來自google,大家在後面參考部分可以查看原版全部ppt,並且可下載。相關性R值從-1 (neg.) to 0 (no effect) to +1 (pos.)這從我們之前的公式也基本上推測出來了,標準化到了一個區間,可以用於比較。並且在默認情況下為999次置換檢驗。所以完全可以將mantel檢驗可視化出來,使用矩陣的元素,將mantel檢驗兩個矩陣用做一張相關性圖表,類似於下圖來做展示結果之用。

關於距離矩陣和單列變量的相關性計算

因為mantel相關實際上就是使用的距離矩陣的線性相關分析,所以這裡我們思考一下就一個矩陣和一列變量之間的樣本的相關性。

就矩陣而言,矩陣求取距離即可。

也就是樣本之間的距離。

就單列的變量而言,樣本之間的距離,可以理解為這列數值的數學距離,當然似乎只有這一種距離,所以在文章中也常見的是這種情況。

如此我們便理解,一個矩陣和一個便量是如何出來一個線性相關的圖表的。

這裡我們即可理解微生物系統發育分析中bNTI於環境變量之間相關關係的理解。

reference

協方差的含義:

https://blog.csdn.net/xiao_lxl/article/details/72730000

相關係數和協方差等是什麼關係,如何理解?

https://www.cnblogs.com/renpfly/p/9555959.html

相關係數的檢驗:

https://www.cnblogs.com/jiangleads/p/9022026.html

由此下載mantel檢驗的原理:

http://www.pelagicos.net/MARS6300/lectures/MARS6300_Lecture21_sp2018.pdf

加主編微信 加入群聊

關於微生信生物 你想要的都在這裡

微生信生物

相關焦點

  • SPSS雙變量相關分析如何製作和分析?
    SPSS是強大的數據處理軟體,雙變量相關分析如何使用s p s s 來製作的,趕緊來看看吧。1.首先在s p s s 的分析下拉菜單中找到雙變量選項。2.我們需要分析的是年齡和睡眠時間的關係,將其選入變量框中。
  • 如何理解人們在決策中的「矩陣」運算?
    公式 (1) 其實很明確地將每個人定義為了一個矩陣。我們知道矩陣A包含m x n個變量,其每一行都在充當著轉換的作用,結果c正確與否直接跟這些變量相關。也就是通過不停的矩陣轉化將事情發生的概率逐漸加大,在此過程中,我們唯一要做的就是不斷地提供準確數據。這其實,就是機器學習的所謂訓練的本質。
  • r語言檢驗 是否相關 - CSDN
    , B = 2000)#其中x是由觀測數據構成的向量或者矩陣,y是數據向量(當x為矩陣時,y無效)。由於KS檢驗不需要知道數據的分布情況,在小樣本的統計分析中效果比較好。a=c(1,3,5,7,9);b=c(1,4,6,9,10)cor(a,b)cor.test(a,b) #檢驗相關係數的顯著性cor(iris[1:4]) #相關係數,參數填數據集,則計算相關係數矩陣a1=rnorm(5);b1=rnorm(5);cor(a1,b1);cor.test(a1,b1) #自己模擬生成兩個變量#spearman
  • 等級變量的假設檢驗怎麼做?
    一般而言,等級變量屬於分類變量(如上)的一種,與之相對的就是無序變量。大家生活中經常碰到的「滿意程度」就是一個等級變量。當我們比較兩組人群,比如男女,對某項服務的滿意程度時,就會用到秩和檢驗。這其中的緣由是什麼呢?我們先把「等級變量」好好研究一番。
  • 理解 t 檢驗與 F 檢驗的區別
    通過把所得到的統計檢定值,與統計學家建立了一些隨機變量的概率分布(probability distribution)進行比較,我們可以知道在多少%的機會下會得到目前的結果。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯,我們重複類似實驗,會發現約20個實驗中有一個實驗,我們所研究的變量關聯將等於或強於我們的實驗結果。(這並不是說如果變量間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變量存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)
  • 【Matlab】柵格數據相關分析及顯著性檢驗
    相關分析就是對總體中確實具有聯繫的標誌進行分析,其主體是對總體中具有因果關係標誌的分析。
  • 【方法】相關係數的計算與顯著性檢驗
    、標準差和相關矩陣。樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    順序很重要當自變量與其他自變量或者協變量相關時,沒有明確的方法可以評價自變量對因變量的貢獻。例如,含因子A、B和因變量y的雙因素不平衡因子設計,有三種效應:A和B的主效應,A和B的交互效應。假設你正使用如下表達式對數據進行建模:Y ~ A + B + A : B有三種類型的方法可以分解等式右邊各效應對y所解釋的方差。類型1(序貫型)效應根據表達式中先出現的效應進行調整。A不做調整,B根據A調整,A:B交互項根據A和B調整。
  • Pandas自動進行探索性數據分析,節省可視化和理解數據的時間
    根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。
  • 如何通過adf檢驗判斷單整_adf檢驗 - CSDN
    也就是說,在大樣本和較高單整階數的條件下,隨意檢驗本來獨立的兩個變量的相關係數的顯著性,結論都是肯定的,直接結果是導致不相關的兩個非平穩變量在相關係數的分布呈現倒U和U自行的情況下,被檢驗出兩者具有相關關係。即是說,用非平穩變量進行回歸分析,尤其在大樣本和較高單整階數的情況下,結論全部都是變量之間有相關關係,講實際上不相關的兩個非平穩變量來回歸分析,是一種虛假回歸。
  • 如何衡量解釋變量(自變量)對因變量變化的貢獻程度?
    本文根據筆者在知乎上「如何理解計量經濟學中的variation一詞?」的回答整理。因變量通常受多個解釋變量的影響,如收入會受學歷、行業、工作年限、性別、地域等多種因素的影響,那麼所有因素都必須納入因變量的解釋模型嗎?
  • 生物統計專題:用R進行獨立性檢驗的4種方法
    溫馨提示 :如果感到有些陌生,那就趕快翻開公眾號歷史消息溫習一下~溫故而知新哦~本期內容導讀學會了列聯表的生成,下面便進入了以列聯表為基礎的獨立性檢驗與卡方檢驗,‍主要檢驗變量之間是否獨立或相關。3、CMH檢驗CMH檢驗(Cochran-Mantel-Haenszel卡方檢驗)指的是在兩個名義變量(x,y)在第三個變量(z)的每個水平下是否獨立。
  • 單變量和多變量對基因表達式的預測能力對比
    DESeq2與LASSO對基因表達的預測能力在這篇文章中,我們將比較LASSO、PLS、Random Forest等多變量模型與單變量模型的預測能力,如著名的差異基因表達工具DESeq2以及傳統的Mann-Whitney U檢驗和Spearman相關。使用骨骼肌RNAseq基因表達數據集,我們將展示使用多變量模型構建的預測得分,以優於單變量特徵選擇模型。
  • 檢驗回歸係數的顯著性excel_excel相關係數顯著性檢驗 - CSDN
    通過數據間相關性分析的研究,進一步建立自變量(i=1,2,3,…)與因變量Y之間的回歸函數關係,即回歸分析模型,從而預測數據的發展趨勢。 2、最小二乘法:如何確定參數a和b,則要用最小二乘法來實現。通過最小化誤差的平方和尋找數據的最佳函數匹配,即使得觀測點和估計點的距離的平方和最小。
  • 成為偉大的數據科學家需要掌握的基本數學
    線性代數這是數學的一個基本分支,用來理解機器學習算法如何在數據流上工作。從QQ上的好友推薦,到酷狗上的歌曲推薦,再到用深度轉移學習將你的自拍照轉換成薩爾瓦多·達利式的肖像,所有這些都涉及到矩陣和矩陣代數。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    5.數據分析分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常所用的方法有:老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;數據分析相對於數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論後
  • 資深BUG族吐血整理:矩陣原理的相關指南
    目錄矩陣與矩陣基礎運算矩陣矩陣在數學中國是一個長方陣列排列出來的複數或實數的集合,是一種表示數據在矩陣中的方法,一個m*n的矩陣有m行和n列,其中每一項基於它的行和列都有它唯一的名字。矩陣A通常表示為[A],行數和列數稱為維數。下面是一個3*2維矩陣的例子。在矩陣A中,數字a12是第一行和第二列的數字。因此,a12 = 8。a21是第二行第一列的數字。因此a21 = -5。
  • 回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」
    回歸分析涉及到的名詞和概念很多,但隨著目前一些通用軟體如Excel的統計與數據分析功能加強,對於回歸分析應用於需求預測來說,大部分名詞和概念我們並不需要了解,比如「最小二乘法」、「標準化殘差」等。但有些名詞和概念是回歸分析的基礎,是入門級的概念,我們需要知道。比如本章講的變量和下章要講的相關性。一、什麼是變量。
  • 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣
    打開APP 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣 發表於 2017-12-05 15:58:43