本文轉載自"態昌基因",己獲授權。
在微生態分析中,許多人都很會關注樣本之間的差異,通常也會做一些微群落結構差異 和 組間差異分析 (點擊藍字連結跳轉往期文章),並且用P值來判斷差異是否顯著。那麼,如何評價差異的可靠性呢?
許多文章中都會包含顯著性差異的計算,如通過比較組內差異和組間差異的大小,來判斷組間群落結構的差異是否顯著。那麼,有哪些常用的方法呢?
書上說P值
①犯第Ⅰ類錯誤的真實概率(α為犯第Ⅰ類錯誤的上限控制值);
②在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。
是不是好抽象,不要怕,我們來跟隨獵場大佬的腳步學習一下。
賈衣玫(左)和羅伊人(右)正為爭奪鄭秋冬展開撕*大戰,這時賈提議用一枚硬幣決定誰可以和鄭廝守終身,正面是賈贏,反面是羅贏。羅畢竟是經歷過大風大浪的女子,覺得事情並不簡單,這硬幣會不會有問題?於是,她悄悄地跑到一邊先拋了5次做測試,結果傻眼了,5次全部都是正面朝上......賈的陰謀終於沒有得逞。(為羅姐姐打call)
這裡跟P值有啥關係嘞,且聽小昌認真地分析一下當時羅的心路歷程。
心路歷程(~~)
① 首先羅心地善良,相信賈的為人,認為這個硬幣沒什麼毛病,正反的概率都為0.5,這叫原假設H0 ;
② 羅的樣本就是她5次測試,而5次結果都為正,硬幣似乎有偏向正面的傾向,這叫備擇假設H1 ;
③ 羅想了一下,會不會是我運氣不好呢,有沒有可能錯怪她,這種錯誤叫做第一類錯誤,記為α;
④ 羅又一細想,背脊發涼,萬一硬幣真的有問題,我做測試又沒能發現,豈不是著了她的道,這種錯誤叫做第二類錯誤,記為β;
⑤ 假設硬幣是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是p值;
⑥ 羅想起了費舍爾爺爺規定的 α = 0.05,(這個界限值的意思是說,根據約定俗稱的規定,在假設硬幣沒問題的情況下,得到不正常結果的概率最小為0.05還是可以接受的,可能真的是運氣不好)但是,現在p只有0.03125,這麼小概率的事怎麼可能發生呢???我必須拒絕跟賈打賭,這個硬幣有問題的可能性太大了。
總結一下就是:P<α,拒絕H0;如果P>α,不拒絕H0。
看來必要的統計知識還是很有用噠,哈哈。
一般地,我們在文章中看到除了P值外,還會有個R²。
R²取值在0到1之間,且無單位,其數值大小反映了回歸貢獻的相對程度,即在因變量的總變異中回歸關系所能解釋的百分比。R²是最常用於評價回歸模型優劣程度的指標,R²越大(接近於1),所擬合的回歸方程越優。
最近,小昌在看了一篇文章後,對R²和p值對於模型擬合好壞判斷有了新的認知。大家也可以看看這篇文章是如何「現身說R²和p」的:《Lung Microbiota is Related to Smoking Status and to Development of ARDS in Critically Ill Trauma Patients》。
作者對76名受試者做差異分析,論證吸菸對下呼吸道微生物組成及豐度的影響。在Alpha多樣性分析中並不能顯著區分吸菸者、吸二手菸者和不吸菸者的情況下,通過PERMANOVA分析三組差異,得到了R² = 0.032 , p = 0.0069的結果;又通過PERMANOVA分析吸菸與二手菸、不吸菸者兩組差異,得到了R² = 0.02 , p = 0.003的結果。至此得出結論,吸菸確實會對下呼吸道微生物的組成造成影響。
道理我都懂,雖然p值很小,可是R²也這麼小,該怎麼權衡呢?
小昌認為,p值顯著是前提,不顯著的結論是不可靠的;其次,R²反映的是自變量對因變量方差的解釋比例,顯然,如果影響因變量的全部因素或者「主要因素」、「重要因素」都捕捉到的話,R²就會是比較大的,說明研究模型考慮到了重要的影響因素。如果R²很小,比如案例中小於0.05,那說明研究模型只是抓住了影響因變量的次要因素而已,模型遺漏了其他更重要的因素。
三最後再聊聊常用的Adonis和ANOSIM分析這對好基友。
1.Adonis多因素方差分析
定義:Adonis又稱置換多因素方差分析(permutational MANOVA)或非參數多因素方差分析(nonparametric MANOVA)。它利用半度量(如Bray-Curtis) 或度量距離矩陣(如Euclidean)對總方差進行分解,分析不同分組因素對樣品差異的解釋度,並使用置換檢驗對劃分的統計學意義進行顯著性分析。
我們來看下Adonis的結果長什麼樣:
Df --- 表示自由度; 註:Group --- 表示分組;
SumsOfSqs --- 總方差,又稱離差平方和;
MeanSqs --- 均方(差),即SumsOfSqs/Df;
F.Model ---- F檢驗值;
R² --- 表示不同分組對樣品差異的解釋度,即分組方差與總方差的比值,R²越大表示分組對差異的解釋度越高;
Pr --- 表示P值,小於0.05說明本次檢驗的可性度高。
注意:大家可能在文章中看到最多的是PERMANOVA,PERMANOVA與Adonis十分類似,不過Adonis不像PERMANOVA只支持分類變量,它還支持連續型變量。
2. ANOSIM相似性分析
定義:相似性分析(ANOSIM)是一種非參數檢驗,用來檢驗組間(兩組或多組)的差異是否大於組內差異,從而判斷分組是否有意義。原假設為組間差異大於等於組內差異,首先計算兩兩樣品間的距離,然後將所有距離從小到大進行排序,按以下公式計算R值,之後將樣品進行置換,重新計算R』值,R大於R』的概率即為P值。ANOSIM與NMDS的差異排序是一致的,將兩個分析組合進行顯著性檢驗。
其中,---- 表示組間(Between groups)距離排名的平均值;
---- 表示組內(Within groups)距離排名的平均值;
n ---- 表示樣品總數。
我們來看下ANOSIM的結果長什麼樣:
註:理論上,R值(R statistic)範圍為-1到+1,實際中R值一般從0到1。原假設為組間差異大於等於組內差異,R值接近1表示組間差異越大於組內差異,R值接近0則表示組間和組內沒有明顯差異;此次統計分析的可信度用P-value表示,
P< 0.05表示統計具有顯著性;Number of permutation表示置換次數。
參考資料:
《Lung Microbiota is Related to Smoking Status and to Development of ARDS in Critically Ill Trauma Patients》
http://blog.sina.com.cn/s/blog_d8f8fbd40102x4lu.html
https://mp.weixin.qq.com/s/9UQ-dXbP9wuOZ5B_TjDstg
猜你喜歡寫在後面為促進讀者交流、加速科學問題解決,我們建立了「宏基因組」專業討論群,目前己有800+科研人員加入。參與討論,獲得專業指導、問題解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職務」。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍末解決群內討論。問題不私聊,幫助同行。
學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」