方差分析(ANOVA)原理及其實現

2021-02-08 師兄帶你做科研


方差分析的基本原理


    在一次實驗中,可以得到一系列不同的觀測值。造成觀測值不同的原因可能是由於處理因素不同引起的,即處理效應;也可能是由於實驗過程中偶然性因素的幹擾和測量誤差所致,即誤差效應。反應測量數據變異性的指標有多個,在方差分析中選用方差來度量資料的變異程度。要正確認識觀測值的便宜是由於處理效應還是誤差效應引起的,我們可以分別計算出處理效應的方差以及誤差小於的方差,在一定顯著水平下進行比較,如果二者相差不大,說明實驗處理對觀測值的影響不大;如果差異較大則說明實驗處理對於觀測的影響較大。

    方差分析建立在三個基本假定的基礎上:

一. 正態性

    正態性是指實驗誤差應當是服從正態分布的獨立隨機變量,因為方差分析和i能估計隨機誤差,順序排列或者順序取樣不能作方差分析,但是非正態分布的數據經過適當數據轉換後也可以進行方差分析。

二. 可加性

    可加性是指處理效應與誤差效應是可加的,這樣才能使實驗的總變異分解為各種原因引起的變異,然後確定各變異在總變異中所佔比例,從而去欸的那個處理效應的大小。

三. 方差齊性

    方差齊性是指不同的處理不能影響隨機誤差的方差,如果出現個別組的方差遠大於或者遠小於其他組,要進行數據的剔除或者轉化(比如對數轉換).



03


    要看懂公式的推導需要學過高等數學。方差是離均差平方(SS)(就是方差公式的分子)和除以自由度(方差公式的分母,這裡稱為自由度)的商。要將總變異按照變異來源分解為相應的變異,首先要將總平方和與總自由度分解為各個變異來源的相應部分。


下面將總自由度分解為組間自由度與組內自由度。


得到組間方差與組內方差後,就可以進行F檢驗。

F檢驗的目的是判斷組間方差與組內方差的差異是否在某一指定的置信度下具有顯著性。為什麼要這麼做?因為組間方差體現出了經過不同處理的幾組樣本的差異,代表不同處理的效果;而組內方差體現了同一處理條件下不同重複的差異,代表系統誤差。如果不同的處理效果不能與系統誤差有顯著性差異,那麼就說明不同的處理對於實驗結果沒有顯著影響;反之,則該種處理會引起實驗結果的顯著變化。

F檢驗的結果可以判斷出組間的差異是否明顯,但是不能進行兩兩比較。想要知道哪些組(有多種處理條件的情況下)兩兩之間的差異是顯著的,就需要進行多重比較。這裡介紹兩種多重比較的方法——最小顯著差法(LSR)法與TukeyHSD法。後者TukeyHSD法較為流行。

LSR法的原理是先計算出兩組間達到顯著性差異的最小差數,記為LSD,然後用兩組數據的平均數的差的絕對值與LSD比較,

另一種更受歡迎的方法是TukeyHSD法。

採用Tukey檢驗法時,只要計算一個數值,就能藉以完成所有各對平均值之差的比較。這個數值稱為HSD,由以下公式給出:


q與顯著性水平α,實驗中的組數k以及誤差自由度dfe有關,可通過查表得出,同時還可查表獲得MSE的值,分母nj表示兩組的實驗重複次數。

                                    

04

方差分析的實現


一.one-way anova

適用條件: 只有一個因素(自變量)的處理。比如:不同濃度的試劑處理細胞24h後細胞密度的變化,重複三次實驗。這個實驗只有一個自變量,即試劑的濃度,是組間誤差(不同實際濃度引起的細胞密度差異)的主要來源,環境等因素是組內誤差(不同重複引起的細胞密度差異)的主要來源,細胞密度是因變量。

用R語言實現:

#使用aov()函數

attach(你的數據)

res<-aov(細胞密度~試劑濃度)

summary<-res

detach(你的數據)

#以上得出F檢驗的結果,下面是多重比較,使用TukeyHSD()函數

multires<-TukeyHSD(res)

multires

很簡單的代碼,我就不跑了,所以沒有結果展示哈。

用Prism實現:

No matching非成對檢驗,並且認為方差相等,一般來說只要每組數據大小差的不是很方差都是相近的。

多重比較,選第二個第三個均可,根據你的目的

點擊OK就出現結果了。

F值是10,P值是0.0044,說明不同濃度的試劑對於細胞密度具有顯著性影響。

多重比較的結果告訴我們哪些濃度的試劑對細胞密度的影響具有兩兩間的顯著性差異。


二. two-way anova

適用條件:有兩個因素(自變量)的處理,比如用不同濃度的試劑處理細胞6,12,18,24小時,細胞密度的差異。這裡的自變量有2個,試劑的濃度與時間。

用R語言實現:

attach(你的數據)

res<-aov(細胞密度~濃度*時間)#注意,若2種處理的組數不同,則*前後的2個因素調換位置結果會不同!

detach(你的數據)

multires<-TukeyHSD(res)

multires

用Prism實現:
這樣輸入數據,每一列是不同的處理時間,每一行是不同的試劑濃度

相關焦點

  • 常用數據分析方法:方差分析及實現!
    方差分析是一種常用的數據分析方法,其目的是通過數據分析找出對該事物有顯著影響的因素、各因素之間的交互作用及顯著影響因素的最佳水平等。本文介紹了方差分析的基礎概念,詳細講解了單因素方差分析、雙因素方差分析的原理,並且給出了它們的python實踐代碼。
  • 方差分析(ANOVA)原理
    方差分析(ANOVA)原理微信公眾號:生信小知識關注可了解更多的教程及單細胞知識。
  • 生物統計(4)-單因素方差分析
    常用採用的分析方法就是方差分析(ANOVA,analysis of variance),這是由英國統計學家R.A.Fisher首創,以F命名,故方差分析又稱為F檢驗。設處理因素有g(g>= 2)個不同水平,實驗對象隨機分為g組,分別接受不同水平的幹預,第i(i=1,2,...
  • 方差分析 (ANOVA)-29
    單個因素的 ANOVA▶單向方差分析(ANOVA)是比較兩組以上數據均值的差異的統計方法▶假設性檢驗為:雙因素階乘設計▶如同單因素方差分析一樣,總方差可以分為因素的平方和 : SST= SSA+ SSB + SSAB + SSe▶條件是:     ◆SST 是總變異的平方和,
  • 方差分析(二): ANOVA過程單因素方差分析
    在SAS中進行單因素方差分析可以使用ANOVA過程和GLM過程,本文先對ANOVA過程進行方差分析進行介紹,下面一篇將文章介紹SLM過程進行方差分析。在方差分析中,最簡單的情形為單因素,熟練掌握單因素的方差分析對理解、解決多因素方差問題很有幫助。在SAS中,方差分析可以通過PROC TTEST、PROC ANOVA與PROC GLM實現。
  • 【源碼】fctSPM:使用非參數方法(置換測試)計算從anova1到anova3rm的方差分析和事後檢驗
    使用spm1d軟體包(v.0.4.3),基於非參數方法(置換測試)計算從anova1到anova3rm的方差分析和事後檢驗
  • 乾貨|方差分析(ANOVA)系列之單因子方差分析
    方差分析的概念和作用      方差分析(Analysis of Variance
  • R語言之冗餘分析(RDA)及方差分解(VPA)
    在進行RDA分析前需對包含很多0值的物種數據做一定的轉化。具體的描述與RDA解讀可參考相關書籍或文獻。第一軸長度<3,則進行RDA分析;第一軸長度>4,進行CCA分析;3<第一軸長度<4,兩者皆可。此處<3,進行RDA分析。
  • 數學建模培訓26_數據分析基礎(3)_單因素方差分析
    1.4  Matlab實現Matlab統計工具箱中單因素方差分析的命令是anoval,用法為: [p,c,s]=anova1(X)%比較X各列數據的均值是否相等輸入X各列的元素相同,即各總體的樣本大小相等,稱為均衡數據的方差分析,不均衡時用下面的命令[p,c,s]=anova1(X,group)輸入:X是一個向量,從第一個總體的樣本到第r個總體的樣本依次排列,group是與X有相同長度的向量,表示X中的元素是如何分組的
  • 一文讀懂SPSS單因素方差分析及方差分析(Analysis of Variance, ANOVA)——【醫學和生物統計】
    方差齊性各組樣本具有相同的方差。正態性樣本的總體符合正態分布,偏態分布不適用於方差分析。對偏態分布應考慮用對數轉換、平方根變換、倒數變換、平方根反正弦變換等變量變換方法變為正態或接近正態分布後再進行方差分析。
  • 方差分析(一): 方差分析的基本原理
    本系列文章介紹的方差分析(Analysis of Variance,簡稱ANOVA)就是用於檢驗兩組或者兩組以上樣本的均值是否具備顯著性差異的一種數理統計方法。在方差分析中,我們把要考察其均值是否存在顯著差異的指標變量稱為響應變量,對響應變量取值有影響的其他變量稱為因素。例如,信用卡消費水平和治療效果為響應變量,地區和藥品則為因素。
  • Python數據科學:方差分析
    本次介紹:方差分析:一個多分類分類變量與一個連續變量間的關係。其中分類個數大於兩個,分類變量也可以有多個。當分類變量為多個時,對分類個數不做要求,即可以為二分分類變量。/ 02 / 方差分析方差分析用於檢驗多個樣本的均值是否有顯著差異。探索多於兩個分類的分類變量與連續變量的關係。比如說「淺談數據分析崗」中薪水與教育程度之間的關係,教育程度為一個多分類的分類變量。
  • 最直觀的方差分析(ANOVA) 術語大全
    方差分析ANOVA詞意:analysis of variance,取單詞的前兩個字母組合而成。2. 方差分析的統計學分析基礎是F分布。提出一個案例來展開概念:為測試兩個治療方法,對焦慮症的治療效果,招募了十個有焦慮症的志願者來做實驗。
  • 方差分析常見問題匯總,你想知道的都在這裡
    本文以SPSSAU系統為例,針對方差分析的常見問題進行匯總說明。關於方差分析的分析思路及相關操作可閱讀連結文章:SPSSAU:全流程總結方差分析,只看這篇就夠了。①問題一:t檢驗與方差分析的區別?t檢驗只能進行兩組之間的比較,當分析項X組別超過兩組時,應使用方差分析。②問題二:方差分析是否需要滿足正態性?方差檢驗一般需要進行正態性檢驗,但方差檢驗對數據的正態性的有一定的耐受能力,只要數據近似正態即可接受。如果數據嚴重不正態,則可使用非參數檢驗。
  • R繪圖應用實例:單因素方差分析ANOVA及繪圖
    本文主要是利用日常實驗數據,嘗試用R進行單因素方差分析並繪製柱形圖。
  • 14單因素方差分析:One-Way ANOVA
    正如之前所講,方差分析有個前提條件是因變量需要符合正態分布(正態性),網上方差分析文章很多,但嚴格按照假設前提進行檢驗後再分析的卻很少,或許認為樣本是正態的,或者認為雖然不正態,但對分析結果影響不大,因而很少有人先進行正態分布性檢驗。事實上方差分析的因變量確實需要滿足正態分布特質,如果沒有滿足,則可以使用非參數檢驗進行檢驗。
  • 方差分析分類及SAS實現代碼
    方差分析為多樣本檢驗,其核心為假設檢驗,此外,方差分析還可以做多重比較。方差分析本身是一種假設檢驗,同時也是一種模型,是回歸模型的特例,回歸模型為線性模型,方差分析為一般線性模型。實際應用中方差分析單獨出現的可能性很小,一般在實驗設計場景用的較多,項目中用方差分析去支撐項目的情景基本不會出現。
  • T檢驗、Z檢驗與ANOVA方差分析的應用比較
    關鍵來了:¢Z檢驗-方差已知的均值檢驗,考慮一個因素的影響,原假設H0:X1=X0(單樣本檢驗)或 H0:X1=X2(雙樣本檢驗)。¢T檢驗-方差未知的均值檢驗,考慮一個因素的影響,原假設X1=X0(單樣本檢驗)或H0:X1=X2¢ANOVA分析-分析不同因素的影響,用於兩個及兩個以上樣本均值差別的顯著性檢驗。
  • Graphpad 科學統計:美味的包子和方差分析
    若做的嚴謹,以上便是在T檢驗之前,通過graphpad驗證數據是否符合正態分布的流程。      再次感謝大家對我錯誤的糾正,可能我編的數據不符合正態分布,但是我上一期講得重點是T檢驗的方法,謝謝大家的包容。
  • 只有均值、標準差、樣本量可以進行獨立樣本t檢驗和方差分析嗎?
    在實際工作和學習中,經常有非統計學專業的審稿老師諮詢,沒有原始數據只有樣本量、均值和標準差可以進行兩組獨立樣本t檢驗,方差分析以及組間兩兩比較嗎