方差分析的基本原理
在一次實驗中,可以得到一系列不同的觀測值。造成觀測值不同的原因可能是由於處理因素不同引起的,即處理效應;也可能是由於實驗過程中偶然性因素的幹擾和測量誤差所致,即誤差效應。反應測量數據變異性的指標有多個,在方差分析中選用方差來度量資料的變異程度。要正確認識觀測值的便宜是由於處理效應還是誤差效應引起的,我們可以分別計算出處理效應的方差以及誤差小於的方差,在一定顯著水平下進行比較,如果二者相差不大,說明實驗處理對觀測值的影響不大;如果差異較大則說明實驗處理對於觀測的影響較大。
方差分析建立在三個基本假定的基礎上:
一. 正態性
正態性是指實驗誤差應當是服從正態分布的獨立隨機變量,因為方差分析和i能估計隨機誤差,順序排列或者順序取樣不能作方差分析,但是非正態分布的數據經過適當數據轉換後也可以進行方差分析。
二. 可加性
可加性是指處理效應與誤差效應是可加的,這樣才能使實驗的總變異分解為各種原因引起的變異,然後確定各變異在總變異中所佔比例,從而去欸的那個處理效應的大小。
三. 方差齊性
方差齊性是指不同的處理不能影響隨機誤差的方差,如果出現個別組的方差遠大於或者遠小於其他組,要進行數據的剔除或者轉化(比如對數轉換).
03
要看懂公式的推導需要學過高等數學。方差是離均差平方(SS)(就是方差公式的分子)和除以自由度(方差公式的分母,這裡稱為自由度)的商。要將總變異按照變異來源分解為相應的變異,首先要將總平方和與總自由度分解為各個變異來源的相應部分。
下面將總自由度分解為組間自由度與組內自由度。
得到組間方差與組內方差後,就可以進行F檢驗。
F檢驗的目的是判斷組間方差與組內方差的差異是否在某一指定的置信度下具有顯著性。為什麼要這麼做?因為組間方差體現出了經過不同處理的幾組樣本的差異,代表不同處理的效果;而組內方差體現了同一處理條件下不同重複的差異,代表系統誤差。如果不同的處理效果不能與系統誤差有顯著性差異,那麼就說明不同的處理對於實驗結果沒有顯著影響;反之,則該種處理會引起實驗結果的顯著變化。
F檢驗的結果可以判斷出組間的差異是否明顯,但是不能進行兩兩比較。想要知道哪些組(有多種處理條件的情況下)兩兩之間的差異是顯著的,就需要進行多重比較。這裡介紹兩種多重比較的方法——最小顯著差法(LSR)法與TukeyHSD法。後者TukeyHSD法較為流行。
LSR法的原理是先計算出兩組間達到顯著性差異的最小差數,記為LSD,然後用兩組數據的平均數的差的絕對值與LSD比較,
另一種更受歡迎的方法是TukeyHSD法。
採用Tukey檢驗法時,只要計算一個數值,就能藉以完成所有各對平均值之差的比較。這個數值稱為HSD,由以下公式給出:
q與顯著性水平α,實驗中的組數k以及誤差自由度dfe有關,可通過查表得出,同時還可查表獲得MSE的值,分母nj表示兩組的實驗重複次數。
04
方差分析的實現
一.one-way anova
適用條件: 只有一個因素(自變量)的處理。比如:不同濃度的試劑處理細胞24h後細胞密度的變化,重複三次實驗。這個實驗只有一個自變量,即試劑的濃度,是組間誤差(不同實際濃度引起的細胞密度差異)的主要來源,環境等因素是組內誤差(不同重複引起的細胞密度差異)的主要來源,細胞密度是因變量。
用R語言實現:
#使用aov()函數
attach(你的數據)
res<-aov(細胞密度~試劑濃度)
summary<-res
detach(你的數據)
#以上得出F檢驗的結果,下面是多重比較,使用TukeyHSD()函數
multires<-TukeyHSD(res)
multires
很簡單的代碼,我就不跑了,所以沒有結果展示哈。
用Prism實現:
No matching非成對檢驗,並且認為方差相等,一般來說只要每組數據大小差的不是很方差都是相近的。
多重比較,選第二個第三個均可,根據你的目的
點擊OK就出現結果了。
F值是10,P值是0.0044,說明不同濃度的試劑對於細胞密度具有顯著性影響。
多重比較的結果告訴我們哪些濃度的試劑對細胞密度的影響具有兩兩間的顯著性差異。
二. two-way anova
適用條件:有兩個因素(自變量)的處理,比如用不同濃度的試劑處理細胞6,12,18,24小時,細胞密度的差異。這裡的自變量有2個,試劑的濃度與時間。
用R語言實現:
attach(你的數據)
res<-aov(細胞密度~濃度*時間)#注意,若2種處理的組數不同,則*前後的2個因素調換位置結果會不同!
detach(你的數據)
multires<-TukeyHSD(res)
multires
用Prism實現:
這樣輸入數據,每一列是不同的處理時間,每一行是不同的試劑濃度