方差分析,這個詞在我大學第一次學習統計學的時候,就覺得它無比高深。究其原因,我是在學完t-檢驗的時候就向統計學「願賭服輸」了。
不過其實t-檢驗,方差分析;協方差分析乃至線性回歸,他們的分析主旨都在於變異的分解。如果我們能平靜的面對彼此,我們和這些統計方法其實也是可以做朋友的。
前文咱們畫過t-檢驗了,它其實是針對變異分解的最簡單工作場景:只有兩個組比較其組間差異。所以我們回顧一下它,單因素方差就親切多了。
比如這個每組只有6例的比較過程:
t-檢驗意在驗證兩組間平均水平(μ1、μ2)彼此不同(即:μ1≠μ2),按照假設檢驗的一貫思路,原假設就是預期的對立面,故做出如下假設:
既然原假設為二者間平均水平相同(μ1=μ2),則首先假定兩樣本系來自同一總體的兩個抽樣。先算出它們的合併平均值。
(必須說明一下,本文中的直方圖都是模式圖哈)
以及每個體相對於總平均值的差值(或者說變異)
為避免正負方向對差值求和的困擾,我們對這個差值求平方(就叫方差好了,這名字是不是很貼切)
再加和,以表示總變異(總離差平方和,SS總)
接下來,既然它們各自屬於自己的樣本組,自然還可以求得各組平均值
以及各樣本相對於自己組平均值的差值
再求來自組內的離差平方和(SS組內)
當然還有一部分變異是由組平均值與總平均值之間的差異帶來的
這就是組間的離差平方和(SS組間)
接下來我們興奮的拼圖(證明)發現,總離差平方和剛好是組內和組間的變異之和,不接受反駁。
於是每個個體它的總變異(相對於總平均值的差值)都可以分解為來自組內變異所解釋的部分和被組間變異所解釋的部分。
重點來了:如果兩個組存在本質的不同,那麼更多的變異應該來自組間,相反如果兩個樣本真的就是從一個總體裡得到的兩個抽樣,那麼樣本平均值應該更有機會彼此接近,總變異中的主要成份就應該來自組內變異啦。
所以,針對方差的分析均以總方差的來源分解為起點。通過組間變異與組內變異的相對比例關係構造統計量,這個比值越大那麼他們就越不像是一個總體裡抽出來的了。
鋪墊到位,以下轉入正題:
針對兩個組的情況如上,如果比較組多於兩個,還要了解組間差異,該怎麼辦?
畫圖不易,咱們就畫三個組吧,道理都是一樣的。
首先來看方差分析的研究研究假設:
啟動差別性檢驗,我們的預期一定是想要驗證的是各組間存在不同(各組的平均值們不全相同),那原假設自然要剛好相反,各組平均值都相同,這些參加比較的樣本都是來自同一總體的抽樣
其實整個分析過程和我們已經熟悉的t檢驗就是同一個節奏:
第一步,計算各樣本的合併總平均值,
計算每一個體相對於總平均值的差值和差值的平方
獲得總離差平方和(SS總)
第二步:計算各樣本平均值,
計算每一個體相對於自己樣本平均值的差值和差值的平方
進一步求和就得到了來自組內的離差平方和(SS組內)
第三步:當然還有變異中由分組所帶來的變異,也就是各樣本平均值與總平均值差值
進而獲得組間離差平方和(SS組間)
同理可證:總離差平方和(SS總)就是由組間離差平方(SS組間)和組內離差平方和(SS組內)構成的y
(話說,拼這個圖比七巧板不簡單,此處應該有掌聲)
畫到這裡,t-檢驗與方差分析對於變異的分解和認識已經,「融為一體」啦。都是將研究數據中的總變異分解為由分組因素帶來的組間變異和未被分組因素所解釋的組內變異。
所以,無論有幾個比較組,變異來源的分析都是這一系列分析的基本思想。方差分析的統計量F均定義為組間離差平方(SS組間)和與組內離差平方(SS組內)和分別除以各自自由度的比值。也就是組間均方(MS組間)和組內均方(MS組內)之比。
顯然,如果它們就是來自同一總體的抽樣,那組間的差別就會相對少,主要的變異都來自個體之間的組內變異。反之,被分組解釋的變異「比重」越高,他們就越不象是從一個總體裡抽出來的樣本。差異也就有統計學意義啦。
其實和我們在t檢驗裡針對兩個比較組的情況畫過的,是一樣的。
畫到這裡,終於可以理解t-檢驗就是最簡形式的方差分析,那真是」一回事」,它們之間的不同在於參與比較的樣本組數量不同。 我們前文也提到過,他們的比較思想是一樣的,同樣的兩組數據採用t-檢驗和方差分析所獲得的p值是相同的,方差分析中的統計量F剛好等於t檢驗中t值的平方。
最後要說明的是,從方差分析的檢驗假設不難看出,不論是有兩個組還是多個組,我們都把它看作是研究要素(例如地理位置;某治療藥物藥物)處在不同屬性或稱水平(例如平原,高原,盆地地區;藥物的不同劑量組不同劑量)的時候,其分析指標(例如某生理參數;治療效果)的平均值有無不同。此時,我們把這個研究的因素作為我們研究的目標,要獲得的結論是這個研究因素處在不同水平的時候,對分析指標是否存在影響。所以拒絕原假設意味著我們獲得了「各比較組均數不全相同的結論,也就是組間的不同是存在的,這個研究因素對分析指標有作用。但此時我們並不知道,多比較組時,它們兩兩組間是否不同,但在實際工作中我們希望了解的通常是它們兩兩組間的相對關係,這還需要進一步完成兩兩組間比較加以驗證。
這時自然會想到一個問題:既然t檢驗和單因素方差分析是一回事,如果有多於兩個比較組,我們讓它們「捉對廝殺」,多比幾次t檢驗不就把問題解決了麼?為什麼還要做方差分析和兩兩比較呢,簡直「多此一舉」。這個問題我們在前一篇文章中剛剛畫過,這和我們的檢驗水準有關(就是令咱們」刻骨銘心「的0.05)就在下面的原文連結裡。
好了,方差的故事還遠沒有結束,比如要同時研究多個因素作用的時候會是什麼樣子?這當然不能不畫,但還沒想好,希望不用等很久我就能畫完,畫圖不易,還請見諒和耐心。
感謝盧雙好兄弟一如既往的認真審讀和嚴謹指正 !