方差分析全解析:以one-way為例

2020-08-31 CDA數據分析師

作者:丁點helper

來源:丁點幫你

今天將以單向(one-way)方差分析為例,具體梳理方差分析的整個過程。

單向(one-way)方差分析,就是大家很熟悉的單因素方差分析(教科書上叫單向), 一般也稱完全隨機設計(completely randomized design)的方差分析,是指將研究對象通過完全隨機化方法,分配至多個不同的處理組,比較多組的效應指標是否存在差別

先看如下案例:

為了解大骨節病與糧食中微量元素硒含量之間的關係,某研究團隊調查了A(渭源縣)、B(青州市)兩個大骨節病區和C(泰山區)、D(長清區)兩個非大骨節病區

每個病區隨機抽取20戶農戶並採集麵粉,檢測麵粉中硒元素含量(μg/kg),試分析這4個地區麵粉中硒含量是否存在差異。具體的數據情況如下表1。

表1 四地區麵粉硒元素含量樣本數據表

我們將上述數據繪製成圖形(如下圖,每個空心小圓圈代表一個樣本值),可以很直觀地看到,這80個樣本值(20*4)各不相同,即它們存在差異。

暫時忽略其他潛在的混雜因素,這種差異的原因可能是由於它們來自不同的地區,但因為四個小組內部的數值也都一一不同,所以,差異也可能僅僅是因為隨機誤差,通俗地理解就是人們說的運氣導致的。

不過,仔細地觀察發現兩個病區的數據好像明顯要低一些,這便提示地區的不同確實有可能造成了目前的差異。

為了驗證我們的猜測,就可以採用方差分析來檢驗:病區與非病區麵粉硒含量的差異是否具有統計學意義。

這裡需要再明確一點的是,我們的目標是比較這四個地區麵粉中硒含量是否有差異,在實際操作中,我們比較的是四個地區硒含量的總體平均數,因此,只要總體平均數有差異,我們就說四地區硒含量有差異。

要進行方差分析,當然,我們首先要進行假設:這四組數據都沒有差異,注意是都沒有!

在這個假設下,我們可以把這四組數據看做是一個大組,即將上述80個數據視為一個整體。對於這個整體,我們可以計算一個平均數和標準差,即表1中72.22和20.00。

可是實際情況下,這80個數據是分屬於四個小組的,因此我們也可以分別計算這四個小組的平均數,即57.11、55.58、85.62、90.55。

如果假設成立(即四組數據都沒有差異),那麼這四個小組的平均數應該是圍繞著整體平均數(即72.22)上下波動的,互相差異應該不是很大。

但現在我們實際獲得的數據卻顯示,小組中最低的均數為57.11、最大的為90.55,直觀上看都與72.22的距離不小,所以我們就會懷疑不能把它們看做一個整體(更嚴謹的表達是,它們不是來自同一個總體),從而拒絕它們相同的假設。

順著這個思路,我們獲得下面這張表格(表2):

表2 方差分析一般結果表

上述表格中涉及的具體的計算過程大家不需要細看,只需大概了解所謂的「離均差平方和(SS)」和「均方(MS)」的計算方法。

然後對照前面我們談到的方差的概念和計算方法,你是否會發現,不明所以的「均方(MS)」其實可以看做是一種特殊類型的「方差」

對照下圖方差的計算公式:左邊是離均差平方和,右邊是自由度。

我們首先看衡量「組內變異」的均方(MS組內),在各個小組內部因為沒有地區差異,所以MS組內的大小大小僅反映了隨機誤差(即運氣)的情況。

而當假設四組總體均數相同時,組間均方(MS組間)的大小也僅僅反映隨機誤差的大小。

如何理解這裡的談到的「隨機誤差」呢?

對於來自同一個總體的兩個或多個樣本的差異我們可以簡單理解為隨機誤差,也就是說,雖然表面上它們不同,但這種不同並沒有意義,也不會反映額外的信息,僅僅是因為運氣導致的。

好比你和別人擲色子比大小,雖然你們獲得的點數不同,但這種不同完全是因為運氣,不能說明任何其他的問題,同時也不會出現一個人總贏、另一個總輸的局面。

但是如果對方悄悄在色子上做了點手腳,知道怎樣擲可以獲得大的點數,這個時候,你們點數的差異就不再僅僅因為運氣,還有色子的原因。

用統計學的語言來說,就是你們的差異不僅包含了隨機誤差,還包含了其他因素。所以,下次如果感覺自己總是在輸,就要看看是不是色子出現了問題。

回到本例,既然MS組間和MS組內這兩者都僅反映隨機誤差的大小,那麼其攜帶的信息量就應該沒有差異(提示:方差的大小決定了數據的信息量)。

由此,在數值上MS組間與MS組內差異不大,所以使用MS組間除以MS組內時,所獲得F值原則上應該在1附近

如果現在我們獲得的數據計算出來的F值比1大很多(對應的P值會很小),則意味著MS組間遠大於MS組內,從而表示,MS組間攜帶了多餘的信息,因此,可以證明MS組間的差異不僅僅包含隨機誤差,還包含其他因素(比如地區不同),結合本例,即意味著四地區間麵粉硒含量不都相同!

將上述數據用SPSS運算後獲得結果如下表3。很顯然,F值超過46,遠大於1(注意,在正式情況下F值並非和1比較,這裡僅為了方便理解),其對應的P值遠小於0.05,由此拒絕零假設,差異有統計學意義,可以認為這四個地區硒含量的總體均數不全相等,也就是說至少有兩個地區總體均數不等。

表3 四地區硒含量方差分析結果表

單向方差分析僅告訴我們這四個總體均數不全相等,但具體哪幾個不等,哪幾個相等呢?這就涉及到兩兩比較了。

相關焦點

  • 方差分析全解析:以one-way為例
    文章來源: 丁點幫你作者:丁點helper昨天的文章,我們對方差分析的整體邏輯進行了初步的介紹,今天將以單向(one-way)方差分析為例,具體梳理方差分析的整個過程。單向(one-way)方差分析,就是大家很熟悉的單因素方差分析(教科書上叫單向), 一般也稱完全隨機設計(completely randomized design)的方差分析,是指將研究對象通過完全隨機化方法,分配至多個不同的處理組,比較多組的效應指標是否存在差別。
  • 教學視頻| 單因素方差分析(one-way ANOVA)及SPSS操作
    單因素方差分析(one-way ANOVA)也稱為F檢驗,是通過對數據變異的分析來推斷兩個或多個樣本均數所代表的總體均數是否有差別的一種統計推斷方法
  • 【實例講解】雙因素方差分析(Two-way Anova)
    (One-way Anova),但是在實際應用中我們可能經常會遇到兩個因素一起研究的情況,這就要用到雙因素方差分析(Two-way Anova)。【實例講解】單因素方差分析(One-way Anova)
  • 單因素方差分析(one-way ANOVA)
    這裡,由於僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。 例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。
  • 最直觀的方差分析(ANOVA) 術語大全
    方差分析ANOVA詞意:analysis of variance,取單詞的前兩個字母組合而成。2. 方差分析的統計學分析基礎是F分布。提出一個案例來展開概念:為測試兩個治療方法,對焦慮症的治療效果,招募了十個有焦慮症的志願者來做實驗。
  • Two-way ANOVA分析
    之前講的t檢驗,單因素方差分析(one-way ANOVA)等,都是單因素水平的比較,t檢驗是比較一個因素兩個水平上的差異:比如不同性別(男、女)之間體重的差異,單因素方差分析則比較的是一個因素多個水平上的差異(>2組):比如不同國家的人口差異,不同民族的年齡差異等。
  • 手把手教你用 Origin 做單次測量數據方差分析
    方差分析(ANOVA)又稱「變異數分析」或「F 檢驗」,用於兩個及兩個以上樣本均數差別的顯著性檢驗。 方差分析是數理統計中非常常見的一種分析方法,它可以研究目標變量的控制因素水平及其影響的顯著性。
  • 統計與數據科學方差分析簡介(以疫情為例)
    如果你有一個大樣本的話,如果你違反了正常情況,那麼繼續進行方差分析是可以的。 方差分析類型s單向方差分析:單因素方差分析只有一個自變量。雙向方差分析:雙向方差(也稱為階乘方差)是指使用兩個自變量的方差。擴大上面的例子,一個雙向的方差分析可以檢查不同年齡組(自變量1)和性別(自變量2)的日冕病例(因變量)的差異。雙向方差分析可以用來檢驗兩個自變量之間的相互作用.交互作用表明,不同類別的自變量之間的差異並不是一致的。
  • SPSS——單因素方差分析
    單因素方差分析(one way anova),是一種較為常用的方差分析手段,主要目的是為了尋找多組數據總變異的真實來源,判斷總變異是來自於組內變異(Vin),還是來自於組間變異(Vbetween)。單因素方差分析的檢驗統計量F=Vbetween/Vin,表示組間變異與組內變異的比值。
  • 方差分析(ANOVA)全總結
    方差分析(Analysis of Variance,簡稱ANOVA),又稱「變異數分析, 分散分析,분산분석」,是由R.A.Fisher發明,用於兩個及兩個以上樣本均數差別的顯著性檢驗
  • SPSS超詳細操作:兩因素多元方差分析(Two-way Manova)
    ,各位夥伴請點擊相應的文章連結查看~~今天,我們再來介紹一種統計方法:兩因素多元方差分析(Two-way Manova)。理想狀態下,在做多元方差分析時,各個因變量之間應該存在一定程度的相關關係,但相關性不能太強,如果相關性太強(高於0.9),則存在多重共線性,多元方差分析的假設則不再滿足。
  • 怎樣用SPSS進行ONE WAY ANOVA分析
    故對於兩組以上的均數比較,必須使用方差分析的方法,當然方差分析方法亦適用於兩組均數的比較。方差分析可調用此過程可完成。我們用如下例題講解分析過程。例題:某工廠檢驗不同品牌機器生產燈泡數量的差異。A、B、C 三種品牌機器的數量分別是6 臺、4 臺和2 臺,日生產燈泡數量見表1,問3 種品牌機器的日生產數量是否具有顯著差異?
  • 【科研加油站】SPSS操作之雙因素方差分析(Two-way ANOVA)
    上一期我們討論了單因素方差分析,本期「科研加油站」欄目,我們一起來探討雙因素方差分析(Two-way ANOVA)。>與其他方差分析一樣,雙因素方差分析對異常值非常敏感。因為沒有可以替代雙因素方差分析的非參數檢驗方法,我們只能對比數據轉換前後的模型,判斷直接採用雙因素方差分析是否合理;(4) 選擇更穩健的雙因素方差模型。
  • SPSS超詳細教程:雙因素方差分析(Two-way ANOVA)
    因為沒有可以替代雙因素方差分析的非參數檢驗方法,我們只能對比數據轉換前後的模型,判斷直接採用雙因素方差分析是否合理;  (4) 選擇更穩健的雙因素方差模型。  3.2.4 假設6:任一分類都具有等方差性  任一分類都具有等方差性是雙因素方差分析的基本假設,可以通過Levene方差齊性檢驗完成。
  • SPSS醫學統計高能方法:單因素方差分析(One Way ANOVA)——【杏花開醫學統計】
    請觀看下方視頻教程(若無法播放,請聯繫客服微信3301888200)案例:某三甲醫院114名準備進行腹腔鏡的患者,按照病情輕重分為輕度組(N=64)、中度組(N=23)和重度組ANOVA運算結果的穩定性,輕微偏態的界定視頻中有詳細講解)▶ K個獨立樣本非參數檢驗(任意一組的血鉀不服從正態分布)    關於正態性檢驗的方法可以觀看視頻中的演示,也可以看杏花開醫學統計公眾號中的正態性檢驗專題。
  • 兩因素方差分析怎麼理解?
    文章來源: 丁點幫你作者:丁點helper看完單因素方差分析,一般的統計學中並不會直接講two-way(雙因素)方差分析,而是講「隨機區組設計的方差分析」,那這兩者有什麼關係嗎?從統計方法的角度來看,隨機區組設計的方差分析其實就屬於兩因素(或多因素)方差分析,一種說法認為,為什麼不直接叫兩因素,是因為不把「區組因素」算作一類真正的「因素」,而重點研究隨機分組因素。我們認為,實際稱雙因素方差分析可能更好理解。不過這裡稱作「隨機區組設計」,也是有其他特別的考慮。
  • T檢驗、Z檢驗與ANOVA方差分析的應用比較
    關鍵來了:¢Z檢驗-方差已知的均值檢驗,考慮一個因素的影響,原假設H0:X1=X0(單樣本檢驗)或 H0:X1=X2(雙樣本檢驗)。¢T檢驗-方差未知的均值檢驗,考慮一個因素的影響,原假設X1=X0(單樣本檢驗)或H0:X1=X2¢ANOVA分析-分析不同因素的影響,用於兩個及兩個以上樣本均值差別的顯著性檢驗。
  • 方差分析 (ANOVA)-29
    單個因素的 ANOVA▶單向方差分析(ANOVA)是比較兩組以上數據均值的差異的統計方法▶假設性檢驗為:▶因素的所有水平的方差假設為常數.雙因素階乘設計▶如同單因素方差分析一樣,總方差可以分為因素的平方和 : SST= SSA+ SSB + SSAB + SSe▶條件是:     ◆SST 是總變異的平方和,
  • spss協方差分析
    什麼是協方差分析?協方差分析又稱「共變量分析」,是方差分析的引申和擴大。基本原理是將線性回歸與方差分析結合起來,調整各組平均數和 F 檢驗的實驗誤差項,檢驗兩個或多個調整平均數有無顯著差異,以便控制在實驗中影響實驗效應(因變量)而無法人為控制的協變量(與因變量有密切回歸關係的變量)在方差分析中的影響。好吧,聽不懂。簡單舉個例子來說:有一項研究,想知道男生和女生在跑步後的心率是否有差異。
  • SPSS超詳細教程:三因素方差分析
    針對這種情況,我們可以使用三因素方差分析(Three-way ANOVA),但需要先滿足6項假設:假設1:因變量唯一,且是連續變量假設2:存在三個自變量,且都是分類變量假設3本例中,一位心臟病風險為「high」、使用「drug A」的女性,在本組中與其他人比較時,有異常低的膽固醇濃度。2.