對方差分析(ANOVA)的直觀解釋及計算

2021-01-14 精益質量





本文轉載自:https://zhuanlan.zhihu.com/p/57896471


前言:筆者在網上找資料時感覺網絡上對於ANOVA解釋大多都僅僅停留在如何計算F-statistic,或者如何用R, SAS, Python實現ANOVA,卻鮮有對ANOVA解釋。寫這篇文章就是希望能給ANOVA一個通俗的解釋,讓即便是非數學,非統計出身的同學們也能直觀的理解他。 

本文將主要講單因素方差分析(one-way ANOVA),以後再慢慢講多因素和其他。 

首先來說說我們為什麼要用ANOVA。在做一些實驗時,我們通常會把樣本分成不同的組,給予不同的對待。例如,我們想研究某種藥物在不同劑量下對人們的作用。我們可能會將病人隨機分為同等大小的三組,A組每天吃一片,B組每天吃兩片,C組每天吃三片。因為我們只研究這個藥品計量對病人的影響,所以是單因素分析,如果想要加入別的因素,例如,年齡,就需要用到多因素分析了。在上述實驗中,我們給了三種不同的計量,所以這個藥物計量因素下有三個水平(level)。實驗結束以後,你老闆問你,這三組病人的表現有顯著的區別嗎?這個時候,你就可以使用ANOVA來回答你老闆的問題啦。 

雖然ANOVA叫做方差分析,但是他的目的是檢驗每個組的平均數是否相同

也就是說,ANOVA的零假設(null hypothesis)是  。現在,我們換一個角度考慮這個問題,如果這三組病人的表現並沒有顯著的區別,那他們其實是同一個總體的三次隨機抽樣。反過來說,我們想要分析,是不是有一組病人他們的表現非常與眾不同,讓這組病人不是來自同一個總體。 

在具體說如何理解ANOVA之前,我們先來說ANOVA有哪些假設。如果你的實驗不能滿足ANOVA的假設,那你需要考慮別的分析方法或者改變實驗設計。ANOVA有主要有以下3個假設: 

方差的同質性(homogeneity of variance)。可以理解為每組樣本背後的總體(也叫族群)都有相同的方差; 

族群遵循正態分布; 

每一次抽樣都是獨立的。在我們的例子中,每一個病人只能提供一個數據。對於一些實驗一個樣本需要提供多個數據,有其他相應的ANOVA分析方法。 

假設我們得到的結果是這樣的:



現在,我們終於可以來看方差分析。ANOVA中有兩個重要概念:組間均方(mean squared between, MSB),相當於每個族群相對於總體的方差;組內均方(mean squared error, MSE),也就是每個分布自身的方差。下圖是這兩個概念的一個圖像化的理解:



有了一個直觀的理解以後,我們可以開始說如何計算這兩個變量。簡單來說,MSE是每組方差的平均值。假設我們的數據是這樣:

從圖中可以看出,MSE來自各組的平均數。所以, 

同樣,看圖發現,MSB來自各組平均值的方差。前面說過,如果這三組數據並無顯著差別,我們可以將這個實驗理解為從同一總體中,隨機抽取三組樣本。MSB就是總體的方差估計。我們知道,抽樣分布的平均值方差是總體方差除以樣本大小,即  。假設,A,B,C都有34人,

最後我們需要做的,就是對比組間均方(MSB)和組內均方(MSE)。最簡單的對比方法就是把他們相除,也就是我們常說的F-statistics,即   。

我們來思考一下,這樣的對比會有哪些結果:

第一種,MSB大,MSE小,  較大。這個情況說明,至少有一個分布相對其他分布較遠,且每個分布都非常集中,即每個分布方差較小。所以,我們不能得出三個分布都有相同的均值,於是拒絕  。一個極端的例子和一個更極端的例子:


第二種,MSB小,MSE大,  較小。這個情況有兩種可能,當然也可以是這兩種可能的混合。一是每組的平均值都相對集中,二是每組的方差很大,導致我們無法把每組分開。所以我們無法拒絕零假設。兩個極端的例子:




第三種,MSB  MSE, 較小。這個時候MSB和MSE比較balance,可能是每組的平均值很集中,且每組方差很小;或者每組的方差較大,平均值也都離的不太遠。總之,我們無法很好的剝離出某一組的分布。所以,我們同樣無法拒絕零假設。以下是兩個普通的例子:

以上是對ANOVA的一個總體的理解。

接下來說說具體說說如何通過F-statistics來計算P值,從而量化我們的決定。

我們知道,F分布有兩個重要的參數:  和  ,分別代表分子的自由度和分母的自由度。一般來說,樣本方差估計的自由度是  。在ANOVA中,我們已經知道分子是組間均方,在上述例子中我們有3組數據,所以分子的自由度為2。分母是組內均方,因為每組都有34位病人,分母的自由度為  。現在我們有了所有的數據,大家只需通過查表就可以確定p值了。

很明顯,由於p值很大,所以我們無法拒絕零假設,也就是說ANOVA的結果告訴我們三組平均值相同。

看到這裡,想必大家也明白了,ANOVA就是把方差拆成兩個部分進行對比。為什麼要拆成這兩部分呢?在我們的實驗中,導致每個病人數據不同的原因主要有兩方面:

我們給病人不同的藥物劑量;

病人本身不同,比如年輕的病人代謝速度快,有些病人對這個藥物比較敏感,等等。

第一種不同,我們稱之為組間變量,第二種稱為組內變量。我們主要關心的是組間變量,病人個體的不同或者其他隨機因素導致結果不同我們統統稱之為誤差。

在ANOVA中,組間變量我們稱之為  ,組內變量為  。兩者之和為總變量, 。同樣的道理,我們也可以將自由度分為兩個部分,即  。

我們知道,計算樣本方差的公式為:

這個式子的分子是一個平方和(sum of squares, ss),分母則是自由度(degree of freedom, df),這兩個值相除的也就是均方(mean square, ms)。

所以,F也可以看作:

這也解釋了為什麼,MSB是來自每組平均值的方差,而MSE是來自每組方差的平均值。

寫在最後:在看資料的過程中,我發現統計學教授們太喜歡給同一個東西不同的名字,本文出現的標記都是我在學習的時候習慣用的。不過萬變不離其宗,只要能理解方差分析的原理和邏輯,各種變量叫什麼名字都可以。

長按二維碼關注我們吧


相關焦點

  • 直觀、形象、動態,一文了解無處不在的標準差
    >作者:Fahd Alhazmi機器之心編譯參與:魔王、杜偉本文將對標準差這一概念提供直觀的視覺解釋統計學中最核心的概念之一是:標準差及其與其他統計量(如方差和均值)之間的關係。入門課程中老師常告訴學生「記住公式就行」,但這並非解釋概念的最佳方式。本文將對標準差這一概念提供直觀的視覺解釋。
  • 常用數據分析方法:方差分析及實現!
    就需要試驗, 方差分析就是根據試驗的結果進行分析, 鑑別各個有關因素對試驗結果影響程度的有效方法。而根據涉及到的因素個數的不同, 又可以把方差分析分為單因素方差分析、多因素方差分析等。:anova_res = anova_lm(ols('values~C(groups)', df).fit())anova_res.columns = ['自由度', '平方和', '均方', 'F值', 'P值']anova_res.index = ['因素A', '誤差']anova_res # 這種情況下看p值 >
  • 單因素方差分析(one-way ANOVA)
    這裡,由於僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。 例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。
  • SPSSAU一眾新功能上線:高級公式、綜合得分一鍵計算!
    【分類匯總】即可得到各年級各性別的焦慮得分,通過下拉框可選擇匯總指標包括平均值、樣本量、標準差、求和、最小值、最大值0404 方差不齊時的代替方法「方差分析」中,添加了Welch anova和Brown-Forsythe
  • SPSS超詳細教程:雙因素方差分析(Two-way ANOVA)
    (3) 點擊OK  4、結果解釋  在解釋雙因素方差分析的結果前,我們需要先進行以下分類,再根據分類,採用不同的解釋方法  其實,平衡設計和非平衡設計的區別在於,非平衡設計中自變量對因變量變異的解釋可能存在「重疊」,導致對因變量變異的過度解釋。  在非平衡設計中,我們還需要選擇計算加權邊際均值(weighted marginal means)還是非加權邊際均值(unweighted marginal means)。
  • 【科研加油站】SPSS操作之雙因素方差分析(Two-way ANOVA)
    我們先從下圖中得到一些直觀的認識:受教育程度的簡單主效應就是在不同性別下分析不同受教育程度的作用。我們先從下圖中得到一些直觀的認識:其實,平衡設計和非平衡設計的區別在於,非平衡設計中自變量對因變量變異的解釋可能存在「重疊」,導致對因變量變異的過度解釋。在非平衡設計中,我們還需要選擇計算加權邊際均值(weighted marginal means)還是非加權邊際均值(unweighted marginal means)。
  • 最直觀的方差分析(ANOVA) 術語大全
    方差分析ANOVA詞意:analysis of variance,取單詞的前兩個字母組合而成。2. 方差分析的統計學分析基礎是F分布。提出一個案例來展開概念:為測試兩個治療方法,對焦慮症的治療效果,招募了十個有焦慮症的志願者來做實驗。
  • 圓錐體積計算公式的直觀解釋
    真正的數學既不是為了讓孩子們背誦數學公式,也不是為了一個答案,而是要學會如何思考問題和解釋問題,學會思辨和邏輯推理。但很可惜,我們的數學教育之路嚴重偏離了教育的本質。說得更加極端一點也許就是,我們的數學課上根本就沒有數學!其實,學習數學公式背後的思想起源和思維方式,遠遠比背一個公式精彩百倍。
  • 基於OTUs的距離計算
    ## 簡介生態相似性(Ecological resemblance)以計算樣方之間的群落組成相似程度或相異程度(距離)為基礎,是處理多元生態數據的基本方法之一
  • 方差分析 (ANOVA)-29
    課程目標▶概念性認識「方差分析」和「ANOVA輸出表」▶能夠設計並實施一個「單因素」或「雙因素」實驗▶認識並解釋 交互作用ANOVA – 原假設和備擇假設▶為了確定我們是否應接受或否定零假設,我們須計算在後面的幻燈片中介紹的方差分析表中所用到的檢驗統計量(F-比值)
  • 回歸標準差的計算公式 - CSDN
    (2)標準差標準差項列出了係數估計的標準差.估計係數的協方差矩陣是由以下公式計算得到的:,,(3)回歸標準差回歸標準差是在殘差的方差的估計值基礎之上的一個總結。計算方法如下:(8)AIC準則 計算公式如下:
  • 如何分析第一原理計算結果:電荷密度圖、能帶結構、態密度的分析
    所謂「差分」是指原子組成體系(團簇)之後電荷的重新分布,「二次」是指同一個體系化學成分或者幾何構型改變之後電荷的重新分布,因此通過這種差分圖可以很直觀地看出體系中個原子的成鍵情況。通過電荷聚集(accumulation)/損失(depletion)的具體空間分布,看成鍵的極性強弱;通過某格點附近的電荷分布形狀判斷成鍵的軌道(這個主要是對d軌道的分析,對於s或者p軌道的形狀分析我還沒有見過)。
  • 用什麼方法計算平均值標準差?
    二、描述分析應用場景通過描述性分析計算數據的集中性特徵(平均值)和波動性特徵(標準差值),以了解數據的基本情況。因此在研究中經常是首先進行描述性分析,再次基礎之上再進行深入的分析。描述性分析還可用於查看數據是否有異常情況(最小值或最大值查看),比如數據中出現-2,-3等異常情況。
  • 光電導天線產生太赫茲波的微觀機制理論分析和計算
    ,計算了近遠場的電場強度;採用電磁波時域有限差分方法(FDTD),在Matlab系統軟體中,用C語言編寫程序計算光電導偶極天線的輻射太赫茲波的空間電磁場分布,並在計算機上以偽彩色圖形顯示,這種電磁場的可視化結果為天線的設計和改進提供了直觀的物理依據。
  • SPSS——單因素方差分析
    單因素方差分析(one way anova),是一種較為常用的方差分析手段,主要目的是為了尋找多組數據總變異的真實來源,判斷總變異是來自於組內變異(Vin),還是來自於組間變異(Vbetween)。單因素方差分析的檢驗統計量F=Vbetween/Vin,表示組間變異與組內變異的比值。
  • Stata第九章 多因素方差分析命令與輸出結果說明
    本節STATA命令摘要:anova  觀察變量 分組變量1  分組變量2… 分組變量mtabulate 分組變量1 分組變量2,summarize(觀察變量) 在anova命令中分組變量可以是其它分組變量的乘積表達式,如:分組變量1*分組變量2。
  • 足彩入門教程之凱利方差:簡單計算 理性直觀
    而不同的莊家對不同的賽事有自己不同的認知和資訊掌握程度,當對不同的莊家觀點同步集中進行採樣觀測分析的時候,我們就可以發現莊家這一特殊的群體內部的群體傾向。為此我們會採用傳統數學意義上的平方差分析方法來顯示出某種賠率的離散程度,讓彩民更直觀的看出莊家的傾向,我們採用了賠率體系成熟且成交量佔據博彩市場實際成交總量前列位置的博彩公司的賠率作為取樣目標以確保樣本的代表性。
  • 基於Multisim 10的差動放大電路仿真分析
    差分放大電路利用電路參數的對稱性和負反饋作用,有效地穩定靜態工作點,以放大差模信號抑制共模信號為顯著特徵,廣泛應用於直接耦合電路和測量電路的輸入級。
  • 方差的計算公式 方差和標準差公式等
    方差的計算公式,方差和標準差公式,方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 標準差計算公式
    標準差是測量數據離散程度的指標。 The  symbol for Standard Deviation is σ (the Greek letter sigma).標準差的代碼是希臘字母西格瑪σ標準差的計算公式為OK.