畫說統計 | 單因素方差分析 - 它怎麼和t檢驗相同又不同

2021-12-17 熙成治學

方差分析,這個詞在我大學第一次學習統計學的時候,就覺得它無比高深。究其原因,我是在學完t-檢驗的時候就向統計學「願賭服輸」了。

不過其實t-檢驗,方差分析;協方差分析乃至線性回歸,他們的分析主旨都在於變異的分解。如果我們能平靜的面對彼此,我們和這些統計方法其實也是可以做朋友的。

前文咱們畫過t-檢驗了,它其實是針對變異分解的最簡單工作場景:只有兩個組比較其組間差異。所以我們回顧一下它,單因素方差就親切多了。

比如這個每組只有6例的比較過程:

      t-檢驗意在驗證兩組間平均水平(μ1、μ2)彼此不同(即:μ1≠μ2),按照假設檢驗的一貫思路,原假設就是預期的對立面,故做出如下假設:

 

既然原假設為二者間平均水平相同(μ1=μ2),則首先假定兩樣本系來自同一總體的兩個抽樣。先算出它們的合併平均值。

(必須說明一下,本文中的直方圖都是模式圖哈)

以及每個體相對於總平均值的差值(或者說變異)

為避免正負方向對差值求和的困擾,我們對這個差值求平方(就叫方差好了,這名字是不是很貼切)

再加和,以表示總變異(總離差平方和,SS總)

接下來,既然它們各自屬於自己的樣本組,自然還可以求得各組平均值

以及各樣本相對於自己組平均值的差值

再求來自組內的離差平方和(SS組內)

當然還有一部分變異是由組平均值與總平均值之間的差異帶來的

這就是組間的離差平方和(SS組間)

接下來我們興奮的拼圖(證明)發現,總離差平方和剛好是組內和組間的變異之和,不接受反駁。

於是每個個體它的總變異(相對於總平均值的差值)都可以分解為來自組內變異所解釋的部分和被組間變異所解釋的部分

重點來了:如果兩個組存在本質的不同,那麼更多的變異應該來自組間,相反如果兩個樣本真的就是從一個總體裡得到的兩個抽樣,那麼樣本平均值應該更有機會彼此接近,總變異中的主要成份就應該來自組內變異啦。

所以,針對方差的分析均以總方差的來源分解為起點。通過組間變異與組內變異的相對比例關係構造統計量,這個比值越大那麼他們就越不像是一個總體裡抽出來的了。

     鋪墊到位,以下轉入正題:

針對兩個組的情況如上,如果比較組多於兩個,還要了解組間差異,該怎麼辦?

畫圖不易,咱們就畫三個組吧,道理都是一樣的。

首先來看方差分析的研究研究假設

啟動差別性檢驗,我們的預期一定是想要驗證的是各組間存在不同(各組的平均值們不全相同),那原假設自然要剛好相反,各組平均值都相同,這些參加比較的樣本都是來自同一總體的抽樣

其實整個分析過程和我們已經熟悉的t檢驗就是同一個節奏:

第一步,計算各樣本的合併總平均值

計算每一個體相對於總平均值的差值和差值的平方

獲得總離差平方和(SS總)

第二步:計算各樣本平均值

計算每一個體相對於自己樣本平均值的差值和差值的平方

進一步求和就得到了來自組內的離差平方和(SS組內)

第三步:當然還有變異中由分組所帶來的變異,也就是各樣本平均值與總平均值差值

進而獲得組間離差平方和(SS組間)

 

同理可證:總離差平方和(SS總)就是由組間離差平方(SS組間)和組內離差平方和(SS組內)構成的y

(話說,拼這個圖比七巧板不簡單,此處應該有掌聲)

       畫到這裡,t-檢驗與方差分析對於變異的分解和認識已經,「融為一體」啦。都是將研究數據中的總變異分解為由分組因素帶來的組間變異和未被分組因素所解釋的組內變異。


所以,無論有幾個比較組,變異來源的分析都是這一系列分析的基本思想。方差分析的統計量F均定義為組間離差平方(SS組間)和與組內離差平方(SS組內)和分別除以各自自由度的比值。也就是組間均方(MS組間)和組內均方(MS組內)之比。 

顯然,如果它們就是來自同一總體的抽樣,那組間的差別就會相對少,主要的變異都來自個體之間的組內變異。反之,被分組解釋的變異「比重」越高,他們就越不象是從一個總體裡抽出來的樣本。差異也就有統計學意義啦。


其實和我們在t檢驗裡針對兩個比較組的情況畫過的,是一樣的。

畫到這裡,終於可以理解t-檢驗就是最簡形式的方差分析,那真是」一回事」,它們之間的不同在於參與比較的樣本組數量不同。 我們前文也提到過,他們的比較思想是一樣的,同樣的兩組數據採用t-檢驗和方差分析所獲得的p值是相同的,方差分析中的統計量F剛好等於t檢驗中t值的平方。


最後要說明的是,從方差分析的檢驗假設不難看出,不論是有兩個組還是多個組,我們都把它看作是研究要素(例如地理位置;某治療藥物藥物)處在不同屬性或稱水平(例如平原,高原,盆地地區;藥物的不同劑量組不同劑量)的時候,其分析指標(例如某生理參數;治療效果)的平均值有無不同。此時,我們把這個研究的因素作為我們研究的目標,要獲得的結論是這個研究因素處在不同水平的時候,對分析指標是否存在影響。所以拒絕原假設意味著我們獲得了「各比較組均數不全相同的結論,也就是組間的不同是存在的,這個研究因素對分析指標有作用。但此時我們並不知道,多比較組時,它們兩兩組間是否不同,但在實際工作中我們希望了解的通常是它們兩兩組間的相對關係,這還需要進一步完成兩兩組間比較加以驗證。

這時自然會想到一個問題:既然t檢驗和單因素方差分析是一回事,如果有多於兩個比較組,我們讓它們「捉對廝殺」,多比幾次t檢驗不就把問題解決了麼?為什麼還要做方差分析和兩兩比較呢,簡直「多此一舉」。這個問題我們在前一篇文章中剛剛畫過,這和我們的檢驗水準有關(就是令咱們」刻骨銘心「的0.05)就在下面的原文連結裡。

好了,方差的故事還遠沒有結束,比如要同時研究多個因素作用的時候會是什麼樣子?這當然不能不畫,但還沒想好,希望不用等很久我就能畫完,畫圖不易,還請見諒和耐心。


感謝盧雙好兄弟一如既往的認真審讀和嚴謹指正 !




      

相關焦點

  • 生物統計(4)-單因素方差分析
    方差分析的基本思想在進行科學研究時,有時要按實驗設計將所研究的對象分為多個處理組進行不同的處理,其中處理因素(treatment)至少有兩個水平(level)。這類科研資料的統計分析,是通過所獲得的樣本信息來推斷各處理組均數間的差別是否有統計學意義,即處理是否有影響。
  • SPSS統計:單因素方差分析與單變量方差分析
    在spss統計分析中,方差分析在比較均值菜單和一般線性模型菜單中都可以做,單因素方差分析一般稱為單因素
  • 物理師科研小助手——SPSS統計軟體——連續變量統計推斷(單因素方差分析)
    t檢驗可以解決單樣本和兩樣本均數比較,對於兩組以上樣本進行比較則需要用到單因素方差分析。方差分析的基本理論:將總變異分解為研究因素所致的變異(組間變異)和抽樣誤差所致的變異(組內變異),通過比較不同來源的變異進行統計推斷。
  • R與Python之基本統計分析(五) ---- 單因素方差分析
    圖 2 R 單因素方差分析在 Python 中,我們有兩種方式可以處理單因素方差分析,大家可以看看喜歡哪一種方式。圖 6 R 單因素方差分析Python 中運用 scipy 包中的 f_oneway 函數,是不是會產生一樣的結果呢?這裡要注意的是 f_oneway 中的參數格式和 R 中的aov 是不一樣的。
  • 案例實戰|單因素方差分析詳解
    對於我們這份數據,它很明顯是希望對數據進行差異性分析,而且分類變量的中有3組類別,所以不適合用t檢驗,而應該用單因素方差分析。但使用單因素方差分析方法需要滿足3個前提條件:各樣本需是相互獨立的隨機樣本;整體的殘差滿足均值為0的正態分布;不同組的方差滿足方差齊性;因此,在方差分析之前需要對數據進行下列檢驗:方差同質性檢驗,以保證用於比較的不同總體具有大致相同的方差;第二步:
  • 一文讀懂SPSS單因素方差分析及方差分析(Analysis of Variance, ANOVA)——【醫學和生物統計】
    同一處理不同重複觀測值的差異是由偶然因素影響造成的,即試驗誤差,又稱組內變異;不同處理之間平均數的差異主要是由處理的不同效應造成的,稱處理間變異,又稱組間變異。三、ANOVA方差分析的流程如上圖ANOVA分析的流程,單因素方差分析針對多組均數間的比較。方差分析拒絕H0,只能說明多個樣本總體均數不相等或不全相等。若要得到各組均數間更詳細的信息,應在方差分析的基礎上進行多個樣本均數的兩兩比較。
  • 卡方檢驗、t檢驗和方差分析的區別
    X的個數為一個時,我們稱之為單因素方差;X為2個時則為雙因素方差;X為3個時則稱作三因素方差,依次下去。當X超過1個時,統稱為多因素方差。單因素方差分析,用於分析定類數據與定量數據之間的關係情況。在使用單因素方差分析時,需要每個選項的樣本量大於30,比如男性和女性樣本量分別是100和120,如果出現某個選項樣本量過少時應該首先進行組別合併處理。
  • SPSS實操教程——單因素方差分析
    各組應變量是不是方差齊性?好,他這個研究是單因素的,只是分析了藥物一個因素,包括三種不同的藥物,分為三組。而且各組之間也是相互獨立的。如何驗證是否符合正態分布:分析——描述——探索然後將應變量和分組變量分別選取如下圖所示可選框中,點擊繪製,勾選帶檢驗的正態圖。點擊繼續,確定。輸出結果。
  • 常用統計方法:T檢驗、F檢驗、卡方檢驗
    求解代碼:from  scipy.stats import ttest_ind, levenelevene(data1,data2)#方差齊性檢驗(pvalue>0.05可以認為方差是相等的)stats.ttest_ind(data1,data2)(得出的p值是雙側檢驗的p值) 獨立樣本和配對樣本兩種檢驗的區別在於,配對檢驗是基於對同一樣本中相同個體的多次測量數據的檢驗
  • 【如何寫論文系列之 SPSS數據分析】單因素方差分析
    什麼是單因素方差分析?在解釋單因素方差之前,我們先來了解兩個重要的概念:因素和水平。簡單的說,獨立樣本 t 檢驗用於比較兩個群體的定量數據是否存在差異性,而單因素方差分析是用於比較三個或三個以上群體的定量數據是否存在差異性。例如:比較不同年級的視力是否存在差異比較不同省份學生的批判性思維水平是否存在差異什麼情況下使用單因素方差分析?
  • SPSS分析技術:單因素方差分析結果的模型解讀
    平時我們在進行方差分析時,經常只關注方差分析表,用表中的顯著性概率值p來判斷因素是否對因變量有顯著性影響,然而這只是方差分析結果的一部分內容。SPSS的方差分析過程就是以方差分析模型的形式進行計算和結果輸出的。下面我們將以單因素方差分析為例,介紹單因素方差分析結果的模型函數解讀。幫助大家充分理解方差分析的深層模型含義。
  • Kruskal-Wallis檢驗:單因素方差分析的非參數方法
    3組以上數據均值有無差異,通常我們使用單因素方差分析來完成,前提是3組數據分別來自正態分布總體,且方差齊次,對於正態分布來說,可以不用過於嚴苛
  • T檢驗、Z檢驗與ANOVA方差分析的應用比較
    三者的應用場景有何不同?如果自信能正確的回答上述問題,那麼不必往下看了。否則,往下看。關鍵來了:¢Z檢驗-方差已知的均值檢驗,考慮一個因素的影響,原假設H0:X1=X0(單樣本檢驗)或 H0:X1=X2(雙樣本檢驗)。
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    每一種統計方法的檢定的內容都不相同,同樣是t-檢定,可能是上述的檢定總體中是否存在差異,也同能是檢定總體中的單一值是否等於0或者等於某一個數值。至於F-檢定,方差分析(或譯變異數分析,Analysis of Variance),它的原理大致也是上面說的,但它是透過檢視變量的方差而進行的。
  • 【學習記·第31期】單因素、雙因素方差分析VS協方差分析
    方差分析能夠解決t檢驗、z檢驗所無法解決的問題,對統計學和行為科學的發展起了巨大促進作用,因此方差分析的關鍵步驟檢驗以Fisher的名字命名,以紀念其對統計學所作出的傑出貢獻。方差分析的基本假定 學習方差分析之前我們首先要了解方差分析的假定條件。當前提條件滿足時,自變量均方和誤差均方的比值是呈分布的。
  • R與生物專題 | 第十四講 R-單因素方差分析1
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 生物統計專題 方差齊性檢驗及兩獨立樣本t檢驗
    ,下面一起來回顧一下吧:⊙ 單樣本t檢驗:有原始數據時,直接調用t.test( )函數,可以對數據進行t檢驗;只已知樣本數據的均值和標準差等參數時,需要使用t分布函數。x待檢驗變量,非空數值向量Y同x,默認為nullalternative指定單側檢驗(「greater」、「less」)或者雙側檢驗(「two.sided」)mu總體平均數paired是否使用成對樣本t檢驗var.equal是否具有方差齊性使用範例:Q: 為了了解某一新降血壓藥物的效果,將28名高血壓病患者隨機等分為試驗組和對照組,試驗組採用新降壓藥物
  • 方差檢驗專題及常見問題 - CSDN
    獨立樣本T檢驗和單因素方差分析功能上基本一致,但是獨立樣本T檢驗只能比較兩組選項的差異,比如男性和女性。相對來講,獨立樣本T檢驗在實驗比較時使用頻率更高,尤其是生物、醫學相關領域。針對問卷研究,如果比較的類別為兩組,獨立樣本T檢驗和單因素方差分析均可實現,研究者自行選擇使用即可。三、方差分析1.
  • 方差分析的數據處理和作圖
    (點這裡),而前者運用的是T檢驗,之前我們講到單尾T(點這裡)和雙尾T(點這裡)的作圖,但是T檢驗知識針對兩列數據的均值比較,那如果數據有多列則如何是好?那麼,就要用到今天講到的方差分析。單因素方差分析One-Way ANOVA:t檢驗適用於兩列數據的均值比較。單因素方差分析適用於兩列或更多列數據的均值比較。但對於兩列數據的均值比較,單因素方差分析=等方差假設的雙尾t檢驗。
  • R統計繪圖-混合方差分析[Translation]
    datarium包的anxiety數據集中包括三個時間點(t1、t2和t3)測量的三組不同運動水平 (group,grp1: basal, grp2: moderate和grp3: high)參與者的焦慮評分。雙因素混合方差分析用於評估運動水平和時間是否存在交互作用來解釋焦慮評分。