從協方差分析看回歸與方差分析的聯繫

2021-01-08 CDA數據分析師

文章來源: 丁點幫你微信公眾號

作者:丁點helper

無論是單因素還是雙因素方差分析,我們可以發現,它們都有一些共性,比如研究的因變量(如前文的硒含量、滿意度得分),都是定量變量;而自變量,即分組變量(如地區、教育程度、性別)都是定性變量。

現在我們將前文「滿意度得分的例子」繼續延伸:除了我們關注的「教育程度」和「性別」外,還有其他變量會影響人們對生活的滿意度得分嗎?

當然有,比如收入水平!

很顯然,一個人的工資多少完全可能直接決定他目前對生活的滿意度。因此,倘若我們忽視了調查對象的收入情況,僅研究教育程度和性別的影響,這樣就可能造成結果產生偏移,也就是說可能本來沒意義的結果變成了有意義,從而得出誤導性的判斷。

因此,在這種情況下,「收入」這個變量就被稱為「協變量」,可以記為「Z」。納入協變量的方差分析,即稱協方差分析。

一般而言,進行協方差分析的協變量為「定量變量」,比如本例中的「人均月收入」,它一般不是研究者重點研究的變量(本例中重點研究的是教育程度和性別),但因為它會對分析結果造成幹擾,因此在分析過程中必須要將其納入。

所以,協方差分析仍然是建立在方差分析這個基本框架之上的,其思想與單因素以及雙因素方差分析區別也不大,並且在進行分析前數據需要滿足的條件也都需要。

此外,因為加入了一個新的變量——協變量,所以也有些額外了條件需要滿足。我們今天對這些條件做些概述。

1)變量的類型:一般而言,進行協方差分析,因變量是定量的連續變量(如本例的「滿意度得分」);自變量是分類變量(可以加入多個自變量,如本例中的「教育程度」和「性別」);協變量是連續變量(如本例的「收入」)。

2)線性關係:原則上需要協變量與因變量存在線性關係。

3)平行性假設:分組變量的不同水平下,協變量與因變量的回歸直線互相平行。

線性假設和平行性假設初次看起來可能比較難理解,但實際上就是為了排除所謂的交互作用。什麼是交互作用呢?

比如我們想研究「教育程度」與「滿意度得分」的關係,協變量是收入。在不考慮協變量時,發現隨著教育程度的升高,人們的滿意度得分也逐漸升高,比如教育上升一個等級(從「高中畢業」到「大學本科」,或者從「大學本科」升至「研究生及以上」),滿意度得分都會增加5分。

現在加入「收入」這個協變量之後,發現隨著教育程度升高,滿意度得分也升高,但是不同的學歷程度,其升高的幅度不一樣。

比如,加入協變量之後,從「高中畢業」升至「大學本科」,滿意度得分仍增加5分;但如果從「大學本科」升至「研究生及以上」,滿意度得分僅僅增加3分。這個時候,我們就說收入與教育程度產生了交互作用。

產生了交互作用,也就意味著收入對生活滿意度的影響會隨著教育程度的變化而變化(注意這裡的措辭,收入影響的是滿意度和教育程度的相關關係,而不僅僅是其中某一個變量,這是理解交互作用的核心)

這句話也可以反過來說。教育程度對生活滿意度的影響會隨著人們收入不同而不同,用線性回歸的術語來表示就是:不同的教育程度下,收入與滿意度得分的回歸直線斜率(β)不同,因此,它們就不會平行(兩直線平行需要斜率相同)。

所以,想滿足平行線假設,就需要協變量與自變量之間不存在交互作用,這個可以通過專門的檢驗方法來判斷。

看到這裡,你可能會疑惑,明明在講方差分析,怎麼扯到回歸的內容了?

是的,方差分析和回歸分析實際上可以看做是一回事兒,只是兩者側重點略有不同,前者主要是比較差異,後者主要是算影響的效應值(即回歸係數β,這一點我們後面詳述)。

一方面對於多因素或協方差分析的SPSS操作,我們稱作「一般線性模型」;另外在進行回歸分析之後軟體也都會首先彈出一個方差分析的大表,檢驗整個回歸模型是否有意義。

只不過我們在進行回歸分析時,並沒有嚴格區分自變量和協變量,而是將它們一股腦地全部納入回歸模型,然後篩選出最終有意義的變量。

因此,我們現在講的方差分析,其實就是後續回歸分析的一些特例,從回歸的角度理解方差分析,相信你會看的更加明了!

回到我們今天的主題,除了上述三個條件,在進行協方差分析時也需要注意其他條件,比如常說的正態、獨立、方差齊等,處理的方法也和普通的方差分析基本相同,暫不贅述。

相關焦點

  • spss協方差分析
    什麼是協方差分析?協方差分析又稱「共變量分析」,是方差分析的引申和擴大。基本原理是將線性回歸與方差分析結合起來,調整各組平均數和 F 檢驗的實驗誤差項,檢驗兩個或多個調整平均數有無顯著差異,以便控制在實驗中影響實驗效應(因變量)而無法人為控制的協變量(與因變量有密切回歸關係的變量)在方差分析中的影響。好吧,聽不懂。簡單舉個例子來說:有一項研究,想知道男生和女生在跑步後的心率是否有差異。
  • 【學習記·第31期】單因素、雙因素方差分析VS協方差分析
    方差分析能夠解決t檢驗、z檢驗所無法解決的問題,對統計學和行為科學的發展起了巨大促進作用,因此方差分析的關鍵步驟檢驗以Fisher的名字命名,以紀念其對統計學所作出的傑出貢獻。方差分析的基本假定 學習方差分析之前我們首先要了解方差分析的假定條件。當前提條件滿足時,自變量均方和誤差均方的比值是呈分布的。
  • 快速處理數據分析之協方差分析
    在實驗研究裡,還需要更多的考慮潛在的幹擾因素,比如「減肥方式」對於「減肥效果」的影響,年齡很可能是影響因素;同樣的減肥方式,但不同年齡的群體,減肥效果卻不一樣;年齡就屬於幹擾項,因此在分析的時候需要把它納入到考慮範疇中。如果方差分析時需要考慮幹擾項,此時就稱之為協方差分析,而幹擾項也稱著「協變量」。
  • R語言統計篇: 單因素協方差分析
    方差分析(One-way ANCOVA)可以研究一個分類變量對一個連續變量的影響,同時校正其他變量的作用,這些變量也稱為協變量(Covariate)。也是單因素方差分析(One-way ANOVA,R語言統計篇:單因素方差分析)的一個延伸。比方說,我們現在想要研究不同BMI(偏輕,正常與超重)與空腹血糖的關係,同時校正血壓水平。在此研究中,BMI分組是一個分類變量(自變量),血糖是一個連續變量(因變量),血壓則是一個協變量(covariate)。c.
  • 2011年質量專業資格輔導:協方差分析
    (一)協方差分析基本思想  通過上述的分析可以看到,不論是單因素方差分析還是多因素方差分析,控制因素都是可控的,其各個水平可以通過人為的努力得到控制和確定。但在許多實際問題中,有些控制因素很難人為控制,但它們的不同水平確實對觀測變量產生了較為顯著的影響。
  • 最直觀的方差分析(ANOVA) 術語大全
    本文是作者在看《R語言實戰》一書時總結。基礎概念非常清晰明了,有豁然開朗之感。
  • 方差-協方差法VaR計量模型選擇
    VaR的計算方法主要有歷史模擬法、Monte Carlo模擬法、方差—協方差方法(分析方法),這三種方法基本思想不同,各有優缺點。本文所研究的是實踐中最常用的方差—協方差方法。     在方差—協方差方法中,RiskMetrics方法由於其推出時間較早且算法簡單而倍受業界推崇。但隨著現代金融市場的不斷發展,市場風險日益複雜化,從而需要一套更為精確的測量方法來監控投資風險。
  • 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣
    打開APP 協方差矩陣是什麼_協方差矩陣計算公式_如何計算協方差矩陣 發表於 2017-12-05 15:58:43
  • SPSS方差分析方法與實例演練
    在數據分析過程中,為了進行兩組以上均數的比較,往往可以使用方差分析方法。那麼我們一起了解一下方差分析基本概念、 單因素方差分析、 多因素方差分析及協方差分析;同時在spss中的操作演練。協方差分析:定義:協方差分析是將那些很難控制的因素作為協變量,在排除協變量影響的條件下,分析控制變量對觀察變量的影響,從而更加準確地對控制因素進行評價。協方差分析要求協變量應是連續數值型,多個協變量間互相獨立,且與控制變量之間也沒有交互影響。
  • 期望、方差與協方差
    方差期望幫助我們得到了每一局能夠期望得到的平均收益,但是如果每一次都賠錢的話,那麼賭博的樂趣在哪兒?誰還願意去賭博?期望只是表示每一局都會賠錢但是並不是表示一丁點贏錢的機會都沒有。和均值一樣,期望也有它的局限性,並沒有全面體現每一局有可能存在的收益,這時候我們就需要用到方差。
  • 如何看懂SPSS重複測量方差分析的一系列結果
    之前的方差分析是對一個變量的變異進行分解(即所謂的離均差平方和);重複測量的方差分析則是針對多個變量進行的,也可以叫做變異分解,但此時它有了一個新名字,叫方差-協方差矩陣的變異分解。什麼叫協方差?什麼又叫矩陣?
  • 方差分析-最全
    下面只是個目錄,請點擊閱讀原文~方差分析(analysis of variation,簡寫為ANOVA)又稱變異數分析或F檢驗,用於兩個及兩個以上樣本均值差別的顯著性檢驗,從函數的形式看,方差分析和回歸都是廣義線性模型的特例,回歸分析lm()也能作方差分析。其目的是推斷兩組或多組數據的總體均值是否相同,檢驗兩個或多個樣本均值的差異是否有統計學意義。
  • 協方差與相關係數
    協方差協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。在此之前呢,我們來看一下方差。方差總該知道是啥吧?那麼我現在想知道:身高和體重是否存在某種聯繫?一般來說,身高和體重可能是有某種聯繫的,身高較高的人體重一般較大,二者呈正相關性。我們將其繪製到圖像上,可以驗證我們的直覺是正確的:
  • 「spss數據分析系列」方差分析
    上一課我們講的是t檢驗,t檢驗是用於2個類別的均值對比,如果是3分類以及以上的分類的均值對比,則採用方差分析。t檢驗是用的t分布來檢驗時候接受假設,方差分析則用的F分布,如下圖。方差分析的適用條件:1、個樣本的獨立性(指每個單元格內的數據相互獨立):這樣才能保證數據變異的可加性。2、正態性:單元格內的所有總體都是從一個正太總體來面抽出來,這個時候一般由於單元格數量比較少,所以沒法直接分析和觀察,這時候一般採用殘差分析來看。
  • 重複測量方差分析的操作教程及結果解讀
    重複測量方差分析與單變量方差分析思路的不同之處在於:單變量方差分析是對某一變量的方差進行分解,而重複測量數據存在多個時間點的測量結果,並不僅有1個變量,而有多個變量,從而形成多個變量的方差-協方差矩陣。
  • 方差分析(ANOVA)全總結
    方差分析(Analysis of Variance,簡稱ANOVA),又稱「變異數分析, 分散分析,분산분석」,是由R.A.Fisher發明,用於兩個及兩個以上樣本均數差別的顯著性檢驗
  • ML基礎:協方差矩陣!
    協方差來度量兩個隨機變量關係的統計量,它描述的意義是:如果結果為正值,則說明兩者是正相關的,否則是負相關的。需要注意的是,協方差是計算不同特徵之間的統計量,不是不同樣本之間的統計量。協方差基本知識:協方差公式:設n個隨機向量:從公式上看,協方差是兩個變量與自身期望做差再相乘, 然後對乘積取期望。
  • 【案例】SPSS統計分析:多因素方差分析
    多因素方差分析,用於研究一個因變量是否受到多個自變量(也稱為因素)的影響,它檢驗多個因素取值水平的不同組合之間,因變量的均值之間是否存在顯著的差異。多因素方差分析既可以分析單個因素的作用(主效應),也可以分析因素之間的交互作用(交互效應),還可以進行協方差分析,以及各個因素變量與協變量的交互作用。
  • SPSS統計分析:多因素方差分析及案例
    本文來自百度(https://zhuanlan.zhihu.com/p/29559936)多因素方差分析,用於研究一個因變量是否受到多個自變量
  • 【華泰金工林曉明團隊】不同協方差估計方法對比分析
    投資者通常採用樣本協方差作為對真實協方差矩陣的估計,該方法需要估計的參數眾多,誤差較大,為此學者們提出了包括稀疏矩陣、因子模型、壓縮估計在內的一系列改進算法。  樣本協方差是真實協方差的漸進無偏估計,但觀測樣本較少時估計誤差大  多元正態分布假設下,樣本協方差是真實協方差矩陣的漸進、無偏估計量,當觀測樣本足夠長時,樣本協方差會收斂到真實協方差矩陣;只有當觀測長度相比於資產維度不夠時,才需要引入複雜協方差估計方法。