回歸方程建立及回歸參數的區間估計,但是它們都是建立在假定因變量和自變量線性相關的基礎上。因此,對相關程度進行檢驗也是重要的,相關程度的檢驗方法主要有三種:
相關係數的檢驗
回歸方程的檢驗
回歸係數的檢驗
相關係數的檢驗
變差關係
先來一張圖:
如上圖所示:當給定X0時,Y的實際值與均值的差值就是Y值隨X值的全部變化,稱之為總變差。在總變差中,一部分變差可以用設定的回歸方程解釋,稱之為回歸變差;另一部分變差是回歸方程不能解釋的,稱為剩餘變差,它們之間有下面等式:
如果在總變差Y中,回歸變差所佔的比例越大,則說明Y值隨X值的變化越顯著,或者說X解釋Y的能力越強。反之,回歸變差在總變差中所佔比例越小,則說明Y值隨X值的變化越不顯著,或者說X解釋Y的能力越差。
對於所有數據點,變差之間的關係可以用離差平方和表示:
它們從左到右分別稱為:總離差平方和、剩餘平方和和回歸平方和。
決定係數與相關係數
回歸變差所佔的比例越大,則說明Y值隨X值的變化越顯著。利用回歸平方和與總離差平方和的比值來說明X與Y的相關性,稱為決定係數,即有:
決定係數的開方被稱為相關係數,前面介紹過相關係數r(Excel數據分析工具:協方差與相關係數),計算公式為:
兩者的計算結果是完全一致的。
相關係數與決定係數都能表示變量之間的線性相關程度,但是相關係數計算更簡便且能表示相關關係的方向。
相關係數的檢驗
當已求得r值時,這個r值是真正刻畫了兩個變量之間的線性關係呢,還是僅僅由於樣本的偶然相關而引起的?僅憑相關係數的大小,不能直接說明變量之間是否存在線性相關,通過對r的檢驗,確定樣本是否抽自一個總體相關係數為0的總體,可以解答這個問題。可以證明r的t統計量服從自由度為n-2的t分布:
範例分析
某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的數據,列入下表中,根據這些數據對回歸方程相關係數r在顯著水平0.05做雙側檢驗。
解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;
決定係數為0.9149,相關係數r=0.9565;相關係數r的假設檢驗過程如下:
回歸方程的檢驗
對回歸方程進行顯著性檢驗,就是看自變量從總體上是否對因變量有明顯的影響。有回歸方程y=a+bx,如果b=0,則Y等於一個常數a,X與Y沒有任何關係,故方程不存在。如果b不等於0,則Y隨著X的變化而變化,說明方程有意義。
為了對b=0進行檢驗,需要構造一個檢驗的統計量。可以證明:在一元線性回歸中,當b=0時,有以下結論:
範例分析
某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的數據,列入下表中,根據這些數據對回歸方程在顯著水平0.05做單側檢驗。
解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;
回歸係數的檢驗
上面回歸方程的檢驗是利用b=0時,回歸方程的特性建立F統計量,進而進行假設檢驗。也可以構造另一個統計量t,如下:
利用上述t統計量即可對b進行假設檢驗。
範例分析
再次使用上面的例題:某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的數據,列入表8-1中,根據這些數據對回歸係數b在顯著水平0.05做雙側檢驗。
解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;
三種檢驗方法雖然各有側重,但在一元線性回歸方程的檢驗中,三種檢驗的作用是相同的,因此對於一元線性回歸方程而言,只要選擇一種方法進行檢驗即可。
範例分析
某個工廠生產運營多年,生產與銷售情況比較穩定。老闆想建立產量與單位成本的數量關係模型。現在收集了之前12年的產量與單位成本資料(如下表),根據這些資料說明產量與單位成本的數量關係,並通過產量預測單位成本。
立項分析
工廠運營一項很重要的工作就是成本控制。理論上,產品的產量與單位成本之間有內在聯繫。按照成本性質,產品成本由固定成本(折舊、人員工資等)和變動成本(包材、原輔料和水電氣等)構成,其中的固定成本總額在一定範圍內,與產量無關。當產量變動時,單位產品所負擔的固定費用也會變化,從而使單位成本發生變動。因此,產量變化與單位成本由相關關係,但還需要通過數據驗證。
1、散點圖。因為要分析的是產量對單位成本的影響,所以,將產量作為自變量,單位成本作為因變量(回顧:一元(簡單線性)相關分析與回歸分析)。
從圖形上看,產量與單位成本呈負的線性關係,這與實際是相符的。
2、通過相關係數來驗證這種關係(回顧:一元(簡單線性)回歸方程的假設檢驗)。
相關係數可以通過決定係數計算,也可以通過協方差計算,兩者計算結果一致(回顧:一元(簡單線性)回歸方程的假設檢驗):
從相關係數可見產量與單位成本具有負的高度線性關係,可以建立一元線性回歸方程。
3、建立一元線性回歸方程(回顧:一元(簡單線性)相關分析與回歸分析)
回歸方程表明隨著產量的增加單位產品成本降低。產量每增加100件,單位產品成本下降0.2元。當產量為0時,單位成本是16.45元,是固定成本發生的部分。
4、回歸方程的檢驗(一元(簡單線性)回歸方程的假設檢驗)
回歸方程的檢驗有三種方法(回顧:一元(簡單線性)回歸方程的假設檢驗),這裡用回歸係數檢驗方法,給定顯著水平0.05,進行檢驗。
5、區間估計(回顧:回歸參數的區間估計)
因為上面計算得到的回歸方程是一個點估計,可以在95%的置信水平下,根據樣本數據估計總體單位成本下降的置信區間。
b的雙側95%置信區間
數據說明,在95%的置信水平下,產量每增加100件,單位產品成本下降0.139~0.261元之間。
單位成本的預測
假設某年計算生產2800件產品,預測單位成本的95%置信區間。
將X=28代入回歸方程,Y=10.85,置信區間為:
計算結果說明,在95%的概率下,當產量為2800件時,產品的單位成本在8.85~12.85元之間。
利用回歸方程進行預測,如果X的取值範圍在樣本範圍之內,則預測相對是準確的。如果超出這個範圍,預測則要小心,因為在樣本數據之外變量所形成的關係可能會發生變化,而不再是線性關係。