簡單線性回歸方程為:Yi=α+βXi+εi,α為截距,表示當自變量X為0時,因變量Y的平均估計值;回歸係數β表示當X增加或減少1個單位時,Y的平均估計值改變量。
當自變量取自然對數時,這種對β的直觀解釋依然可行,表示當X增加或減少1個自然對數單位時,Y的平均估計值()改變量;當因變量取自然對數時,β表示當X增加或減少1個單位時,自然對數改變量;當自變量和因變量都取自然對數時,β表示當X增加或減少1個自然對數單位時,自然對數改變量。
將回歸係數β直接解釋為自然對數改變量固然可以,但有時我們在對自變量和/或因變量進行對數轉化後,仍需要用原X和Y來解釋回歸方程和回歸係數,而非用對數單位的形式。這時不能簡單地將X和Y取反對數,而是用百分比改變(percentage changes)來解釋。下面結合實例1~3,分別對linear-log轉換、log-linear轉換和log-log轉換(ln=loge)進行詳盡的闡述。
(一)linear-log轉換
回歸方程為=a+bloge(Xi),b可直接解釋為loge(X)增加或減少1個單位時,的改變量。例1資料擬合方程,SAS語句為:
PROC REG DATA=example1;MODEL UPP=lnPCGRP;RUN;
擬合的方程為:UPP=-23.341+52.277lnPCGRP,R2=0.891,R2adj=0.889。
回歸方程的方差分析,P<0.001,自變量lnPCGRP回歸係數的顯著性檢驗,P<0.001。
截距項為-23.341,是指lnPCGRP=0時,即PCGRP=1,城鎮人口比重UPP的平均估計值;實際上,與大部分線性回歸一樣,截距項無實際意義。回歸係數b為正值,解釋為:人均地區生產總值自然對數每增加1個單位,城鎮人口比重將平均增加52.277%。
現在來看如何根據PCGRP的改變,而不是loge(PCGRP)的改變來解釋回歸方程。將loge(PCGRP)加上1,即loge(PCGRP)增加1個單位,loge(PCGRP)+1 =loge(PCGRP)+loge(e)= loge(PCGRP×e),loge(PCGRP)增加1個單位意味著PCGRP乘e(e=2.71828)。用百分比改變表示為:×100%=(2.718 28-1) × 100%=171.828%,即PCGRP增加171.828%。根據PCGRP的改變可以解釋為:當PCGRP乘以e或PCGRP增加171.828%時,UPP的平均估計值改變量為b,b為正值,即增加52.277%。可以推導如下:
當X取X1時,loge(X1);當X取X2時,loge(X2);當loge(X)增加1個單位時,記為loge(X2)-loge(X1)=1,則loge(X2)-loge(X1)=loge(e),或loge()=loge(e),可知X2=e×X1,=e, X2是X1的2.71828倍。X2和X1的關係,可以用百分比改變表示:×100%=(2.71828-1)×100%=171.828%。即當loge(X)增加1個單位時,X不能直接表示出其增加量,改用百分比改變表示,則X增加171.828%。
一般情況下,當X增加p%時,Y的平均估計值改變量,可寫為,式中當X增加10%時(X乘以1.1),Y的平均估計值改變量為;當X增加1%時(X×1.01),Y的平均估計值改變量為。
例1資料,當PCGRP增加10%時,UPP的平均估計值改變量為:0.095 31×52.277%=4.982 52%;當PCGRP增加1%時,UPP的平均估計值改變量為:0.009 95×52.277%=0.52016%。注意:這裡b為正值,表示UPP的平均估計值增加0.520 16%;如果b為負值,表示UPP的平均估計值減少0.520 16%。
當p很小時,如p≤1,。本例,當PCGRP增加1%時,b×=52.277%×0.01=0.522 77%,與前面計算的0.520 16%非常接近。
(二)log-linear轉換
對於log-linear轉換,loge()=a+bXi,b解釋為:X增加1個單位時,loge (Y)的平均估計值改變量。如用Y來解釋,X增加1個單位,意味著Y的平均估計值為×eb;X增加d個單位,意味著Y的平均估計值為×edb。可推導如下:
當X取X1時,loge()=a+bX1;當X取X2時,loge()=a+bX2;當X增加1個單位時,即X2-X1=1;當X增加d個單位時,X2-X1=d。假設X增加1個單位,則,可得:b=,,則。和的關係可用百分比改變表示:,因此,當X增加1個Y1單位時,Y的平均估計值百分比改變為:(eb-1)×100%。例2資料,擬合式(5),SAS語句為:
PROCREG DATA=example2;MODEL lnPCGRP=UPP;RUN;
擬合的方程為:lnPCGRP=0.566+0.017UPP,R2=0.891,R2adj=0.889。
回歸方程的方差分析,P<0.001,自變量UPP回歸係數的顯著性檢驗,P<0.001。
截距項為0.566,是指UPP=0時,lnPCGRP的平均估計值,求得PCGRP=1761.208(元)。回歸係數b為正值,可直接解釋為城鎮人口比重(%)增加1個單位(1%),lnPCGRP的平均估計值增加0.017。
本例如用前述式(8)百分比改變來表示,UPP增加1個單位(1%),PCGRP的百分比改變(e0.017-1)×100%=1.714 532%,即PCGRP增加了1.714 532%;UPP增加3個單位(3%),PCGRP的百分比改變(e3×0.017-1)×100%=5.232289%,即PCGRP增加了5.232 289%。如果b為負值,(e-0.017-1)×100%=-1.685 631 5%,UPP增加1個單位(1%),PCGRP的百分比改變為-1.685 631 5%,即PCGRP減少了1.685 631 5%。
近似計算,對於很小的b值,eb≈1+b,b×100%就是X增加1個單位,的百分比改變。例2資料,b=0.017,0.017×100%=1.7%,即UPP增加1個單位(1%),PCGRP的百分比改變為1.7%,即PCGRP增加了1.7%,與前面的計算近似。
(三)log-log轉換
對於自變量和因變量都取自然對數的log-log轉換,loge( )=a+bloge(Xi),b可直接解釋為:loge(X)一個單位的增加,loge(Y)的平均估計值改變量。如果用X和Y來表達,其實就是linear-log轉換和log-linear轉換的結合,X和Y都只能用百分比改變解釋,即當X以某百分比增加時,Y的平均估計值百分比改變(增加或減少)。當X增加p%時,按式(7),Y的平均估計值改變量為:;因變量取自然對數時,按式(8),Y的平均估計值百分比改變為(ea-1)×100%。X和Y均用百分比改變表示,一般公式:。
例3資料,SAS語句為:
PROCREG DATA=example3;MODEL lnSURVIVAL= lnYEAR;RUN;
擬合的方程為:lnSURVIVAL=1.973-0.427lnYEAR,R2=0.991,R2adj=0.990。
回歸方程的方差分析,P<0.001,自變量lnYEAR回歸係數的顯著性檢驗,P<0.001。
截距項為1.973,是指ln_YEAR=0時,生存率自然對數的平均估計值。b為負值,可直接解釋為術後生存時間的自然對數增加1個單位,生存率的自然對數平均估計值減少0.427。
如用X和Y百分比改變來解釋,例3資料,當X增加10%時:按linear-log轉換,loge(Y)的平均估計值改變為;按log-linear轉換,,Y的平均估計值百分比改變(0.960 120-1)×100%=-3.988%,即術後生存時間(YEAR)增加10%,生存率(SURVIVAL)百分比改變-3.988%,即生存率降低了3.988%。
當X增加1%時,按linear-log轉換,Y的平均估計值改變量為;按log-linear轉換,,Y的平均估計值百分比改變(0.995 760 363-1)×100%=-0.423 963 7%,即術後活滿的年數(YEAR)增加1%,生存率(SURVIVAL)百分比改變為-0.423 963 7%,即生存率降低了0.423 963 7%。
注意:如果b為正值,術後生存時間(YEAR)增加1%,按式(9),Y的平均估計值百分比改變(e0.00424865-1)×100%=0.425 768 8%,即生存率提高了0.425 768 8%。