第二十二章 相關回歸分析
提要 相關回歸的意義,原理;小樣本的直線相關和回歸分析;相關係數和回歸係數的意義及假設檢驗;應用直線相關和回歸分析時的注意事項。
在醫學上,許多現象之間都存在著相互聯繫,例如身高與體重,體溫與脈搏,年齡與血壓,釘螺與血吸蟲感染等。而有些事物的關係是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時回果不清,只是伴隨關係。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這裡不是因果關係,而可能與社會條件、家庭經濟、營養、遺傳等因素有關。
相關是解決客觀事物或現象相互關係密切程度的問題,而回歸則是用函數的形式表示出因果關係。有相關不一定因果關係;反之,有因果關係的,一定有相關。我們稱「因」的變量叫,習慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關係在坐標圖上以P(X,Y)的方法定位,作出一群點圖,便可在體上看出兩者的關係,例如圖22-1。
圖22-1(A)表示血壓(依變量)隨年齡(自變量)增長而增高,其圖像性質與(B)一樣稱正相關(positive correlation);圖(C)的依變量隨自變量的增加而減少,稱為負相關(negative correlation);若二者沒有關係,則稱無相關(如圖D、E、F)。
圖22-1 年齡與血壓相關(A)和五種有代表性點圖(B~F)
根據實際資料,用數學的方法求出一條曲線(或直線),使我們能夠從一個自變數推算出相關的依變量的值,這條線就叫回歸線。回歸線有直線和曲線兩種。本章僅介紹直線相關與回歸分析。
例22.1 某產科醫師發現產婦尿液中雌三醇含量與初生兒體重有相關現象,因此檢查了31例待產婦24小時的尿雌三醇含量,並記錄下各產兒初生體重,統計如表22-1。作者意欲通過測定尿中雌三醇含量以間接預測初生兒體重,以便對低出生體重兒採取預防性措施。
表22-1 待產婦尿雌三醇含量與初生兒體重統計
編號(1) 尿雌三醇mg/24h(2) 初生兒體重kg(3) 編號(1) 尿雌三醇mg/24h(2) 初生兒體重kg(3) 1 7 2.5 17 17 3.2 2 9 2.5 18 25 3.2 3 9 2.5 19 27 3.4 4 12 2.7 20 15 3.4 5 14 2.7 21 15 3.4 6 16 2.7 22 15 3.5 7 16 2.4 23 16 3.5 8 14 3.0 24 19 3.4 9 16 3.0 25 18 3.5 10 16 3.1 26 17 3.6 11 17 3.0 27 18 3.7 12 19 3.1 28 20 3.8 13 21 3.0 29 22 4.0 14 24 2.8 30 25 3.9 15 15 3.2 31 24 4.3 16 16 3.2
資料來源:Rosner B:Fundamentals of Biostatistics P.346,Duxbury Press,1982
一、相關分析(correlation analysis)
先將上表數據按直角坐標作出圖22-2。從該圖的點子分布可以看出,尿中雌三醇濃度愈高,新生兒體重愈大;這群點子的分布基本上呈直線趨勢。
圖22-2 待產婦尿雌三醇含量與產兒出生體重相關圖
(一)相關係數(correlation coefficient)
相關係數是表示兩個變量(X,Y)之間線性關係密切程度的指標,用r表示,其值在-1至+1間。如兩者呈正相關,r呈正值,r=1時為完全正相關;如兩者呈負相關則r呈負值,而r=-1時為完全負相關。完全正相關或負相關時,所有圖點都在直線回歸線上;點子的分布在直線回歸線上下越離散,r的絕對值越小。當例數相等時,相關係數的絕對值越接近1,相關越密切;越接近於0,相關越不密切。當r=0時,說明X和Y兩個變量之間無直線關係。計算相關係數的公式為:
為了獲得公式22.2中各數據,先將表22-1資料進行計算如表22-2。
從表22-2的計算獲得
ΣX=534 ΣX2=9876 ΣY=99.2 ΣY2=324.18 ΣXY=1750
N=31
按這些數據進一步以下演算求r。
(二)相關係數的假設檢驗
本例題31例,只是總體中一個樣本,由此求得的相關係數,必然存在抽樣誤差。總體相關係數為零(ρ=0)時,從這總體中抽出31例,因為抽樣誤差,r也可能不等於0。氙以要判斷該樣本r是否有意義,需與總體相關係數,ρ=0比較,看兩者的差別有無統計不學意義。
相關係數的假設檢驗,可用t檢驗,公式如下:
公式(22.2)
自由度v=n-2
H0:ρ=0
H1:ρ≠0
α=0.05
本例r=0.6097,n=31,代入公式(22.2)
表22-2 相關係數計算表
尿雌三醇X(mg/24h)(1) X
2(2) 初生兒體重Y(kg)(3) Y
2(4) XY(5) 7 49 2.5 6.25 17.5 9 81 2.5 6.25 22.5 9 81 2.5 6.25 22.5 12 144 2.7 7.29 32.4 14 196 2.7 7.29 37.8 16 256 2.7 7.29 43.2 16 256 2.4 5.76 38.4 14 196 3.0 9.00 42.0 16 256 3.0 9.00 48.0 16 256 3.1 9.61 49.6 17 289 3.0 9.00 51.0 19 361 3.1 9.61 58.9 21 441 3.0 9.00 63.0 24 576 2.8 7.84 67.2 15 225 3.2 10.24 48.0 16 256 3.2 10.24 51.2 17 289 3.2 10.24 54.4 25 625 3.2 10.24 80.0 27 729 3.4 11.56 91.8 15 225 3.4 11.56 51.0 15 225 3.4 11.56 51.0 15 225 3.5 12.25 52.5 16 256 3.5 12.25 56.0 19 361 3.4 11.56 64.6 18 324 3.5 12.25 63.0 17 289 3.6 12.96 61.2 18 324 3.7 13.69 66.6 20 400 3.8 14.44 76.0 22 484 4.0 16.02 88.0 25 625 3.9 15.21 97.5 24 576 4.3 18.49 103.2 534 9876 99.2 324.18 1750.0
V=31-2=29
查t值表,t0.01(29)=2.756,本例tr=4.1423>t0.01(29),P<0.01,按α=0.05水準拒絕H0,接受H1,可以認為臨產婦24小時尿中雌三醇濃度與初生兒體重有正相關關係。
如果不用t檢驗,可以根據v查相關係數r界值表(附表22-1)。本例v=29,查表得知r0.01(29)值為0.456,而本例r=0.6097>r0.01(29),故P<0.01,與上述t檢驗的結果一致。
二、回歸分析(regression analysis)
醫學上,不少孌量間雖存在一定關係,但這種關係不象函數關係那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個變量在坐標上的方位點,並非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。
直線回歸分析的任務在於找出兩個變量有依存關係的直線方程,以確定一條最接近於各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據此方程描繪的直線就是回歸直線。
(一)直線回歸方程式(linear regression equation)的計算
直線回歸方程的通式為:
=a+bX 公式(22.3)
式中Y為自由變量X推算因變量Y的估計值,a為回歸直線在Y軸上的截距,即X=0時的Y值;b為樣本回歸係數(regression coefficient),即回歸直線的斜率(slope或稱坡度),表示當X變動一個單位時,Y平均變動b個單位。如果已知a與b,用以代入公式(22.3),即可求得直線回歸方程。求a和b的公式分別為:
公式(22.4)
公式(22.5)
對樣本中兩個變量分析,不但可作相關分析,還可進一步作直線回歸分析。仍以表22-1為示範,該例經過直線相關分析,r=0.6097,兩變量間有直線關係,從相關係數計算時,已求得:
Σ(X-x)(Y-Y)=41.2000
Σ(X-x)2=677.4194
而 Y=ΣY/n=99.2/31=3.2000
x=ΣY/n=534/31=17.2258
代入公式(22.4)
b=41.2000/677.4194=0.0608
代入公式(22.5)
a=3.2000-0.0608×17.2258=2.1527
代入公式(22.3)
=2.1527+0.0608X
(二)樣本回歸係數的假設檢驗
樣本回歸係數也有抽樣誤差問題,故需對b作假設檢驗,以評估b是否可能從回歸係數為零(即β=0)的總體中隨機抽得的。
檢驗步驟:
H0:β=0 即b是由β=0的總體中隨機抽樣的樣本回歸係數。
H1:β≠0
α=0.05
t檢驗:檢驗公式為
tb=|b|/sb 公式(22.6)
式中sb是回歸係數的標準誤,計算公式為
公式(22.7)
式中sy.x為各觀察值Y距回歸直線(Y)的標準差,是當X的影響被扣除後Y方面的變異指標。可用以下公式計算:
公式(22.8)
公式(22.9)
本例上述已算得
Σ(X-x)2=677.4194
Σ(Y-Y)2=6.7400
Σ(X-x)(Y-Y)=41.2000
分別代入公式(22.9),(22.8),(22.7)和(22.6)得
Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343
tb=0.0608/0.01468=4.1417
分析評價 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05檢驗水準,拒絕無效假設,可以認為待產婦24小時尿中雌三醇含量與初生兒體重之間存在直線回歸關係。
(三)描繪回歸直線
根據以上求得回歸方程Y=2.1527+0.0608x,可以在自變量X的實測範圍內(本例為7~27)任取X1和X2兩值代入上式求得在圖22-2中的P1(X1,Y1)和P2(X2,Y2)兩坐標點,將兩點連結為一直線,就屬該方程的回歸直線。作圖要注意的是P1、P2兩點最好距離遠些,繪出的直線在坐標上誤差就小些。
三、應用直線相關與回歸分析時的注意事項
1.作相關與回歸分析要有實際意義,不要把毫無關聯的兩個事物或兩種現象作相關、回歸分析。
2.兩事物或現象間有相關,不一定有回果關係,也可能僅是伴隨關係。但是,如果兩事物或現象間存在因果關係,則兩者必然是相關的。
3.相關與回歸分析所說明的問題是不同的,但又是有聯繫的。相關表示相互關係,回歸表示從屬關係。可以證明,同一批資料所算得的r與b的檢驗統計量(tr,tb)是相同的,如本章的案例前後算得的tr=tb=4.14。由於相關係數的計算及假設檢驗比較方便,故可用相關係數的顯著性檢驗取代回歸係數的顯著性檢驗。事實上在作回歸分析之前,一般先作相關分析,而只有在確定了兩變量間有直線關係的前提下,求回歸方程及回歸線才有意義。
4.相關與回歸的應用,僅限於原實測數據的範圍內,而不能隨意外推。因為不知道在此範圍之外,兩變量間是否仍存在同樣的直線關係。如果確有進行外推的充分根據和需要,亦應十分慎重。
5.在X與Y均呈正態變量時的加歸分析中,由X 推算Y與由Y推算X的回歸係數及回歸方程是不同的,切勿混淆。
附表22-1 相關係數顯著性界值表
v R
0.05(v´)R
0.01(v´)V´ R
0.05(v´)R
0.01(v´)1 0.997 1.000 24 0.388 0.496 2 0.950 0.990 25 0.381 0.487 3 0.872 0.959 26 0.375 0.478 4 0.811 0.917 27 0.367 0.470 5 0.754 0.874 28 0.361 0.463 6 0.707 0.834 29 0.355 0.456 7 0.666 0.798 30 0.349 0.449 8 0.632 0.765 35 0.325 0.418 9 0.602 0.735 40 0.304 0.393 10 0.576 0.708 45 0.288 0.372 11 0.553 0.684 50 0.273 0.354 12 0.532 0.661 60 0.250 0.325 13 0.514 0.641 70 0.232 0.302 14 0.497 0.623 80 0.217 0.283 15 0.482 0.606 90 0.205 0.267 16 0.468 0.590 100 0.195 0.254 17 0.456 0.575 125 0.174 0.228 18 0.444 0.561 150 0.159 0.208 19 0.433 0.549 200 0.138 0.181 20 0.423 0.537 300 0.113 0.148 21 0.413 0.526 400 9.098 0.128 22 0.404 0.515 500 0.088 0.115 23 0.396 0.505 1000 0.062 0.081