第二十二章 相關回歸分析

2020-12-07 生物谷

第二十二章 相關回歸分析

  提要 相關回歸的意義,原理;小樣本的直線相關和回歸分析;相關係數和回歸係數的意義及假設檢驗;應用直線相關和回歸分析時的注意事項。

  在醫學上,許多現象之間都存在著相互聯繫,例如身高與體重,體溫與脈搏,年齡與血壓,釘螺與血吸蟲感染等。而有些事物的關係是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時回果不清,只是伴隨關係。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這裡不是因果關係,而可能與社會條件、家庭經濟、營養、遺傳等因素有關。

  相關是解決客觀事物或現象相互關係密切程度的問題,而回歸則是用函數的形式表示出因果關係。有相關不一定因果關係;反之,有因果關係的,一定有相關。我們稱「因」的變量叫,習慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關係在坐標圖上以P(X,Y)的方法定位,作出一群點圖,便可在體上看出兩者的關係,例如圖22-1。

  圖22-1(A)表示血壓(依變量)隨年齡(自變量)增長而增高,其圖像性質與(B)一樣稱正相關(positive correlation);圖(C)的依變量隨自變量的增加而減少,稱為負相關(negative correlation);若二者沒有關係,則稱無相關(如圖D、E、F)。

圖22-1 年齡與血壓相關(A)和五種有代表性點圖(B~F)

  根據實際資料,用數學的方法求出一條曲線(或直線),使我們能夠從一個自變數推算出相關的依變量的值,這條線就叫回歸線。回歸線有直線和曲線兩種。本章僅介紹直線相關與回歸分析。

  例22.1 某產科醫師發現產婦尿液中雌三醇含量與初生兒體重有相關現象,因此檢查了31例待產婦24小時的尿雌三醇含量,並記錄下各產兒初生體重,統計如表22-1。作者意欲通過測定尿中雌三醇含量以間接預測初生兒體重,以便對低出生體重兒採取預防性措施。

  表22-1 待產婦尿雌三醇含量與初生兒體重統計

編號(1) 尿雌三醇mg/24h(2) 初生兒體重kg(3) 編號(1) 尿雌三醇mg/24h(2) 初生兒體重kg(3) 1 7 2.5 17 17 3.2 2 9 2.5 18 25 3.2 3 9 2.5 19 27 3.4 4 12 2.7 20 15 3.4 5 14 2.7 21 15 3.4 6 16 2.7 22 15 3.5 7 16 2.4 23 16 3.5 8 14 3.0 24 19 3.4 9 16 3.0 25 18 3.5 10 16 3.1 26 17 3.6 11 17 3.0 27 18 3.7 12 19 3.1 28 20 3.8 13 21 3.0 29 22 4.0 14 24 2.8 30 25 3.9 15 15 3.2 31 24 4.3 16 16 3.2      

  資料來源:Rosner B:Fundamentals of Biostatistics P.346,Duxbury Press,1982

  一、相關分析(correlation analysis)

  先將上表數據按直角坐標作出圖22-2。從該圖的點子分布可以看出,尿中雌三醇濃度愈高,新生兒體重愈大;這群點子的分布基本上呈直線趨勢。

圖22-2 待產婦尿雌三醇含量與產兒出生體重相關圖

  (一)相關係數(correlation coefficient)

  相關係數是表示兩個變量(X,Y)之間線性關係密切程度的指標,用r表示,其值在-1至+1間。如兩者呈正相關,r呈正值,r=1時為完全正相關;如兩者呈負相關則r呈負值,而r=-1時為完全負相關。完全正相關或負相關時,所有圖點都在直線回歸線上;點子的分布在直線回歸線上下越離散,r的絕對值越小。當例數相等時,相關係數的絕對值越接近1,相關越密切;越接近於0,相關越不密切。當r=0時,說明X和Y兩個變量之間無直線關係。計算相關係數的公式為:

  為了獲得公式22.2中各數據,先將表22-1資料進行計算如表22-2。

  從表22-2的計算獲得

  ΣX=534 ΣX2=9876 ΣY=99.2 ΣY2=324.18 ΣXY=1750

  N=31

  按這些數據進一步以下演算求r。

  (二)相關係數的假設檢驗

  本例題31例,只是總體中一個樣本,由此求得的相關係數,必然存在抽樣誤差。總體相關係數為零(ρ=0)時,從這總體中抽出31例,因為抽樣誤差,r也可能不等於0。氙以要判斷該樣本r是否有意義,需與總體相關係數,ρ=0比較,看兩者的差別有無統計不學意義。

  相關係數的假設檢驗,可用t檢驗,公式如下:

    公式(22.2)

  自由度v=n-2

  H0:ρ=0

  H1:ρ≠0

  α=0.05

  本例r=0.6097,n=31,代入公式(22.2)

  表22-2 相關係數計算表

尿雌三醇X(mg/24h)(1) X

2

(2) 初生兒體重Y(kg)(3) Y

2

(4) XY(5) 7 49 2.5 6.25 17.5 9 81 2.5 6.25 22.5 9 81 2.5 6.25 22.5 12 144 2.7 7.29 32.4 14 196 2.7 7.29 37.8 16 256 2.7 7.29 43.2 16 256 2.4 5.76 38.4 14 196 3.0 9.00 42.0 16 256 3.0 9.00 48.0 16 256 3.1 9.61 49.6 17 289 3.0 9.00 51.0 19 361 3.1 9.61 58.9 21 441 3.0 9.00 63.0 24 576 2.8 7.84 67.2 15 225 3.2 10.24 48.0 16 256 3.2 10.24 51.2 17 289 3.2 10.24 54.4 25 625 3.2 10.24 80.0 27 729 3.4 11.56 91.8 15 225 3.4 11.56 51.0 15 225 3.4 11.56 51.0 15 225 3.5 12.25 52.5 16 256 3.5 12.25 56.0 19 361 3.4 11.56 64.6 18 324 3.5 12.25 63.0 17 289 3.6 12.96 61.2 18 324 3.7 13.69 66.6 20 400 3.8 14.44 76.0 22 484 4.0 16.02 88.0 25 625 3.9 15.21 97.5 24 576 4.3 18.49 103.2 534 9876 99.2 324.18 1750.0

  V=31-2=29

  查t值表,t0.01(29)=2.756,本例tr=4.1423>t0.01(29),P<0.01,按α=0.05水準拒絕H0,接受H1,可以認為臨產婦24小時尿中雌三醇濃度與初生兒體重有正相關關係。

  如果不用t檢驗,可以根據v查相關係數r界值表(附表22-1)。本例v=29,查表得知r0.01(29)值為0.456,而本例r=0.6097>r0.01(29),故P<0.01,與上述t檢驗的結果一致。

  二、回歸分析(regression analysis)

  醫學上,不少孌量間雖存在一定關係,但這種關係不象函數關係那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢,有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個變量在坐標上的方位點,並非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。

  直線回歸分析的任務在於找出兩個變量有依存關係的直線方程,以確定一條最接近於各實測點的直線,使各實測點與該線的縱向距離的平方和為最小。這個方程稱為直線回歸方程,據此方程描繪的直線就是回歸直線。

  (一)直線回歸方程式(linear regression equation)的計算

  直線回歸方程的通式為:

  =a+bX 公式(22.3)

  式中Y為自由變量X推算因變量Y的估計值,a為回歸直線在Y軸上的截距,即X=0時的Y值;b為樣本回歸係數(regression coefficient),即回歸直線的斜率(slope或稱坡度),表示當X變動一個單位時,Y平均變動b個單位。如果已知a與b,用以代入公式(22.3),即可求得直線回歸方程。求a和b的公式分別為:

  公式(22.4)

  公式(22.5)

  對樣本中兩個變量分析,不但可作相關分析,還可進一步作直線回歸分析。仍以表22-1為示範,該例經過直線相關分析,r=0.6097,兩變量間有直線關係,從相關係數計算時,已求得:

  Σ(X-x)(Y-Y)=41.2000

  Σ(X-x)2=677.4194

  而 Y=ΣY/n=99.2/31=3.2000

  x=ΣY/n=534/31=17.2258

  代入公式(22.4)

  b=41.2000/677.4194=0.0608

  代入公式(22.5)

  a=3.2000-0.0608×17.2258=2.1527

  代入公式(22.3)

  =2.1527+0.0608X

  (二)樣本回歸係數的假設檢驗

  樣本回歸係數也有抽樣誤差問題,故需對b作假設檢驗,以評估b是否可能從回歸係數為零(即β=0)的總體中隨機抽得的。

  檢驗步驟:

  H0:β=0 即b是由β=0的總體中隨機抽樣的樣本回歸係數。

  H1:β≠0

  α=0.05

  t檢驗:檢驗公式為

   tb=|b|/sb  公式(22.6)

  式中sb是回歸係數的標準誤,計算公式為

  公式(22.7)

  式中sy.x為各觀察值Y距回歸直線(Y)的標準差,是當X的影響被扣除後Y方面的變異指標。可用以下公式計算:

   公式(22.8)

   公式(22.9)

  本例上述已算得

   Σ(X-x)2=677.4194

   Σ(Y-Y)2=6.7400

   Σ(X-x)(Y-Y)=41.2000

  分別代入公式(22.9),(22.8),(22.7)和(22.6)得

  Σ(Y-Y)=6.7400-41.20002/677.4194=4.2343

  tb=0.0608/0.01468=4.1417

  分析評價 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05檢驗水準,拒絕無效假設,可以認為待產婦24小時尿中雌三醇含量與初生兒體重之間存在直線回歸關係。

  (三)描繪回歸直線

  根據以上求得回歸方程Y=2.1527+0.0608x,可以在自變量X的實測範圍內(本例為7~27)任取X1和X2兩值代入上式求得在圖22-2中的P1(X1,Y1)和P2(X2,Y2)兩坐標點,將兩點連結為一直線,就屬該方程的回歸直線。作圖要注意的是P1、P2兩點最好距離遠些,繪出的直線在坐標上誤差就小些。

  三、應用直線相關與回歸分析時的注意事項

  1.作相關與回歸分析要有實際意義,不要把毫無關聯的兩個事物或兩種現象作相關、回歸分析。

  2.兩事物或現象間有相關,不一定有回果關係,也可能僅是伴隨關係。但是,如果兩事物或現象間存在因果關係,則兩者必然是相關的。

  3.相關與回歸分析所說明的問題是不同的,但又是有聯繫的。相關表示相互關係,回歸表示從屬關係。可以證明,同一批資料所算得的r與b的檢驗統計量(tr,tb)是相同的,如本章的案例前後算得的tr=tb=4.14。由於相關係數的計算及假設檢驗比較方便,故可用相關係數的顯著性檢驗取代回歸係數的顯著性檢驗。事實上在作回歸分析之前,一般先作相關分析,而只有在確定了兩變量間有直線關係的前提下,求回歸方程及回歸線才有意義。

  4.相關與回歸的應用,僅限於原實測數據的範圍內,而不能隨意外推。因為不知道在此範圍之外,兩變量間是否仍存在同樣的直線關係。如果確有進行外推的充分根據和需要,亦應十分慎重。

  5.在X與Y均呈正態變量時的加歸分析中,由X 推算Y與由Y推算X的回歸係數及回歸方程是不同的,切勿混淆。

附表22-1 相關係數顯著性界值表

v R

0.05(v´)

R

0.01(v´)

V´ R

0.05(v´)

R

0.01(v´)

1 0.997 1.000 24 0.388 0.496 2 0.950 0.990 25 0.381 0.487 3 0.872 0.959 26 0.375 0.478 4 0.811 0.917 27 0.367 0.470 5 0.754 0.874 28 0.361 0.463 6 0.707 0.834 29 0.355 0.456 7 0.666 0.798 30 0.349 0.449 8 0.632 0.765 35 0.325 0.418 9 0.602 0.735 40 0.304 0.393 10 0.576 0.708 45 0.288 0.372 11 0.553 0.684 50 0.273 0.354 12 0.532 0.661 60 0.250 0.325 13 0.514 0.641 70 0.232 0.302 14 0.497 0.623 80 0.217 0.283 15 0.482 0.606 90 0.205 0.267 16 0.468 0.590 100 0.195 0.254 17 0.456 0.575 125 0.174 0.228 18 0.444 0.561 150 0.159 0.208 19 0.433 0.549 200 0.138 0.181 20 0.423 0.537 300 0.113 0.148 21 0.413 0.526 400 9.098 0.128 22 0.404 0.515 500 0.088 0.115 23 0.396 0.505 1000 0.062 0.081

相關焦點

  • 另一個伊甸第十二章回歸與暗雲咆哮吧巨魔貝恩任務流程
    18183首頁 另一個伊甸:超越時空的貓 另一個伊甸第十二章回歸與暗雲咆哮吧巨魔貝恩任務流程 另一個伊甸第十二章回歸與暗雲咆哮吧巨魔貝恩任務流程
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。本章的主要內容如下。
  • 【從入門到高手:回歸分析】多元回歸分析:如何求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元回歸方程
  • 什麼是回歸?什麼是回歸分析?回歸分析預測的分類方法有哪些?
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。本章,講解回歸分析的相關概念和的分類,主要包括以下四個內容。
  • 第九章 直線相關與回歸--第一節 直線相關
    第九章 直線相關與回歸   前面各章介紹的統計方法都只涉及單一變量,即或進行兩組或多組比較,所比較的仍然是同一變量,而且是以討論各組間該變量的相差是否顯著為中心環節。在統計方法中通常是用相關與回歸的方法來研究不同變量之間的這種相互依存和互為消長的關係。相關與回歸的種類較多,本章所涉及的只是其中最簡單的直線相關與直線回歸,簡稱相關與回歸。   相關與回歸即有區別又有聯繫,表達事物或現象間的在數量方面相互關係的密切程度用相關係數;說明一變量依另一變量的消長而變動的規律用回歸方程。現先介紹相關,再介紹回歸。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • SPSSAU教程05:相關回歸分析指標解讀
    針對變量關係研究方法,包括了相關關係研究以及影響關係研究,大致將常用分析方法歸納為:相關分析,線性回歸分析,Logistic回歸分析,SEM結構方程結果表格從相關分析方法角度看,其並不區分X和Y,但從實際意義上看,通常是研究X和Y的相關關係。
  • 市場調研中的相關分析與回歸分析(2)
    (一)相關分析(2)   2.復相關與偏相關   引入更多的因素變量是我們減少判斷偏差提高準確度的方法之一,這就涉及到復相關和偏相關。為了方便後面的說明,這裡我們先簡單引入一下回歸分析,藉助回歸方程來解釋復相關係數和偏相關係數。
  • 《多元回歸分析》實驗報告
    第一次實驗《應用回歸分析》第二章作業答案(何曉群版)2.15 一家保險公司十分關心其總公司營業部加班的程度,決定認真調查一下現狀。由方差分析表可以得到回歸標準誤差:SSE=1.843,所以回歸標準差誤差為:SSE/2=0.48回歸標準誤差為0.4800。(5) 給出置信度為95%的區間估計。
  • 線性回歸分析詳解7:多元回歸方程的精度,R平方與調整後的R平方
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第七章,回歸方程的精度,R平方與調整後的R平方。多元線性回歸分析,我們在求出多元線性回歸方程後,這個方程到底怎麼樣,能不能起到效果,需要對求出的回歸方程進行一系列評價和評估。這些評價和評估,首先要做的,是確認回歸方程的精度。本章,我將分如下三個小節講述回歸方程的精度,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
  • 多元回歸分析入門
    要了解變量之間如何發生相互影響的,就需要利用相關分析和回歸分析。在上一章講述了相關分析有關內容。本章介紹回歸分析基本概念,回歸分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析以及邏輯回歸分析等。j基本概念:    相關分析和回歸分析都是研究變量間關係的統計學課題。
  • 乾貨:2021考研數學概率論第二章重要考點總結分析
    以下是新東方在線考研小編整理的關於2021考研數學概率第二章重要考點總結分析相關
  • 多元回歸分析中消除多重共線性的3個實用方法
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第六章,多重共線性:消除多重共線性的3個簡單並實用的方法。前五章,我講述了回歸分析的相關概念和分類,以及一元線性回歸與多元線性回歸的基礎模型(回歸方程與求解回歸方程),但在實際需求預測中,回歸方程本身還存在較多的不確定性,不宜直接以求解回歸方程得出預測結果。
  • FGO回顧第二部PV尋找線索,第六章早就埋下了2.6的伏筆?
    FGO日服主線劇情2.5章已經結束,期待劇情的秋田君也在劇情結束之後尋找了一些關於下一章相關的蛛絲馬跡,近期在推特上看到以藏畫師說了解劇情之後回顧第二部PV思緒良多,因此秋田君也去回顧了一下中文版的第二部PV,想看看能不能找到線索。
  • SPSS分析技術:線性回歸分析
    基礎回顧相關分析可以揭示事物之間共同變化的一致性程度,但它僅僅只是反映出了一種相關關係,並沒有揭示出變量之間準確的可以運算的控制關係
  • Logistic回歸分析之二元Logistic回歸
    結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。例如,研究相關因素對樣本『是否購買理財產品』的影響,性別因素呈現出顯著性,並且性別以女性為對照項,其對數比(OR值)為1.34,這說明男性樣本購買理財產品的可能性是女性樣本的1.34倍。 二元Logistic回歸分析模型的擬合情況或模型效果的判斷會涉及3個指標,分別是Hosmer和Lemeshow檢驗、R2值和模型預測準確率表格。
  • 【線性回歸】多變量分析:多元回歸分析
    多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口
  • 南微醫學:關於第二屆董事會第二十二次會議相關事項的獨立意見
    南微醫學科技股份有限公司獨立董事        關於第二屆董事會第二十二次會議相關事項的獨立意見        根據《中華人民共和國公司法)) (以下簡稱"((公司法))")、《中華人民共和國證券法)) (以下簡稱"    一、對2021
  • 第5章 自變量選擇與逐步回歸
    在這種情況下可用逐步回歸分析,進行x因子的篩選,這樣建立的多元回歸模型預測效果會更較好。逐步回歸分析,首先要建立因變量y與自變量x之間的總回歸方程,再對總的方程及每—個自變量進行假設檢驗。當總的方程不顯著時,表明該多元回歸方程線性關係不成立;而當某—個自變量對y影響不顯著時,應該把它剔除,重新建立不包含該因子的多元回歸方程。篩選出有顯著影響的因子作為自變量,並建立「最優」回歸方程。