【繼續教育·答題得學分】變量自然對數轉換的多重線性回歸

2021-01-14 中華預防醫學雜誌

簡單線性回歸方程為:Yi=α+βXi+εi,α為截距,表示當自變量X為0時,因變量Y的平均估計值;回歸係數β表示當X增加或減少1個單位時,Y的平均估計值改變量。


當自變量取自然對數時,這種對β的直觀解釋依然可行,表示當X增加或減少1個自然對數單位時,Y的平均估計值()改變量;當因變量取自然對數時,β表示當X增加或減少1個單位時,自然對數改變量;當自變量和因變量都取自然對數時,β表示當X增加或減少1個自然對數單位時,自然對數改變量。


將回歸係數β直接解釋為自然對數改變量固然可以,但有時我們在對自變量和/或因變量進行對數轉化後,仍需要用原X和Y來解釋回歸方程和回歸係數,而非用對數單位的形式。這時不能簡單地將X和Y取反對數,而是用百分比改變(percentage changes)來解釋。下面結合實例1~3,分別對linear-log轉換、log-linear轉換和log-log轉換(ln=loge)進行詳盡的闡述。


(一)linear-log轉換

回歸方程為=a+bloge(Xi),b可直接解釋為loge(X)增加或減少1個單位時,的改變量。例1資料擬合方程,SAS語句為:

PROC REG DATA=example1;MODEL UPP=lnPCGRP;RUN;

擬合的方程為:UPP=-23.341+52.277lnPCGRP,R2=0.891,R2adj=0.889。

回歸方程的方差分析,P<0.001,自變量lnPCGRP回歸係數的顯著性檢驗,P<0.001。

截距項為-23.341,是指lnPCGRP=0時,即PCGRP=1,城鎮人口比重UPP的平均估計值;實際上,與大部分線性回歸一樣,截距項無實際意義。回歸係數b為正值,解釋為:人均地區生產總值自然對數每增加1個單位,城鎮人口比重將平均增加52.277%。


現在來看如何根據PCGRP的改變,而不是loge(PCGRP)的改變來解釋回歸方程。將loge(PCGRP)加上1,即loge(PCGRP)增加1個單位,loge(PCGRP)+1 =loge(PCGRP)+loge(e)= loge(PCGRP×e),loge(PCGRP)增加1個單位意味著PCGRP乘e(e=2.71828)。用百分比改變表示為:×100%=(2.718 28-1) × 100%=171.828%,即PCGRP增加171.828%。根據PCGRP的改變可以解釋為:當PCGRP乘以e或PCGRP增加171.828%時,UPP的平均估計值改變量為b,b為正值,即增加52.277%。可以推導如下:


當X取X1時,loge(X1);當X取X2時,loge(X2);當loge(X)增加1個單位時,記為loge(X2)-loge(X1)=1,則loge(X2)-loge(X1)=loge(e),或loge()=loge(e),可知X2=e×X1,=e, X2是X1的2.71828倍。X2和X1的關係,可以用百分比改變表示:×100%=(2.71828-1)×100%=171.828%。即當loge(X)增加1個單位時,X不能直接表示出其增加量,改用百分比改變表示,則X增加171.828%。


一般情況下,當X增加p%時,Y的平均估計值改變量,可寫為,式中當X增加10%時(X乘以1.1),Y的平均估計值改變量為;當X增加1%時(X×1.01),Y的平均估計值改變量為


例1資料,當PCGRP增加10%時,UPP的平均估計值改變量為:0.095 31×52.277%=4.982 52%;當PCGRP增加1%時,UPP的平均估計值改變量為:0.009 95×52.277%=0.52016%。注意:這裡b為正值,表示UPP的平均估計值增加0.520 16%;如果b為負值,表示UPP的平均估計值減少0.520 16%。


當p很小時,如p≤1,。本例,當PCGRP增加1%時,b×=52.277%×0.01=0.522 77%,與前面計算的0.520 16%非常接近。


(二)log-linear轉換

對於log-linear轉換,loge()=a+bXi,b解釋為:X增加1個單位時,loge (Y)的平均估計值改變量。如用Y來解釋,X增加1個單位,意味著Y的平均估計值為×eb;X增加d個單位,意味著Y的平均估計值為×edb。可推導如下:

當X取X1時,loge()=a+bX1;當X取X2時,loge()=a+bX2;當X增加1個單位時,即X2-X1=1;當X增加d個單位時,X2-X1=d。假設X增加1個單位,則,可得:b=,則的關係可用百分比改變表示:,因此,當X增加1個Y1單位時,Y的平均估計值百分比改變為:(eb-1)×100%。例2資料,擬合式(5),SAS語句為:

PROCREG DATA=example2;MODEL lnPCGRP=UPP;RUN;

擬合的方程為:lnPCGRP=0.566+0.017UPP,R2=0.891,R2adj=0.889。

回歸方程的方差分析,P<0.001,自變量UPP回歸係數的顯著性檢驗,P<0.001。

截距項為0.566,是指UPP=0時,lnPCGRP的平均估計值,求得PCGRP=1761.208(元)。回歸係數b為正值,可直接解釋為城鎮人口比重(%)增加1個單位(1%),lnPCGRP的平均估計值增加0.017。


本例如用前述式(8)百分比改變來表示,UPP增加1個單位(1%),PCGRP的百分比改變(e0.017-1)×100%=1.714 532%,即PCGRP增加了1.714 532%;UPP增加3個單位(3%),PCGRP的百分比改變(e3×0.017-1)×100%=5.232289%,即PCGRP增加了5.232 289%。如果b為負值,(e-0.017-1)×100%=-1.685 631 5%,UPP增加1個單位(1%),PCGRP的百分比改變為-1.685 631 5%,即PCGRP減少了1.685 631 5%。


近似計算,對於很小的b值,eb≈1+b,b×100%就是X增加1個單位,的百分比改變。例2資料,b=0.017,0.017×100%=1.7%,即UPP增加1個單位(1%),PCGRP的百分比改變為1.7%,即PCGRP增加了1.7%,與前面的計算近似。


(三)log-log轉換

對於自變量和因變量都取自然對數的log-log轉換,loge( )=a+bloge(Xi),b可直接解釋為:loge(X)一個單位的增加,loge(Y)的平均估計值改變量。如果用X和Y來表達,其實就是linear-log轉換和log-linear轉換的結合,X和Y都只能用百分比改變解釋,即當X以某百分比增加時,Y的平均估計值百分比改變(增加或減少)。當X增加p%時,按式(7),Y的平均估計值改變量為:;因變量取自然對數時,按式(8),Y的平均估計值百分比改變為(ea-1)×100%。X和Y均用百分比改變表示,一般公式:

例3資料,SAS語句為:

PROCREG DATA=example3;MODEL lnSURVIVAL= lnYEAR;RUN;

擬合的方程為:lnSURVIVAL=1.973-0.427lnYEAR,R2=0.991,R2adj=0.990。

回歸方程的方差分析,P<0.001,自變量lnYEAR回歸係數的顯著性檢驗,P<0.001。

截距項為1.973,是指ln_YEAR=0時,生存率自然對數的平均估計值。b為負值,可直接解釋為術後生存時間的自然對數增加1個單位,生存率的自然對數平均估計值減少0.427。


如用X和Y百分比改變來解釋,例3資料,當X增加10%時:按linear-log轉換,loge(Y)的平均估計值改變為;按log-linear轉換,,Y的平均估計值百分比改變(0.960 120-1)×100%=-3.988%,即術後生存時間(YEAR)增加10%,生存率(SURVIVAL)百分比改變-3.988%,即生存率降低了3.988%。


當X增加1%時,按linear-log轉換,Y的平均估計值改變量為;按log-linear轉換,,Y的平均估計值百分比改變(0.995 760 363-1)×100%=-0.423 963 7%,即術後活滿的年數(YEAR)增加1%,生存率(SURVIVAL)百分比改變為-0.423 963 7%,即生存率降低了0.423 963 7%。


注意:如果b為正值,術後生存時間(YEAR)增加1%,按式(9),Y的平均估計值百分比改變(e0.00424865-1)×100%=0.425 768 8%,即生存率提高了0.425 768 8%。

相關焦點

  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    數據分析值得注意的是,多元線性回歸分析需要數據滿足以下4個假設:(1)需要至少2個自變量,且自變量之間互相獨立(本次6個);(2)因變量為為連續變量(本案例產量為連續變量);(3)數據具有方差齊性、無異常值和正態分布的特點(檢驗方法);(4)自變量間不存在多重共線性。
  • SPSS-線性相關與多重線性回歸
    本期:相關與回歸日常工作中,我們不僅關心2變量之間的差異,也關注2變量之間的聯繫,比如年齡與血壓
  • 【線性回歸】多變量分析:多元回歸分析
    下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!強調線性是因為大部分人用回歸都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關係我們都可以通過函數變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
  • 機器學習從入門到進階丨雙對數回歸模型
    對數和指數都有一個常用的底數,被稱為歐拉數(e),其近似值為2.71828。統計學中經常會用到e。以e為底數的對數稱為自然對數。 對數也有很好的變換能力,對數可以將指數關係變換為線性關係。
  • 多元線性回歸預測spss - CSDN
    對於線性回歸的定義主要是這樣的:線性回歸,是基於最小二乘法原理產生古典統計假設下的最優線性無偏估計。是研究一個或多個自變量與一個因變量之間是否存在某種線性關係的統計學方法。這個什麼叫線性回歸,什麼叫最小二乘法,在在高中數學課本裡邊就有涉及。我就不重複了嘿嘿。本質上講一元線性回歸是多元線性回歸的一個特例,因此我們就直接討論多元線性回歸了哈。
  • 線性回歸分析思路總結!簡單易懂又全面!
    線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!線性回歸回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。
  • 線性回歸的統計假設 - CSDN
    在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
  • SPSS加權線性回歸案例實踐,解決異方差問題
    先測試普通線性回歸擬合的殘差表現,以成本為因變量,以面積、商業街種類、建築師從業年數為自變量做線性回歸,我們輸出一個殘差散點圖,如下: 現在結論是線性回歸不適用了,殘差的方差不齊,怎麼辦?小兵來測試使用加權的回歸分析。 首先估算權重 加權加權,那我們首先得有權重才行。這個權重可不是隨便指定一個,它應當是隨著觀察數據的變異和變化的。
  • 如何用線性回歸模型做數據分析?
    一、什麼是線性回歸 線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係例如要衡量不同的用戶特徵對滿意分數的影響程度,轉換成線性模型的結果可能就是:分數=-2.1+0.56*年齡。
  • 原理+代碼|Python實戰多元線性回歸模型
    >print('='*35)虛擬變量的設置因為類別變量無法直接放入模型,這裡需要轉換一下,而多元線性回歸模型中類別變量的轉換最常用的方法之一便是將其轉化成虛擬變量。多重線性回歸模型的主要假設之一是我們的預測變量(自變量)彼此不相關。我們希望預測變量(自變量)與反應變量(因變量)相關,而不是彼此之間具有相關性。
  • 權重不確定的概率線性回歸
    線性回歸是一種基本的統計方法,用來建立一個或多個輸入變量(或自變量)與一個或多個輸出變量(或因變量)之間的線性關係。上式中,a為截距,b為斜率。x是自變量,y是因變量,也就是我們要預測的值。a和b的值需要用梯度下降算法進行優化。然後,我們得到了一條自變量和因變量之間最合適的回歸直線。通過回歸線,我們可以預測任意輸入x的y的值。
  • 回歸系列(四)|一個完整的線性回歸是怎樣做的
    回顧:多重線性回歸多重線性回歸,一般是指有多個自變量X,只有一個因變量Y。前面我們主要是以簡單線性回歸為例在介紹,兩者的差距主要在於自變量X的數量,在只有一個X時,就稱簡單線性回歸。在實際應用中,我們當然很少只納入一個自變量。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。
  • SPSS多元線性回歸案例:回歸分析方法實戰
    1.線性回歸(Linear Regression)線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關係。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    線性回歸分析專格欄總目錄請見上圖,前9章,我分別講述了回歸分析及與回分析相關的概念,一元、多元線性回歸分析的公式與計算方法,以及多重共線性、回歸方程的精度、顯著性驗證和置信區間等進行回歸分析的重要步驟及其計算方法。至此,以回歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以回歸分析進行需求預測。
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 單變量回歸分析spss - CSDN
    簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
  • R筆記:多重線性回歸(二)_適用條件考察
    書接上回……我們在<<多重線性回歸(一)_模型擬合>>一文中已經建立了回歸模型lmfit
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    (2)相關分析主要是描述兩個變量之間相關關係的密切程度;回歸分析不僅可以揭示變量X對變量Y的影響程度,還可以根據回歸模型進行預測。回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡單線性回歸、多重線性回歸;而非線性回歸,需要進行對數轉化等方式,將其轉化為線性回歸的形式進行研究。