回歸分析兩個因變量 - CSDN

2021-01-14 CSDN技術社區

轉自個人微信公眾號【Memo_Cleon】的統計學習筆記兩個概念:RR和OR

二分類資料的logistic回歸SPSS操作示例

幾個需要注意的問題:樣本量、啞變量、模型擬合效果和擬合優度檢驗、多重共線

【1】兩個概念

RR(Relative Risk):相對危險度,也稱危險比(Risk Ratio)或率比(Rate Ratio),在前瞻性研究中用以表示暴露與疾病發生的關聯強度,說明暴露組發病危險是非暴露組發病危險的多少倍,是兩組發病率之比,計算公式為:

OR(Odds Ration):比值比,優勢比,比數比。在病例對照研究中說明暴露與疾病的關聯強度,它是暴露在某危險因子下的發病率P1與不發病率之比(1-P1)與未暴露在某危險因子下的發病率P2與不發病率(1-P2)之比的比值。

比值(odd)表示發生的可能性與不發行的可能性之比,odds1=P1/(1-P1),odds2=P2/(1-P2)。OR=odds1/odds2=ad/bc

在logistic回歸中,各自變量的回歸係數βi表示自變量Xi每改變一個單位,比值比的自然對數值該變量,而exp(βi)即OR,表示自變量Xi每改變一個單位,陽性結果出現概率與不出現概率之比是變化前相應比值的倍數,即優勢比。當陽性結果出現概率較小時(一般小於0.05)或者較大時(大於0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR

【2】二分類資料的logistic回歸SPSS操作示例

適用條件:①因變量為二分類變量,自變量可以是連續變量也可以是分類變量;②各觀測間相互獨立;③自變量與因變量logit(P)之間存在線性關係;④自變量間不存在多重共線;⑤儘量避免異常值,殘差服從二項分布合計為零;⑥研究對象無論是病例組還是對照組,樣本量至少是需要分析的自變量個數的10倍,多分類自變量的啞變量的參照水平頻數至少為30。

示例:探討冠心病發生的有關危險因素。分析數據來自孫振球主編的《醫學統計學》第三版。

(1)數據錄入賦值。二分類變量取值只有「0」和「1」兩個值,本例年齡和體重指數嚴格來講是要設成啞變量的(可參見本文後面關於啞變量的介紹),但由於樣本量的問題,為更好的演示spss操作,本例按等級資料直接賦值。

(2)分析(Analyze)>>回歸(Regression)>>二分類logistic(Binary Logistic…)

因變量(Dependent):選入冠心病[Y]

協變量(Covariates):選入自變量[X1]-[X8]

篩選變量方法(Method):進入(Enter):強行引入,全部變量一次進入模型,不進行篩選

向前:條件(Forward:Conditional):向前逐步選擇法,剔除變量的標準是條件參數估計的似然比檢驗

向前:似然比(Forward:LR):向前逐步選擇法,剔除變量的標準是最大偏似然估計的似然比檢驗

向前:Wald(Forward:Wald):向前逐步選擇法,剔除變量的標準Wald卡方檢驗

不同的向前法選入自變量時均採用比分檢驗,只是採用的剔除變量的檢驗方法不同

向後法也三種,剔除標準分別對應條件、似然比和Wald

本例選中Forward:LR。

分類變量(Categorial…):可將多分類自變量設置為啞變量。

保存(Save…):可將中間的計算結果存儲起來供以後分析,共有預測值、殘差和影響強度因子三類

選項(Options…):可以選中相應選項對模型進行描述、預測和診斷,設置逐步法的進入和剔除標準等。本例選中CI for exp(B)選項

結果解釋:

(1)數據處理情況匯總,本例共有54條記錄納入分析,無缺失值。本例樣本量時偏少,要分析8個自變量至少需要160例記錄,本例僅用於操作演示。

(2)因變量分類賦值

(3)預測分類表:此步開始進行擬合。Block 0擬合的是不包含任何自變量只有常數的無效模型,本例有28例對照的記錄被預測為對照,有26例病例也被預測為對照,總預測準確率為51.9%,這是不納入任何解釋變量時的預測準確率,相當於比較基線。

Block 0: Beginning Block

(4)納入方程的變量及檢驗情況。因此步擬合僅有常數項,β0=-0.074;檢驗方法Wald檢驗,檢驗統計量Wald χ2=0.074,P=0.786>0.05,H0假設是回歸係數為0。Exp(B)為自然對數e的β0次方,實際意義是總體研究對象中(54例)中患病率(26/54)與未患病率(28/54)的比值0.929。

(5)尚未納入模型方程的變量及其比分檢驗結果。所作的檢驗是分別將他們納入方程,方程的改變是否有統計學意義。本例如果將X1-X8分別納入方程,則方程的改變都是有統計學意義的,總的統計量也有統計學意義。逐步回歸法(Stepwise)是一個一個的選入變量,下一步將會先納入P值最小的變量X6重新計算選擇。

(6)模型係數的綜合檢驗,此步開始Block 1的擬合,本例採用的方法為向前逐步選擇法(似然比),本例依次引入了4個變量,結果顯示每一步新引入的變量和最終的模型均有統計學意義(新引入變量係數不為零,所有引入變量係數不全為零)

Block 1: Method = Forward Stepwise (Likelihood Ratio)

此處輸出的即為每一步的似然比檢驗結果,模型新引入一個或幾個變量後形成的新模型(當前模型)與「上一步(step)的模型/上一個區塊(block)模型/初始模型(model)」進行比較,卡方值是上一個步模型/上一個區組模型/初始模型的-2logLR(負2倍的似然比值)與當前的-2logLR的差值,可通過下一張表格(Model Summary)中的值驗證,step的卡方值結果上一步的模型與納入新變量後的模型-2logLR之差,model的卡方值是初始模型(step0,各自變量係數均為0)與納入新變量後的模型-2logLR之差,本例只設置了一個block,因此block與model相同。step檢驗的是每個step被納入的變量引起的似然比變化,model則提示納入新變量後整個模型的似然比變化。

SPSS軟體中自帶的幫助對幾個卡方的描述如下:

Model Chi-Square

2(log-likelihood function for current model − log-likelihood function for initial model)。 The initial model contains a constant if it is in the model; otherwise, the model has no terms. The degrees of freedom for the model chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models. If the degrees of freedom is zero, the model chi-square is not computed.

Block Chi-Square

2(log-likelihood function for current model − log-likelihood function for the final model from the previous method)。The degrees of freedom for the block chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

Improvement Chi-Square

2(log-likelihood function for current model − log-likelihood function for the model from the last step)。The degrees of freedom for the improvement chi-square statistic is equal to the difference between the numbers of parameters estimated in each of the two models.

(7)模型概況,輸出每一步的-2logLR(-2倍的對數似然比值)以及兩個廣義決定係數(也稱偽決定係數),這兩個指標是模型擬合效果的的判斷指標。logistic模型估計一般採用最大似然法,即是得到模型的似然函數值LR達到最大值(LR取值在0-1之間)。模型預測效果越好,LR越大,-2logLR越小。Cox&Snell R2和Nagelkerke R2表示當前模型中的 自變量導致的因變量變異佔因變量總變異的比例。本例在擬合過的4個模型中-2logLR逐步減小,廣義決定係數在增大,模型擬合效果還是不錯的。

(8)每一步的預測分類表,預測準確率由Block 0的51.9%上升至77.8%。逐步回歸得出的結果是保證模型的最大似然函數值最大,但不能保證此時的預測精度最高。

每一步第一行最後的百分比為真陰性率(特異度),第二行為真陽性率(靈敏度),以第四步結果為例,特異度75.0%,靈敏度80.8%。

(9)每一步擬合入選方程的變量檢驗情況,輸出每一步模型中參數估計值,包括常數項、各自變量的回歸係數及標準誤、Wald卡方值、自由度、P值及OR值(Exp(B))。最後一步的入選變量作為最終結果,最終篩選出的危險因素有4個,分別是年齡(X1)、高血脂史(X5)、動物脂肪攝入(X6)、A型性格(X8),說明年齡、高血脂史、動物脂肪攝入及A型性格與冠心病呈正相關,優勢比分別是2.519、4.464、23、7.008。以A型性格為例,其結果可做如下解釋:不考慮其他因素的印象,A型性格的對非A型性格的人發生冠心病的優勢比是7.008(一般文獻中會近似的表達為:不考慮其他因素的印象,A型性格的人發生冠心病的可能是非A型性格的人發生冠心病可能的7.008倍)。對於本例年齡和體重指數,按統計結果直接表達年齡每增加10歲/體重指數每增加一級引起的優勢比,但此解釋應當慎重,因為我們不能確定年齡和體重指數對冠心病的影響和我們的賦值水平是一致的,嚴格來說此處兩變量應該設置成啞變量進行分析,但由於樣本量的原因本例僅做演示。啞變量的設置可參見本文後面關於啞變量的設置。

logit(P)=-4.705+0.924X1+1.496X5+3.135X6+1.947X8

需要特別指出的是,本例X1的Wald檢驗P=0.053>0.05依然保留在了最終的模型中,是因為未達到變量剔除的標準,剔除檢驗見下一張表格:Model if Term Removed。SPSS默認的進入標準是0.05,剔除標準是0.10(可在選項(Options…)中設置),每一步P值小於等於0.1的變量均保留在方程中。

在對尚未進入模型的自變量進行分析時(結果見表(11):Variables not in the Equation),在進行到step3引入X6後,X1的比分檢驗結果,P=0.042<0.05,符合納入標準,因此將其納入方程。在進行變量剔除時(Model if Term Removed)採用的似然比檢驗,P=0.041<0.05,尚未達到剔除標準,因此保留在模型中。從檢驗方法上看,似然比檢驗是基於整個模型的擬合情況,比分檢驗一般與似然比檢驗類似,而Wald檢驗沒有考慮各因素的綜合作用,結果最不可靠,因此當結果出現衝突時應以似然比檢驗結果為準。

(10)輸出每一步被納入的自變量是否需要被剔除,採用的方法是似然比檢驗。結果顯示每一步單獨移除納入的自變量後模型的改變均有統計學意義,因此需要全部保留在方程中。採用不同的變量篩選方法(剔除方法),該處的統計量會有差異。

(11)尚未進入模型的自變量是否可能被納入的比分檢驗結果:尚未進入方程的自變量如果再進入現有模型,模型的改變有無統計學意義。可見在Step 1時,還有多個變量可以引入,其中X5的P值最小,Step2時首先引入;在Step 2時首先考慮引入X8,Step3時首選考慮引入X1,而Step4時在現有的進入標準下已經沒有需要引入的變量了。

需要特別說明的是,變量是否最終入選,最重要的準則是專業判斷,其次為多變量分析,最差的是單變量分析。如在專業上認為某自變量對結果有影響,不論其檢驗水準如何,都可強行納入方程。多變量模型綜合考慮了各個自變量的影響,結果更為客觀,如多變量模型與單變量模型出現矛盾時應以多變量分析結果為準。

強行納入方法:第一種方法是將欲強行納入的變量和已篩選出的變量重新進行logistic回歸,變量帥選辦法為Enter。第二種方法是利用區組(Block)來進行。將欲強行納入的變量歸為一個區組(block),在篩選方法中選擇「ENTER」來確保這些變量被納入,其他變量則歸入另一區組(block),篩選方法可以是其他方法,比如Forward:LR。

【3】幾個需要注意的問題

(1)樣本量

越多越好。理論上講,每個自變量所需要的事件數至少為10個,也就是研究對象中較少組的記錄數與自變量個數之商大於等於10。本例有8個自變量需要分析,病例組和對照組至少各需要80例以上,總樣本160例以上,如設置啞變量,自變量增多樣本量要求也就更大,而且參照水平至少30例以。本例對照組只有28例,病例組只有26例,最多只能分析的自變量個數是26/10=2.6個,若要分析所有的自變量,樣本量就需要增加,否則就需要減少自變量個數。本例僅演示操作。

(2)啞變量

二分類變量取值只有「0」和「1」兩個值,它們分別代表兩種成對出現的邏輯概念,如「是」和「否」、「有」和「無」、「高」和「低」等,spss默認取值水平高的為陽性結果。當自變量為無序多分類時,SPPS中對變量的賦值大小並不代表自變量間存在次序或者程度的差異,比如研究血型對性格的影響,對A、B、AB、O血型分別賦值1、2、3、4,並不代表性格的logit(P)會按此順序進行線性遞增或遞減,此時需要設置啞變量,自變量有n個水平,需要n-1個啞變量,如上面的4個血型,則需要3個啞變量來設置。

無序多分類變量可直接設置成啞變量,對於有序多分類,則視情況而定。張文彤老師給出的解決方案是專業上不能判斷不同等級的自變量對因變量的影響程度是一致的時候,需要將有序變量分別以啞變量和連續性變量引入模型,對兩個模型進行似然比檢驗(似然比卡方值等於兩模型-2logLR之差,自由度為兩模型自變量個數之差),如果似然比檢驗無統計學意義,且各啞變量回歸係數間存在相應的等級關係,則可將該自變量作為連續性變量引入模型,否則還是採用啞變量方式引入。本例年齡和體重指數均為有序多分類變量,我們不能確定冠心病的發病率logit轉換值會與設定的年齡等級遞增相同,體重指數不同分類之間劃分切點是不等距的,直接按等距賦值為1、2、3也不太符合實際情況。上面的示例將年齡和體重指數直接引入模型進行篩選是不恰當的,嚴格來說這兩個變量是應該採用啞變量來分析的,但本來例數太少,引入啞變量後所需樣本量應該更多,如果引入啞變量分析可能會使結果誤差很大。實際上本例直接引入後,就出現了年齡不再是冠心病發病的危險因素。為更好的演示啞變量的設置及解讀,將原數據複製一倍,變量只保留X2、X4、X6、X7,重新進行回歸分析。

步驟如下:

分析>>回歸>>二分類logistic…

因變量:選入冠心病[Y]

協變量:選入自變量[X2]、[X4]、[X6]、[X7]

篩選變量方法(Method):Forward:LR

分類變量(Categorial…):可將多分類自變量設置為啞變量,將「體重指數(BMI)[X7]」選入分類協變量(Categorial Covariats)框中,低BMI水平(BMI<24)設為參照水平,將Contrast-Indicator,Reference Category-First,Change,Continue

大部分結果解讀同示例結果,以下僅結合啞變量對應的結果進行解讀。

分類變量的啞變量編碼見下表

擬合納入方程的變量及其檢驗情況見下表。最後一步的入選變量作為最終結果,最終篩選出的危險因素有3個,分別是X2、X6、X7。對於X2的解讀:不考慮其他因素的影響,有高血壓病史的患者發生冠心病的可能是無高血壓史患者發生冠心病可能的4.646倍(近似,實際是OR=4.646),X6的解釋與此類同,高動物脂肪攝入對低脂肪攝入發生冠心病的優勢比是22.042。對啞變量的解釋則是與參照水平相比的結果:不考慮其他因素的影響,BMI24-26水平對BMI<24水平的優勢比是3.279,BMI>26水平對BMI<24水平的優勢比是4.039。

要特別注意,啞變量需要遵循同進同出的原則,即在一個模型中同一個多分類變量的所有啞變量要麼全部納入模型,要麼全部不納入模型。目前在各很多統計論壇上,普遍認為結果的第一行是該自變量的總體檢驗,總體檢驗有統計學意義,所有啞變量都應保留,本例X7總P值=0.04<0.05,X7(1):P=0.04<0.05,X7(2):P=0.53>0.05。

一般來說第一行的總體檢驗有統計學意義,其後的啞變量至少有一個是有統計學意義的,有時可能出現後面的啞變量都沒有統計學意義的情況,因為啞變量選取不同的參照水平,其他啞變量與之相比的P值會不同,出現這種情況可能是其他啞變量與選取的參照水平相比剛好沒有統計學意義。

還有一種情況是此表啞變量總檢驗P>0.05,結果仍保留在方程中,原因可能是不同的檢驗方法造成的,跟正文結果(9)後面的解釋一樣,納入標準、剔除標準以及方程中變量的檢驗方法是不一樣的,以本例為例,納入變量方法是比分檢驗(默認納入標準P=0.05),剔除標準是最大似然比檢驗(默認標準P=0.10),而本表方程中變量的檢驗採用的是Wald卡方檢驗。Wald與似然比檢驗出現矛盾時以似然比檢驗為準。

實際上,自變量設為啞變量後,Variables in the Equations表中直接顯示的都是最終入選的變量,具體的納入和剔除檢驗則需要從Variables not in the Equation和Model if Term Removed表中查看。如本例,結合上表X7在step3時被納入,從模型係數的綜合檢驗表格(Omnibus Tests of Model Coefficient)中可以看出,Step3與上一步的似然比檢驗有統計學意義,納入該變量時模型的改變有統計學意義(Variables not in the Equation表中step2比分檢驗結果:P=0.033<0.05),剔除該變量時模型的改變也有統計學意義(Model if Term Removed表中step3的似然比檢驗結果:P=0.034<0.05)。

(3)模型效果檢驗

模型擬合效果可以通過對似然比值的變化和廣義決定係數(Model Summary)、預測分類表(Classification Table),解讀如正文。另外對模型效果的檢驗還有ROC曲線。

製作ROC曲線步驟如下:

分析>>回歸>>二分類logistic…因變量:選入冠心病[Y]

協變量:選入自變量[X2]、[X4]、[X6]、[X7]

篩選變量方法(Method):Forward:LR

保存(Save…):選中預測值中的概率(Probabilities)

Continue

OK

分析>>ROC曲線(ROC Curve…)檢驗變量(Test Variable):選入新生產的預測概率(Predicted probability[PRE_1])

狀態變量(State Variable):選入冠心病[Y],將Y=1的研究對象指定為病人(狀態變量值(Value of State Variable):1)。

顯示(Dispaly)選中所有複選框:ROC曲線、帶對焦參考線、標準誤和置信區間、ROC曲線的坐標點

OK

結果顯示曲線下面積為0.883,P<0.001。P值的H0假設是曲線下面積為0.5。

ROC曲線下面積取值範圍0.5-1,0.5-0.7表示診斷價值較低,0.7-0.9表示診斷價值中等,0.9以上表示診斷價值較高。如果ROC曲線沿著對角線方向分布. 表示分類是機遇造成的,正確和錯誤的概率各位50%,此時該診斷方法無效,較好的診斷方法的ROC曲線應該是從左下角垂直上升至頂線.然後水平向右至右上角,更外面離對角線更遠的曲線其靈敏度和特異度均高於裡面的離對角線更近的曲線。

(4)模型的擬合優度的檢驗

可採用Pearson擬合優度檢驗和Deviance擬合優度檢驗,此兩法在SPSS的二分類的logistic回歸沒有輸出

似然比檢驗是 計算經篩選出的變量的飽和模型的-2logLR值和只引入篩選出的變量的主效應模型(簡單模型)的-2logLR值,兩者之差服從卡方分布,自由度為兩者參數個數之差,若P>0.05則說明擬合篩選的自變量主效應的logistic回歸模型已經足夠。註:飽和模型可以理解為納入各自變量主效應及其交互項的模型,簡約模型為非飽和模型,比如缺少交互項。

除了似然比檢驗外,SPSS中還有Hosmer-lemeshow檢驗,可在選項(Options…)中選入Hosmer-lemeshow goodness-of-fit,結果出現在「模型概況(Model Summary)」表格之後,輸出「Hosmer和Lemeshow檢驗」以及「Hosmer和Lemeshow檢驗列聯表」。其中Hosmer和Lemeshow檢驗列聯表是十分位組的觀測值和期望值,按模型求得某個體的得病概率,概率遞增排序後分為10等份,據此期望值與相應的觀測值求得Pearson卡方(自由度=組數-2=8,但有時自變量組合和樣本量的原因組數可能少於10)。

本例最終結果χ2=8.727,P=0.273>0.05,表明簡約模型與飽和模型間無差異(H0假設是簡約模型與飽和模型無差異。如果結果顯著則說明現有簡約模型仍然需要加入新的變量以提升模型的解釋力度;相反若結果不顯著說明簡約模型中包括的自變量已足夠,即解釋力度已與飽和模型無差異)。

(5)模型診斷

可採用殘差分析、迭代記錄、分類圖等。通過殘差分析可以查找異常值,可通過保存(Save…)中的殘差( Residuals)部分來進行,一般來說殘差絕對值大於2,該條記錄可能是異常點。殘差圖可參見

代記錄在選項(Option…)中選中Iteration history來獲得,健康迭代過程的迭代記錄似然值和自變量係數從迭代開始就向著一個方向發展,如中間出現波折,尤其是當引入新變量後變化方向改變了,則提示要好好進一步分析。分類圖可以直觀的觀測模型的預測狀況,可在選項(Option…)中選中Classification plots來獲得

(6)多重共線的檢驗

運用相同的因變量和自變量擬合線性回歸模型進行共線性診斷

分析>>回歸>>線性(Linear…)

選入相應的因變量和自變量

統計(Statistics…):選中Collinearity diagnostics,Continue,OK

查看結果中的回歸係數表(Coefficients),如容忍度(Tolerance)小於0.1,方差膨脹因子(VIF)大於10,則提示共線性的存在。存在共線性最簡單的處理方法就是剔除引起共線性的因素。

END

轉自個人微信公眾號【Memo_Cleon】的統計學習筆記

相關焦點

  • 單變量回歸分析spss - CSDN
    簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
  • spss多變量回歸分析 - CSDN
    點擊學習全部醫學統計學與SPSS教程SPSS 教程36 啞變量設置分析‍啞變量(DummyVariable),也叫虛擬變量,是解決回歸分析分類自變量的重要舉措。它是「不發聲」的過程變量,通過設置啞變量,可將多分類變量進行二值化的處理,從而結局多分類特別是無需多分類變量無法納入回歸分析模型的尷尬局面。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • 回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」
    大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。常用的定量預測方法包括時間序列預測法與回歸分析預測法。時間序列預測法是以內生數據(也就是歷史需求數據)為分析對象的預測方法,而回歸分析預測法則以外生數據(或稱解釋性數據,比如促銷)為分析對象。
  • excel做回歸分析 - CSDN
    一、什麼是回歸分析法「回歸分析」是解析「注目變量」和「因於變量」並明確兩者關係的統計方法。此時,我們把因子變量稱為「說明變量」,把注目變量稱為「目標變量址(被說明變量)」。清楚了回歸分析的目的後,下面我們以回歸分析預測法的步驟來說明什麼是回歸分析法:回歸分析是對具有因果關係的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。
  • 多元有序logistic回歸分析 - CSDN
    Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    7.相關分析和回歸分析的關係在研究因變量時,一方面需要研究哪些變量與因變量相關以及關聯程度的強弱,這種研究可以稱為相關分析。另一方面需要研究因變量與自變量之間是否具有某種數量關係,確定因變量與自變量之間的數學模型,這種研究稱為回歸分析。
  • 回歸分析spss步驟 - CSDN
    我們的教程中曾詳細講述了SPSS線性回歸分析,儘管線性回歸可以滿足絕大多數的數據分析,但是在現實情況中,並不能適用於所有的數據,當因變量和自變量之間的關係我們無法確定是否為線性或者其他非線性類型的模型關係時候,那麼我們就需要用到曲線回歸,來確定因變量和自變量之間到底最適合什麼樣的模型。
  • 【線性回歸】多變量分析:多元回歸分析
    多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口
  • 七種回歸分析方法,個個經典
    什麼是回歸分析? 回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是回歸。
  • 一元線性回歸分析python - CSDN
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:MultivariateLinear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')df根據預測目標,確定自變量和因變量#多重線性回歸
  • 自回歸分析法 - CSDN
    用Excel做回歸分析的詳細步驟「回歸分析」是解析「注目變量」和「因於變量」並明確兩者關係的統計方法。此時,我們把因子變量稱為「說明變量」,把注目變量稱為「目標變量址(被說明變量)」。清楚了回歸分析的目的後,下面我們以回歸分析預測法的步驟來說明什麼是回歸分析法:  回歸分析是對具有因果關係的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關係時,建立的回歸方程才有意義。
  • 回歸分析t檢驗公式_線性回歸t檢驗公式 - CSDN
    【可解釋的方差】     MSM( Mean of Squares for Model)  = SSR /DFM第五:線性回歸和方差分析1、方差分析中的分析變量實際上就是線性回歸中的因變量,方差分析中的分組變量就是線性回歸中的自變量。
  • 回歸方程的顯著性檢驗 - CSDN
    採用的假設如下:原假設     H0 : β1 = 0   (x 與 y 不存在線性關係)對立假設  H1 : β1 ≠ 0  回歸係數的顯著性檢驗就是要檢驗自變量 x 對因變量 y 的影響程度是否顯著。下面我們分析接受和拒絕原假設的意義。
  • spss 非線性回歸 - CSDN
    我們在做問卷分析時,由於因變量多為連續的線性變量,多半會採用線性回歸分析來研究變量之間的關係。此時,一般資料或者人口學變量中,就會含有很多分組或分類的變量,比如性別,學歷等等。 如果因變量在這些人口學變量上存在顯著的差異,那麼做回歸分析時候,就需要將這些存在顯著差異的人口學變量作為控制變量納入線性回歸分析。
  • 回歸分析中的f檢驗 - CSDN
    ##作業:分析影響中國人口自然增長的主要原因,並建立人口自然增長率與各經濟因子之間的多元回歸模型,並對建立的模型進行統計檢驗(包括擬合優度、F檢驗、t 檢驗,並用多元逐步回歸方法解決多重共性問題。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • 回歸係數顯著性t檢驗 - CSDN
    採用的假設如下:原假設     H0 : β1 = 0   (x 與 y 不存在線性關係)對立假設  H1 : β1 ≠ 0  回歸係數的顯著性檢驗就是要檢驗自變量 x 對因變量 y 的影響程度是否顯著。下面我們分析接受和拒絕原假設的意義。
  • 【從入門到高手:回歸分析】多元回歸分析:如何求解多元回歸方程
    多元回歸方程。多元回歸分析,而稱重回歸分析,就是通過多個因素(自變量)對目標(因變量)進行預測的一種手段和方法。多元回歸分析,可以理解為有兩個或兩個以上自變量的回歸分析。多元回歸分析自變量和因變量的關係,可以多元方程式的形式表現出來,這個多元方程式就是多元回歸方程。多元回歸擁有兩個或兩個以上的自變量,多元回歸方程式是y=a1x1+a2x2+…+anxn+b。
  • python一元線性回歸分析專題及常見問題 - CSDN
    python多重線性回歸分析多重線性回歸分析定義多重線性回歸模型:Mulitiple Linear Regression多元線性回歸模型:MultivariateLinear Regression數據準備#多重線性回歸#數據準備import pandas as pddf=pd.read_csv('e:/python/out/corr.csv',encoding='utf8')df根據預測目標,確定自變量和因變量#多重線性回歸