嶺回歸分析(SPSS+SAS)

2021-02-23 spss學習樂園

嶺回歸:嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。

當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。

(●)

 嶺回歸分析通常要先對 X 變量作中心化和標準化處理, 以使不同自變量處於同樣數量級上而便於比較。

(●●)

確定 k 值

① 嶺跡圖

   嶺跡法主要是通過將 β( k) 的分量 βi( k) 的嶺跡畫在同一幅圖上, 從圖中選擇儘可能小的 k 值, 使得各回歸係數的嶺估計大體穩定, 即各分量在圖上的嶺跡曲線趨於平行於X 軸。

   選擇 k 值的一般原則主要有: ①各回歸係數的嶺估計基本穩定; ②用最小二乘估計時符號不合理的回歸係數, 其嶺估計的符號將變得合理; ③回歸係數的大小要與實際相符, 即從專業上講對因變量影響較大的自變量其係數的絕對值也較大; ④均方誤差增大不太多。

方差膨脹因子 cjj 度量了多重共線性的嚴重程度, 一般當 cjj > 10 時, 模型就有嚴重的多重共線性。

(●●●)

根據嶺跡圖進行變量篩選及重新確定k值

把嶺跡應用於回歸分析中自變量的選擇,其基本原則為:

( 1) 去掉嶺回歸係數比較穩定且絕對值比較小的自變量。這裡嶺回歸係數可以直接比較大小,因為設計陣 X 是假定已經中心標準化了的。

( 2) 去掉嶺回歸係數不穩定但隨著 k 值的增加迅速趨於零的自變量。

( 3) 去掉一個或若干個具有不穩定嶺回歸係數的自變量。如果不穩定的嶺回歸係數很多,究竟去掉幾個, 去掉哪幾個, 並無一般原則可遵循。這要結合已找出的復共線性關係以及去掉後重新進行嶺回歸分析的效果來決定。


(●●●●)

對模型進行表達及作出專業結論

在進行嶺估計後, 應根據所估計的參數寫出回歸方程, 並結合專業知識判斷方程中各自變量的係數及正負號是否符合實際情況。最後根據回歸係數的大小來判斷各自變量對因變量影響的大小及根據所求得的回歸方程進行預測。

以下為11名兒童的智力測試數據,試以IQ為因變量擬合多重線性回歸模型。其中,變量常識(X1)、算數(X2)、理解(X3)、拼圖(X4)、積木(X5)、解碼(X6),IQ(Y)。

數據類型:自變量(X1~X6),因變量Y 均為定量資料;根據研究目的,試採用多重線性回歸模型來分析。

具體步驟 ☞☞☞☞多重線性回歸分析

(Ⅱ)輸出結果

變量X1~X6 ,p-value 均 大於0.05,即納入多重線性回歸模型中無統計學意義;其次,共線性診斷中,VIF(variation inflation factor)均大於10,提示變量間存在多重共線性。

由於多重共線性的存在,使得多重線性回歸模型不穩定,而嶺回歸分析可以很好地解決這個問題。

在SPSS中沒有專門的菜單模塊來做嶺回歸分析,但可以通過額外編寫了 一個程序文件: ridge regression.sps, 用戶可以編寫一段代碼來調用該程序做嶺回歸分析。

其中,

INCLUDE ' 文件 Ridge regression.sps 所在路徑 ' .

RIGDEREG ENTER =  自變量

/DEP = 因變量

/START = k值起始值

/STOP = k值終末值

/INC =  k值步長

嶺回歸:嶺跡圖,從圖中大致看出k≧0.1 時,嶺跡曲線趨於穩定 。

驗證當k=0.1時的模型,

驗證結果:

本結果擬合得不太理想,僅供參考~~~

因此可以寫出嶺回歸方程式:y= ~~~~

(Ⅰ)讀取數據,

data test.multiple_reg;input x1 x2 x3 x4 x5 x6 y @@;cards;14 13 28 14 22 39 5410 14 15 14 34 35 37 12 12 19 13 24 39 287 8 7 9 20 24 19    13 12 24 12 26 38 3619 15 23 16 24 38 2819 16 26 21 38 69 539 10 14 9 31 46 40  10 8 15 13 15 43 51 9 8 12 10 22 43 55  12 10 20 14 12 28 42;run;

(Ⅱ)使用原始數據做回歸分析

/**** 多重線性回歸模型,自變量篩選方法為stpewise*****/proc reg data = test.multiple_reg ;stepwise :  model y = x1-x6  /   selection = stepwise vif collin  ;run;quit ;
/*****  嶺回歸 ridge regression   **********/proc reg data = test.multiple_reg outest = out_2 outvif ; model y = x1-x6 / ridge = 0.0 to 1 by 0.01 ; plot / ridgeplot ;run;quit ;/***  列印輸出結果******/proc print data = out_2 ;run;

(Ⅲ)原始數據標準化

/****  數據標準化處理********/proc standard data = test.multiple_reg  m=0  s=1  out =test.multiple_reg_standard  ;run;

(Ⅳ)標準化後的數據 進行嶺回歸

/**  使用標準化後的數據 ***/proc reg data = test.multiple_reg_standard       outest = out_3  outvif ;model y = x1-x6  /  ridge = 0.0 to 1 by 0.01  ;plot / ridgeplot ;run;quit ;
proc print data = out_3 ;run;

【輸出結果】此結果為原始數據標準化後的結果

下圖為嶺跡圖,大致發現,當k≧0.1 時,嶺跡曲線趨於穩定 。

 obs = 22,k=0.1,各回歸係數的VIF 均小於2 ;

obs=23,給出了變量x1~x6的回歸係數;

在SAS中, 嶺跡圖描繪的是原始係數估計值隨嶺參數 k 的變化軌跡,原始係數描繪嶺跡圖會存在1個問題: 回歸方程中係數數量級別差異較大;因此,對原數據標準化處理可以很好地避免這一問題。 

參考來源:

[1]胡良平,嶺回歸分析.科研方法專題

[2] 尹 康 , 常用統計軟體關於嶺回歸計算原理的比較分析 . 統計研究

相關焦點

  • SPSS方法|嶺回歸分析
    :嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。
  • SAS和SPSS軟體安裝包及軟體教程下載
    sas基本依靠代碼。SAS代碼更加強大些。SPSS滿足一般數萬的統計分析沒問題。沒有很厚的統計基礎可以用的SPSS。SAS系統具有十分完備的數據訪問、數據管理、數據分析功能。 在國際上, SAS被譽為數據統計分析的標準軟體。SAS系統是一個模塊組合式結構的軟體系統,共有三十多個功能模塊。SAS是用彙編語言編寫而成的,通常使用SAS需要編寫程序, 比較適合統計專業人員使,而對於非統計專業人員學習SAS比較困難。SAS最新版為9.2版。
  • 主成分回歸分析在SPSS中的實現
    今晚講「主成分回歸在SPSS中的應用」,準備好喔,要放大招了~ 分析—描述統計—描述,將需要進行標準化處理自變量選入變量框,如果要作回歸分析,則也需要將因變量選入變量框。經過處理的數據符合標準正態分布,即均值為0,標準差為1,也是spss中最常用的標準化方法。
  • 數據分析與sas視頻教程
    數據分析與sas視頻教程   我剛好有這方面的學習資料,如果你也有需要,歡迎聯繫微信: pdd1310
  • 從零開始學Python數據分析【25】--嶺回歸及LASSO回歸(實戰部分)
    - matplotlib(餅圖)從零開始學Python數據分析【12】-- matplotlib(箱線圖)從零開始學Python數據分析【13】-- matplotlib(直方圖)從零開始學Python數據分析【14】-- matplotlib(折線圖)從零開始學Python數據分析【15】-- matplotlib(散點圖)從零開始學
  • spss怎麼分析因子?spss因子分析法詳細步驟
    spss不僅可以分析主成分 ,還可以分析因子哦,但是很多朋友不知道spss怎麼分析因子?小編下面有一個spss因子分析法詳細步驟哦,只要大家按照spss因子分析法詳細步驟一步步操作就知道spss怎麼分析因子了哦,下面就和小編一起來看看吧!
  • spss主成分怎麼進行分析?spss主成分分析法步驟
    spss 這款軟體功能非常多哦,還可以分析主成分哦,但是很多朋友不知道spss主成分怎麼進行分析?小編下面準備了spss主成分分析法詳細步驟,大家安裝 詳細步驟一步步操作就知道spss主成分怎麼進行分析?
  • SPSS因子分析案例
    因子分析在各行各業的應用非常廣泛,尤其是科研論文中因子分析更是頻頻出現。【二、簡單實例】現在有 12 個地區的 5 個經濟指標調查數據(總人口、學校校齡、總僱員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請確定出這 12 個地區的綜合評價指標。【三、解決方案】1、spss因子分析同一指標在不同地區是不同的,用單一某一個指標難以對12個地區進行準確的評價,單一指標智能反映地區的某一方面。
  • 線性回歸的正則化 ——嶺回歸與LASSO回歸
    ,但有時使用線性回歸可能會產生過擬合的現象,此時我們通常有兩種途徑解決:一是對特徵進行選擇,減少特徵數量,二是使用正則化的方法,這樣可以保留所有的特徵,而在正則化時我們通常會採用嶺回歸或LASSO回歸,今天我們就來介紹一下這兩種正則化方法。
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。
  • 數據分析之主成分分析,spss主成分分析實例
    一、主成分分析概要主成分分析,在進行有多個指標的綜合評定時,客觀全面的綜合評價結果非常重要,然而往往多個指標之間通常存在信息不統一或者重複等眾多因素,各指標的權重往往很難確認。主成分分析方法能夠解決以上問題,主成分分析法是一種降維的統計方法,是考察多個變量間相關性一種多元統計方法。二、spss主成分分析操作流程導入數據。
  • SPSS數據分析心得小結分享
    spss分析工具,可真的不是一般的功夫,真的要很認真和很細心才能做得好spss。如何做好回歸分析。經過多次實戰,以及看了N多視頻,上了N多課,看了N多專業的書。若變量存在多重共線性,可採用主成分回歸,即先將存在多重共線性的變量做主成分分析合併為1個變量,然後再將合併成的新變量和其餘自變量一起納入模型做回歸;5是做殘差圖,看殘差圖分布是否均勻(一般在+-3個單位之間均勻分布就比較好);6是報告相應結果。看到論壇上有網友問為什麼他(她)老師不建議採用後向步進法處理變量多重共線性。
  • 數據分析難?教你spss使用的正確姿勢
    軟體不會用,各種數據傻傻搞不清楚,尤其是怎麼分析數據更是暈頭轉向,當然跟著靠譜的老師學習,一邊看實操一邊自己做,這樣肯定事半功倍。本次我們整理出了spss的數據分析教程,都是有實操的,只要跟著做,絕對沒問題!
  • spss代做風口不再,stata代做才是未來?
    >T1901393因子分析,回歸分析軟體要求:stataT1901392 描述性統計,單位根檢驗,psm did模型,穩健性檢驗,回歸分析。軟體要求:stataT1901407 中介效應分析,軟體amosT1901405描述性分析 相關性分析 回歸分析 聚類分析軟體要求:spssT1901402 醫學 描述統計分析,
  • 數據分析基礎相關性分析,SPSS實操
    一般根據研究的目的不同、或變量的類型不同,採用不同的相關分析方法。 常用的相關分析方法:二元定距變量的相關分析、二元定序變量的相關分析、偏相關分析和距離相關分析等。二、SPSS相關性分析操作spss相關性分析操作流程
  • SAS回歸分析教程
    本節先講述如何用SAS/INSIGHT進行曲線擬合,然後進一步講如何用SAS/INSIGHT進行線性回歸,簡單介紹SAS/INSIGHT的廣義線性模型擬合,最後介紹如何用編程進行回歸分析。alpha增大時曲線變光滑,而且使用一階或二階多項式時曲線不會同時變水平。固定帶寬的局部多項式是另一種局部多項式擬合方法。它有一個光滑係數c。用SAS/INSIGHT進行線性回歸分析上面我們已經看到,用菜單「Analyze | Fit (Y X)」就可以擬合一條回歸直線,這是對回歸方程
  • SPSS教程-回歸分析
    //SPSS//Course//回歸分析SPSS01圖線性回歸分析由ANOVA(方差分析)表可知F統計量的觀測值為592.25,顯著性概率為0.000,即拒絕原假設,說明因變量和自變量的線性關係是非常顯著的,可建立線性模型。由係數表可知回歸模型的常數項為-4993.281,自變量「國內生產總值」的回歸係數為0.197。
  • 學會spss就能找到數據分析工作嗎
    現在真正需要用到spss進行分析了,我卻看不懂老闆給的數據和分析要求,難道這就是理論與實際的脫節嗎?不敢去問我的上司,具體要怎麼操作,我怕給他留下一個不靠譜的印象,我只好去問一個辦公室的師姐。她比我早兩年入職,儼然已經是辦公室裡的熟練工,幸好還有同校同專業的她在。
  • spss分析存在共性線,到底怎麼解決?
    嶺回歸上述第1和第2種解決辦法在實際研究中使用較多,但問題在於,如果實際研究中並不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時可能只有嶺回歸最為適合了。嶺回歸是當前解決共線性問題最有效的解釋辦法,但是嶺回歸的分析相對較為複雜,後面會提供具體例子,當然也可以參考SPSSAU官網嶺回歸說明。