第5章 自變量選擇與逐步回歸

2021-01-15 CSDN技術社區

在自變量很多時,其中有的因素可能對應變量的影響不是很大,而且x之間可能不完全相互獨立的,可能有種種互作關係。在這種情況下可用逐步回歸分析,進行x因子的篩選,這樣建立的多元回歸模型預測效果會更較好。

逐步回歸分析,首先要建立因變量y與自變量x之間的總回歸方程,再對總的方程及每—個自變量進行假設檢驗。當總的方程不顯著時,表明該多元回歸方程線性關係不成立;而當某—個自變量對y影響不顯著時,應該把它剔除,重新建立不包含該因子的多元回歸方程。篩選出有顯著影響的因子作為自變量,並建立「最優」回歸方程。

回歸方程包含的自變量越多,回歸平方和越大,剩餘的平方和越小,剩餘均方也隨之較小,預測值

的誤差也愈小,模擬的效果愈好。但是方程中的變量過多,預報工作量就會越大,其中有些相關性不顯著的預報因子會影響預測的效果。因此在多元回歸模型中,選擇適宜的變量數目尤為重要。

逐步回歸在病蟲預報中的應用實例:

以陝西省長武地區1984~1995年的煙蚜傳毒病情資料、相關蟲情和氣象資料為例(數據見DATA6.xls),建立蚜傳病毒病情指數的逐步回歸模型,說明逐步回歸分析的具體步驟。影響蚜傳病毒病情指數的蟲情因子和氣象因子一共有21個,通過逐步回歸,從中選出對病情指數影響顯著的因子,從而建立相應的模型。對1984~1995年的病情指數進行回檢,然後對1996~1998年的病情進行預報,再檢驗預報的效果。

變量說明如下:

y:歷年病情指數

x1:前年冬季油菜越冬時的蚜量(頭/株)

x2:前年冬季極端氣溫

x3:5月份最高氣溫

x4:5月份最低氣溫

x5:3~5月份降水量

x6:4~6月份降水量

x7:3~5月份均溫

x8:4~6月份均溫

x9:4月份降水量

x10:4月份均溫

x11:5月份均溫

x12:5月份降水量

x13:6月份均溫

x14:6月份降水量

x15:第一次蚜遷高峰期百株菸草有翅蚜量

x16:5月份油菜百株蚜量

x17:7月份降水量

x18:8月份降水量

x19:7月份均溫

x20:8月份均溫

x21:元月均溫

1)準備分析數據

在SPSS數據編輯窗口中,用「File→Open→Data」命令,打開「DATA6.xls」數據文件。數據工作區如下圖3-1顯示。

圖3-1

2)啟動線性回歸過程

單擊SPSS主菜單的「Analyze」下的「Regression」中「Linear」項,將打開如圖3-2所示的線性回歸過程窗口。

圖3-2

線性回歸對話窗口

3)

設置分析變量

設置因變量:將左邊變量列表中的「y」變量,選入到「Dependent」因變量顯示欄裡。

設置自變量:將左邊變量列表中的「x1」~「x21」變量,全部選移到「Independent(S)」自變量欄裡。

設置控制變量:

本例子中不使用控制變量,所以不選擇任何變量。

選擇標籤變量:

選擇「年份」為標籤變量。

選擇加權變量:

本例子沒有加權變量,因此不作任何設置。

4)回歸方式

在「Method」分析方法框中選中「Stepwise」逐步分析方法。該方法是根據「Options」選擇對話框中顯著性檢驗(F)的設置,在方程中進入或剔除單個變量,直到所建立的方程中不再含有可加入或可剔除的變量為止。設置後的對話窗口如圖3-3。

圖3-3

5)設置變量檢驗水平

在圖6-15主對話框裡單擊「Options」按鈕,將打開如圖3-4所示的對話框。

圖3-4

「Stepping

Method Criteria」框裡的設置用於逐步回歸分析的選擇標準。

其中「Use

probability of

F」選項,提供設置顯著性F檢驗的概率。如果一個變量的F檢驗概率小於或等於進入「Entry」欄裡設置的值,那麼這個變量將被選入回歸方程中;當回歸方程中變量的F值檢驗概率大於剔除「Removal」欄裡設置的值,則該變量將從回歸方程中被剔除。由此可見,設置F檢驗概率時,應使進入值小於剔除值。

「Ues F

value」 選項,提供設置顯著性F檢驗的分布值。如果一個變量的F值大於所設置的進入值(Entry),那麼這個變量將被選入回歸方程中;當回歸方程中變量的F值小於設置的剔除值(Removal),則該變量將從回歸方程中被剔除。同時,設置F分布值時,應該使進入值大於剔除值。

本例子使用顯著性F檢驗的概率,在進入「Entry」欄裡設置為「0.15」,在剔除「Removal」欄裡設置為「0.20」(剔除的概率值應比進入的值大),如圖6-17所示。

圖6-17窗口中的其它設置參照一元回歸設置。

6)設置輸出統計量

在主對話圖3-2窗口中,單擊「Statistics」按鈕,將打開如圖6-18所示的對話框。該對話框用於設置相關參數。其中各項的意義分別為:

圖3-5

「Statistics」對話框

①「Regression

Coefficients」回歸係數選項:

「Estimates」輸出回歸係數和相關統計量。

「Confidence

interval」回歸係數的95%置信區間。

「Covariance

matrix」回歸係數的方差-協方差矩陣。

本例子選擇「Estimates」輸出回歸係數和相關統計量。

②「Residuals」殘差選項:

「Durbin-Watson」Durbin-Watson檢驗。

「Casewise

diagnostic」輸出滿足選擇條件的觀測量的相關信息。選擇該項,下面兩項處於可選狀態:

「Outliers

outside standard deviations」選擇標準化殘差的絕對值大於輸入值的觀測量;

「All

cases」選擇所有觀測量。

本例子都不選。

③ 其它輸入選項

「Model

fit」輸出相關係數、相關係數平方、調整係數、估計標準誤、ANOVA表。

「R

squared change」輸出由於加入和剔除變量而引起的復相關係數平方的變化。

「Descriptives」輸出變量矩陣、標準差和相關係數單側顯著性水平矩陣。

「Part

and partial correlation」相關係數和偏相關係數。

「Collinearity

diagnostics」顯示單個變量和共線性分析的公差。

本例子選擇「Model

fit」項。

7)繪圖選項

在主對話框單擊「Plots」按鈕,將打開如圖3-6所示的對話框窗口。該對話框用於設置要繪製的圖形的參數。圖中的「X」和「Y」框用於選擇X軸和Y軸相應的變量。

圖3-6「Plots」繪圖對話框窗口

左上框中各項的意義分別為:

「DEPENDNT」因變量。

「ZPRED」標準化預測值。

「ZRESID」標準化殘差。

「DRESID」刪除殘差。

「ADJPRED」調節預測值。

「SRESID」學生氏化殘差。

「SDRESID」學生氏化刪除殘差。

「Standardized

Residual Plots」設置各變量的標準化殘差圖形輸出。其中共包含兩個選項:

「Histogram」用直方圖顯示標準化殘差。

「Normal

probability plots」比較標準化殘差與正態殘差的分布示意圖。

「Produce

all partial plot」偏殘差圖。對每一個自變量生成其殘差對因變量殘差的散點圖。

本例子不作繪圖,不選擇。

8)

保存分析數據的選項

在主對話框裡單擊「Save」按鈕,將打開如圖3-7所示的對話框。

圖3-7「Save」對話框

①「Predicted

Values」預測值欄選項:

Unstandardized

非標準化預測值。就會在當前數據文件中新添加一個以字符「PRE_」開頭命名的變量,存放根據回

歸模型擬合的預測值。

Standardized

標準化預測值。

Adjusted

調整後預測值。

S.E.

of mean predictions 預測值的標準誤。

本例選中「Unstandardized」非標準化預測值。

②「Distances」距離欄選項:

Mahalanobis:

距離。

Cook’s」:

Cook距離。

Leverage

values: 槓桿值。

③「Prediction

Intervals」預測區間選項:

Mean:

區間的中心位置。

Individual:

觀測量上限和下限的預測區間。在當前數據文件中新添加一個以字符「LICI_」開頭命名的變量,存放

預測區間下限值;以字符「UICI_」開頭命名的變量,存放預測區間上限值。

Confidence

Interval:置信度。

本例不選。

④「Save

to New File」保存為新文件:

選中「Coefficient

statistics」項將回歸係數保存到指定的文件中。本例不選。

「Export model information to XML

file」 導出統計過程中的回歸模型信息到指定文件。本例不選。

⑥「Residuals」 保存殘差選項:

「Unstandardized」非標準化殘差。

「Standardized」標準化殘差。

「Studentized」學生氏化殘差。

「Deleted」刪除殘差。

「Studentized

deleted」學生氏化刪除殘差。

本例不選。

⑦「Influence

Statistics」 統計量的影響。

「DfBeta(s)」刪除一個特定的觀測值所引起的回歸係數的變化。

「Standardized

DfBeta(s)」標準化的DfBeta值。

「DiFit」

刪除一個特定的觀測值所引起的預測值的變化。

「Standardized

DiFit」標準化的DiFit值。

「Covariance

ratio」刪除一個觀測值後的協方差矩隈的行列式和帶有全部觀測值的協方差矩陣的行列式的比率。

本例子不保存任何分析變量,不選擇。

9)提交執行

在主對話框裡單擊「OK」,提交執行,結果將顯示在輸出窗口中。主要結果見表6-10至表6-13。

10)

結果分析

主要結果:

表6-10

是逐步回歸每一步進入或剔除回歸模型中的變量情況。

表6-11

是逐步回歸每一步的回歸模型的統計量:R 是相關係數;R Square

相關係數的平方,又稱判定係數,判定線性回歸的擬合程度:用來說明用自變量解釋因變量變異的程度(所佔比例);Adjusted R

Square 調整後的判定係數;Std. Error of the Estimate 估計標準誤差。

表6-12

是逐步回歸每一步的回歸模型的方差分析,F值為10.930,顯著性概率是0.001,表明回歸極顯著。

表6-13

是逐步回歸每一步的回歸方程係數表。

分析:

建立回歸模型:

根據多元回歸模型:

從6-13中看出,過程一共運行了四步,最後一步以就是表中的第4步的計算結果得知:21個變量中只進入了4個變量x15、x4、x7 和 x5。

把表6-13中「非標準化回歸係數」欄目中的「B」列數據代入多元回歸模型得到預報方程:

預測值

的標準差可用剩餘標準差估計:

回歸方程的顯著性檢驗:

從表6-12方差分析表第4模型中得知:F統計量為622.72,系統自動檢驗的顯著性水平為0.0000(非常小)。

F(0.00001,4,7)值為70.00。因此回歸方程相關非常非常顯著。

由回歸方程式可以看出,在陝西長武菸草蚜傳病毒病8月份的病情指數(y)與x4(5月份最低氣溫)、x15(第一次蚜遷高峰期百株菸草有翅蚜量)呈顯著正相關,而與x5(3~5月份降水量)和x7 (3~5月份均溫)呈顯著負相關。

通過大田調查結果表明,菸草蚜傳病毒病發生與蚜蟲的遷飛有密切的關係。遷入煙田的有翅蚜有兩次高峰期,呈雙峰曲線。第一高峰期出現在5月中旬至6月初,此次遷飛的高峰期與大田發病率呈顯著正相關。第二高峰期在6月上旬末至6月中旬,此次遷飛高峰期與大田發病率關係不大。5月份的最低氣溫(x4)和3~5月份均溫(x7 )通過影響傳媒介體蚜蟲的活動來影響田間發病。而第一次蚜遷高峰期百株菸草有翅蚜量(x15)是影響菸草蚜傳病毒病病情指數(y)的重要因子。3~5月份降水量(x5)通過影響田間蚜蟲傳病毒病發病植株的症狀表現影響大田發病程度。cda數據分析培訓

相關焦點

  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。何況這些自變量有的影響大,有的影響小,有的重要,有的不重要。這時,我們需要做出選擇,需要採取辦法將影響大的自變量納入多元回歸方程。採取什麼方法呢?做相關分析。即對每一個自變量和因變量做相關分析,也就是求出每一個自變量和因變量的相關係數R,然後按一定的標準,將相關係數R達到一定標準的納入回歸方程。
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量
  • 逐步回歸(stepwise regression)完整指南
    回歸是一種統計方法,可讓我們了解自變量和因變量之間的關係。逐步回歸是回歸分析中一種篩選變量的過程,我們可以使用逐步回歸從一組候選變量中構建回歸模型,讓系統自動識別出有影響的變量。理論說明逐步回歸,是通過逐步將自變量輸入模型,如果模型具統計學意義,並將其納入在回歸模型中。同時移出不具有統計學意義的變量。最終得到一個自動擬合的回歸模型。其本質上還是線性回歸。一、研究背景研究人員針對血壓與年齡,體重,體表面積,持續時間,脈搏率、壓力水平之間是否存在關係進行研究。
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    第1列的常量、廣告費用,分別為回歸模型中的常量與自變量X,第2列的B分別為常量a(截距)、回歸係數b(斜率),據此可以寫出簡單線性回歸模型:Y=377+14.475X,第5,6列分別是回歸係數t校驗和相應的顯著性(P值),顯著性(P值)同樣與顯著性水平α進行比較,本例中回歸係數顯著性(P值)=0.000<0.01,說明回歸係數b具有極其顯著的統計學意義,即因變量「銷售量」和自變量
  • 回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」
    大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。常用的定量預測方法包括時間序列預測法與回歸分析預測法。時間序列預測法是以內生數據(也就是歷史需求數據)為分析對象的預測方法,而回歸分析預測法則以外生數據(或稱解釋性數據,比如促銷)為分析對象。
  • 魚與熊掌可以兼得——線性回歸函數的複雜自變量
    請大家注意第三部分coefficients中,第一行intercept和之前一樣,第二行行名為gendermale。 咦,是不是缺了點什麼? 之前我們定義數據內容時,性別(gender)有兩組:男性(male)和女性(female),為什麼結果裡只體現出一組呢? 敲黑板!!
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • 原創案例:Matlab多元線性回歸分析-逐步回歸
    在多元線性回歸分析中,逐步回歸法是對多個變量進行分析的有效方法。逐步回歸的基本思想是逐個引入自變量,保留影響顯著的變量,剔除影響不顯著的變量,最終使得回歸方程擬合度趨於完美。在Matlab中,函數stepwise的功能就是對需要分析的變量進行逐步回歸,最後得出回歸方程各個擬合信息。Stepwise的簡單用法是stepwize(X,Y),X是由若干個自變量列向量組成的矩陣,Y是由因變量構成的列向量。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性回歸分析做預測,多元線性回歸分析預測的十大步驟。根據方差膨脹因子可接受到標準,本案例中,兩個自變量VIF都小於5,表明我們兩個自變量之間不存在多重共線性,不需要進行消除多重共線性的操作。六、求解多元線性回歸方程。經過以上步驟,按回歸火鍋店的數據,最終選擇兩個自變量,氣溫和促銷折扣,我們列出多元線性回歸方程:y=a1x1+a2x2+b。接下來,就是進行多元線性回歸方程的求解。(求解多元回歸方程詳見本專欄第5章。)
  • 【從入門到高手:回歸分析】多元回歸分析:如何求解多元回歸方程
    (見下圖)多元回歸方程與一元回歸方程很相似,區別在於一元回歸方程是一個自變量,而多元回歸方程有多個自變量。(見下圖)下圖式中,y為因變量,即我們要預測的目標,x1為自變量1,x2為自變量2,x3為自變量3,…,xn為自變量n,。a1、a2、a3、…、an分別為x1、x2、x2、…、xn的回歸係數(也叫偏回歸係數),代表每個自變量對因變量影響的大小。
  • SAS回歸分析教程
    這樣的線性回歸可以推廣到一個因變量、多個自變量的情況。線性模型寫成矩陣形式為)的檢驗結果。檢驗利用的是所謂第三類平方和(Type III SS),又叫偏平方和,它代表在只缺少了本變量的模型中加入本變量導致的模型平方和的增加量。
  • SPSS多元線性回歸案例:回歸分析方法實戰
    結果就是係數估計值不穩定,在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐步篩選法來選擇最重要的自變量。2.邏輯回歸(Logistic Regression)邏輯回歸是用來計算「事件=Success」和「事件=Failure」的概率。
  • 七種回歸分析方法,個個經典
    它會嚴重影響回歸線,最終影響預測值。 4.多重共線性會增加係數估計值的方差,使得在模型輕微變化下,估計非常敏感。結果就是係數估計值不穩定 5.在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐步篩選法來選擇最重要的自變量。
  • 七種經典回歸分析法全解析
    現在,你有公司最新的數據,這些數據顯示出銷售額增長大約是經濟增長的2.5倍。那麼使用回歸分析,我們就可以根據當前和過去的信息來預測未來公司的銷售情況。它表明自變量和因變量之間的顯著關係;它表明多個自變量對一個因變量的影響強度。回歸分析也允許我們去比較那些衡量不同尺度的變量之間的相互影響,如價格變動與促銷活動數量之間聯繫。
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:將「銷售量」作為「因變量」拖入因變量框內, 將「車長,車寬,耗油率,車淨重等10個自變量 拖入自變量框內,如上圖所示,在「方法」旁邊,選擇「逐步」,當然,你也可以選擇其它的方式,如果你選擇「進入」默認的方式,在分析結果中
  • 你應該掌握的七種回歸技術
    【編者按】回歸分析是建模和分析數據的重要工具。本文解釋了回歸分析的內涵及其優勢,重點總結了應該掌握的線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺回歸、套索回歸、ElasticNet回歸等七種最常用的回歸技術及其關鍵要素,最後介紹了選擇正確的回歸模型的關鍵因素。什麼是回歸分析?
  • 數據分析不得不知的七種回歸分析技術
    現在,你有公司最新的數據,這些數據顯示出銷售額增長大約是經濟增長的2.5倍。那麼使用回歸分析,我們就可以根據當前和過去的信息來預測未來公司的銷售情況。使用回歸分析的好處良多。具體如下:它表明自變量和因變量之間的顯著關係;它表明多個自變量對一個因變量的影響強度。
  • SPSS分析技術:線性回歸分析
    線性回歸分析中,如果僅有一個自變量,可以建立一元線性模型。如果存在多個自變量,則需要建立多元線性回歸模型。線性回歸的過程就是把各個自變量和因變量的個案值帶入到回歸方程式當中,通過逐步迭代與擬合,最終找出回歸方程式中的各個係數,構造出一個能夠儘可能體現自變量與因變量關係的函數式。在一元線性回歸中,回歸方程的確立就是逐步確定唯一自變量的係數和常數,並使方程能夠符合絕大多數個案的取值特點。
  • 【線性回歸】多變量分析:多元回歸分析
    第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計算線性回歸方程的得分進行了概率轉換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當然,還有很多分析最終也是回歸思想!
  • SPSS統計分析案例:多項logistic回歸分析
    logistic回歸對數據的要求因變量:分類變量,要求是(含)三個以上分類水平;自變量:可以是分類變量或連續變量,建議是分類變量;協變量:必須是分類變量。概念什麼的,先不說,即使說,小兵我也說不清楚,看了案例自然就了解了。用SPSS學統計的好處就是這,辣眼睛的統計原理可以通過案例實踐來逐步理解掌握。