基礎準備
回歸分析我們已經介紹了以下內容:
數據分析技術:數據關聯性分析綜述;
SPSS分析技術:線性回歸分析
在大量的回歸分析中,變量之間的關係都是線性關係,或是能夠被轉化為線性關係。然而,也存在著許多非線性的關係。例如,在勻變速直線運動中,運動距離與時間之間的關係就是二次函數關係;自由落體運動、拋物軌跡等都是非線性關係。今天要介紹的曲線回歸,就是研究因變量與自變量之間的非線性關係,並從中查找到回歸方程的一種技術。
SPSS曲線回歸
SPSS中的曲線回歸,對數據有兩個要求:
SPSS可實施曲線回歸的曲線包括:二次曲線、三次曲線、複合曲線、增長曲線、指數曲線、對數曲線、S曲線、冪曲線、逆函數和邏輯函數共10種類型。這些類型已經基本能夠滿足常規分析的需要。下面表格列出主要曲線類型及其表達式:
曲線回歸步驟
1、利用散點圖,初步判斷曲線類型
這要求大家熟悉曲線的形狀。由於在具體的回歸分析中,可能的曲線類型種類繁多,為了減少曲線估計的盲目性,通常先用散點圖觀測自變量與因變量之間的關係,判定因變量與自變量是否存在清晰的邏輯關係。如果散點圖中的散點向曲線附近幾種,比較接近於一條曲線,則初步判斷可以做曲線回歸分析,否則無法做曲線估計。對於可作曲線估計的數據,先認真觀察曲線的形狀,判定大概屬於哪類曲線,是拋物線,還是對數曲線、指數曲線。
2、執行曲線回歸分析
啟動曲線估計功能,在「曲線估計」的配置界面下,正確地設置因變量和自變量,並可同時選擇若干種曲線類型。在完成了曲線回歸的計算機處理後,根據計算機的輸出結果,參考判定係數R方值和檢驗概率Sig值,選擇最恰當的曲線類型。
3、最後根據曲線類型的各個係數值,寫出最終的函數式。
案例分析
某網絡服務提供商跟蹤其網絡上隨時間變化的受病毒感染的電子郵件的流量百分比。請利用曲線估計的技術,分析時間與病毒感染流量百分比之間的關係,並獲得最終的回歸方程式。數據如下:
(所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載)
分析步驟
1、選擇菜單【圖形】-【舊對話框】-【散點/點狀】命令,然後從中選擇【簡單分布】。從散點圖的結果來看,時間與感染率之間的關係可能是二次曲線或三次曲線。
2、選擇菜單【分析】-【回歸】-【曲線估計】命令,啟動曲線估計對話框,填入參數,如下圖所示:
3、結果解讀
從模型和參數評估表格中可以發現,二次曲線模型和三次曲線模型的R方值分別為0.653和0.783,說明兩個回歸模型的質量都很好。此外,兩個模型的顯著性結果都是0.000,也印證了上面闡述的結論。上述表格也輸出了回歸模型參數結果,根據回歸參數,可以得到兩個回歸模型公式:
結果中還輸出了帶擬合曲線的散點圖:
雖然二次模型和三次模型的回歸分析結果都很好,可以被用於未來數據的預測,但是從上圖可以發現,二次模型和三次模型對未來因變量的預測趨勢是截然不同的,一個向上,一個向下。這也說明回歸分析不是一勞永逸的技術,需要不斷根據發生的數據進行判斷和修正,這樣才能真正達到預測的效果。
所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載。
溫馨提示:
SPSS教學視頻,請點擊:《SPSS入門基礎》視頻教程;
生活統計學QQ群:134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。
生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。