高中政治課上,大家一定都聽過,唯物辯證法中講,萬事萬物都處於普遍的聯繫之中。從數據分析的角度看,所有事物之間存在著兩種關係:函數關係和統計關係。
函數關係是指兩事物之間存在著一種一一對應的關係,當一個X確定,對應的變量Y也可以隨之完全確定(即有唯一值)。比如乘車計費,裡程數和費用之間,當行駛的裡程確定,也可以得到唯一確定的收費數。
然而現實生活中,事物之間並不全都是一一對應的關係,因此另一種統計關係也普遍存在。統計關係就是這種非一一對應的關係。這些事物之間存在著某種非確定關係,變量關係研究就是為了分析確認事物之間的關係情況。
針對變量關係研究方法,包括了相關關係研究以及影響關係研究,大致將常用分析方法歸納為:相關分析,線性回歸分析,Logistic回歸分析,SEM結構方程
1 相關分析
(1)指標解讀
從相關分析方法角度看,其並不區分X和Y,但從實際意義上看,通常是研究X和Y的相關關係。
(2)分析步驟
① 在相關分析之前,建議可使用散點圖直觀查看數據之間的關係情況。
② 判斷是否有關係(有*號則表示有關係,否則表示無關係);
③ 接著判斷關係為正相關或者負相關(相關係數大於0為正相關,反之為負相關);
④ 最後判斷關係緊密程度(通常相關係數大於0.4則表示關係緊密)
2 回歸分析
線性回歸分析是一種研究X對於Y的影響關係的分析方法。問卷研究中最為常見,多數情況下可以使用線性回歸分析進行假設驗證。
(1)指標解讀
(2)分析步驟
① 首先分析模型擬合情況,即通過R平方值分析模型擬合情況,以及可對VIF值進行分析,判斷模型是否存在共線性問題【共線性問題可使用嶺回歸或者逐步回歸進行解決】;
② 寫出模型公式(可選);
③ 分析X的顯著性;如果呈現出顯著性(P值小於0.05或0.01);則說明X對Y有影響關係,接著具體分析影響關係方向;
④ 結合回歸係數B值,對比分析X對Y的影響程度(可選);
⑤ 對分析進行總結。
3 Logistic回歸
Logistic回歸分析也用於研究影響關係,即X對於Y的影響情況,此處涉及的Y值是定類數據。其與線性回歸分析區別在於,線性回歸分析的因變量Y屬於定量數據,而Logistic回歸分析的因變量Y屬於分類數據。
(1)Logistic回歸分類
結合Y值的具體情況,Logistic回歸分析共分為三種,分別是二元Logistic回歸分析,多元無序Logistic回歸分析和多元有序Logistic回歸分析。分類情況如下表所示。
在問卷研究中,二元Logistic回歸分析的使用頻率最高,該方法簡單易懂,多元無序Logistic回歸分析,或者多元有序Logistic回歸分析相對較為複雜,並且在具體分析時較難描述和理解。本部分僅對二元Logistic回歸分析進行說明。
(2)指標解讀1
分析步驟:
第一:首先對P值進行分析,如果該值小於0.05,則說明模型有效;反之則說明模型無效;
第二:AIC和BIC值用於多次分析時的對比;此兩值越低越好;如果多次進行分析,可對比此兩個值的變化情況,綜合說明模型構建的優化過程;
第三:其餘指標為中間計算過程值,基本無意義。
指標解讀2
這個表格用於研究X對於Y的影響關係情況,表格中有意義的指標信息包括:P值,回歸係數,OR值和R Pseudo R。其它指標包括標準誤,Z值,95%CI值意義相對較小。
二元Logit分析的步驟:
第一:對模型整體情況進行說明,比如對R方值進行描述,以及列出模型公式;
第二:逐一分析X對於Y的影響情況;如果X對應的P值小於0.05則說明X會對Y產生影響關係,此時可結合OR值進一步分析影響幅度。
第三:總結分析結果。
(3)其他說明
Y對應的數字一定只能為0和1;如果不是,可以使用『數據編碼』功能設置;如果模型預測準確率較低,需要多次進行分析對比,找出最優的模型結果;如果X是定類數據,此時需要對X進行虛擬(啞)變量設置。如果X的個數非常多(比如超過10個),此時需要進行甄別選擇出有意義的X(比如使用方差分析或者卡方分析,選出X與Y有顯著差異的X放入二元logit回歸模型中)。
更詳細的方法說明以及具體原理介紹,可查看SPSSAU官網,以及可使用SPSSAU上面的案例數據,進行實際的操作分析。