在進行回歸分析時,常常會遇到因變量除了受到定量數據的影響外,同時也受到定類數據的影響。例如,性別、職業、婚姻狀況等,這些定類數據無法直接被度量,但又必須要考慮這些變量對模型的影響。
因此,就需要將定類數據轉化為虛擬變量,引入到模型中,讓模型更加符合現實情況,提高模型的準確性。
啞變量如何設置
一般情況下,啞變量的設置中,將肯定類型取值為1,否定類型取值為0,如果變量中含有多個取值,可以引入多個啞變量。
在SPSSAU可直接一步生成虛擬變量,選擇【數據處理】--【生成變量】--【虛擬變量】。
由於性別分為兩類(男、女),因而會生成2個虛擬變量,分別表示男性和女性兩個類別。
分析時,要注意少放入一個虛擬變量。如果分為兩類就放入一個虛擬變量,三類就放入兩個,沒有放入的作為參考項用於對比分析。
如何分析
構建線性回歸模型的任務之一就是分析自變量對因變量的影響程度, 一般是通過自變量的回歸係數來解釋影響程度。對於含有啞變量的回歸模型,通常也是如此。
案例:當前有一份數據,用於研究消費者對購買奢侈品的影響因素,自變量包括收入水平、性別、年齡。
採用logistic回歸,以'收入水平'、'性別'、'年齡'作為自變量,'是否購買'作為因變量,使用【生成變量】中的【虛擬變量】將性別轉化為2個啞變量,以」性別_女」作為參考項,「性別_男」放入模型分析。
模型似然比檢驗用於對整體模型有效性進行分析。根據結果表明,模型似然比檢驗結果通過,p=0.001<0.05,說明模型構建有意義。
根據結果顯示,對於是否購買奢侈品的消費者,在年齡上沒有顯著差異,在收入水平和性別上具有顯著差異。
具體可結合OR值進行分析,OR值代表該項與參照項的相對優勢比,OR>1說明x項隨著y的增加而增加,X與Y之間呈現「正」關聯;OR<1說明x項隨著y的增加而降低,X與Y之間呈現「負」關聯。
結論:相比女性,男性購買奢侈品的意願更低;收入越高的人群對購買奢侈品的意願越高。
其他說明
(1)類似職業、疾病種類等定類數據在分析時常常會涉及,構建線性回歸、Logistic回歸、Cox回歸等模型時注意正確應用啞變量。
(2)自變量中放入虛擬變量,一定需要留一項作為參考項,不能全部放入。