回歸模型中,定類數據如何正確分析?

2020-12-25 SPSSAU

在進行回歸分析時,常常會遇到因變量除了受到定量數據的影響外,同時也受到定類數據的影響。例如,性別、職業、婚姻狀況等,這些定類數據無法直接被度量,但又必須要考慮這些變量對模型的影響。

因此,就需要將定類數據轉化為虛擬變量,引入到模型中,讓模型更加符合現實情況,提高模型的準確性。

啞變量如何設置

一般情況下,啞變量的設置中,將肯定類型取值為1,否定類型取值為0,如果變量中含有多個取值,可以引入多個啞變量。

在SPSSAU可直接一步生成虛擬變量,選擇【數據處理】--【生成變量】--【虛擬變量】。

虛擬變量設置

由於性別分為兩類(男、女),因而會生成2個虛擬變量,分別表示男性和女性兩個類別。

分析時,要注意少放入一個虛擬變量。如果分為兩類就放入一個虛擬變量,三類就放入兩個,沒有放入的作為參考項用於對比分析。

如何分析

構建線性回歸模型的任務之一就是分析自變量對因變量的影響程度, 一般是通過自變量的回歸係數來解釋影響程度。對於含有啞變量的回歸模型,通常也是如此。

案例:當前有一份數據,用於研究消費者對購買奢侈品的影響因素,自變量包括收入水平、性別、年齡。

採用logistic回歸,以'收入水平'、'性別'、'年齡'作為自變量,'是否購買'作為因變量,使用【生成變量】中的【虛擬變量】將性別轉化為2個啞變量,以」性別_女」作為參考項,「性別_男」放入模型分析。

二元logistics回歸-spssau
模型似然比結果

模型似然比檢驗用於對整體模型有效性進行分析。根據結果表明,模型似然比檢驗結果通過,p=0.001<0.05,說明模型構建有意義。

根據結果顯示,對於是否購買奢侈品的消費者,在年齡上沒有顯著差異,在收入水平和性別上具有顯著差異。

具體可結合OR值進行分析,OR值代表該項與參照項的相對優勢比,OR>1說明x項隨著y的增加而增加,X與Y之間呈現「正」關聯;OR<1說明x項隨著y的增加而降低,X與Y之間呈現「負」關聯。

結論:相比女性,男性購買奢侈品的意願更低;收入越高的人群對購買奢侈品的意願越高。

其他說明

(1)類似職業、疾病種類等定類數據在分析時常常會涉及,構建線性回歸、Logistic回歸、Cox回歸等模型時注意正確應用啞變量。

(2)自變量中放入虛擬變量,一定需要留一項作為參考項,不能全部放入。

相關焦點

  • 如何正確運用計量經濟模型進行實證分析 ——實證分析中的數據、模型與參數
    本文從數據、模型和參數等3個角度出發,分析應用精良經濟學模型在實證分析中需要注意的問題。文轉載 |【計量經濟學】公眾號(作者於曉華,為德國哥廷根大學農業經濟和農村發展系教授)計量經濟學作為實證分析的主要手法,已經被中國廣大經濟研究者接受。但是,正確運用計量經濟模型,得出一個穩定、合理以及可靠的參數估計值,還沒有一個很好的系統梳理。
  • 七種常用回歸技術,如何正確選擇回歸模型?
    本文解釋了回歸分析的內涵及其優勢,重點總結了應該掌握的線性回歸、邏輯回歸、多項式回歸、逐步回歸、嶺回歸、套索回歸、ElasticNet回歸等七種最常用的回歸技術及其關鍵要素,最後介紹了選擇正確的回歸模型的關鍵因素。什麼是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。
  • 【乾貨分享】如何正確運用計量經濟模型進行實證分析 ——實證分析中的數據、模型與參數
    本文從數據、模型和參數等3個角度出發,分析應用精良經濟學模型在實證分析中需要注意的問題。(作者於曉華,為德國哥廷根大學農業經濟和農村發展系教授)計量經濟學作為實證分析的主要手法,已經被中國廣大經濟研究者接受。但是,正確運用計量經濟模型,得出一個穩定、合理以及可靠的參數估計值,還沒有一個很好的系統梳理。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。線性回歸模型分為一元線性回歸與多元線性回歸:區別在於自變量的個數。二、線性係數的計算:最小二乘法我們知道了模型的公式,那麼模型的係數是如何得來呢?
  • 大數據分析python自回歸模型
    在時間序列中,我們經常觀察到過去和現在的值之間的相似性。那是因為我們在此類數據中遇到自相關。換句話說,通過了解當今產品的價格,我們經常可以對明天的產品價值做出大致的預測。因此,在大數據分析python自回歸模型中,我們將討論一個反映這種相關性的模型。–自回歸模型。
  • 數據分析技術:決策樹分析;機器學習入門模型
    如何確定應該選擇哪種分類方法呢?首選可以根據是否有分類目標將以上這些方法分成兩大類:聚類分析與其它分析方法。聚類分析在將研究對象分類之前是沒有目標類別的,或者說是探索性的,例如,某公司希望做細做深市場,那麼就需要對它們目前的客戶進行分類,分析不同類別客戶的屬性區別,然後才能有針對性的對不同類別客戶採用不同的營銷手段。
  • 數據分析不得不知的七種回歸分析技術
    回歸分析技術是一種非常重要的數據分析方法,有著廣泛的應用,能夠解決目標變量為連續的預測分析問題。什麼是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。
  • 如何正確運用計量經濟模型進行實證分析
    【資源】精美簡歷模板+自薦信+面試技巧免費共享  來源:計量經濟學服務中心由於計量經濟學需要一定的統計學基礎,不正確地使用計量經濟模型,可能會使估計結果不穩健,導致實證結果的政策分析被質疑。本文從數據、模型和參數等3個角度出發,分析應用精良經濟學模型在實證分析中需要注意的問題。
  • 線性回歸-如何對數據進行回歸分析
    線性回歸模型的目的就是想找出一種特徵集與目標集之間的線性關係,使得我們可以通過已知的特徵數據預測出目標數據。通常,我們的模型是通過多個特徵值來預測一個目標值,那麼線性回歸模型的數學公式為:其中:線性回歸模型與數學中的解方程不同,後者的結果是精確解,而前者則是一個近似解。因此在公式中存在一個 ε 。
  • 如何正確運用計量經濟模型進行實證分析?
    由於計量經濟學的統計學基礎,不正確使用計量經濟模型,可能會使估計結果不穩健,從而產生「變色龍」一樣的實證結果,導致實證結果的政策分析被廣受質疑。本文從數據、模型和參數等3個角度出發,分析應用計量經濟學模型在實證分析中要注意的問題。首先,數據是進行實證分析的基礎。數據按照來源,可以劃分為微觀調研數據、機構統計數據以及實驗數據。
  • python回歸分析總結--回歸模型及調優
    回歸分析及模型優化1、回歸分析概括目標值(因變量)是連續型數據,通過某種函數關係找到因變量和自變量之間的關係,進而預測目標。通過不斷擬合縮小預測值與真實值的差距:最終使得這個差距(誤差項)成為一組均值為0,方差為1的隨機數。
  • 數據建模中分類與預測模型
    因此,利用量化平臺對多元化的數據進行提取,按照自身的分析模式搭建合理化的分析框架,自動化的得到針對基本面、技術面的分析結果的分析方法也開始逐漸火熱起來,這個結果根據需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經在眾多私募、券商等中應用已久,但是對於大多數個體投資者而言,還是一個十分陌生的領域。
  • SPSSAU數據分析思維培養系列2:分析方法
    在上篇文章中,我們一起學習了如何掌握正確的數據處理思維針對此種數據在具體分析的時候需要看實際情況,一般來說把它看成定類數據更方便分析,那就看成是定類數據;如果把它看成定量數據更方便,那就看成是定量數據。定類和定量數據的最大區別在於:定類數據一般是看頻數百分比,定量數據一般是看平均值;而且分析上定類數據一般只能看差異性,定量數據一般是看影響關係。接下來的內容中會更加理解這種思維上的區別。
  • 如何用邏輯回歸做數據分析?
    ,傳送門:如何用線性回歸做數據分析? 邏輯回歸應用於數據分析的場景主要有三種:下圖是之前講到的線性回歸模型的數據分布,線性回歸是用一條線來擬合自變量和因變量之間的關係,我們可以看到其輸出結果y是連續的。例如我們想預測不同用戶特徵對所使用產品的滿意分,可以採用線性回歸模型。
  • 統計計量丨如何正確運用計量經濟模型進行實證分析
    由於計量經濟學需要一定的統計學基礎,不正確地使用計量經濟模型,可能會使估計結果不穩健,導致實證結果的政策分析被質疑。本文從數據、模型和參數等3個角度出發,分析應用精良經濟學模型在實證分析中需要注意的問題。
  • 16種常用的數據分析方法-回歸分析
    4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等 之所以有不同類型的回歸分析,是由於原始分析數據X、Y變量的數據類型不同,不同類型的數據在進行回歸分析時,要採用合適的回歸分析類型。
  • Logistic回歸分析之二元Logistic回歸
    在研究X對於Y的影響時,如果Y為定量數據,那麼使用多元線性回歸分析(SPSSAU通用方法裡面的線性回歸);如果Y為定類數據,那麼使用Logistic回歸分析。結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。
  • 計量經濟模型進行實證分析的正確打開方式
    由於計量經濟學需要一定的統計學基礎,不正確地使用計量經濟模型,可能會使估計結果不穩健,導致實證結果的政策分析被質疑。本文從數據、模型和參數等3個角度出發,分析應用經濟學模型在實證分析中需要注意的問題。偽回歸可能是由模型本身原因造成的,也可能是數據結構造成的。計量經濟學是結合了經濟學理論和統計學的定量分析方法,沒有經濟學理論基礎的計量經濟分析,很可能會導致偽回歸結果。某些特殊的數據結構,如非平穩的時間序列或非平穩的空間數據,都可能導致偽回歸結果。
  • 實證分析三步走:數據、模型還有結果檢驗
    注:文章原名《如何正確運用計量經濟模型進行實證分析——實證分析中的數據、模型與參數》,作者於曉華
  • 人工智慧機器學習三大類之回歸模型(RM)
    人工智慧機器學習三大類之回歸模型(RM) 工程師1 發表於 2018-07-13 01:39:00 人工智慧之機器學習主要有三大類:1)分類;2)回歸;