16種常用的數據分析方法-回歸分析

2020-12-03 騰訊網

1

回歸的由來

回歸這個詞最早是被高爾頓提出的,高爾頓是達爾文的表兄。他非常痴迷於兄長的進化論說,所以一直期望把進化論理論應用到實證中以證明不同人為什麼會具有不同的特性。

終於,高爾頓發現:父親的身高和兒子的身高之間存在著某種給定的關係。

通過進一步的研究發現:子輩的平均身高是其父輩平均身高以及他們所處族群平均身高的加權平均和。

伴隨著這一著名發現,「回歸」一詞首次被提出。

論文中把「回歸」現象稱為:均值回歸或者平庸回歸(reversion to the mean/reversion to mediocrity)。意思是:哪怕單看一組父親和孩子的身高,兩個人的身高可能差異很大,但是從整個人群上來看,父親和孩子的身高分布應該是很相近的。

2

回歸分析

研究自變量與因變量之間關係形式的分析方法,它主要是通過建立因變量y 與影響他的自變量Xi 之間的回歸模型,來預測因變量y 的發展趨勢。

3

回歸分析類型

1、一元線性回歸分析:

只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。

2、多元線性回歸分析

使用條件:分析多個自變量與因變量Y的關係,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。

3、Logistic回歸分析

線性回歸模型要求因變量是連續的正態分布變裡,且自變量和因變量呈線性關係,而Logistic回歸模型對因變量的分布沒有要求,一般用於因變量是離散時的情況

Logistic回歸模型有條件與非條件之分:

條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。

4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等

之所以有不同類型的回歸分析,是由於原始分析數據X、Y變量的數據類型不同,不同類型的數據在進行回歸分析時,要採用合適的回歸分析類型。

線性回歸分析:適用Y為定量變量、只有1個:

當回歸模型中X變量只有1個,則適用簡單線性回歸或者一元線性回歸;

當X變量有多個,則應進行多元線性回歸分析。

Logistic回歸,:適用Y為定類變量、只有1個:

當Y為0、1變量時(比如1為願意和0為不願意,1為購買和0為不購買),應進行二元logistic回歸分析或二元Probit回歸模型;

當Y為分類變量時,如1,2,3(比如DELL, Thinkpad,Mac),應做多分類logistic回歸分析;

而Y為多類且為有序變量時,如1,2,3(比如1為不願意,2為中立,3為願意),可使用有序logistic回歸分析。

Y為定量變量、只有多個時:

有時會將Y合併概括成1個(比如使用平均值),然後使用線性回歸

如不做Y合併,可考慮使用PLS回歸(此情況使用較少,PLS回歸模型非常複雜)。

4

為什麼使用回歸分析?

看例子:

在疫情影響的經濟條件下,要估計一家公司的銷售額增長情況。

你有公司最新的數據,數據顯示銷售額增長大約是經濟增長的2.5倍。使用回歸分析,我們就可以根據當前和過去的信息來預測未來公司的銷售情況。

由此可知,回歸分析能夠跟據過去與當前的銷售額變量,預估公司未來的銷售情況。

這是由於回歸分析的結論能夠:

表明自變量和因變量之間的顯著關係

表明多個自變量對一個因變量的影響強度

所以在工作中,回歸分析能夠幫助我們比較衡量不同尺度的變量之間的相互影響,如價格變動與促銷活動數量之間聯繫,並構建預測模型。

5

案例

一、問題與數據

有一份關於大學生對某商品購買意願的調查問卷。共收集到468份問卷數據,將「性別」、「年齡」、「專業」、「收入(生活費)」四個變量作為潛在的影響因素,購買意願為Y,做二元Logistic回歸分析。

部分問卷數據如圖:

二、對問題的分析

使用Logistic模型前,對數據進行基本判斷:

假設1:因變量即結局是二分類變量。

假設2:有至少1個自變量,自變量可以是連續變量,也可以是分類變量。

假設3:每條觀測間相互獨立。分類變量(包括因變量和自變量)的分類必須全面且每一個分類間互斥。

假設4:最小樣本量為自變量數目的15倍,也有認為樣本量應達到自變量數目的50倍

三、SPSS操作

1.選擇 「分析」-「回歸」-「二項 Logistic回歸」

2.「選項」指定輸出內容和設置建模中的某些參數。如下圖:

3. 「保存」項將預測結果等保存到數據編輯窗口,如下圖:

4. 「分類」選項設置性別、收入分類變量對比為指示符、以第一個為參考類別。

結果解釋:

無購買意向的269人中,模型正確識別了236人,錯誤識別了33人,正確率為87.7%。有購買意向的162中,模型正確識別了31人,錯誤識別了131人,正確率為19.1%,模型的總的預測正確率為62.9%。

最終檢驗中, P值為0.364,大於顯著性水平,因此,不拒絕原假設。

在單因素分析中,年齡的統計p值大於0.05,接受原假設。

也就是說,模型中年齡變量對是否願意購買影響不顯著,可以不用考慮年齡。

相關焦點

  • 9種常用數據分析方法
    數據分析是從數據中提取有價值信息的過程,過程中需要對數據進行各種處理和歸類,只有掌握了正確的數據分類方法和數據處理模式,才能起到事半功倍的效果,以下是數據分析員必備的9種數據分析思維模式:1.分類分類是一種基本的數據分析方式,數據根據其特點,可將數據對象劃分為不同的部分和類型,再進一步分析,能夠進一步挖掘事物的本質。2.
  • 數據分析的幾種常用方法概覽
    數據分析常用方法概覽(之一)對數據進行分析的方法很多,常用的有對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法、5W1H分析法、相關分析法、回歸分析法、 聚類分析法、判別分析法、主成分分析法、因子分析法
  • 數據分析的幾種常用方法概覽(之二)
    數據分析常用方法概覽(之二)上一篇,我們了解了數據分析時常用的對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法等八種分析方法,今天我們繼續了解下上文提到的另外八種常見數據分析方法。
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。描述性統計分析是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。這也是我們在日常生活最常用的一種數據分析方法,因此這裡就不再用案例展開講解了。2、信度分析信度即可靠性,它是指採用同樣的方法對同一對象重複測量時所得結果的一致性程度。企業在招聘員工時會有一套性格測試題,這裡面就用到了信度分析。
  • 五種常用大數據分析方法
    在數據分析中,常用到的分3類:時間對比、空間對比以及標準對比。  時間對比:  最常用的就是同比和環比,通過時間周期的數據對比,了解目前數據水平的高低  同比:某個周期的時段與上一個周期的相同時段比較,如今年的6月比去年的6月,本周的周一比上周的周一等等。
  • 論文常用數據分析方法分類總結-4
    繼續我們的知識總結,本文總結包括:多選題研究、聚類分析研究、權重研究、非參數檢驗、數據分布。查看本系列之前的文章,可點擊下面的連結:論文裡的分析方法要用哪一種,SPSSAU告訴你答案論文常用數據分析方法分類總結-2論文常用數據分析方法分類總結-316. 模型研究方法
  • SEM優化常用的幾種數據分析方法
    SEM優化工作少不了做分析報表,而數據分析不僅僅是為了發現問題,為解決問題提供參考數據,也是對推廣效果的直觀展現方式,善用工具,能事半功倍地掌握工作,並及時作出調整。簡而言之,數據分析就是為了幫助我們對工作做到心中有數。
  • 產品數據分析常用的4種方法
    導讀 同樣的數據不同的數據分析師解讀出來的結論可能是不一樣的,甚至是完全相反的,但結論本身沒有對錯,所以從客觀的數據到主觀的人,需要有一些科學的分析方法作為橋梁,幫助數據的信息更好
  • 推薦幾種常見的數據分析方法
    基礎分析方法1.對比分析法概念:根據數據維度的不同特徵,選取兩個或兩個以上重點分析維度,進行重要指標對比,分析其數量關係及形成原因的分析方法,是最基本的分析方法。對比分析的主要參照標準:(1)歷史標準:和歷史水平進行比較,說明其發展水平或增長速度。
  • 數據分析不得不知的七種回歸分析技術
    回歸分析技術是一種非常重要的數據分析方法,有著廣泛的應用,能夠解決目標變量為連續的預測分析問題。什麼是回歸分析?回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。
  • 要掌握5種常用的數據分析方法,做分析就不再有想法了
    而且由於演繹的版本不同,導致分析方法種類繁多,令人眼花繚亂,甚至深不可測 沒有必要把分析方法看得太大,所有的分析方法歸納為兩種:分類與對比,分類與對比,分類與對比,重要的事情說三遍,大多數分析方法都是兩者的結合,為什麼說數據分析是分類與對比?
  • 最常用的四種大數據分析方法
    本數據挖掘分析領域中,最常用的四種數據分析方法:描述型分析、診斷型分析 使用一些工具來幫助大家更好的理解數據分析在挖掘數據價值方面的重要性,是十分有必要的。其中的一個工具,叫做四維分析法。 簡單地來說,分析可被劃分為4種關鍵方法。 下面會詳細介紹這四種方法。 1. 描述型分析:發生了什麼?
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。壹 數據導入Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。①導入Python常用數據分析庫:常用的numpy、pandas、matplotlib先導入。
  • 數據分析入門:14種常用的數據分析方法
    分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有:排列圖排列圖是一種找出影響產品質量主要因素的圖表方法。其結構是由兩個縱坐標和一個橫坐標,若干個直方形和一條折線構成。魚骨圖魚骨圖是一種發現問題「根本原因」的方法,用於質量管理。方法是通過頭腦風暴找出問題的可能原因,並將它們與特性值一起,按相互關聯性整理而成的層次分明、條理清楚,並標出重要因素。
  • 七種回歸分析方法,個個經典
    什麼是回歸分析? 回歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變量之間的因果關係。例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是回歸。
  • 統計學最常用的「數據分析方法」清單(二)
    BAYES判別分析法 BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用。 十、主成分分析 是一種統計方法。
  • 8種市場調研中的數據分析方法你知道幾個?
    所謂市場調研就是對某一目標,收集、整理、分析有關信息,通過對數據或信息的分析,得到相應結論,從而為企業決策提供參考,實現企業利益最大化。數據分析是市場調研中重要組成部分,在分析過程中我們會遇到許多統計分析方法。
  • 論文常用數據分析方法分類總結-3
    查看本系列之前的文章,可點擊下面的連結:論文裡的分析方法要用哪一種,SPSSAU告訴你答案論文常用數據分析方法分類總結-211. 多選題研究「多選題分析」是針對單個多選題的分析方法,可分析多選題各項的選擇比例情況「單選-多選」是針對X為單選,Y為多選的情況使用的方法,可分析單選和多選題的關係。「多選-單選」是針對X為多選,Y為單選的情況使用的方法。「多選-多選」是針對X為多選,Y為多選的情況使用的方法。12. 聚類分析
  • 數據分析的方法(一)
    至今,數據分析師的行業依然很火熱,但是大部分人還是不清楚數據分析的目的是什麼,分析的步驟、方法都有哪一些。數據分析主要就是為了從海量的數據中提取有用的信息和形成結論,從而對數據加以詳細的研究和概括總結。
  • 統計基礎概念及數據分析方法
    描述性統計:分析數據集中度和分散度推斷統計:通過樣本對整體情況作出推斷數據分析方法:聚類、回歸、分類及組件差異。描述數據的兩個關鍵點:數據的中心度,數據集中在哪個區域。常用均值,中位數和眾數來反映均值:也稱為平均數,所有數據除以數據條數,缺點,容易被極大極小值幹擾,難以反饋真實的數據情況。