回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」

2021-01-09 許栩原創之管理與職場

大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。

常用的定量預測方法包括時間序列預測法與回歸分析預測法。時間序列預測法是以內生數據(也就是歷史需求數據)為分析對象的預測方法,而回歸分析預測法則以外生數據(或稱解釋性數據,比如促銷)為分析對象。

定量方法中,時間序列不能利用解釋性變量來塑造需求,無法識別諸如價格、廣告、促銷、市場或經濟波動等外部因素(外生數據)或因果因素(解釋性因素)帶來的需求變化。

但是,價格、廣告、促銷、市場或經濟波動等外生數據(解釋性數據),在市場現實中幾乎不可避免。為了解決這一問題,回歸分析粉墨登場。

本專欄講解回歸分析預測法,是指用於需求預測的回歸分析方法。回歸分析方法有很多種,但是,對於需求預測來說,一些高深的複雜回歸分析技術似乎並不實用且較難落地,所以,本專欄,僅針對對需求預測來說較實用的線性回歸分析進行講解。

本專欄的兩個說明。

1、儘可能減少原理性講述。能直接用Excel函數或數據分析功能計算出結果,我不再對計算過程和原理進行講解。

2、本專欄引用數據全部為虛擬。

本專欄的主要內容見下圖。

在正式講解回歸分析之前,我先用兩章的篇幅講解回歸分析的幾個名詞和概念。

回歸分析涉及到的名詞和概念很多,但隨著目前一些通用軟體如Excel的統計與數據分析功能加強,對於回歸分析應用於需求預測來說,大部分名詞和概念我們並不需要了解,比如「最小二乘法」、「標準化殘差」等。

但有些名詞和概念是回歸分析的基礎,是入門級的概念,我們需要知道。比如本章講的變量和下章要講的相關性。

一、什麼是變量。

回歸分析需要了解的第一個概念是變量。

變量,顧名思義,就是指沒有固定的值,可以變化的量,是相對於常量的一個概念。

在回歸分析中,變量是指存在不同的值的各種指標。具體解釋如下。

首先,變量需要有一個載體(指標)。比如銷量,比如折扣,比如時間。

其次,變量是一個數量。這個數量可以體現為數值(比如銷量50元),也可以體現為某一項特徵(比如性別的男、女)。

再次,變量的值(即數量)是可以變化的,不是固定的。比如氣溫每天在變化,每天的溫度值不同,

最後,變量有很多種,這個世界存在數不清的變量。回歸分析就是要找出一些有用的變量,來進行分析。

二、自變量與因變量。

首先,自變量和因變量都是變量。

自變量也稱解釋性變量,或預測變量,是指回歸分析者主動操縱的變量。

因變量也稱目標變量,是被測定或被記錄的變量。因變量是由於自變量變動而引起變動的量。

這兩個概念看起來可能有點繞,我換一種說法:自變量是「原因」,因變量是「結果」。那些表示原因的是自變量,因原因而得到的結果,就是因變量。

比如,某公司為提升銷量進行一輪降價促銷,這價格就是自變量,價格變動會帶來銷量的變化,這銷量,就是因變量。

再比如,某公司進行提升銷量的方式是做廣告,那廣告投入就是自變量,而同樣,廣告投入力量大小會帶來不同的銷量變化,銷量,就是因變量。

如果還是不太理解自變量和因變量,那麼,我再給一個更簡單的方法:在以需求預測為目的的回歸分析中,我們可以直接認為,我們需要預測的是因變量,其它一切為計算預測值而引用的變量都是自變量。

比如我們以氣溫變化和居民空調數量來預測用電量,我們要預測的是用電量,用電量就是因變量。而為了預測用電量而採集的數據「每日溫度」和「居民空調數」就是自變量。

在進行回歸分析中,自變量可以有若干個,但因變量只有一個。

三、什麼是啞變量。

我們知道自變量和因變量,那麼,啞變量是什麼呢?

啞變量其實是自變量的一種,但因其特殊性,我將其單列一節講解。

我前文說到,變量是一個數量,這個數量可以體現為數值,也可以體現為某一項特徵,這種以某一特徵表現的變量就是啞變量。比如性別(男女)。

啞變量,又稱虛擬變量、名義變量或幹預變量,是自變量中表示分類的變量或定性的變量,一般取值0和1,表示一個或多個定性特徵的存在或不存在。

定性指標往往是不可測量的,無法用數值去表示,於是,啞變量應運而生。啞變量作為一個信號或特徵符號參與回歸分析。

比如,我們預測天氣對銷量的影響,晴天用1表示,不是晴天用0表示,這就是一個啞變量。性別,男的用1表示,女的用0表示,這也是啞光量。

啞變量是自變量的一種,和自變量一樣,啞變量也可以有若干個。

將啞變量和其它自變量一起參與回歸建模,能夠增加回歸模型對需求預測的效果。

本章小結。

這一章,我講解的是回歸分析的基礎概念之一,變量。在回歸分析中,變量是指存在不同值的各種指標。

自變量是回歸分析者主動操縱的變量,是一種解釋性變量。因變量是由於自變量變動而引起變動的量。自變量是「原因」,因變量是「結果」。我們需要預測的是因變量,其它一切為計算預測值而引用的變量都是自變量。

啞變量是自變量的一種,是自變量中表示分類的變量或定性的變量,一般取值0和1,表示一個或多個定性特徵的存在或不存在。

我是許栩,供應鏈從業二十年,專注於供應鏈計劃,精於需求預測,歡迎大家關注和閱讀,也歡迎大家分享、討論、轉發和收藏。

有關變量、自變量、因變量和啞變量的問題,大家可以留言提出,我將一一解答。專欄的下一節,將講解回歸分析的基礎概念2,相關性與相關關係,歡迎收藏與訂閱,謝謝!

相關焦點

  • 回歸分析兩個因變量 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記兩個概念:RR和OR二分類資料的logistic回歸SPSS操作示例幾個需要注意的問題:樣本量、啞變量、模型擬合效果和擬合優度檢驗、多重共線【1】兩個概念RR(Relative Risk):相對危險度,也稱危險比(Risk Ratio
  • spss多變量回歸分析 - CSDN
    回歸分析的棘手問題--非線性關係1回歸分析要求自變量與應變量存在著線性關係回歸分析主要探討自變量x與研究結局變量y的關係,無論線性回歸,logistic回歸或者那麼就是自變量從1到2對y的影響和從2到3影響的平均值。也就是白人到黑人,黑人到其他人種變化帶來的影響的平均值。這個結果無法說明任何問題,既不能說明黑人相對白人出生缺陷的嚴重性,也不能說其他人種的影響。這個變量是無序分類變量,各變量之間沒有等級關係。因此,取平均值沒有任何實際意義。因此,無序多分類變量不能直接納入回歸開展分析。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • SPSSAU如何處理控制變量?
    在一個研究或實驗中,主要包括兩種變量:由自身變化而引起結果變化的變量被稱為 自變量。由自變量或其他因素的變化引起變化的變量被稱作 因變量。統計分析時也可以將變量區分為自變量X和因變量Y。比如研究性別和收入水平的關係,性別是自變量,收入水平是因變量。
  • 單變量回歸分析spss - CSDN
    簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
  • 【線性回歸】多變量分析:多元回歸分析
    多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎,也是理解監督類分析方法的入口
  • 什麼是好的研究假設?——順談與自變量、因變量的關係
    社會科學研究中有一個特別有趣的東西,叫「研究假設(hypothesis)」,這個東西特別重要,它連接了理論和數據,是貫穿一篇文章的黃金線。讀一篇實證文章的時候,哪怕什麼都沒看懂,也要把研究假設看懂了,看懂了研究假設也就明白了這篇文章主要是要幹嘛。所以我們今天系統的來說說研究假設,以及與其緊密相關的自變量、因變量。
  • 什麼是好的研究假設(Hypothesis)?——順談與自變量、因變量的關係
    (比如,」 喝咖啡喝的越多,小白的頭越疼」 這個假設能清楚的告訴別人我要關注的是「為什麼小白頭疼」);告訴別人你有一些別人沒想到的能解釋這個問題的想法或「變量」(比如「喝咖啡」和「睡得晚」就是解釋變量);告訴別人你在研究中關注的自變量和因變量分別是什麼;告訴別人假設自變量和因變量兩者是怎樣的關係
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • 檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見
    檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見方法是( )。A.F檢驗 B.R2檢驗 C.自變量相關係數檢驗 D.t檢驗 查看答案解析【答案解析】 本題考查簡單線性回歸模型。t檢驗是檢驗回歸方程中自變量X是否對因變量Y具有顯著影響的一個最常見方法。參見教材P312。
  • 如何衡量解釋變量(自變量)對因變量變化的貢獻程度?
    因變量通常受多個解釋變量的影響,如收入會受學歷、行業、工作年限、性別、地域等多種因素的影響,那麼所有因素都必須納入因變量的解釋模型嗎?未必,因為有些解釋變量之間可能具有相關性,疊加多個解釋變量對因變量的解釋程度並不能提高多少,反而增加了模型的運行時間和空間損耗。如何篩選真正對因變量有貢獻的解釋變量呢?
  • ...形成及其規律;中介變量和調節變量及其區別;動機與行為效率的關係
    【參考答案】(1)中介變量①含義:如果自變量通過某個因素影響因變量,則稱該因素為中介變量,中介變量是自變量對因變量產生影響的實質性的、內在的原因。②舉例:家庭經濟狀況通過教育投入影響孩子的學習成績,表現為經濟狀況越好的家庭對孩子的投入越多,孩子的成績越好;經濟狀況越差的家庭對孩子的投入越少,孩子的成績越差。
  • 多元有序logistic回歸分析 - CSDN
    如下表:Logistic回歸分類啞變量問題有序logistics回歸中,自變量X可以為定量數據,也可以是定類數據。但如果定類數據納入模型,需要先將其設為啞變量。設置方法如下:使用路徑:SPSSAU>數據處理>生成變量平行性檢驗即檢驗自變量各取值水平對因變量的影響在各個回歸方程中是否相同。平行性檢驗的原假設為模型滿足平行性,因而如果P值大於0.05則說明模型接受原假設,即符合平行性檢驗。反之如果P值小於0.05則說明模型拒絕原假設,模型不滿足平行性檢驗。
  • 什麼是回歸?什麼是回歸分析?回歸分析預測的分類方法有哪些?
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。本章,講解回歸分析的相關概念和的分類,主要包括以下四個內容。
  • 有序Logistic回歸實例分析(Ordinal Regression)
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。Logit回歸共分為三種,分別是二元Logit(Logistic)回歸、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸(也稱Oridinal回歸),此三個方法的區別在於因變量Y的數據類型。
  • |精密度|準確度|係數|因變量_網易訂閱
    準確度和精密度是兩個不同的概念,但它們之間有一定的關係。應當指出的是,測定的精密度高,測定結果也越接近真實值。但不能絕對認為精密度高,準確度也高,因為系統誤差的存在並不影響測定的精密度,相反,如果沒有較好的精密度,就很少可能獲得較高的準確度。可以說精密度是保證準確度的先決條件。  4.
  • 一元線性回歸模型容易理解嗎?讓公式和變量來告訴你!
    什麼是一元線性回歸模型?一元回歸模型,也叫簡單線性回歸,是統計學中最為基礎的部分,也是數理統計中的入門必會模型。在實際研究當中常用於預測一個變量如何隨另一個變量而變化,例如一件商品的購買意願是否會隨著商品的定價變化而變化,這其中的變化關係如何去刻畫描摹,這時就需要搭建一元回歸模型來進行檢驗。一元回歸模型的數據要求是什麼?因變量(Y):被預測的變量,也叫被解釋變量,例如購買意願,以李克特7級量表打分為例(購買意願分為1-7,得分越高,購買意願越強)。
  • 線性回歸分析詳解10(完結篇):線性回歸分析預測的十大步驟
    三、列出所有的變量。數據收集並清洗後,需要根據數據,列出所有有效的變量(指經收集清洗後有完整可用數據的變量)。以本專欄回歸火鍋店為例,在收集數據並經必要的整理清洗後,我們得到了如上圖的數據(回歸火鍋店每日業績),根據這些數據,可以列出了全部變量(自變量:氣溫、折扣、帥哥站臺;因變量:業績)。四、進行相關分析,確定納入回歸方程的自變量。
  • 如何用線性回歸模型做數據分析?
    一、什麼是線性回歸 線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係;對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關係的數據類型的應用場景。
  • spss計算變量:不用記公式,一鍵輕鬆得到新變量!
    計算和轉化變量是數據處理分析過程中一個非常重要的過程,針對一些分析方法,原變量可能並不適合分析,此時就需要對原變量進行轉化,以利於後續分析。針對這一需求,SPSSAU提供多種計算變量的方法,三步即可生成變量,不需要再單獨輸入函數。