大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。
常用的定量預測方法包括時間序列預測法與回歸分析預測法。時間序列預測法是以內生數據(也就是歷史需求數據)為分析對象的預測方法,而回歸分析預測法則以外生數據(或稱解釋性數據,比如促銷)為分析對象。
定量方法中,時間序列不能利用解釋性變量來塑造需求,無法識別諸如價格、廣告、促銷、市場或經濟波動等外部因素(外生數據)或因果因素(解釋性因素)帶來的需求變化。
但是,價格、廣告、促銷、市場或經濟波動等外生數據(解釋性數據),在市場現實中幾乎不可避免。為了解決這一問題,回歸分析粉墨登場。
本專欄講解回歸分析預測法,是指用於需求預測的回歸分析方法。回歸分析方法有很多種,但是,對於需求預測來說,一些高深的複雜回歸分析技術似乎並不實用且較難落地,所以,本專欄,僅針對對需求預測來說較實用的線性回歸分析進行講解。
本專欄的兩個說明。
1、儘可能減少原理性講述。能直接用Excel函數或數據分析功能計算出結果,我不再對計算過程和原理進行講解。
2、本專欄引用數據全部為虛擬。
本專欄的主要內容見下圖。
在正式講解回歸分析之前,我先用兩章的篇幅講解回歸分析的幾個名詞和概念。
回歸分析涉及到的名詞和概念很多,但隨著目前一些通用軟體如Excel的統計與數據分析功能加強,對於回歸分析應用於需求預測來說,大部分名詞和概念我們並不需要了解,比如「最小二乘法」、「標準化殘差」等。
但有些名詞和概念是回歸分析的基礎,是入門級的概念,我們需要知道。比如本章講的變量和下章要講的相關性。
一、什麼是變量。
回歸分析需要了解的第一個概念是變量。
變量,顧名思義,就是指沒有固定的值,可以變化的量,是相對於常量的一個概念。
在回歸分析中,變量是指存在不同的值的各種指標。具體解釋如下。
首先,變量需要有一個載體(指標)。比如銷量,比如折扣,比如時間。
其次,變量是一個數量。這個數量可以體現為數值(比如銷量50元),也可以體現為某一項特徵(比如性別的男、女)。
再次,變量的值(即數量)是可以變化的,不是固定的。比如氣溫每天在變化,每天的溫度值不同,
最後,變量有很多種,這個世界存在數不清的變量。回歸分析就是要找出一些有用的變量,來進行分析。
二、自變量與因變量。
首先,自變量和因變量都是變量。
自變量也稱解釋性變量,或預測變量,是指回歸分析者主動操縱的變量。
因變量也稱目標變量,是被測定或被記錄的變量。因變量是由於自變量變動而引起變動的量。
這兩個概念看起來可能有點繞,我換一種說法:自變量是「原因」,因變量是「結果」。那些表示原因的是自變量,因原因而得到的結果,就是因變量。
比如,某公司為提升銷量進行一輪降價促銷,這價格就是自變量,價格變動會帶來銷量的變化,這銷量,就是因變量。
再比如,某公司進行提升銷量的方式是做廣告,那廣告投入就是自變量,而同樣,廣告投入力量大小會帶來不同的銷量變化,銷量,就是因變量。
如果還是不太理解自變量和因變量,那麼,我再給一個更簡單的方法:在以需求預測為目的的回歸分析中,我們可以直接認為,我們需要預測的是因變量,其它一切為計算預測值而引用的變量都是自變量。
比如我們以氣溫變化和居民空調數量來預測用電量,我們要預測的是用電量,用電量就是因變量。而為了預測用電量而採集的數據「每日溫度」和「居民空調數」就是自變量。
在進行回歸分析中,自變量可以有若干個,但因變量只有一個。
三、什麼是啞變量。
我們知道自變量和因變量,那麼,啞變量是什麼呢?
啞變量其實是自變量的一種,但因其特殊性,我將其單列一節講解。
我前文說到,變量是一個數量,這個數量可以體現為數值,也可以體現為某一項特徵,這種以某一特徵表現的變量就是啞變量。比如性別(男女)。
啞變量,又稱虛擬變量、名義變量或幹預變量,是自變量中表示分類的變量或定性的變量,一般取值0和1,表示一個或多個定性特徵的存在或不存在。
定性指標往往是不可測量的,無法用數值去表示,於是,啞變量應運而生。啞變量作為一個信號或特徵符號參與回歸分析。
比如,我們預測天氣對銷量的影響,晴天用1表示,不是晴天用0表示,這就是一個啞變量。性別,男的用1表示,女的用0表示,這也是啞光量。
啞變量是自變量的一種,和自變量一樣,啞變量也可以有若干個。
將啞變量和其它自變量一起參與回歸建模,能夠增加回歸模型對需求預測的效果。
本章小結。
這一章,我講解的是回歸分析的基礎概念之一,變量。在回歸分析中,變量是指存在不同值的各種指標。
自變量是回歸分析者主動操縱的變量,是一種解釋性變量。因變量是由於自變量變動而引起變動的量。自變量是「原因」,因變量是「結果」。我們需要預測的是因變量,其它一切為計算預測值而引用的變量都是自變量。
啞變量是自變量的一種,是自變量中表示分類的變量或定性的變量,一般取值0和1,表示一個或多個定性特徵的存在或不存在。
我是許栩,供應鏈從業二十年,專注於供應鏈計劃,精於需求預測,歡迎大家關注和閱讀,也歡迎大家分享、討論、轉發和收藏。
有關變量、自變量、因變量和啞變量的問題,大家可以留言提出,我將一一解答。專欄的下一節,將講解回歸分析的基礎概念2,相關性與相關關係,歡迎收藏與訂閱,謝謝!