許栩原創專欄《從入門到高手:線性回歸分析詳解》第9章,總體回歸、置信度、置信區間及其計算方法。
多元回歸方程求解後,我們分別確認了回歸方程的精度和進行了回歸方程的顯著性驗證,接下來,需要計算置信區間。
置信區間是回歸分析的一個重要概念,但是,將回歸分析應用到需求預測時,並不強求引入置信區間,也就是說,用回歸分析做需求預測時,可以不進行置信區間的計算,而直接進行後續的預測步驟。所以,從這一點來說,大家可以跳過本章,直接進入專欄的第10章,用線性回歸分析進行預測。
不過,我們做回歸分析,非常有必要懂得相關置信區間的概念、邏輯和計算方法。所以,本章,我還是對此做些基礎的介紹。(本專欄總目錄如下圖。)
置信區間。
置信區間(Confidence interval)是指由樣本統計量所構造的總體參數的估計區間。【引自百科定義】
因數據極為龐大,不管是回歸分析,還是統計本身,我們都不可能去統計和分析全部數據,統計學上一般採取的做法是,用樣本去估計總體,也就是用局部去估計全部。
因為樣本、局部畢竟是總體中的一部分,所以,用樣本估算的總體存在一定的不可靠性,為了量化這種不可靠性,統計上一般以「一定的範圍」來表示,這個「一定的範圍」就是置信區間。
舉個例子,天氣預報(一種典型的預測),也是用樣本估算的總體,因總體存在一定的不可靠性,所以氣象臺發布氣溫時,一般播報多少度到多少度之間,比如明天氣溫在20℃~30℃之間,這個20℃~30℃之間,就是置信區間。
回歸分析的置信區間,可以簡單地理解為,我們最終的預測結果,不是一個確定的值,而是一個區間範圍。即,預測出來的結果在某個數以下,某個數以下,這兩個數之間就是置信區間。
比如回歸火鍋店,當未來某天氣溫3度,打99折時,最終的預測結果,銷售額在4471元至5333元之間,這個4471元至5333元之間,就是置信區間。
置信度。
上一章已經講到了置信度,置信度可以粗暴地理解為對回歸模型運行結果有把握的程度。
比如上面說的天氣預測,對「明天氣溫在20℃~30℃之間」這個預測結果有多大的把握呢?或者說「明天氣溫在20℃~30℃之間」這個結果的可信程度有多大呢?量化「把握」與「可信程度」的指標就是置信度。
置信度一般用百分比來表示,比如氣象預測人員對「明天氣溫在20℃~30℃之間」有90%的把握,或者說明天氣溫有90%的可能在20℃~30℃之間,這個把握,這個可能,這個90%,就是置信度。
需要強調的一點是,置信度並不是在求出置信區間後判斷出來的。實際上,置信度是在求解置信區間之前,由預測人員(分析人員)自己「決定」的,你採用不同的的置信度,會帶來不同的置信區間。