大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。
本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。本章,講解回歸分析的相關概念和的分類,主要包括以下四個內容。(本專欄總目錄見下圖。)
1、為什麼叫「回歸」?
2、什麼是回歸分析?
3、回歸分析預測法。
4、回歸分析的分類。
一、為什麼叫「回歸」?
19世紀英國科學家弗朗西斯·高爾頓(Francis Galton)的著作《遺傳的天賦》出版後,儘管他的大表哥查爾斯·羅伯特·達爾文(Charles Robert Darwin)給予了很高的評價,但他的觀點得到大多數的反感和批評。
對《遺傳的天賦》持批評意見的人認為,儘管遺傳因素對智力的影響是真實存在的,但是高爾頓過分誇大了它的作用。於是,高爾頓決心研究父母遺傳決定子女命運的程度。從可量化的身高開始,即父母身高對子女身高的影響。
很快,高爾頓發現了一個異乎尋常的現象:如果父母較高,他們孩子的身高也較高,但很可能不如他們父母的身高;而當父母較矮時,情況正好相反,雖然孩子也比較矮,但是不會比他們的父母矮。
人們把高爾頓發現的這種現象叫做「回歸平均值」,這是「回歸」的最初來源。
為什麼叫「回歸」?當父輩高於(或低於)平均身高時,他們子輩的身高比他更高(或更低)的概率小於比他更低(或更高)的概率,反映子輩有向他們父輩的平均身高回歸的趨勢。
二、什麼是回歸分析?
《遺傳的天賦》出版二十年後,高爾頓在《自然的遺傳》一書中指出,從整體情況看,成年子女的身高與他們父母相比更加趨於平均水平,從理論上講,回歸是一個必然的事實。【高爾頓在試驗和研究的過程中發明了「散點圖」並提出了「相關係數」的概念(具體過程我這裡就不細表)。】
後來,高爾頓很快發現,回歸現象不僅僅在父母和子女身高上出現,相關係數的應用也並有僅限於遺傳研究領域。在生活中,隨時間產生起伏變化的任何東西,幾乎都會受到回歸效應的影響。高爾頓認為,只要兩個量彼此之間可能有關係,就可以用相關係數來進行分析。
回歸分析就是在相關分析的基礎上發展而來。
回歸分析,是對兩個或兩個以上變量之間的相關關係進行定量研究的一種統計分析方法。
1、回歸分析研究的是兩個或兩個變量之間的關係,單一的變量不存在回歸分析。
2、回歸分析研究的是相關關係,當兩個變量之間不存在相關關係時,就沒有進行回歸分析的必要。(注,再重複一遍上兩講講過的話題,相關關係不僅僅限於因果關係。)
3、回歸分析是定量研究方法,是一種統計分析方法。
三、回歸分析預測法。
本專欄講的回歸分析,主要目的是用回歸分析做預測,那麼,什麼是回歸分析預測呢?
回歸分析預測法,是在分析自變量和因變量之間相關關係的基礎上,建立變量之間的回歸方程,並將回歸方程作為預測模型進行預測的一種預測方法。
回歸分析預測法,主要是發現需求(因變量)和影響需求的因素(自變量)之間的關係,從而利用這些關係來幫助預測未來的需求。