作者:丁點helper
來源:丁點幫你
線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。
線性回歸運用這麼廣泛很大程度在於它的內在邏輯十分簡單。一般情況下,就是找Y的影響因素或者說是衡量自變量(X)對因變量(Y)的影響程度,即便不理解其中的數學計算也可以很容易地憑藉各種軟體找到我們想要的結果。
確實如此,線性回歸,尤其是一般線性模型(一個Y,多個X)使用起來沒什麼障礙,但大家是否完全理解清楚了所有應該掌握的內容(非數學計算)可能有待思考,這個系列的文章我們以「線性回歸」為主題,希望能讓大家對這個問題的認識能再全面一丁點。
回歸一詞的來源
初學的小夥伴有沒有思考過,為什麼叫「回歸」?
回歸,這個詞,英文叫「Regression」,最早出現在1886年英國遺傳學家Francis Galton發表的一篇研究身高的論文(」Regression towards mediocrity in hereditary stature」),他發現子女的身高會向整個群體身高的均值回歸。
什麼叫均值回歸?
大家是否想過人類生活繁衍了無數代,但總體來看,成年男子的身高並沒有發生太大的變化,基本穩定在1米6至1米8(暫不考慮人種差異)。
這種現象很大程度就是因為存在均值回歸,即身高較高的父母雖然子女也比較高,但往往比父母矮;身高較矮的父母,其子女的身高往往比父母高。
所以,這裡的均值回歸,就是指子代的身高會向整個人類的平均身高靠攏的趨勢。
換句話講:姚明的孩子大概率會比姚明矮、潘長江的孩子大概率會比潘長江高。
因此,正是因為身高的均值回歸現象(向整個群體的平均身高回歸),整個人類的身高水平才能比較均衡。
倘若,個子高的父親生的孩子比自己還高,而個子矮的父親生的孩子比自己還矮,那麼整個人類的身高就會呈現「兩極分化」的態勢:要麼特別高、要麼特別矮。
由此來看,最早的「回歸」實際上描述的是一種「現象「,即人們的身高不會無限制地上升或降低,而是會朝著平均水平回歸。
當然,這種現象並不僅限於「身高」,我們身邊的很多現象都有向均值回歸的趨勢。比如考試成績,一般來講,成績很難持續提升或下降,而是大概率呈現波動狀態,維持在一個平均水平。
而現如今,回歸更多是指代一種「方法」,即研究兩個或兩個以上變量相關關係的方法。以一個變量為因變量(Y),另一個或一些變量為自變量(X),構建一個方程——左邊為Y,右邊為X,通過計算X的係數來估計X對Y的影響。
比如通過父母的平均身高來估計子女的身高。我們以父母的平均身高為「X」,以孩子的身高為「Y」,然後探討這兩個變量之間的線性關係,這就是一個典型的回歸模型。
Francis Galton的研究——父母平均身高與子女身高的回歸線
區分總體和樣本
在剛開始接觸統計的時候,我們會經常強調一對概念——總體和樣本。但是,這個問題在做回歸時可能會被忽略。
因為無論做哪種統計分析,我們獲得數據幾乎永遠都是」樣本數據「:統計量的大小僅僅反映了這組數據的情況。
比如,我們想考察」教育年限(X)「與」收入(Y)「是否存在相關關係。通過抽樣,獲得了兩組數據(例如1000名對象的教育年限和目前的月收入),得出相關係數為0.8。
但是,這個相關係數僅僅反映了這1000名對象的情況,對於所有人(即我們研究的總體),這個相關關係是否仍然成立?
所以,我們必須要進行檢驗,即相關係數的假設檢驗。因為我們關心的是相關關係的有無,所以,最主要的是檢驗總體相關係數是否為0(H0假設)。因為」0「代表無關,只要不為」0「,就證明總體數據的相關關係存在。
同樣的,我們也可以用獲得的這1000名對象的數據,做回歸分析,以」教育年限「(X)為自變量,以」月收入「(Y)為因變量,得到回歸方程:Y = 2000+200X+ε
這裡,我們最關注的是X的回歸係數——200。
這裡的200,意味著教育程度每增加一年,月收入增加200元。
但是,這個關係也只是反映了這1000名研究對象的情況,對於所有人,是否教育程度每增加一年,月收入都會增加200元?
這就有待進行假設檢驗,同樣我們也是關注:總體回歸係數是否為0。
因此,在接觸回歸的第一步,我們需要明確,自己手頭上數據所獲得的回歸方程僅僅是一個樣本的情況。
如果重複抽樣,再進行相同的回歸分析,就會得到另一個回歸方程。
也就是說,目前得到的這個回歸方程(以及其中的回歸係數),它是可變的,是一個樣本值,隨著樣本的變化而變化。也正因為此,我們才需要對回歸係數進行檢驗。
實際上,教科書對總體回歸和樣本回歸也有著清晰區分,就連方程的術語和符號也不例外:
所以,」戴帽子「(^)的都是樣本值,或者說是總體的估計值。
理清了這一點,才能更好地搞懂回歸係數的假設檢驗等問題。
最後出個題目考考大家,當我們做回歸係數(β)的假設檢驗時,下面A、B兩種寫法哪種正確: