作者:丁點helper
來源: 丁點幫你
上一篇文章給大家留了一個思考題,問在假設檢驗時下面哪種寫法是正確的:
大家都答對了嗎?正確答案是「A」。
樣本與總體回歸係數的區分
這一點內容看似很簡單,但其實經常有同學犯糊塗,所以,還是值得專門說一下。
回歸係數的計算
借用我們講相關分析時的例子:探討糧食中某種毒素(DON)對骨關節炎評分(OAP)的影響,數據如下:
無論是做回歸還是相關分析,我們拿到數據的第一步應該是先畫一個散點圖:以因變量Y為縱軸,以自變量X為橫軸(如果有多個自變量,則讓Y逐一與X畫散點圖)。
本例我們研究的是DON對OAP的影響,所以以OAP為Y,以DON為X,散點圖如下:
如上圖,兩變量之間正向的線性關係還是很明顯的,隨著DON的提升,OAP也有上升的趨勢,所以推測,糧食中DON毒素可能會導致患者關節炎的發生。
回歸方程在幾何上是一條直線,所以問題歸結於怎麼樣找到一條這樣的直線。
因為我們希望回歸直線儘可能最優,所以就需要做出的直線離各散點的綜合距離最小。
如下圖中的u1、u2,代表了散點與回歸直線的距離。
如下圖,我們根據肉眼觀察,對關節炎的數據畫出來兩條線:藍線和紅線,問題是到底選擇哪一條線呢?
肉眼觀察肯定不靠譜,只能通過數學計算來比較判斷,如何判斷呢?本質上這是一個求最小值的問題。
上面說過了,我們希望得到的直線離所有散點的綜合距離最小,怎麼把這句話轉變成數學計算呢?
所謂的「綜合距離」最小,用數學的語言來表達就是讓下面這個式子取最小值
綜合起來可以寫成:
別被複雜的式子唬住,其實這裡只需要初中或高中的數學就能解決。耐心的小夥伴可以嘗試展開一下,其實就是一個二次函數。
求解出來的結果是:
以上這個過程就是大家總能聽到的「最小二乘法」。
回到我們關節炎的例子,最後得出其回歸方程為: