回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
本節主要講解簡單線性回歸,即研究變量Y隨變量X變化的分析,不考慮多自變量對結果變量情況。
回歸分析與相關分析的區別與聯繫
線性回歸(linear regression )是分析兩個定量變量間的線性關係。一般地,某一變量(稱為Y變量)隨另一變量(X變量)變化而變化,且這種變化趨勢呈直線趨勢。
線性回歸方程: Y'=a+bX,
Y'為X對應的實測值Y的總體均數的估計值,X為橫坐標(),a為截距,b為斜率
通過個體觀測值(X、Y)找到最「合理的」一條直線,儘可能地讓所有的散點與它的距離「最近」,得出直線的方程Y'=a+bX 。只要給出一個自變量X的值,就能計算出相應的預測值Y'。
(一)因變量Y與自變量X呈線性關係
通過繪製(X、Y)的散點圖,觀察散點的分布是否具有線性趨勢,來判斷線性關係是否成立。如果不成立,則可以通過非線性回歸分析方法。
(二)每個個體觀察值之間互相獨立
即任意兩個個體的觀察值之間不應該有關聯性,否則會導致回歸分析的估計值不夠準確和精確。
(三)在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布
利用專業知識來判斷,也可通過殘差的散點圖,或者通過預實驗測定任意給定X值對應一系列Y值,再檢驗Y值的正態性來判斷。如果不滿足正態性,首先應該考慮通過數據變換,使其滿足正態性。
(四)在一定範圍內,不同X值所對應的隨機變量Y的方差相等
通常利用(X、Y)的散點圖或殘差的散點圖來判斷方差是否齊性。如果數據不滿足等方差條件,可用變量變換使其方差齊性,或者採用加權回歸法。
通俗地講, 通過樣本數據(X、Y)的散點圖,儘可能地讓所有的散點與某條直線的距離「最近」,來擬合出最好的一條直線。
理解圖;
本次內容到此為止,下期再見。
感謝大家的支持,歡迎批評與指教!!!