簡單線性回歸模型

2021-01-14 小Q統計
1 導言

回歸分析是一個古老的話題。一百多年前,英國的統計學家高爾頓(F. Galton,1822-1911)和他的學生皮爾遜(K. Pearson,1857-1936)在研究父母和其子女身高的遺傳關係問題中,統計了1078對夫婦的平均身高以及他們的一個成年兒子的身高數據。

他們將孩子的身高作為自變量

這個結果看起來是違背直覺的。因為統計的結果表明,高個子父母的子女有低於父母身高的趨勢;而矮個子的子女則有高於父母的趨勢。高爾頓解釋說,自然界存在某種約束力將人的身高向某個平均數靠攏——或者說是回歸——也即是統計學上回歸的涵義。

本期我們的主題便是通過R來解決線性回歸分析中的若干問題。

2 基礎回顧

回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?一般說來,如果我們研究的問題中的

那麼我們就說這是一個線性回歸問題,其中

注意,線性回歸問題的確定並不是通過自變量的形式,而是問題中待估計的未知參數最高次都為一次且關於未知參數呈線性關係。如

通常在線性回歸中估計未知參數方法是最小二乘法(OLS),而為了保證估計值能夠很好的解釋模型,我們又有如下前提條件:

這些條件又被稱為高斯—馬爾可夫條件,它們保證了在經典線性回歸中最小二乘估計的優越性。

3 求解線性回歸模型函數3.1 極大似然法

最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。

假設我們得到下面一組觀測數據:

那麼根據高斯-馬爾可夫假設,我們可以得到殘差估計的似然函數為

這個式子的成立還需要假設殘差分布的均值為

如何通過上面的函數得到係數的估計值呢?極大似然的思想便是,讓這些估計值使得似然函數達到最大! 這個想法很樸素:每個觀測數據隨機且互相獨立,我們一次搜集便得到眼前的數據,那麼自然而然認為這些數據組合出現的概率是最大的。

不過,數據已經搜集好便不能改動。我們自然想到,係數的估計值便是讓這些數據對應的概率可能性最大——也即是似然函數最大。

現在假裝大家已經理解了極大似然的原理,下面我們來求解它。直接最大化不太可行,我們通常對似然函數取對數得到對數似然函數

然後再分別對各個參數進行優化。限於篇幅,不再贅述。

3.2 R求解線性回歸模型

我們可以利用現有軟體進行模型求解。在R中求解線性回歸問題的最基本函數就是lm(),其格式為:

myfit <- lm(formula, data)
# formula 是要擬合的模型形式,用一個R公式表示
# data 就是模型的數據構成的數據框

下面我們解釋一下formula具體的形式,首先看下表總結的formula中常用的符號。

如果自變量為

那麼formula可以寫成:

y ~ x1 + x2 + x3
# 或者為 y ~ .

其他形式的模型formula的表達式還請讀者自行琢磨。

當模型擬合成功後,我們使用summary()函數來得到擬合的具體結果。而其他常用的獲取線性回歸模型擬合結果的函數如下表所示。

4 實例分析

下面我們將用實例具體介紹lm()函數的使用方法。

4.1 簡單線性回歸

本例中我們使用基礎安裝中的數據集women數據,它記錄了15個年齡在30~39歲間女性的身高和體重信息,我們現在來探究體重關於身高的關係。

myfit <- lm(weight~height, data = women)
summary(myfit) # 展示擬合詳細結果

程序的輸出結果如下所示程序的輸出結果如下所示

無交互項模型輸出結果

這裡主要給讀者解釋這麼幾項指標的含義:

Residuals:體重預測值和真實值之差的統計信息,從左到右分別為最小值、下四分位數、中位數、上四分位數和最大值。Coefficients:第一列(Estimate)中(Intercept)對應的數值為截距項,height對應的即為身高變量前的估計係數。Multiple R-squared:介於0-1之間,越接近1說明線性關係越強。p-value:模型的F檢驗統計量的p值,值越小說明模型越可靠。

因此本例中體重和身高的回歸方程為:

根據R方(Multiple R-squared)和p值(p-value)可知模型是可靠的。此外,我們可以作圖觀察最終的擬合結果。

無交互項擬合圖4.2 具有交互項的線性回歸

繼續考慮上例,如果模型中存在一個交互項比如一個平方項,那麼即有:

myfit <- lm(weight~height + I(height^2), data = women)
summary(myfit) # 展示擬合詳細結果

程序的輸出結果如下所示。

有交互項模型輸出結果

可以看到通過比較R方、p值,添加了平方項的線性模型效果更好。我們同樣可以做出相應的圖像。

有交互項擬合圖5 結語

本期我們主要介紹了R中線性回歸分析的簡單操作方法。不過,這裡僅僅涉及線性回歸分析的冰山一角,關於線性回歸問題中的回歸診斷和異常點的判斷等內容,限於篇幅這裡就不做介紹了。有興趣的讀者可以學習《R in action》第8章中關於回歸的講解。

相關焦點

  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。,這個暗示了模型的限制。參數的線性化會簡化這類模型的計算,但也會導致一些限制。『tanh』函數的線性組合。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。
  • 兩個例子告訴你:什麼是「線性」回歸模型?
    全文共1534字,預計學習時長3分鐘在機器學習和統計領域,線性回歸模型是最簡單的模型之一。這意味著,人們經常認為對線性回歸的線性假設不夠準確。例如,下列2個模型都是線性回歸模型,即便右圖中的線看起來並不像直線。
  • 簡單線性回歸分析
    廣義上來講,它是通過建立數學模型的方法,探索自變量與因變量的關係,嘗試以自變量的差異來解釋因變量的不同。上一節我們對67例居民身高和體重的相關性分析發現,居民的體重與身高變化密切相關,即隨著身高的增加,體重逐漸上升。我們還是採用之前的數據,介紹SPSS進行線性回歸分析的具體步驟。
  • 多元線性回歸與模型診斷
    多元線性回歸的基本表達式回歸方程的模型擬合度在進行回歸模型之前,我們可以計算總的波動誤差如下:②假設檢驗(同一元線性回歸類似)自變量選擇偏差的權衡(1)丟失重要變量(2)加入無關變量變量係數的估計偏差(大樣本,無關變量會收斂於0)增加了模型參數估計的不確定性增加了R方的值,但是使得調整的R方減小(3)兩種合理估計線性回歸係數的方法①一般情況模型變量的選擇方法a.
  • 7種執行簡單的線性回歸的分析與討論!
    【IT168 資訊】對於無數的數據科學家來說,線性回歸是許多統計建模和預測分析項目的起點。擬合的重要性,無論是準確的還是快速的,對於大數據集的線性模型都不能被誇大。由於scikit-learn是一種免費的機器學習庫,它具有回歸、分類、聚類、模型選擇和降維等功能,所以常用的方法是從該庫調用線性模型類並擬合數據。雖然這可以為應用機器學習的其他流水線特性(例如數據規範化,模型係數正則化,將線性模型提供給另一個下遊模型)提供額外的優勢,但這通常不是確定回歸係數(和一些基本的相關統計)最快或最乾淨、簡單的方法。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    線性回歸是最流行和討論最多的模型之一,它無疑是深入機器學習(ML)的入門之路。這種簡單、直接的建模方法值得學習,這是進入ML的第一步。在繼續討論之前,讓我們回顧一下線性回歸可以大致分為兩類。簡單線性回歸:當只有一個輸入變量時,它是線性回歸最簡單的形式。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • 原理+代碼|Python實戰多元線性回歸模型
    其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。,這裡需要轉換一下,而多元線性回歸模型中類別變量的轉換最常用的方法之一便是將其轉化成虛擬變量。
  • SPSS|簡單線性回歸(一)
    即,本研究中簡單線性回歸的觀測值具有相互獨立性,滿足假設4。但不得不說,Durbin-Watson檢驗不是萬能的。它僅適用於對鄰近觀測值相關性的檢驗(1st-order autocorrelation)。舉例來說,我們一般按照調查順序錄入數據,將第一位受試者錄入到第一行,再將第二位受試者錄入到第二行。
  • Python環境下的8種簡單線性回歸算法
    GitHub 地址:對於大多數數據科學家而言,線性回歸方法是他們進行統計學建模和預測分析任務的起點。但我們不可誇大線性模型(快速且準確地)擬合大型數據集的重要性。如本文所示,在線性回歸模型中,「線性」一詞指的是回歸係數,而不是特徵的 degree。
  • 8 種進行簡單線性回歸的方法分析與討論
    8 種進行簡單線性回歸的方法分析與討論 Tirthajyoti Sarkar 發表於 2018-01-05 08:18:57 本文中,作者討論了 8 種在 Python 環境下進行簡單線性回歸計算的算法,不過沒有討論其性能的好壞
  • 零基礎的同學如何用stata做多元線性回歸模型?
    上一期,我們分享了如何用stata做一元線性回歸模型,不知道同學們學的怎麼樣呢?有沒有自己動手操作一遍呢?這一期:我們將學習如何用stata做多元線性回歸模型!這些是小王(邀請者)最近學習計量時的一些心得和體會,希望能與大家一起分享。
  • 看不懂Logistic模型?別慌,先來了解它和線性回歸模型的區別!
    #計量經濟學#Logistic回歸在統計學領域也是一種非常常見的線性回歸模型。作為回歸模型的一種,其實它和簡單線性回歸模型分析有著非常相似的地方,它們的模型方程形式是一致的,右邊都可以寫成b1x+c的方程形式,並且b1和c都是未知的係數參數。
  • 線性回歸分析思路總結!簡單易懂又全面!
    線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!線性回歸回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。
  • 論文推薦王苗苗:無縫線性回歸與預測模型
    對此,本文提出了一種嚴格考慮所有變量觀測誤差的無縫線性回歸和預測模型,該模型將回歸模型的建立和因變量預測聯合處理,在建立回歸模型過程中對待預測自變量的觀測誤差進行估計並修正,從而提高了模型預測效果。理論證明,現有的幾種線性回歸模型都是無縫線性回歸和預測模型的特例。試驗結果表明,無縫線性回歸和預測模型的預測效果優於現有的幾種模型,尤其在變量觀測誤差相關性較大時,無縫模型對預測效果的改善更為顯著。
  • 零基礎的同學如何用stata做一元線性回歸模型?
    如何用stata做出滿意的一元線性回歸模型呢 ?小編邀請了不同學科的研究生分享stata的學習心得,希望能夠幫助更多對計量感興趣的同學們。分享者(小熊)零基礎的同學如何做一元線性回歸模型首先,什麼是一元線性回歸?
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。