最小二乘法與線性回歸

2021-02-24 珠江腫瘤

        引言:回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。

        回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。

        線性回歸是一種最為我們熟悉的方式,故接下來我們就來詳細了解線性回歸。

1. 最小二乘法原理

例如我們有一組數據,分別對應x(橫坐標)與y(縱坐標)。我們試圖建立x與y的等式關係,並探究x預測y的可靠性。通過繪製散點圖,我們可以對該組數據擬合無數條直線,但是怎樣找到最佳擬合直線呢?最小二乘法可以解決這一問題。

第一步:如下。不考慮x值,計算y值的均值b。Mean(y)=3.5。

第二步:如下。以均值形成擬合直線y=3.5,計算各數據點到y=3.5的距離的平方和,統計術語為圍繞均值的平方和(sum square around mean,SS(mean))。

殘差 各個觀測數據(observed data)到擬合直線y=3.5的距離成為均值擬合直線的殘差(residual),即實際數據與預測數據的差異;殘差平方和 SS(mean)又稱該擬合均值直線對應的殘差平方和,此處得SS(mean)=24.62。

第三步:旋轉均值直線,求解不同擬合直線對原始數據的擬合效果。隨著直線的旋轉,不同擬合直線對應的殘差平方和不斷發生改變(如下):

如何評價擬合的效果?

當直線對原始數據的擬合效果較好時,大部分數據靠近直線分布,故該直線對應的殘差平方和較小。再次強調,殘差為實際數據與預測數據的差異。 換句話說,擬合直線對應殘差平方和表示直線的擬合效果,殘差平方和越小,說明直線的擬合效果越好。

2. 最小二乘法求解最佳擬合直線

直線回歸方程的通用公式為:

y=a·x+b 

其中a表示直線方程的斜率(slope),b表示直線方程的截距(intercept)。為了尋找原始數據的最優擬合回歸直線,故需要求解對應殘差平方和最小回歸直線的a與b。

殘差平方和的計算公式:

SS(mean) = ((ax1 + b )-y1)^2+((ax2 + b )-y2)^2+((ax3 + b )-y3)^2 +

...+((axn + b )-yn)^2

①預測y(predicted y):(a·x1+b),(a·x2+b),...,(a·xn+b)表示基於(ax+b)直線預測的y;

②觀測y(observed y):y1,y2,...,yn表示實際觀測到的y1,y2,...,yn。

最小二乘法(least square)名稱的由來:基於殘差平方和的方法得出最優「a」與「b」,進而尋找最小殘差平方和對應的直線,故該方法被稱為「最小二乘法(least square)」。

第四步:對殘差平方和公式進行求導,尋找最優擬合回歸直線。 如果我們繪製每一條直線斜率與其對應殘差平方和的散點圖(如下)。可以發現,當該曲線取得最小殘差平方和時,斜率為0。

對函數求導可以得出曲線上任意一點對應的斜率,故我們可對函數求導,利用導數等於0的性質,求解最優。

從應用統計學的角度出發,電腦程式可以幫我們求最優解,我們不用親自掌握函數如何求導。最後,我們得出最佳擬合回歸直線:y=0.77x+0.66,該直線對應的殘差平方和最小。

3.小結

現在我們開啟新的一部分學習,在這接下來的幾個章節,我們將逐漸學習線性回歸的基礎知識。在這一小節中,我們主要學習了最小二乘法的原理,以及如何利用最小二乘法判斷和求解最佳擬合直線。

參考視頻: 

https://www.youtube.com/watch?v=PaFPbb66DxQ&list=PLblh5JKOoLUIzaEkCLIUxQFjPIlapw8nU&index=1

編輯:呂瓊

校審:羅鵬

相關焦點

  • 最小二乘法的前世今生,及其與平均值的關係
    總結一下,為了找出最能代表5次月考成績的真值y,我們使用了到y值的「距離平方的和」最小的原理。用今天我們熟悉的稱呼叫做「最小二乘法(least square method)」,這裡的二乘就是平方的意思。
  • 經典線性回歸模型假定 - CSDN
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 如何用線性回歸模型做數據分析?
    一、什麼是線性回歸線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係;對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關係的數據類型的應用場景。線性回歸模型分為一元線性回歸與多元線性回歸:區別在於自變量的個數。二、線性係數的計算:最小二乘法我們知道了模型的公式,那麼模型的係數是如何得來呢?
  • eviews 線性回歸模型 - CSDN
    多元線性回歸模型,並識別和修正多重共線性。普通最小二乘法、簡單相關係數檢驗法、綜合判斷法、逐步回歸法。最小二乘估計的原理、t檢驗、F檢驗、擬合優度R方值。 1 用OLS估計模型設定多元線性回歸模型為:y=a0+a1*x1+a2*x2+a3*x3+a4*x4用普通最小二乘法進行估計,點擊主界面菜單Quick\Estimate Equation,在彈出的對話框中輸入
  • 多重線性回歸實例 - CSDN
    嶺回歸:嶺回歸是一種專門用於共線性數據分析的有偏估計回歸方法,它實際上是一種改良的最下二乘法,通過放棄最小二乘法的無偏性,以損失部分信息,降低精度為代價來尋求效果稍差但是回歸係數更符合實際的回歸方程。主成分回歸:主成分回歸能夠對存在多重多重共線性的自變量提取主成分,提取出來的主成分之間是完全互相獨立的,然後再用提取出來的主成分與其它的自變量一起進行多重線性回歸。極端值在線性回歸分析中,自變量回歸係數的確定主要採用最小二乘法,而最小二乘法的原理就是兼顧每個數據點的影響,使得最後的離差平方和最小。
  • eviews線性回歸模型專題及常見問題 - CSDN
    多元線性回歸模型,並識別和修正多重共線性。普通最小二乘法、簡單相關係數檢驗法、綜合判斷法、逐步回歸法。最小二乘估計的原理、t檢驗、F檢驗、擬合優度R方值。 1 用OLS估計模型設定多元線性回歸模型為:y=a0+a1*x1+a2*x2+a3*x3+a4*x4用普通最小二乘法進行估計,點擊主界面菜單Quick\Estimate Equation,在彈出的對話框中輸入
  • GD&T乾貨|最小二乘法的數學公式詳解
    (GZHl:智慧汽車供應鏈)之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。本期文章將分3個部分來講解:1. 3個方程組2.
  • 入門| 貝葉斯線性回歸方法的解釋和優點
    本文對比了頻率線性回歸和貝葉斯線性回歸兩種方法,並對後者進行了詳細的介紹,分析了貝葉斯線性回歸的優點和直觀特徵。我認為貝葉斯學派和頻率學派之間的紛爭是「可遠觀而不可褻玩」的學術爭論之一。與其熱衷於站隊,我認為同時學習這兩種統計推斷方法並且將它們應用到恰當的場景之下會更加富有成效。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • f t 線性回歸專題及常見問題 - CSDN
    1、標準化對於多元線性回歸需要對各個自變量進行標準化,排除單位的影響。標準化方法:即將原始數據減去相應變量的均數後再除以該變量的標準差,而標準化得到的回歸方程稱為標準化回歸方程,相應得回歸係數為標準化回歸係數。
  • SPSS加權線性回歸案例實踐,解決異方差問題
    線性回歸時要求殘差方差齊次,通俗理解為所有的觀測數據在計算過程中具有相同的貢獻。但是實踐中有時候會出現殘差方差不齊的情況,此時普通最小二乘法不再適用。 通常來說,此類情況可以使用加權的最二乘法(WLS)擬合線性回歸模型。WLS會降低具有較大方差的觀測數據對分析過程的影響。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    線性回歸是最流行和討論最多的模型之一,它無疑是深入機器學習(ML)的入門之路。這種簡單、直接的建模方法值得學習,這是進入ML的第一步。在繼續討論之前,讓我們回顧一下線性回歸可以大致分為兩類。簡單線性回歸:當只有一個輸入變量時,它是線性回歸最簡單的形式。
  • 線性回歸分析思路總結!簡單易懂又全面!
    線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!線性回歸回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。當自變量為1個時,是一元線性回歸,又稱作簡單線性回歸;自變量為2個及以上時,稱為多元線性回歸。
  • 機器學習的回歸是什麼
    通俗理解:越來越接近期望值的過程,回歸於事物本來的面目主要用於預測數值型數據,典型的回歸例子:數據擬合曲線二、什麼是線性回歸(Linear Regression)線性回歸假設輸出變量是若干輸出變量的線性組合,並根據這一關係求解線性組合中的最優係數
  • 用Excel求解回歸方程的3種方法:LINEST、散點圖和數據分析工具
    但是,我們必須學會和掌握一元回歸分析,因為,一元回歸是多元回歸的基礎,我們只有學會和掌握了一元回歸,才能夠繼續去學習和掌握多元回歸。《從入門到高手:線性回歸分析詳解》專欄總目錄見上圖。一元線性回歸方程。
  • 一文教你全面掌握用Python實現線性回歸
    全文共4968字,預計學習時長15分鐘或更長本文旨在為讀者理解和應用線性回歸時提供參考。雖然線性回歸算法很簡單,但是只有少數人能真正理解其基本原則。本文首先會深入挖掘線性回歸理論,理解其內在的工作機制,然後利用Python實現該算法,為商業問題建模。理論線性回歸或許是學習統計學最簡單的方法。
  • 七種回歸分析方法,個個經典
    但在你開始之前,先了解如下最常用的回歸方法: 1.Linear Regression線性回歸 它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。
  • 值 多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.模型簡介1.1模型的結構多元線性回歸模型通常用來描述變量y和x之間的隨機線性關係,即:
  • 圖文實例教會你邏輯回歸
    在確定這條直線的時候,運用的方法是最小二乘法,它的思路是,計算每個點到擬合直線的距離(殘差),先平方再求和,然後通過最小化殘差平方和,確定直線的斜率和截距。③ 預測。利用重量和尺寸之間的線性關係,如果知道了重量的值,就可以預測對應的尺寸的值。下面來看一下邏輯回歸。和上面用線性回歸預測連續值不同,邏輯回歸用來預測分類問題,比如二分類的是/不是。
  • 關於「時間序列回歸」,這些你必須知道的事!
    線性回歸(Linear Regression) 線性回歸是最為人熟知的建模技術,是人們學習如何做預測時的首選方法之一。在此技術中,因變量是連續的,自變量可以是連續的也可以是離散的。回歸的本質是線性的。