最小二乘法與線性回歸

2021-01-14 珠江腫瘤

        引言:回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。

        回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。

        線性回歸是一種最為我們熟悉的方式,故接下來我們就來詳細了解線性回歸。

1. 最小二乘法原理

例如我們有一組數據,分別對應x(橫坐標)與y(縱坐標)。我們試圖建立x與y的等式關係,並探究x預測y的可靠性。通過繪製散點圖,我們可以對該組數據擬合無數條直線,但是怎樣找到最佳擬合直線呢?最小二乘法可以解決這一問題。

第一步:如下。不考慮x值,計算y值的均值b。Mean(y)=3.5。

第二步:如下。以均值形成擬合直線y=3.5,計算各數據點到y=3.5的距離的平方和,統計術語為圍繞均值的平方和(sum square around mean,SS(mean))。

殘差 各個觀測數據(observed data)到擬合直線y=3.5的距離成為均值擬合直線的殘差(residual),即實際數據與預測數據的差異;殘差平方和 SS(mean)又稱該擬合均值直線對應的殘差平方和,此處得SS(mean)=24.62。

第三步:旋轉均值直線,求解不同擬合直線對原始數據的擬合效果。隨著直線的旋轉,不同擬合直線對應的殘差平方和不斷發生改變(如下):

如何評價擬合的效果?

當直線對原始數據的擬合效果較好時,大部分數據靠近直線分布,故該直線對應的殘差平方和較小。再次強調,殘差為實際數據與預測數據的差異。 換句話說,擬合直線對應殘差平方和表示直線的擬合效果,殘差平方和越小,說明直線的擬合效果越好。

2. 最小二乘法求解最佳擬合直線

直線回歸方程的通用公式為:

y=a·x+b 

其中a表示直線方程的斜率(slope),b表示直線方程的截距(intercept)。為了尋找原始數據的最優擬合回歸直線,故需要求解對應殘差平方和最小回歸直線的a與b。

殘差平方和的計算公式:

SS(mean) = ((ax1 + b )-y1)^2+((ax2 + b )-y2)^2+((ax3 + b )-y3)^2 +

...+((axn + b )-yn)^2

①預測y(predicted y):(a·x1+b),(a·x2+b),...,(a·xn+b)表示基於(ax+b)直線預測的y;

②觀測y(observed y):y1,y2,...,yn表示實際觀測到的y1,y2,...,yn。

最小二乘法(least square)名稱的由來:基於殘差平方和的方法得出最優「a」與「b」,進而尋找最小殘差平方和對應的直線,故該方法被稱為「最小二乘法(least square)」。

第四步:對殘差平方和公式進行求導,尋找最優擬合回歸直線。 如果我們繪製每一條直線斜率與其對應殘差平方和的散點圖(如下)。可以發現,當該曲線取得最小殘差平方和時,斜率為0。

對函數求導可以得出曲線上任意一點對應的斜率,故我們可對函數求導,利用導數等於0的性質,求解最優。

從應用統計學的角度出發,電腦程式可以幫我們求最優解,我們不用親自掌握函數如何求導。最後,我們得出最佳擬合回歸直線:y=0.77x+0.66,該直線對應的殘差平方和最小。

3.小結

現在我們開啟新的一部分學習,在這接下來的幾個章節,我們將逐漸學習線性回歸的基礎知識。在這一小節中,我們主要學習了最小二乘法的原理,以及如何利用最小二乘法判斷和求解最佳擬合直線。


參考視頻: 

https://www.youtube.com/watch?v=PaFPbb66DxQ&list=PLblh5JKOoLUIzaEkCLIUxQFjPIlapw8nU&index=1


編輯:呂瓊

校審:羅鵬


相關焦點

  • 線性回歸與最小二乘法
    線性回歸模型是使用最廣泛的模型之一,也最經典的回歸模型,如下所示x軸表示自變量x的值,y軸表示因變量y的值,圖中的藍色線條就代表它們之間的回歸模型
  • 最小二乘法(1)——線性問題
    最小二乘法  常規的方法無法回答小明的問題,幸好高斯老爺子發現了最小二乘法。最小二乘法(又稱最小平方法)是一種通過最小化誤差的平方和,尋找數據最佳函數匹配的優化策略。,那麼最小二乘法的線性代數視角又是什麼呢?
  • 最小二乘法
    微積分應用課題一 最小二乘法  從前面的學習中, 我們知道最小二乘法可以用來處理一組數據, 可以從一組測定的數據中尋求變量之間的依賴關係, 這種函數關係稱為經驗公式. 本課題將介紹最小二乘法的精確定義及如何尋求 與 之間近似成線性關係時的經驗公式.
  • 什麼是最小二乘法
    今天,測量攻城獅將通過平面度檢測實例,用最簡單、最直接的思路介紹最小二乘法。 一、最小二乘法概念(基本概念還是要介紹一下的)最小二乘法(The leastsquare method),又稱最小平方法,是一個數學的公式,在數學上稱為曲線擬合,這裡所講最小二乘法,專指線性回歸方程。
  • 通透 | 最小二乘法的本質是什麼?
    歐氏空間是平坦的、線性的、各向同性的。(用愛因斯坦的話來說就是空間曲率為0)為什麼最小二乘法好使?因為我們處於空間曲率近似為0的空間,多數的物理量和物理定理都滿足歐氏空間的特性。實際上,高斯對於最小二乘法的認識,很有欽定的意味:假定最小二乘法最優,那麼如何如何。至於為什麼它最優,抱歉,高斯本人也不知道。
  • 線性回歸採用最小二乘作為loss的解釋
    1   線性回歸問題的通俗解釋   小編對於線性回歸的通俗解釋就是,根據已知的一元或多元特徵和特徵對應的結果,挖掘出一組參數分別和特徵值相乘,通過構造的多項式來對未知結果的數據集進行預測的方程叫做線性回歸。
  • 高考數學:統計二輪微專題——用最小二乘法求線性回歸方程
    最小二乘法主要用來求解兩個具有線性相關關係的變量的回歸方程,該方法適用於求解與線性回歸方程相關的問題,如求解回歸直線方程,並應用其分析預報變量的取值等.破解此類問題的關鍵點如下:①析數據,分析相關數據,
  • 第48篇 最小二乘法
    1806年,法國科學家勒讓德獨立創立最小二乘法,但因不為世人所知而默默無聞。勒讓德曾與高斯為誰最早創立最小二乘法原理發生爭執。1809年,高斯使用的最小二乘法的方法發表於《天體運動論》中。1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,因此最小二乘法也被稱為高斯-馬爾可夫定理。
  • Python實現最小二乘法
    上一篇文章講了最小二乘算法的原理。這篇文章通過一個簡單的例子來看如何通過Python實現最小乘法的線性回歸模型的參數估計。王松桂老師《線性統計模型——線性回歸與方差分析》一書中例3.1.3。那麼,我們要怎樣對這組數據進行線性回歸分析呢?一般分三步:(1)畫散點圖,找模型;(2)進行回歸模型的參數估計;(3)檢驗前面分析得到的經驗模型是否合適。畫散點圖創建一個DataTemp的文件夾,在其中分別創建"data"、"demo"文件夾用於存放數據文件、Python程序文件。
  • 最小二乘法詳細介紹
    高斯使用的最小二乘法的方法發表於1809年他的著作《天體運動論》中,而法國科學家勒讓德於1806年獨立發現「最小二乘法」,但因不為世人所知而默默無聞。1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,見高斯-馬爾可夫定理。
  • 手把手教你最小二乘法
    今天這期推送的主題是介紹最小二乘法以及如何利用最小二乘法對已有數據進行擬合。之所以會想到這個主題,是因為前段時間在準備美賽時看到很多最小二乘法的應用,但多數關於其原理的帖子要麼晦澀難懂要麼不夠清楚,就像下面這樣,於是乎萌生出這個想法。        (全文共2479字,我也不知道什麼時候能看完。
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 深入研究線性回歸
    當我說到「線性回歸」時,大多數人開始想到的是最小二乘法(OLS)。如果你不熟悉這個術語,下面的方程可能會有幫助:學過最小二乘法嗎?如果學過,那麼你就走在正確的道路上了。但是線性回歸不僅僅是最小二乘法。首先,讓我們更仔細地看看最小二乘法。
  • 最小二乘法的計算原理
    高斯使用的方法就是最小二乘法,該方法發表於1809年他的著作《天體運動論》中。最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。其中,
  • 最小二乘法的前世今生,及其與平均值的關係
    總結一下,為了找出最能代表5次月考成績的真值y,我們使用了到y值的「距離平方的和」最小的原理。用今天我們熟悉的稱呼叫做「最小二乘法(least square method)」,這裡的二乘就是平方的意思。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?通常在線性回歸中估計未知參數方法是最小二乘法(OLS),而為了保證估計值能夠很好的解釋模型,我們又有如下前提條件:這些條件又被稱為高斯—馬爾可夫條件,它們保證了在經典線性回歸中最小二乘估計的優越性。
  • 最小二乘法的數學公式
    之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?      本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。
  • 一元線性回歸的求解
    1 最小二乘法及代數求解最小二乘法中的「二乘」代表平方,最小二乘也就是最小平方。
  • 如何用線性回歸模型做數據分析?
    線性回歸模型分為一元線性回歸與多元線性回歸:區別在於自變量的個數。 二、線性係數的計算:最小二乘法 我們知道了模型的公式,那麼模型的係數是如何得來呢
  • 線上直播 | 偏最小二乘法是個什麼鬼?
    偏最小二乘法剛看到這個名稱學長也是...