回歸系列(二)|最小二乘法真有那麼複雜嗎?

2020-12-06 CDA數據分析師

作者:丁點helper

來源: 丁點幫你

上一篇文章給大家留了一個思考題,問在假設檢驗時下面哪種寫法是正確的:

大家都答對了嗎?正確答案是「A」。

樣本與總體回歸係數的區分

這一點內容看似很簡單,但其實經常有同學犯糊塗,所以,還是值得專門說一下。

回歸係數的計算

借用我們講相關分析時的例子:探討糧食中某種毒素(DON)對骨關節炎評分(OAP)的影響,數據如下:

無論是做回歸還是相關分析,我們拿到數據的第一步應該是先畫一個散點圖:以因變量Y為縱軸,以自變量X為橫軸(如果有多個自變量,則讓Y逐一與X畫散點圖)。

本例我們研究的是DON對OAP的影響,所以以OAP為Y,以DON為X,散點圖如下:

如上圖,兩變量之間正向的線性關係還是很明顯的,隨著DON的提升,OAP也有上升的趨勢,所以推測,糧食中DON毒素可能會導致患者關節炎的發生。

回歸方程在幾何上是一條直線,所以問題歸結於怎麼樣找到一條這樣的直線。

因為我們希望回歸直線儘可能最優,所以就需要做出的直線離各散點的綜合距離最小。

如下圖中的u1、u2,代表了散點與回歸直線的距離。

如下圖,我們根據肉眼觀察,對關節炎的數據畫出來兩條線:藍線和紅線,問題是到底選擇哪一條線呢?

肉眼觀察肯定不靠譜,只能通過數學計算來比較判斷,如何判斷呢?本質上這是一個求最小值的問題。

上面說過了,我們希望得到的直線離所有散點的綜合距離最小,怎麼把這句話轉變成數學計算呢?

所謂的「綜合距離」最小,用數學的語言來表達就是讓下面這個式子取最小值

綜合起來可以寫成:

別被複雜的式子唬住,其實這裡只需要初中或高中的數學就能解決。耐心的小夥伴可以嘗試展開一下,其實就是一個二次函數。

求解出來的結果是:

以上這個過程就是大家總能聽到的「最小二乘法」。

回到我們關節炎的例子,最後得出其回歸方程為:

相關焦點

  • 什麼是最小二乘法
    今天,測量攻城獅將通過平面度檢測實例,用最簡單、最直接的思路介紹最小二乘法。 一、最小二乘法概念(基本概念還是要介紹一下的)最小二乘法(The leastsquare method),又稱最小平方法,是一個數學的公式,在數學上稱為曲線擬合,這裡所講最小二乘法,專指線性回歸方程。
  • 最小二乘法與線性回歸
    最小二乘法原理例如我們有一組數據,分別對應x(橫坐標)與y(縱坐標)。我們試圖建立x與y的等式關係,並探究x預測y的可靠性。通過繪製散點圖,我們可以對該組數據擬合無數條直線,但是怎樣找到最佳擬合直線呢?最小二乘法可以解決這一問題。第一步:如下。不考慮x值,計算y值的均值b。
  • 最小二乘法
    微積分應用課題一 最小二乘法  從前面的學習中, 我們知道最小二乘法可以用來處理一組數據, 可以從一組測定的數據中尋求變量之間的依賴關係, 這種函數關係稱為經驗公式. 本課題將介紹最小二乘法的精確定義及如何尋求 與 之間近似成線性關係時的經驗公式.
  • 線性回歸與最小二乘法
    線性回歸模型是使用最廣泛的模型之一,也最經典的回歸模型,如下所示x軸表示自變量x的值,y軸表示因變量y的值,圖中的藍色線條就代表它們之間的回歸模型
  • 通透 | 最小二乘法的本質是什麼?
    (用愛因斯坦的話來說就是空間曲率為0)為什麼最小二乘法好使?因為我們處於空間曲率近似為0的空間,多數的物理量和物理定理都滿足歐氏空間的特性。實際上,高斯對於最小二乘法的認識,很有欽定的意味:假定最小二乘法最優,那麼如何如何。至於為什麼它最優,抱歉,高斯本人也不知道。第一個真正證明最小二乘法最優的是Maxwell。他的證明主要基於空間對稱性,而這正是歐氏空間的特點。
  • 來認識一下傳說中的最小二乘法
    回歸主題,我們還是來認識一下高斯18歲時就找到的最小二乘法吧。一.  最小二乘法的擬合原理根據《數學指南》書中的解釋:那麼這種擬合方法就是最小二乘法,也就是高斯法。相信講到這裡,還是有很多小夥伴不太明白,我們再來舉個簡單的例子說明一下最小二乘法的擬合。條件1:假設我們在一個平面上採了三個點,分別是u(10,10),v(40,42),w(20,45)條件2:我們已知想把這三個點擬合成一條直線。這條直線的方程則是 y=ax+b如果a,b的數值不一樣,那麼這個直線在空間中的方向和位置也不一樣。
  • 手把手教你最小二乘法
    今天這期推送的主題是介紹最小二乘法以及如何利用最小二乘法對已有數據進行擬合。之所以會想到這個主題,是因為前段時間在準備美賽時看到很多最小二乘法的應用,但多數關於其原理的帖子要麼晦澀難懂要麼不夠清楚,就像下面這樣,於是乎萌生出這個想法。        (全文共2479字,我也不知道什麼時候能看完。
  • 第48篇 最小二乘法
    1806年,法國科學家勒讓德獨立創立最小二乘法,但因不為世人所知而默默無聞。勒讓德曾與高斯為誰最早創立最小二乘法原理發生爭執。1809年,高斯使用的最小二乘法的方法發表於《天體運動論》中。1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,因此最小二乘法也被稱為高斯-馬爾可夫定理。
  • 最小二乘法的前世今生,及其與平均值的關係
    總結一下,為了找出最能代表5次月考成績的真值y,我們使用了到y值的「距離平方的和」最小的原理。用今天我們熟悉的稱呼叫做「最小二乘法(least square method)」,這裡的二乘就是平方的意思。
  • 最小二乘法詳細介紹
    高斯使用的最小二乘法的方法發表於1809年他的著作《天體運動論》中,而法國科學家勒讓德於1806年獨立發現「最小二乘法」,但因不為世人所知而默默無聞。1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,見高斯-馬爾可夫定理。
  • 最小二乘法(1)——線性問題
    最小二乘法  常規的方法無法回答小明的問題,幸好高斯老爺子發現了最小二乘法。最小二乘法(又稱最小平方法)是一種通過最小化誤差的平方和,尋找數據最佳函數匹配的優化策略。,那麼最小二乘法的線性代數視角又是什麼呢?
  • Python實現最小二乘法
    上一篇文章講了最小二乘算法的原理。這篇文章通過一個簡單的例子來看如何通過Python實現最小乘法的線性回歸模型的參數估計。王松桂老師《線性統計模型——線性回歸與方差分析》一書中例3.1.3。那麼,我們要怎樣對這組數據進行線性回歸分析呢?一般分三步:(1)畫散點圖,找模型;(2)進行回歸模型的參數估計;(3)檢驗前面分析得到的經驗模型是否合適。畫散點圖創建一個DataTemp的文件夾,在其中分別創建"data"、"demo"文件夾用於存放數據文件、Python程序文件。
  • 最小二乘法的數學公式
    之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?      本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。
  • 最小二乘法的計算原理
    高斯使用的方法就是最小二乘法,該方法發表於1809年他的著作《天體運動論》中。最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。其中,
  • 線性回歸採用最小二乘作為loss的解釋
    對線性回歸比較熟悉的小夥伴們都知道,計算回歸參數時,使用的損失函數為最小二乘損失,即 loss = ∑ sqt(h(θ) - y)(預測值與真實值的差的平方和),那麼為什麼要採用最小二乘損失呢?
  • GD&T乾貨|最小二乘法的數學公式詳解
    (GZHl:智慧汽車供應鏈)之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。
  • 高考數學:統計二輪微專題——用最小二乘法求線性回歸方程
    最小二乘法主要用來求解兩個具有線性相關關係的變量的回歸方程,該方法適用於求解與線性回歸方程相關的問題,如求解回歸直線方程,並應用其分析預報變量的取值等.破解此類問題的關鍵點如下:①析數據,分析相關數據,
  • 最小二乘法(附MATLAB代碼)
    前幾天有一些小夥伴需要小編講一下最小二乘法,小編依稀記得當年數值計算這門課學習過這個知識點,但無奈小編忘得一乾二淨,於是在知乎上看到這位大神對最小二乘法的講解,各位小夥伴如果想直接看這位大神講解的話,可以點擊下方閱讀原文直接進行學習。
  • 線上直播 | 偏最小二乘法是個什麼鬼?
    偏最小二乘法剛看到這個名稱學長也是...
  • 最小二乘法之加權最小二乘的應用
    這是由於在實際擬合過程中,離群較大的點它們都有很大的權重,而實際上每個點都應該有不同的權重,越偏離目標點它們的權重應該越小。因此我們迫切需要對每個點都定義一個權重,這就是今天我要介紹的加權最小二乘法。,距離平方之和才有最小值,最小值剛好為較小的那個特徵值。