手把手教你最小二乘法

2021-03-06 津威的雜貨鋪

     哈嘍各位,春節玩的一定很開心吧。今天這期推送的主題是介紹最小二乘法以及如何利用最小二乘法對已有數據進行擬合。之所以會想到這個主題,是因為前段時間在準備美賽時看到很多最小二乘法的應用,但多數關於其原理的帖子要麼晦澀難懂要麼不夠清楚,就像下面這樣,於是乎萌生出這個想法。

        (全文共2479字,我也不知道什麼時候能看完。還有,部分數學符號由於無法顯示就直接用latex語言表示)

        我相信很多人都會疑問:最小二乘法是個什麼玩意?可以用來做什麼?直接講最小二乘太過空洞,那我們就先來講講背景。

        許多工程問題,常常需要根據兩個變量的幾組實驗數據,來找出這兩個變量的函數關係的近似表達式。就例如化學反應中反應速率與反應物濃度之間存在一定的關係,這種關係沒有明確的數學算式能夠表達出,但我們能夠通過實驗數據進行猜測。通常將尋找這種近似的函數關係式的過程稱為擬合,最終得到的公式稱為經驗公式

        經驗公式建立後,就可以把生產或實驗中所累積的某些經驗提高到理論上加以分析。還是化學反應的例子,若想要在生產速度與成本上取得一個平衡,沒有經驗公式時只能一次一次試。有了經驗公式後,就能以此為基礎建立數學模型進行規劃,省時又省力。

        在數據擬合中,有一種方法被廣泛使用,沒錯,就是最小二乘法。最小二乘法,又名最小平方和法,其中,「最小」指的是擬合結果與實際結果誤差最小。那這種誤差怎麼計算?這便是「二乘」,即平方和。連起來說,就是通過將擬合結果與實際結果的誤差的平方和最小化,使擬合結果無限接近於實際結果的方法。

        這麼一通解釋,還是有些晦澀,並且又蹦出了些問題:

        1. 怎麼列出誤差方程?

        2. 怎麼最小化誤差方程?

        3. 怎麼驗證結果的準確性?

        沒事,接下來我們就著實際例子來講解。

實例1:若有以下兩組數據X、Y,請預測當X為5 時Y可能的值

        面對這種情況,我們要做的是根據已知數據,找出X與Y關係式。

        首先,根據這兩組數據畫出散點圖,觀察其可能的關係。

        由圖1可看出,當X增加時,Y同樣增大,並且整體上呈現線性關係。於是可以假設X與Y的關係式為

        之後的目標就相當清晰:根據(2)式解出a與b的值,即可求出X與Y的關係式。

        但很可惜,這個方程組是無解的。具體原由可以參考《線性代數》線性方程組部分。

        不能得出(2)式的解,這意味著我們不可能找到一條通過上述四個點的直線去精確描述這個關係。BUT,我們可以找到另一條直線,雖然不能滿足所有條件,但能近似地表示這個趨勢。這個近似趨勢可以表示為

        式(3)中\hat{Y}表示預測值。

        但是又出現了一個問題:如何確定a、b使得這個預測關係最準確?

        這裡有個核心思想,就是預測誤差要儘可能的小。同時這也是最小二乘法的核心目標。

        我們可以先隨手畫一筆,其中藍線為預測關係,紅線為預測誤差。

圖2.預測關係示意圖1

        可見這個預測關係誤差太大,不能採用。

        那我們改一改,把藍線往上挪一些,得到圖3。

圖3.預測關係示意圖2

        這次誤差就要小很多。可這次的誤差是不是最小的呢?眼睛看不算數,得用數字來證明。

        接下來,就利用最小二乘法的思想求解出參數a,b。

Step.1 列寫誤差平方和

        當X分別為1、2、3、4時,通過式(3)可以得到對應的預測值Y1、Y2、Y3、Y4。因為式(3)是一個近似關係,那麼預測出的值與實際會存在一定的誤差,可用下式表示:

        式中Yi為X取Xi時的實際值;\hat{Yi}為X取Xi時的預測值。

        誤差的平方和S則為

記為式(5)。

        這裡之所以使用誤差的平方和而不是絕對值,是為了避免絕對值符號在計算中搗亂。

Step.2 求解使S取得最小值的a,b

        在式(5)中給出了誤差平方和的計算公式,這是一個關於參數a,b的多元函數。求解多元函數最值的方法是列寫出S對各個參數的偏導,令各個偏導為零組成方程組進行求解。

        首先,對各個參數求偏導

        當X=5時,Y可能為10.5

       那最小二乘法是不是只能擬合出線性關係?不不不,ta能幹的事可多了。

實例2:有以下的數據點,請對X與Y進行擬合併給出關係式

解:

Step.1 畫出散點圖,猜測X與Y的關係

        利用MATLAB,得到圖(5):

        可以猜測,X與Y具有二次函數的關係,於是將目標擬合式定為

Step.2 列寫誤差平方和的公式

        記誤差平方和為S,模仿式(5)可得

        其中i為1到10的整數。算式太長,這裡就不做展示。


Step.3 求出S對a,b,c的偏導並令其為零

        得到

        得出擬合曲線後,我們得檢驗一下此擬合關係式可信度如何。

        為此,我們可以計算擬合曲線的均方誤差。具體如下表

        偏差的平方和M=4.9612,則均方誤差\sqrt{M}為=2.2274,可見此擬合曲線的誤差還是有點大的。

        想要提升擬合精度,一個可行的辦法就是提升數據點的密度,比如將在x=1.5,2.5,3.5等點的數據加入數據集中。這樣的話就能使數據集之間的關係更加明顯。

        看到這裡,你是否能夠利用最小二乘法進行數據擬合呢?不會也沒關係,其實現在許多軟體都有擬合功能,輸入數據以及必要的參數就能直接給出最終的結果,賊簡單。最小二乘法有著非常廣泛的應用,例如機器學習中線性回歸的最小二乘法,系統辨識中的最小二乘辨識法,參數估計中的最小二乘法等等,這裡只是介紹了最基礎的用法,廣闊的天地等待你去發現。

相關焦點

  • 最小二乘法
    微積分應用課題一 最小二乘法  從前面的學習中, 我們知道最小二乘法可以用來處理一組數據, 可以從一組測定的數據中尋求變量之間的依賴關係, 這種函數關係稱為經驗公式. 本課題將介紹最小二乘法的精確定義及如何尋求 與 之間近似成線性關係時的經驗公式.
  • 最小二乘法的本質是什麼?
    .最小二乘法的一種常見的描述是殘差滿足正態分布的最大似然估計模型具有如下形式:(用愛因斯坦的話來說就是空間曲率為0)為什麼最小二乘法好使?因為我們處於空間曲率近似為0的空間,多數的物理量和物理定理都滿足歐氏空間的特性。實際上,高斯對於最小二乘法的認識,很有欽定的意味:假定最小二乘法最優,那麼如何如何。至於為什麼它最優,抱歉,高斯本人也不知道。第一個真正證明最小二乘法最優的是Maxwell。他的證明主要基於空間對稱性,而這正是歐氏空間的特點。
  • 最小二乘法的數學公式
    之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?      本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。
  • 如何理解最小二乘法?
    文章同步在個人博客網站:https://changshuitaotao.github.io/歡迎訪問無論是傳統的統計學,還是時下火熱的機器學習,線性回歸都是最基礎但又十分重要的模型之一。線性回歸使用了最小二乘法來估計模型參數,如何理解最小二乘法將成為掌握線性回歸的關鍵。
  • 偏最小二乘法到底是什麼?
    今天就給大家推薦一種量化研究神兵利器——偏最小二乘法(PLS)偏最小二乘法發展較SEM稍晚,最早是由 Wold (1975) 基於經濟計量分析需求所提出,但卻在化學計量領域獲得重視與普及,目前在經管、營銷、商學領域普遍通行。
  • 偏最小二乘法是什麼?全新SmartPLS 3.3X統計方法來了!
    你也許了解最小二乘法,但是你聽過偏最小二乘法嗎?它到底是個什麼東西?又是幹嘛用的呢?它和最小二乘法僅一字之差,卻大不相同!隨著社會科學的發展,在經濟管理、教育學、社會科學、醫學中,多元線性回歸分析已經成為一種普遍應用的統計分析和預測方法。
  • GD&T乾貨|最小二乘法的數學公式詳解
    (GZHl:智慧汽車供應鏈)之前在德輝學堂介紹過最小二乘法,但是有很多好學的小夥伴總是追問,最小二乘法的數學公式究竟是怎麼樣的?本期的這一篇文章,我們將介紹一個簡潔的最小二乘法數學公式,慢慢剖析它,爭取讓好學的小夥伴們能認識它,然後再結合Excel利用它來做一些計算。
  • 最小二乘法(附MATLAB代碼)
    前幾天有一些小夥伴需要小編講一下最小二乘法,小編依稀記得當年數值計算這門課學習過這個知識點,但無奈小編忘得一乾二淨,於是在知乎上看到這位大神對最小二乘法的講解,各位小夥伴如果想直接看這位大神講解的話,可以點擊下方閱讀原文直接進行學習。
  • 最小二乘法的前世今生,及其與平均值的關係
    總結一下,為了找出最能代表5次月考成績的真值y,我們使用了到y值的「距離平方的和」最小的原理。用今天我們熟悉的稱呼叫做「最小二乘法(least square method)」,這裡的二乘就是平方的意思。
  • Python實現最小二乘法
    上一篇文章講了最小二乘算法的原理。這篇文章通過一個簡單的例子來看如何通過Python實現最小乘法的線性回歸模型的參數估計。王松桂老師《線性統計模型——線性回歸與方差分析》一書中例3.1.3。回歸模型的參數估計一元線性模型的一般公式為一元線性回歸模型我們使用最小二乘法估算出α、β即可求出經驗回歸方程。
  • 利用最小二乘法實現曲線擬合
    簡介在工程問題的計算中,我們經常需要處理一些離散數據的擬合問題,而最小二乘法是處理曲線擬合問題的常用方法。目前,許多軟體都提供有基於最小二乘法進行曲線擬合的功能,例如在Origin和Excel中均可直接利用離散數據進行曲線擬合。然而,這些軟體只能處理一些簡單函數的擬合問題,當需要擬合的函數較為複雜時,或者無法用簡單的表達式來表述時,則往往無法直接進行擬合。
  • 學習回歸——最小二乘法
    我們將訓練數據中的廣告費代入函數,把得到的點擊量與訓練數據中的點擊量相比較,找出使二者得差最小的θ。廣告費x點擊量y58374703858137584401那麼你隨便確定一個參數,得到一個表達式形式為
  • 最小二乘法原理(中):似然函數求權重參數
    似然估計本質本質便是根據已有的大量樣本(實際上就是利用已知的條件)來推斷事件本身的一些屬性參數的方法,最大估計更是最能反映這些出現的樣本的,所以這個參數值也是最可靠和讓人信任的,得到這個參數值後,等來了一個新樣本 X(i+1) 後,我們可以預測它的標籤值。
  • 量化分析的神兵利器:偏最小二乘法(SmartPLS)實戰研討會
    但是,當自變量之間存在多重相關性的時候,我們常用的最小二乘法就會失效,即使採用主成分分析,也無法很好的彌補。那就沒有別的辦法了嗎?當然不是。偏最小二乘法(Partial Least Square, PLS)為結構方法模型(Structural Equational Modeling, SEM)就是應這種實際需求的另一個分支的多變量統計分析技巧,它是一種多因變量對多自變量的回歸建模方法。可以較好的解決許多以往用普通多元回歸無法解決的問題。主要的應用都是潛變量分析。
  • 常用算法知識:最小二乘的幾何意義及投影矩陣
    拿來拼湊肯定是不行的,最小二乘法告訴我們,這個多項式的係數應該讓每個點的誤差的平方之和最小。(百度百科)最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。
  • 回歸系列(二)|最小二乘法真有那麼複雜嗎?
    作者:丁點helper來源: 丁點幫你上一篇文章給大家留了一個思考題,問在假設檢驗時下面哪種寫法是正確的:大家都答對了嗎?正確答案是「A」。因為我們希望回歸直線儘可能最優,所以就需要做出的直線離各散點的綜合距離最小。如下圖中的u1、u2,代表了散點與回歸直線的距離。如下圖,我們根據肉眼觀察,對關節炎的數據畫出來兩條線:藍線和紅線,問題是到底選擇哪一條線呢?
  • 高考數學:統計二輪微專題——用最小二乘法求線性回歸方程
    最小二乘法主要用來求解兩個具有線性相關關係的變量的回歸方程,該方法適用於求解與線性回歸方程相關的問題,如求解回歸直線方程,並應用其分析預報變量的取值等.破解此類問題的關鍵點如下:①析數據,分析相關數據,
  • 【SPSS數據分析】最小二乘回歸模型在生物醫藥統計分析中的應用詳解(2)——【杏花開生物醫藥統計】
    最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。
  • 手把手教你怎麼操作
    中新經緯記者手把手來教你→ 打工人注意了,2021年度個稅專項附加扣除開始確認了。按照規定,每年12月份要對次年享受專項附加扣除的內容進行確認,確認後,才可在扣除年度生效。怎麼操作?中新經緯記者手把手來教你→ 打工人注意了,2021年度個稅專項附加扣除開始確認了。
  • 不用背乘法口訣,也能學好乘法!DK新作教你輕鬆玩轉乘法
    比如孩子知道」7×8=56「,當你反過來問他」8×7=?」時,他可能就懵了。這就是典型的不理解,死記硬背「乘法口訣」的表現。孩子需要運用自己的方式來鞏固對數學概念的基礎性理解,而非單純記憶。就像教孩子學乘法,要先保證孩子理解加法的概念,然後循序漸進,而不是給孩子一張「九九乘法表」,讓他強行記憶就能學會。