兩個例子告訴你:什麼是「線性」回歸模型?

2020-12-17 讀芯術

全文共1534字,預計學習時長3分鐘

在機器學習和統計領域,線性回歸模型是最簡單的模型之一。這意味著,人們經常認為對線性回歸的線性假設不夠準確。

例如,下列2個模型都是線性回歸模型,即便右圖中的線看起來並不像直線。

圖1 同一數據集的兩種不同線性回歸模型

若對此表示驚訝,那麼本文值得你讀一讀。本文試圖解釋對線性回歸模型的線性假設,以及此類線性假設的重要性。

回答上述問題,需要了解以下兩個簡單例子中線性回歸逐步運行的方式。

例1:最簡單的模型

從最簡單的例子開始。給定3對(x,y)訓練數據:(2,4)、(5,1)、(8,9)進行函數建模,發現目標變量y和輸入變量x之間的關係。

圖2 本文中使用的訓練數據集

這一模型最為簡單,如下所示:

通過運用該簡單的線性函數,可模擬x和y之間的關係。關鍵在於該函數不僅與輸入變量x成線性關係,而且與參數a、b成線性關係。

當前目標是確定最符合訓練數據的參數a和b的值。

這可通過測量每個輸入x的實際目標值y和模型f(x)之間的失配來實現,並將失配最小化。這種失配(=最小值)被稱為誤差函數。

有多種誤差函數可供選擇,但其中最簡單的要數RSS,即每個數據點x對應的模型f(x)與目標值y的誤差平方和。

利用誤差函數的概念,可將「確定最符合訓練數據的參數a、b」改為「確定參數a、b,使誤差函數最小化」。

計算一下訓練數據的誤差函數。

上面的等式就是要求最小值的誤差函數。但是,怎樣才能找到參數a、b,得到此函數的最小值呢?為啟發思維,需要將該函數視覺化。

圖3 誤差函數的第一個模型

從上方的3D圖來看,人們會本能地猜測該函數為凸函數。凸函數的優化(找到最小值)比一般數學優化簡單得多,因為任何局部最小值都是整個凸函數的最小值。(簡單來講,就是凸函數只有一個最小點,例如「U」的形狀)由於凸函數的這種特性,通過簡單求解如下的偏微分方程,便可得到使函數最小化的參數。

下面解下之前的例子吧。

通過求解上面的等式,得到a = 5/6、b = 1/2。因此,第一個模型(最小化RSS)如下所示:

圖4 第一個模型

示例2:簡單的彎曲模型

現在,對於相同的數據點,可考慮如下的另一模型:

如上所示,該模型不再是輸入變量x的線性函數,但仍是參數a、b的線性函數。

下面看下這一變化對模型擬合過程的影響。我們將使用與前一示例相同的誤差函數——RSS。

如上所示,等式看起來與前一個非常相似。(係數的值不同,但方程的形式相同。)該模型的可視化圖像如下:

圖5 誤差函數的第二個模型

兩個模型的形狀看起來也很相似,仍然是凸函數。但秘密在於,當使用訓練數據計算誤差時,輸入變量作為具體值給出(例如,x的值在數據集中給定為22、52和8,即(2,4)、(5,1)、(8,9))。因此,無論輸入變量的形式多複雜(例如x、x、sin(x)、log(x)等......),給定的值在誤差函數中僅為常數。

誤差函數的第二個模型也是凸函數,因此可通過與前一示例完全相同的過程找到最佳參數。

通過求解上面的等式,得到a = 61/618、b = 331/206。所以,第二個模型如下所示:

圖6 第二個模型

結論:線性回歸模型的線性假設

上述2個例子的求解過程完全相同(且非常簡單),即使一個為輸入變量x的線性函數,一個為x的非線性函數。兩個模型的共同特徵是兩個函數都與參數a、b成線性關係。這是對線性回歸模型的線性假設,也是線性回歸模型數學單性的關鍵。

上面2個模型非常簡單,但一般而言,模型與其參數的線性假設,可保證RSS始終為凸函數。通過求解簡單偏微分方程,得到最優參數,這就是線性假設至關重要的原因。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 廣義線性模型與邏輯回歸
    學過統計學的同學們應該非常清楚,上述分類超平面其實就是一個多元線性模型。故和是線性相關的。並且在線性回歸中,我們假設響應變量服從正態分布的,即所以我們無法直接採用線性回歸模型進行建模。對於這一類問題,可以用邏輯回歸來處理。在講邏輯回歸之前,先簡單介紹下指數族分布、廣義線性模型,因為邏輯回歸是廣義線性模型的一種,所以我們需要了解如何從廣義線性模型得到邏輯回歸。二、指數族分布之所以先介紹指數族分布,因為指數族分布是所有廣義線性模型的假設條件之一。
  • 線性回歸(2)—— 模型評估
    我們再回過頭看一下線性回歸的形式,也應該發現,最簡單的線性回歸也是兩個變量,一個是因變量,一個是自變量。比如體重對肺活量的影響。對於線性回歸來講,自變量和因變量都是連續型資料。如果將這線性回歸中的兩個變量與方差分析中的兩個變量比較一下,可以發現他們是一致的。
  • 線性模型(一)普通線性回歸到廣義線性模型
    同時提醒讀者避免只從字面理解「線性」帶來誤會,即線性模型只能解決線性問題。本章將線性模型定位和表述為在數學表達式上具有線性的表示方式的數學模型,包含普通線性回歸模型和廣義線性模型(線性支持向量機本章不進行講述)。
  • [PRML]回歸模型--貝葉斯線性回歸
    本文包含以下內容:1 簡介在討論線性回歸模型的最大似然的參數設置中,我們已經看到由基函數的數量控制的有效模型的複雜性需要根據數據集的大小控制。獨立的持有(hold-out)數據可以用來確定模型的複雜性,但是這可能在計算上是昂貴的,並且會浪費有價值的數據。因此我們轉向線性回歸的貝葉斯處理,這將避免最大似然的過擬合問題,也將導致僅使用訓練數據自動確定模型複雜度的方法。
  • spss多元線性回歸模型 - CSDN
    今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:點擊「分析」——回歸——線性——進入如下圖所示的界面:將「銷售量」作為「因變量」拖入因變量框內, 將「車長,車寬,耗油率,車淨重等10個自變量 拖入自變量框內,如上圖所示,在「方法」旁邊,選擇「逐步」,當然,你也可以選擇其它的方式,如果你選擇「進入」默認的方式,在分析結果中
  • Excel中的預測建模–如何從頭開始創建線性回歸模型
    Microsoft Excel使我們能夠創建預測模型,而不必編寫複雜的代碼,這些代碼會飛過大多數人的腦海。我們可以輕鬆地在MS Excel中建立一個簡單的模型,例如線性回歸,可以幫助我們通過幾個簡單的步驟進行分析。而且,我們不需要成為Excel或Statistics的高手就能執行預測建模!目錄什麼是線性回歸?
  • 一般線性模型與廣義線性模型
    你所接觸到的統計分析方法都是基於已有或者正在探索中的統計模型;醫學統計學,大致應用在醫學科研、藥物臨床試驗兩個領域,兩者有交叉,而後者更加注重實用性;臨床試驗中的統計分析方法基本上都來自於經過實證的數據分析模型。
  • 線性模型(三)邏輯回歸
    至此,經過連結函數轉化後的原值域為正、負無窮該變換稱為logit變換,經過logit變換後可以順利地使用線性回歸模型擬合觀察值的對數機率。此時,我們稱該模型為logit regression或logistic regression,即中文翻譯的邏輯回歸,適用於分類問題。
  • 僅用 8 行代碼即可建立一個線性回歸模型
    這是一種恥辱,因為線性建模在許多情況下都是非常有用的,並且加上網際網路上的所有開放原始碼,實現自己的模型從未如此簡單過。因此,下面是我用 Python 理解並實現基本線性回歸模型的簡單指南。線性回歸是一種數學建模的一種形式,通常用於評估因變量(如體重)和自變量(如身高)之間的關係。我們的大腦能夠很自然地做到這一點,只是以一種不太精確的方式而已。
  • 零基礎的同學如何用stata做多元線性回歸模型?
    上一期,我們分享了如何用stata做一元線性回歸模型,不知道同學們學的怎麼樣呢?有沒有自己動手操作一遍呢?這一期:我們將學習如何用stata做多元線性回歸模型!這些是小王(邀請者)最近學習計量時的一些心得和體會,希望能與大家一起分享。
  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。,這個暗示了模型的限制。參數的線性化會簡化這類模型的計算,但也會導致一些限制。『tanh』函數的線性組合。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 數學建模:一個多元線性回歸做預測的例子
    一個多元線性回歸做預測的例子例. 某商品5年的按季度銷售量如下表所示:預測第6年各季度的銷售量。繪圖觀察數據規律t=1:length(Y0);plot(t,Y0,'*-');xlabel('季度'), ylabel('銷售量');grid on可見,數據具有明顯的季節(周期)性,可以考慮採用時間序列分析法,或回歸預測法
  • 線性模型(二)正則化的回歸
    最小𝛽周圍不斷擴展的等高線與上述幾何圖形相切的點,即為𝛽的滿足限制條件的取值,L1的限制下該等高線會和Y軸相切得到X軸上係數為0的𝛽,而與L2得到的是非零的兩個𝛽Lasso和Ridge回歸L1的回歸稱為Lasso(套索)回歸,L2的回歸稱為Ridge(嶺)回歸
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。一、什麼是線性回歸線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關係;對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關係的數據類型的應用場景。
  • 模型之母:多元線性回歸
    0x00 前言 在線性回歸的前3篇中,我們介紹了簡單線性回歸這種樣本只有一個特徵值的特殊形式,並且了解了一類機器學習的建模推導思想,即:然後通過最優化損失函數或者效用函數,獲得機器學習的模型。然後我們推導並實現了最小二乘法,然後實現了簡單線性回歸。最後還以簡單線性回歸為例,學習了線性回歸的評價指標:均方誤差MSE、均方根誤差RMSE、平均絕對MAE以及R方。
  • 貝葉斯線性回歸方法的解釋和優點
    線性回歸的頻率派視角可能是你所熟悉的、從學校學到的版本:模型假設反應變量(y,也稱因變量)是一組權重和預測變量(x,也稱自變量)乘積的線性組合。例如,如果我們有兩個預測變量,公式可以寫成:其中,y 是反應變量(也被稱為因變量),β 為權重(也被稱為模型參數),x 為預測變量,ε 為代表隨機採樣噪聲的誤差項或者沒有被包含在模型中的變量的影響。線性回歸是一個易於解釋的簡單模型: β_0 是截距項,其它的權重(β's)表示預測變量的增加對反應變量的影響。
  • 廣義線性模型到底是個什麼鬼?| 協和八
    典型的例子是中學時學習的物理定律,我們都知道,物體的加速度與它受的合力大小成正比,也就是說給定物體的質量和受力大小,加速度是一個固定的值,如果你答題的時候寫,「有一定的概率是a,也有一定的概率是b」,物理老師肯定會氣得暈過去。統計模型的威力就在於幫助我們從混合著噪音的數據中找出規律。
  • 原理+代碼|Python實戰多元線性回歸模型
    ,這裡需要轉換一下,而多元線性回歸模型中類別變量的轉換最常用的方法之一便是將其轉化成虛擬變量。多重線性回歸模型的主要假設之一是我們的預測變量(自變量)彼此不相關。我們希望預測變量(自變量)與反應變量(因變量)相關,而不是彼此之間具有相關性。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    多元線性回歸:這是一種線性回歸的形式,當有兩個或多個預測因子時使用。我們將看到多個輸入變量如何共同影響輸出變量,同時還將了解計算與簡單LR模型的不同之處。我們還將使用Python構建一個回歸模型。最後,我們將深入學習線性回歸,學習共線性、假設檢驗、特徵選擇等內容。