兩個例子告訴你:什麼是「線性」回歸模型?

2020-12-03 讀芯術

全文共1534字,預計學習時長3分鐘

在機器學習和統計領域,線性回歸模型是最簡單的模型之一。這意味著,人們經常認為對線性回歸的線性假設不夠準確。

例如,下列2個模型都是線性回歸模型,即便右圖中的線看起來並不像直線。

圖1 同一數據集的兩種不同線性回歸模型

若對此表示驚訝,那麼本文值得你讀一讀。本文試圖解釋對線性回歸模型的線性假設,以及此類線性假設的重要性。

回答上述問題,需要了解以下兩個簡單例子中線性回歸逐步運行的方式。

例1:最簡單的模型

從最簡單的例子開始。給定3對(x,y)訓練數據:(2,4)、(5,1)、(8,9)進行函數建模,發現目標變量y和輸入變量x之間的關係。

圖2 本文中使用的訓練數據集

這一模型最為簡單,如下所示:

通過運用該簡單的線性函數,可模擬x和y之間的關係。關鍵在於該函數不僅與輸入變量x成線性關係,而且與參數a、b成線性關係。

當前目標是確定最符合訓練數據的參數a和b的值。

這可通過測量每個輸入x的實際目標值y和模型f(x)之間的失配來實現,並將失配最小化。這種失配(=最小值)被稱為誤差函數。

有多種誤差函數可供選擇,但其中最簡單的要數RSS,即每個數據點x對應的模型f(x)與目標值y的誤差平方和。

利用誤差函數的概念,可將「確定最符合訓練數據的參數a、b」改為「確定參數a、b,使誤差函數最小化」。

計算一下訓練數據的誤差函數。

上面的等式就是要求最小值的誤差函數。但是,怎樣才能找到參數a、b,得到此函數的最小值呢?為啟發思維,需要將該函數視覺化。

圖3 誤差函數的第一個模型

從上方的3D圖來看,人們會本能地猜測該函數為凸函數。凸函數的優化(找到最小值)比一般數學優化簡單得多,因為任何局部最小值都是整個凸函數的最小值。(簡單來講,就是凸函數只有一個最小點,例如「U」的形狀)由於凸函數的這種特性,通過簡單求解如下的偏微分方程,便可得到使函數最小化的參數。

下面解下之前的例子吧。

通過求解上面的等式,得到a = 5/6、b = 1/2。因此,第一個模型(最小化RSS)如下所示:

圖4 第一個模型

示例2:簡單的彎曲模型

現在,對於相同的數據點,可考慮如下的另一模型:

如上所示,該模型不再是輸入變量x的線性函數,但仍是參數a、b的線性函數。

下面看下這一變化對模型擬合過程的影響。我們將使用與前一示例相同的誤差函數——RSS。

如上所示,等式看起來與前一個非常相似。(係數的值不同,但方程的形式相同。)該模型的可視化圖像如下:

圖5 誤差函數的第二個模型

兩個模型的形狀看起來也很相似,仍然是凸函數。但秘密在於,當使用訓練數據計算誤差時,輸入變量作為具體值給出(例如,x的值在數據集中給定為22、52和8,即(2,4)、(5,1)、(8,9))。因此,無論輸入變量的形式多複雜(例如x、x、sin(x)、log(x)等......),給定的值在誤差函數中僅為常數。

誤差函數的第二個模型也是凸函數,因此可通過與前一示例完全相同的過程找到最佳參數。

通過求解上面的等式,得到a = 61/618、b = 331/206。所以,第二個模型如下所示:

圖6 第二個模型

結論:線性回歸模型的線性假設

上述2個例子的求解過程完全相同(且非常簡單),即使一個為輸入變量x的線性函數,一個為x的非線性函數。兩個模型的共同特徵是兩個函數都與參數a、b成線性關係。這是對線性回歸模型的線性假設,也是線性回歸模型數學單性的關鍵。

上面2個模型非常簡單,但一般而言,模型與其參數的線性假設,可保證RSS始終為凸函數。通過求解簡單偏微分方程,得到最優參數,這就是線性假設至關重要的原因。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • 簡單線性回歸模型
    2 基礎回顧回歸的概念來源於實際問題,那麼現在我們所說的線性回歸分析問題具體指的是什麼呢?3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 數學建模:一個多元線性回歸做預測的例子
    一個多元線性回歸做預測的例子例. 某商品5年的按季度銷售量如下表所示:預測第6年各季度的銷售量。繪圖觀察數據規律t=1:length(Y0);plot(t,Y0,'*-');xlabel('季度'), ylabel('銷售量');grid on可見,數據具有明顯的季節(周期)性,可以考慮採用時間序列分析法,或回歸預測法
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • 零基礎的同學如何用stata做多元線性回歸模型?
    其實,在對一元線性回歸模型有了初步的了解之後,在學習多元線性回歸模型就相對簡單多了,一起往下看吧?多元線性回歸是什麼什麼是多元線性回歸?多元線性回歸:在回歸分析中,如果自變量的個數是兩個或是兩個以上,就被稱之為多元回歸。實際分析當中,一種現象往往是與多種因素相互聯繫的,多個自變量的最優組合對因變量進行估計或者預測,往往比只用一個自變量估計或預測會更加有效,也比較符合實際情況。因此,多元線性回歸模型的意義相對來說會更好一些。
  • 一元線性回歸模型容易理解嗎?讓公式和變量來告訴你!
    什麼是一元線性回歸模型?一元回歸模型,也叫簡單線性回歸,是統計學中最為基礎的部分,也是數理統計中的入門必會模型。在實際研究當中常用於預測一個變量如何隨另一個變量而變化,例如一件商品的購買意願是否會隨著商品的定價變化而變化,這其中的變化關係如何去刻畫描摹,這時就需要搭建一元回歸模型來進行檢驗。一元回歸模型的數據要求是什麼?因變量(Y):被預測的變量,也叫被解釋變量,例如購買意願,以李克特7級量表打分為例(購買意願分為1-7,得分越高,購買意願越強)。
  • 入門| 貝葉斯線性回歸方法的解釋和優點
    回顧頻率派線性回歸線性回歸的頻率派視角可能是你所熟悉的、從學校學到的版本:模型假設反應變量(y,也稱因變量)是一組權重和預測變量(x,也稱自變量)乘積的線性組合。完整的公式還包含一個代表隨機採樣噪聲的誤差項。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。,這個暗示了模型的限制。參數的線性化會簡化這類模型的計算,但也會導致一些限制。『tanh』函數的線性組合。在監督學習中如回歸和分類,我們不是尋找輸入變量的分布模型。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    多元線性回歸:這是一種線性回歸的形式,當有兩個或多個預測因子時使用。我們將看到多個輸入變量如何共同影響輸出變量,同時還將了解計算與簡單LR模型的不同之處。我們還將使用Python構建一個回歸模型。最後,我們將深入學習線性回歸,學習共線性、假設檢驗、特徵選擇等內容。
  • 多元線性回歸與模型診斷
    多元線性回歸的基本表達式回歸方程的模型擬合度在進行回歸模型之前,我們可以計算總的波動誤差如下:②假設檢驗(同一元線性回歸類似)自變量選擇偏差的權衡(1)丟失重要變量(2)加入無關變量變量係數的估計偏差(大樣本,無關變量會收斂於0)增加了模型參數估計的不確定性增加了R方的值,但是使得調整的R方減小(3)兩種合理估計線性回歸係數的方法①一般情況模型變量的選擇方法a.
  • 入門機器學習之線性回歸
    什麼是回歸分析在客觀世界中普通存在著變量之間的關係,變量之間的關係一般來說可以分成確定性關係和不確定關係,確定性關係是說變量之間的關係是可以用函數關係來表示的,另一種不確定性關係即所謂相關關係。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱為多重線性回歸分析。
  • 原理+代碼|Python實戰多元線性回歸模型
    ,這裡需要轉換一下,而多元線性回歸模型中類別變量的轉換最常用的方法之一便是將其轉化成虛擬變量。多重線性回歸模型的主要假設之一是我們的預測變量(自變量)彼此不相關。我們希望預測變量(自變量)與反應變量(因變量)相關,而不是彼此之間具有相關性。
  • 機器學習之多元線性回歸模型梯度下降公式與代碼實現(篇二)
    上一篇我們介紹了線性回歸的概述和最小二乘的介紹,對簡單的一元線性方程模型手推了公式和python代碼的實現。機器學習之線性回歸模型詳細手推公式與代碼實現(篇一)今天這一篇來介紹多元線性回歸模型多元線性回歸模型介紹在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸
  • spss多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸,主要是研究一個因變量與多個自變量之間的相關關係,跟一元回歸原理差不多,區別在於影響因素(自變量)更多些而已,例如:一元線性回歸方程 為:   今天跟大家一起討論一下,SPSS---多元線性回歸的具體操作過程,下面以教程教程數據為例,分析汽車特徵與汽車銷售量之間的關係。通過分析汽車特徵跟汽車銷售量的關係,建立擬合多元線性回歸模型。數據如下圖所示:
  • 多元線性回歸模型很難?5分鐘學會數據錄入、軟體操作、結果分析
    多元線性回歸模型是一元線性回歸模型的升級版,目標是利用兩個或兩個以上的不同變量值來預測一個變量值。因此,為了探究這些因素是否可以預測顧客的購買意願,此時就需要建立多元線性回歸模型來研究這些變量間的關係。例子引入某個超市決定研究產品價格、品牌形象、促銷力度和顧客購買意願的關係,從而提升顧客的購買意願。為此,超市專門對店內會員顧客進行問卷調查,收集到25個顧客的數據。
  • 魚與熊掌可以兼得——線性回歸函數的複雜自變量
    比如說呀,假如這裡有一小撮新數據,它們的收集標準與時間和原有數據相同,其中有某一項gender元素為not sure (或者是unknown什麼的,拿gender舉例子我也實在是跪了 ),那麼這一項數據是不能用我們這一次求得的線性函數來算y值的。 我們通過具體例子把兩種數據的區別講清楚了,下面還是要看一下,在數學原理上它們有什麼不同。
  • 看不懂Logistic模型?別慌,先來了解它和線性回歸模型的區別!
    #計量經濟學#Logistic回歸在統計學領域也是一種非常常見的線性回歸模型。作為回歸模型的一種,其實它和簡單線性回歸模型分析有著非常相似的地方,它們的模型方程形式是一致的,右邊都可以寫成b1x+c的方程形式,並且b1和c都是未知的係數參數。
  • 逐步回歸分析調整後r2和模型的顯著性f值_多元線性回歸方程的顯著...
    (2)相關分析主要是描述兩個變量之間相關關係的密切程度;回歸分析不僅可以揭示變量X對變量Y的影響程度,還可以根據回歸模型進行預測。回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡單線性回歸、多重線性回歸;而非線性回歸,需要進行對數轉化等方式,將其轉化為線性回歸的形式進行研究。