機器學習——多項式回歸和正規方程

2020-12-27 BioinfoLearner

一、多項式回歸

房價預測中:

有兩個特徵,frontage和depth,即臨街長度和房子的寬度。假如我們計算一個x = frontage * depth (房子面積),則假設函數變成了hθ(x) = θo + θ1x 。

線性回歸併不適用於所有數據,有時我們需要曲線來適應我們的數據,比如一個二次方模型或者三次方模型。

通常我們需要先觀察數據然後再決定準備嘗試怎樣的模型。 另外,我們可以令:

X2 = X2^3 , X3 = X3^3,從而將模型轉化為線性回歸模型。

根據函數圖形特性,我們還可以使:

如果我們採用多項式回歸模型,在運行梯度下降算法前,特徵縮放非常有必要。

二、正規方程

對於某些線性回歸問題,正規方程方法是更好的解決方案。如:

假設我們的θ是一個實數,而不是一個向量,代價函數是一個關於θ的二次函數

那么正規方程是通過求解下面的方程來找出使得代價函數最小的參數的,即求導:

但是實際上θ往往是一個向量,代價函數(下圖J函數括號中的m應為n)是關於這一系列θ的函數

假設我們的訓練集特徵矩陣為X(包含了Xo=1)並且我們的訓練集結果為向量y,則利用正規方程解出向量

上標T代表矩陣轉置,上標-1 代表矩陣的逆。設矩陣

以下表示數據為例:

即:

運用正規方程方法求解參數:

在 Octave 中,正規方程寫作:

pinv(X'*X)*X'*y

梯度下降與正規方程的比較:

只要特徵變量的數目並不大,正規方程是一個很好的計算參數的替代方法。具體地說,只要特徵變量數量小於一萬,通常使用正規方程法,而不使用梯度下降法。

三、正規方程以及不可逆性

正規方程中會存在不可逆的情況。

其一、當存在特徵是線性相關的時候,比如在預測住房價格時,如果X1是以英尺為尺寸規格計算的房子,X2是以平方米為尺寸規格計算的房子,而1英尺=3.28米,那麼兩個特徵值將始終滿足:X1=X2*(3.28)^2,這時矩陣

是不可逆的。

其二、特徵數量大於訓練集的數量時,矩陣不可逆,比如十個數據集但是有100個特徵。

當存在上述情況時,首先看看是否存在多餘的特徵,有則刪除。另外可以對線性模型進行正則化,這樣即使一個相對較小的訓練集,也可使用很多的特徵來找到很多合適的參數。

最後在Octave裡,有兩個函數可以求解矩陣的逆,一個被稱為pinv(),另一個是inv(),前者是所謂的偽逆,另一個被稱為逆。前者這種使用不同的線性代數庫的方法被稱為偽逆。即使矩陣不可逆,但算法執行的流程是正確的,正規方程仍然可以計算。

正規方程的推導過程:

相關焦點

  • 機器學習 | 多項式回歸處理非線性問題
    在探究多項式回歸之前,先對線性數據、非線性數據、線性模型及非線性模型做一個詳細的介紹,以便更加深入地理解多項式回歸在非線性數據集上使用線性模型的奧秘。線性回歸模型擬合的方程為線性方程,如下而像決策樹、支持向量機、各類樹的集成模型,以及一切通過三角函數,指數函數等非線性方程來建立的模型。
  • 多項式回歸
    , (1)其中所有的,從而可按多元線性回歸方式進行分析處理。  多項式回歸在回歸問題中佔特殊的地位, 因為任何函數至少在一個比較小的鄰域內可用多項式任意逼近, 因此通常在比較複雜的實際問題中, 可以不問
  • 非線性回歸模型--多項式回歸
    下面小編將向大家介紹如何用R軟體實現非線性回歸中的多項式回歸。實例:某種合金中的主要成分為元素A和B,試驗發現這兩種元素之和x與合金膨脹係數y之間有一定的數量關係。試根據表給出的試驗數據找出y與x之間的回歸關係。
  • 微分方程VS機器學習,實例講解二者異同
    機器學習任務廣義上可以分為:監督學習(即回歸與分類)無監督學習(即聚類和降維)強化學習如今機器學習和人工智慧系統在日常生活中隨處可見。機器學習模型很難學習嵌入到微分方程中的邏輯所捕獲的潛在機制。從本質上講,任何算法都需要僅基於 1956 年之前存在的數據(綠色)預測能夠出現的最大值:完整起見,本文作者訓練了一些多項式回歸、隨機森林、梯度提升樹。注意只有多項式回歸會外推超出原始數據範圍。
  • python機器學習--線性回歸
    python機器學習--線性回歸線性回歸是最簡單的機器學習模型,其形式簡單,易於實現,同時也是很多機器學習模型的基礎。對於一個給定的訓練集數據,線性回歸的目的就是找到一個與這些數據最吻合的線性函數。lr_model = ols("企業信譽評估~銷項季度均值+有效發票比例+是否違約+企業供求關係+行業信譽度+銷項季度標準差",data=df_train).fit()print(lr_model.summary())# 預測測試集lr_model.predict(X_test)梯度下降算法很多機器學習算法的最優參數不能通過像最小二乘法那樣的「閉式」方程直接計算
  • 含納維-斯託克斯方程(氣象學)實例,微分方程 VS 機器學習
    經驗或數據驅動型建模,特別是機器學習,能夠讓數據來學習系統的結構,這個過程就叫做「擬合」。機器學習對於人類不確定如何將信號從噪聲中分離出來的複雜系統格外有效,只需要訓練一種聰明的算法,讓它來代替你做繁瑣的事情。機器學習任務廣義上可以分為:如今機器學習和人工智慧系統在日常生活中隨處可見。
  • 入門機器學習之線性回歸
    回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱為多重線性回歸分析。
  • 機器學習的回歸是什麼
    例如,肌肉塊頭和訓練重量的關係可以簡單看成一組線性的關係四、什麼是多元線性回歸(Multiple Linear Regression)在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。當樣本的描述涉及多個屬性時,這類問題就被稱為多元線性回歸。
  • 人工智慧機器學習三大類之回歸模型(RM)
    人工智慧機器學習三大類之回歸模型(RM) 工程師1 發表於 2018-07-13 01:39:00 人工智慧之機器學習主要有三大類:1)分類;2)回歸;
  • 跟著吳恩達老師學習機器學習,Python筆記分享!
    如果你想要聽吳恩達的機器學習課程,你是可以免費旁聽完整課程想多少次就多少次的。我們開始吧!線性回歸最簡單的機器學習算法。此算法是基於一個高中講的很基本的直線公式:">Y = AX + B沒忘吧?忘了也無所謂。這是一個很簡單的公式。這是解釋為什麼這個簡單公式可以被用來做預測的完整文章。
  • 機器學習基本概念-維度災難和線性回歸
    1.4.4 分類和回歸的參數模型克服維度災難的主要方法是對數據分布的性質(p(y|x)或p(x))做一些假設。這些假設被稱為歸納偏差,通常以參數模型的形式體現出來,參數模型是具有固定數量參數的統計模型。下面我們簡要描述兩個廣泛使用的例子;我們將在本書後面更深入地討論這些模型和其他模型。
  • 【翻譯】Sklearn 與 TensorFlow 機器學習實用指南 —— 第4章( 中) 訓練模型
    這種方法稱為多項式回歸。讓我們看一個例子。 首先,我們根據一個簡單的二次方程(並加上一些噪聲,如圖 4-12)來生成一些非線性數據:m = 100X = 6 * np.random.rand(m, 1) - 3y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)
  • Python機器學習從原理到實踐(2):數據擬合與廣義線性回歸
    做回歸分析,常用的誤差主要有均方誤差根(RMSE)和R-平方(R2)。RMSE是預測值與真實值的誤差平方根的均值。這種度量方法很流行(Netflix機器學習比賽的評價方法),是一種定量的權衡方法。R2方法是將預測值跟只使用均值的情況下相比,看能好多少。其區間通常在(0,1)之間。
  • 邏輯回歸的決策邊界及多項式
    0x02 邏輯回歸的非線性決策邊界 2.1 線性回歸轉換成多項式回歸對於線性這條藍色的直線可以比較完美地將數據分成兩類。但是直線的分類方式,太簡單了。這就從線性回歸轉換成多項式回歸,同理為邏輯回歸添加多項式項,就可以對非線性的方式進行比較好的分類,決策邊界就是曲線的形狀。
  • 深度學習和機器學習的線性代數入門
    正規方程的轉置矩陣和逆矩陣線性方程向量範數L1範數/Manhattan範數L2範數/Euclidean範數ML中的正則化Lasso嶺正確理解機器學習和深度學習的概念,掌握以下這些數學領域至關重要:機器學習和深度學習中的線性代數在機器學習中,很多情況下需要向量化處理,為此,掌握線性代數的知識至關重要。
  • R語言多項式回歸
    含有x和y這兩個變量的線性回歸是所有回歸分析中最常見的一種;而且,在描述它們關係的時候,也是最有效、最容易假設的一種模型。
  • 多元回歸:理解機器學習
    若把機器學習的目的看作是任務,完成該任務首先要準備數據集,數據集由訓練和測試兩個數據集構成,然後再設計一個學習算法,該算法從訓練集的數據中學習,找出與任務適配的模型,還要設計一個度量模型性能的方法,用來度量模型在任務上完成的質量。通過身高來預測體重的回歸案例,初步了解了編寫機器學習程序的過程。但對於初次接觸機器學習的讀者來說,它還是一個比較深奧、抽象化的概念。
  • 機器學習算法之嶺回歸、Lasso回歸和ElasticNet回歸
    正則化嶺回歸與Lasso回歸的出現是為了解決線性回歸出現的過擬合以及在通過正規方程方法求解不可逆這兩類問題的,這兩種回歸均通過在損失函數中引入正則化項來達到目的。在日常機器學習任務中,如果數據集的特徵比樣本點還多,
  • 機器學習套路:線性回歸
    (點擊上方藍字,快速關注我們)轉自:sharkdtuhttp://sharkdtu.com/posts/ml-linear-regression.html好文投稿, 請點擊 → 這裡了解詳情線性回歸可以說是機器學習中最簡單
  • 機器學習課程教與學(教學大綱和教案)
    本課程的教學目的是使學生理解機器學習的基本問題和基本算法,掌握它們的實踐方法,為學生今後從事相關領域的研究工作或項目開發工作奠定堅實的基礎。(三)回歸(8學時)【內容】回歸任務與評價方法,線性回歸模型,全局最優、凸優化等機器學習中的最優化理論,迭代法、梯度下降法、牛頓法等最優化方法,多項式回歸,過擬合與泛化,向量相關性與嶺回歸,局部回歸。【重點】線性回歸模型,梯度下降法,多項式回歸,過擬合與泛化,向量相關性與嶺回歸。【難點】最小二乘法求解線性回歸模型,嶺回歸算法。