線性回歸進階——嶺回歸和lasso回歸

2021-02-20 不專業的生信筆記本

    說起線性回歸大家肯定都不陌生,我們經常用這種手段來揭示一組變量間的相關性,一般情況下,我們用線性函數來對數據做出擬合,通過殘差來計算差異度,用梯度下降法找到一組使均值方差最小的權重。詳細可以看之前的一篇推送:

    而我們今天要分享大家的是:lasso 回歸和嶺回歸(ridge regression),這兩種回歸方式其實就是在標準線性回歸的基礎上分別加入不同的正則化矯正而已(regularization)。

    對於普通線性模型:

    它的損失函數是:

    用大家熟悉的方式來表達的話,就是訓練集中點到最小回歸直線的距離的平方差,也叫做殘差的平方,如圖所示虛線即代表殘差。

    其實這個回歸方法看起來已經很合理了,那麼為什麼我們要引入新的參數來進行正則化呢?

    其實,在我們對現有數據進行線性回歸的時候,很容易誇大一個變量對另一個變量的影響。舉個例子:

    假設紅色的點代表訓練集,綠色的點代表測試集,當我們對紅點進行線性擬合的時候,我們很容易得到一個沒有偏好性(Bias)的直線,然而它對測試集的擬合情況並不是很好,而且我們容易發現,當擬合直線上的點在x軸上的取值出現微小變化的同時,y軸上的取值會出現較大的變化,而這可能會導致該直線在對測試集進行擬合的時候殘差過大。因此,我們引入了正則化修正,來對擬合直線的曲率進行懲罰,從而使它更有可能更好的對測試集進行預測。

    正因為w在數值上非常的大,所以,如果輸入變量x有一個微小的變動,其反應在輸出結果上也會變得非常大,這就是對輸入變量總的噪聲非常敏感的原因。

    為了限制模型參數w的數值大小,就在模型原來的目標函數上加上一個懲罰項,這個過程叫做正則化(Regularization)。如果懲罰項是參數的l2範數,就是脊回歸(Ridge Regression),又叫嶺回歸。

    其損失函數是:

    這個w其實可以是斜率,大多數時候這個參數等價於參數 w 的先驗概率分布滿足高斯分布。詳情可以參考這個博客:

https://blog.csdn.net/zhuxiaodong030/article/details/54408786

lasso回歸則是在ridge回歸的基礎上對參數稍微做出了一些改變:

關於這兩個回歸的優缺點,我們可以看它的原文:

http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=8E12A5FF179046C33D169679526C5356?doi=10.1.1.35.7574&rep=rep1&type=pdf

這裡我們只展示它其中的一張圖片

    圖中的坐標系表示 w 的兩維,一圈又一圈的橢圓表示函數 J=1n∑ni=1(w⊤xi+b−yi)2 的等高線,橢圓越往外,J 的值越大,w∗ 表示使得損失 J 取得全局最優的值。等高線從低到高第一次和 w取值範圍相切的點,即是 lasso 和 ridge 回歸想要找的權重w。           lasso 限制了 w取值範圍為有稜角的方形,而ridge限制了w的取值範圍為圓形,等高線和方形區域的切點更有可能在坐標軸上,而等高線和圓形區域的切點在坐標軸上的概率很小。這就是為什麼 lasso更容易使得部分權重取 0,使權重變稀疏;而只能使權重接近 0,很少等於 0。

今天的分享到這裡又結束了,

那麼朋友們

再見

相關焦點

  • 用R進行Lasso regression回歸分析
    ridge regression,嶺回歸lasso regression,套索回歸elastic-net regression,彈性網絡回歸這3者的區別就在於正則化的不同,套索回歸使用回歸係數的絕對值之和作為正則項,即L1範式;嶺回歸採用的是回歸係數的平方和,即L2範式;彈性網絡回歸同時採用了以上兩種策略,其正則項示意如下
  • 前沿: Lasso, 嶺回歸, 彈性網估計在軟體中的實現流程和示例解讀
    機器學習第一書, 數據挖掘, 推理和預測,5.從線性回歸到機器學習, 一張圖幫你文獻綜述,6.11種與機器學習相關的多元變量分析方法匯總,7.機器學習和大數據計量經濟學, 你必須閱讀一下這篇,8.文章的後半部分比較了「嶺回歸」(ridge regression)、「lasso」和「彈性網」(the elastic net)的預測情況,附錄部分提供了K折交叉驗證(k-fold cross-validation)的步驟。
  • 手把手帶你畫高大上的lasso回歸模型圖
    首先我們先來幾篇文獻,看一下lasso最近發的兩篇文章,如下:                            這兩篇文章均是採用了lasso回歸的範文。感興趣的可以自行下載學習,當然今天我們主要是和大家探討lasso回歸的細枝末節,具體體會這個算法的精妙和思想。
  • 機器學習測試筆記(12)——線性回歸方法(下)
    4.嶺回歸嶺回歸(英文名:Ridgeregression, Tikhonov regularization)是一種專用於共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸係數更為符合實際、更可靠的回歸方法,對病態數據的擬合要強於最小二乘法。
  • 線性回歸:簡單線性回歸詳解
    【導讀】本文是一篇專門介紹線性回歸的技術文章,討論了機器學習中線性回歸的技術細節。線性回歸核心思想是獲得最能夠擬合數據的直線。
  • SPSS多元線性回歸案例:回歸分析方法實戰
    1.線性回歸(Linear Regression)線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關係。
  • Stata16 新功能之Lasso系列(三):使用Lasso時,如何進行統計推斷(雙重選擇回歸)
    )的基本原理與Stata操作,包括「線性lasso」(linear lasso)與「非線性lasso」(lasso probit,lasso logit與lasso Poisson),參見:Stata 16 新功能之Lasso系列(一):Lasso BasicsStata 16 新功能之Lasso系列(二):Lasso Logit,Probit 與 Poisson
  • 對線性回歸,logistic回歸和一般回歸的認識
    前四節主要講述了回歸問題,回歸屬於有監督學習中的一種方法。該方法的核心思想是從連續型統計數據中得到數學模型,然後將該數學模型用於預測或者分類。該方法處理的數據可以是多維的。講義最初介紹了一個基本問題,然後引出了線性回歸的解決方法,然後針對誤差問題做了概率解釋。之後介紹了logistic回歸。最後上升到理論層次,提出了一般回歸。
  • Lasso回歸操作指南, 數據, 程序和解讀都有
    1.回歸方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR)3.共線性、過度/不能識別問題的SolutionsLASSO 是 Robert Tibshirani在1996年提出的一種壓縮估計方法,全稱Least Absolute Shrinkage and Selection Operator,它和嶺回歸很像,只是懲罰項有所變化。
  • StatQuest - 正則化之嶺回歸_Ridge Regression
    StatQuest - 正則化之嶺回歸_Ridge Regression微信公眾號:生信小知識關注可了解更多的教程及單細胞知識。問題或建議,請公眾號留言;內容目錄前言為什麼要做Ridge Regression如何去做Ridge Regression關於λ對於離散型數據對於邏輯回歸對於其他小結https://www.bilibili.com/video/BV1jE411D7YM前言之所以最近又回過頭來看統計學了,是因為TCGA系列到了最後建模的時候,需要用到lasso回歸
  • 一句代碼完成lasso回歸
    這裡我推薦一個R包 glmSparseNet,可以完成多種數據類型的lasso回歸,包括:"gaussian", "poisson", "binomial", "multinomial", "cox", and "mgaussian".
  • python線性回歸
    一.理論基礎1.回歸公式  對於單元的線性回歸,我們有:f(x) = kx + b 的方程(k代表權重,b代表截距)。
  • 如何為你的回歸問題選擇最合適的機器學習方法?
    這篇文章將從以下幾個方面介紹:這裡介紹一些回歸問題中常用的機器學習方法,sklearn作為機器學習中一個強大的算法包,內置了許多經典的回歸算法,下面將一一介紹各個算法:線性回歸擬合一個帶係數的線性模型,以最小化數據中的觀測值與線性預測值之間的殘差平方和。
  • Excel中的數據預測——線性回歸預測
    今天我們來了解下Excel中數據預測的一種方法:線性回歸預測。首先理解下什麼是線性回歸預測,其實很簡單,就是尋找自變量和因變量之間的關係,建立二者之間的線性回歸方程,然後利用此方程進行預測。說白了就是大家初中時就學過的二元一次方程:y=kx+a如果你的已知數據符合線性趨勢或者趨近於線性趨勢,那就可以用線性回歸法進行預測。比如:以上案例中,通過前五年的數據發現使用年限和機器的損耗率明顯呈現線性關係,要預測第6年機器的損耗率,用Excel中的FORECAST.LINEAR函數即可。
  • 線性回歸
    根據給定數據,用線性回歸方法擬合數據。從本周19教技學生作業來看,第1、5、7、8、10組同學完成的不錯。以下是她們各組整合後的代碼。
  • 邏輯回歸or線性回歸,傻傻分不清楚
    線性回歸作為一種常用的關聯分析工具,其功能強大,解釋度高,但是其缺點也是很明顯的。其只適用於處理連續型的變量,無法處理離散型的變量,比如對於case/control的實驗設計,患病與否的臨床信息,線性回歸就無能無力了,此時我們就需要另外一種方法-邏輯回歸。線性回歸是屬於回歸分析的一種,從名稱上來,邏輯回歸好像也屬於回歸分析,其實不然。
  • 數據挖掘從入門到放棄:線性回歸和邏輯回歸
    」首先講回歸模型,回歸模型研究的是因變量(目標)和自變量(預測器)之間的關係,因變量可以是連續也可以離散,如果是離散的就是分類問題。思考房價預測模型,我們可以根據房子的大小、戶型、位置、南北通透等自變量預測出房子的售價,這是最簡單的回歸模型,在初中裡面回歸表達式一般這樣寫,其中x是自變量,y是因變量,w是特徵矩陣,b是偏置。
  • 多重線性回歸分析
    指描述一個因變量與多個自變量的依存關係的回歸分析,其基本形式為:x1,…,xp為p個自變量,β0為常數項,β1,…,βp為偏回歸係數,ε為隨機誤差,又稱為殘差,是y的變化中不能用自變量解釋的部分。 通過樣本估計的多重線性回歸方程:
  • 第三天:線性回歸
    監督學習有兩類經典的求解問題,分別是回歸和分類。
  • 深入廣義線性模型:分類和回歸
    【導讀】本文來自AI科學家Semih Akbayrak的一篇博文,文章主要討論了廣義的線性模型,包括:監督學習中的分類和回歸兩類問題。