StatQuest - 正則化之嶺回歸_Ridge Regression

2021-01-14 生信小知識
StatQuest - 正則化之嶺回歸_Ridge Regression

微信公眾號:生信小知識
關注可了解更多的教程及單細胞知識。問題或建議,請公眾號留言;

內容目錄

前言為什麼要做Ridge Regression如何去做Ridge Regression關於λ對於離散型數據對於邏輯回歸對於其他小結

https://www.bilibili.com/video/BV1jE411D7YM

前言

之所以最近又回過頭來看統計學了,是因為TCGA系列到了最後建模的時候,需要用到lasso回歸,如果不懂的話,建好了模型你也不懂有什麼用,所以,還是老老實實的來補習下統計學知識吧!!而且,StatQuest講的真的是非常簡單易懂了!!

為什麼要做Ridge Regression

我們還是從一個簡單的例子講起:

這裡有一群小鼠的數據,每個點是一個小鼠的數據。

因為這個數據看上去很像線性,所以我們用線性回歸去擬合(最小二乘法)。最後我們得到一個擬合方程:

如果我們的數據足夠多,那麼我們的擬合結果肯定會更準。但是,如果我們的數據有限,直接考慮最最極限的情況——如果只有2個點,那麼:

我們所謂的擬合曲線就確定了。

這裡我們把紅色的點當做training data,也就是訓練集,把剩下的數據當做testing data。這樣來說,對於training data來說,根據二乘法計算得到的殘差=0,因為全部都完美的擬合了,但是對於training data來說,殘差會比較大,因為根據觀察我們可以知道擬合效果較差。這也就是說,用2個點擬合的方程,其偏差bias非常小,但是方差variance過大。這種情況,我們就稱為對於training data存在過擬合

在這種情況下,就引出了Ridge Regression,這個方法主要做的是在擬合過程中,不那麼完美擬合,對於training data來說雖然一定程度上增大了bias,但是最後用在testing data時,預測能力得到提高,bias降低,同時variance也得到降低

如何去做Ridge Regression

我們知道,對於training data紅色的2個點來說:

其中,斜率決定了對最小二乘法得到的殘差進行罰分,而λ決定了罰分的程度

為了更清晰的理解,我們用一個具體的實例:

size = 0.4 + 1.3 x weight

如果我們用過擬合的方程,同時先假定λ=1

殘差=0

λ*斜率2 = 1*1.32 = 1.69

這樣的話,(殘差+λ*斜率2)= 1.69

那麼現在我們換一個擬合方程——size = 0.9 + 0.8 x weight:

殘差=0.32+0.12

λ*斜率2 = 1*0.82

這樣的話,(殘差+λ*斜率2)= 0.74

可以看到這裡(殘差+λ*斜率2)值更小了。同時,這個擬合的方程對於testing data時,variance得到降低,同時bias也比較低

關於λ

想要理解λ的意義,我們首先要對斜率有個概念,還是以前面的例子來講:

如果斜率=1,也就是每增加1單位weight,就會增加1單位size。

如果斜率越大,每增加1單位weight,就會增加更多單位的size。這時,size對於weight非常的敏感

如果斜率越小,每增加1單位weight,就會增加更少單位的size。這時,size對於weight不怎麼敏感

λ所做的事情就是讓擬合的曲線有一個更小的斜率,這樣的話就會使size對於weight的變化不怎麼敏感

λ的取值可以是任何非負數

那我們到底需要λ取多少合適呢?這就需要用到交叉驗證去做了。關於交叉驗證:

StatQuest - 機器學習——交叉驗證

對於離散型數據

前面的數據都是連續型數據,Ridge Regression也可以用在離散型數據數據中。

用下面的例子來講:

對於正常飲食和高脂飲食組,有一些數據,經過擬合後的結果如下圖:

但是這個擬合方程需要配合一個設計矩陣來使用,關於設計矩陣日後我會把筆記發出來,有興趣的可以自己去找找資料學習下。

對於最小二乘法來擬合,我們算的想要得到的是最小的殘差,這時殘差的計算是統計所有數據和圖中紅色和綠色線所代表的均值與所有真實數據相差之和,也就是下圖我圈起來部分之和

而使用Ridge Regression擬合的方程則是想要得到(殘差+λ*兩組均值之差2)最小,這時候,當λ越大時,為了使總和最小,兩組均值之差就會變小——也就是說,隨著λ越大,high fat diet 對於size的影響越來越不敏感

對於邏輯回歸

還是用一個實例:

經過邏輯回歸擬合方程後我們可以得到一個方程:

這裡需要注意的是:

邏輯回歸方程計算得到的是一個概率,即一個weight下,這個小鼠是肥胖的概率。

Ridge Regression需要讓(likelihood殘差+λ*斜率2)最小。

Ridge Regression做的是讓概率計算對於weight不那麼敏感。

對於其他

如果我們只有1個數據,那麼我們無法確定一個具體的擬合結果,因為,經過一個點,可以有無數條直線。而想要確定一條直線,最少需要2個點,也就是最少需要2個數據。

同理,如果我們把這個往更大程度去推理:

如果我們想依賴1個基因來判斷小鼠的size,也就是在一個平面直角坐標系中,橫坐標是基因,縱坐標是size,那麼我們就至少需要2個數據點,這樣才能構成一個確定的直線。

如果我們想依賴2個基因來判斷小鼠的size,也就是在一個3維坐標系中,x軸是基因1,y軸是基因2,z軸是size,那麼我們就至少需要3個數據點,這樣才能構成一個確定的平面。

如果我們想依賴1000個基因來判斷小鼠的size,那麼我們就至少需要1001個數據點,這樣才能構成一個確定的1001維平面

這裡就出現了一個問題,我們可能只有500個老鼠的數據點,那麼我們就沒有辦法做出一個1000個基因擬合的方程了!這時我們使用Ridge Regression進行正則化。

使用Ridge Regression進行正則化,我們可以使用更少的數據完成對1000個基因擬合的方程,具體做法如下所示:

圖中我們假設只有1個紅點作為training data,我們可以通過交叉驗證,通過最小化(殘差+λ*兩組均值之差2)的值來得到最終結果。

小結

相關焦點

  • 用R進行Lasso regression回歸分析
    glmnet是由史丹福大學的統計學家們開發的一款R包,用於在傳統的廣義線性回歸模型的基礎上添加正則項,以有效解決過擬合的問題,支持線性回歸,邏輯回歸,泊松回歸,cox回歸等多種回歸模型,連結如下https://cran.r-project.org/web/packages/glmnet/index.html對於正則化,提供了以下3種正則化的方式
  • Stata: 拉索回歸和嶺回歸 (Ridge, Lasso) 簡介
    當 λ 趨於正無窮的時候, 則是純截距回歸。實踐中,可以通過交叉驗證(cross validation)的方法來選擇調整參數 λ 。在 Stata 命令中,可以通過命令 rxridge 來實現 Ridge 回歸。
  • python機器學習:嶺回歸介紹
    接著上節討論,嶺回歸也是一種用於回歸的線性模型,因此它的預測公式與普通的最小二乘法相同。但在嶺回歸中,對係數(w)的選擇不僅要在訓練數據上得到好的預測結果,而且要擬合附加約束。同時我們還希望係數儘量小(w的所有元素儘量接近於0),同時仍給出很好的預測結果,這種約束就是所謂的正則化的一個例子。正則化是指對模型做顯示的約束,避免過擬合現象。
  • SPSS方法|嶺回歸分析
    :嶺回歸分析是在構建多重線性回歸模型時, 對基於「最小二乘原理」推導出的估計回歸係數的計算公式作一下校正,使回歸係數更穩定。3根據嶺跡圖進行變量篩選及重新確定k值把嶺跡應用於回歸分析中自變量的選擇,其基本原則為:(1)去掉嶺回歸係數比較穩定且絕對值比較小的自變量。這裡嶺回歸係數可以直接比較大小,因為設計陣 X 是假定已經中心標準化了的。
  • 地理加權回歸模型(GWR, Geographically Weighted Regression)
    mypalette.6<- brewer.pal(6, "Spectral")spplot(gwr.res$SDF,"LowEduc", key.space = "right",       col.regions = mypalette.6, at = c(-8,-6, -4, -2, 0, 2, 4),        main = "Basic GW regressioncoefficient
  • 機器學習之正則化
    三分鐘學習開始啦~----正則化是一種為了減小測試誤差的行為。當利用複雜的模型擬合數據,過擬合現象的出現導致模型的泛化能力下降時,使用正則化的適用可以降低模型的複雜度。這次為大家總結了正則化的相關知識點,幫助更好的理解正則化這一概念。正則化的本質就是對某一問題加以先驗的限制或約束以達到特定目的的一種手段或操作。
  • 人工智慧之回歸模型(RM)
    人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下回歸模型(RM)。回歸不是單一的有監督學習技術,而是許多技術所屬的整個類別。回歸的目的是預測數值型的目標值,如預測商品價格、未來幾天的PM2.5等。
  • 人工智慧機器學習三大類之回歸模型(RM)
    人工智慧機器學習三大類之回歸模型(RM) 工程師1 發表於 2018-07-13 01:39:00 人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下回歸模型(RM)。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    選自EliteDataScience機器之心編譯參與:蔣思源、晏奇在本教程中,作者對現代機器學習算法進行一次簡要的實戰梳理。雖然類似的總結有很多,但是它們都沒有真正解釋清楚每個算法在實踐中的好壞,而這正是本篇梳理希望完成的。因此本文力圖基於實踐中的經驗,討論每個算法的優缺點。而機器之心也在文末給出了這些算法的具體實現細節。
  • 回歸or分類?線性or邏輯?一文掌握模型的不同之處
    棘手之處在於判斷目標變量是否為標籤。比方說,如果目標變量是一個順序變量,表示1至5之間的不同等級,那麼它們即為標籤,但其同時具有數學意義。這意味著數據的平均值和偏差仍有意義,但若要進行推測,應用分類模型是更為明智的選擇。我們通過F分數或精確度來評估這些模型,而非其誤差或標準差。
  • 手把手:基於概率編程Pyro的金融預測,讓正則化結果更有趣!
    我們使用不同的正則化方法和補充數據來解決這個問題,但是這非常耗時間並且有點盲目搜索了。今天我想介紹一種稍微不同的方法來用於相同的算法。從概率角度講,我們可以從數據本身學習正則化方法,在我們預測中估計準確性,使用更少的數據來訓練並且在模型中加入概率依賴。
  • rlm:Robust regression by iterated reweighted least squares(IRLS)
    Outlier:在線性回歸中,離群值是具有較大殘差的觀測值。Leverage:在預測變量上具有極值的觀測值是具有高槓桿的點。槓桿是衡量一個自變量偏離其均值的程度。高槓桿點對回歸係數的估計有很大的影響。關於IRLS:rlm屬於穩健回歸(Robust regression)的一個方法。穩健回歸可以用在任何使用最小二乘回歸的情況下。在擬合最小二乘回歸時,我們可能會發現一些異常值或高槓桿數據點。已經確定這些數據點不是數據輸入錯誤,也不是來自另一個群落。所以我們沒有令人信服的理由將它們排除在分析之外。
  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    1、  多元回歸分析(multiple linear regression)式中 Y 為因變量,X1,X2```Xk為k個自變量,β0為常數項,β1,β2,```βk為待定參數,稱為偏回歸係數(partial regressioncoefficient),表示在其它自變量固定不變的情況下,自變量Xi 每改變一個單位時,單獨引起因變量Y的平均改變量。ε為隨機誤差,又稱殘差(residual), 它是在 Y 的變化中不能為自變量所解釋的部分。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    StatQuest-week10-4參考資料StatQuest課程:https://statquest.org/video-index/ 猜你喜歡生信基礎知識100講生信菜鳥團-專題學習目錄(5)還有更多文章,請移步公眾號閱讀▼ 如果你生信基本技能已經入門
  • 一圖一話87:回歸-Regression,到底是什麼
    論文的全名叫:Regression towards Mediocrity in Hereditary Stature(連結:http://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf).
  • 基於貝葉斯推斷的回歸模型(理論篇)| 機器學習你會遇到的「坑」
    Example:簡單線性模型的正則化在《過擬合問題》中,同樣提到了簡單線性模型的正則化,比如說我們的嶺回歸(Ridge Regression),它的優化函數為:我們在前面說,簡單線性模型假設我們的目標值服從高斯分布,事實上,正則化則對應著參數的高斯先驗分布
  • 多元回歸中partial regression plot 與partial residual plot 有何區別?
    於是我便查了一下相關材料,真是不查不知道,一查嚇一跳,原來partial regression plot (偏回歸圖)和 partial residual plot(偏殘差圖)在實際應用中已經混淆到了令人髮指的地步了。鄙人試圖通過此文,明確這種圖的原理,意義和用法的差異, 以防止大家繼續受到此問題的困擾。
  • 【乾貨】機器學習中的五種回歸模型及其優缺點
    嶺回歸是緩解模型中回歸預測變量之間共線性的一種補救措施。由於共線性,多元回歸模型中的一個特徵變量可以由其他變量進行線性預測。  嶺回歸的幾個要點:  • 這種回歸的假設與最小平方回歸相同,不同點在於最小平方回歸的時候,我們假設數據的誤差服從高斯分布使用的是極大似然估計(MLE),在嶺回歸的時候,由於添加了偏差因子,即w的先驗信息,使用的是極大後驗估計(MAP)來得到最終參數的。  • 它縮小了係數的值,但沒有達到零,這表明沒有特徵選擇功能。