R相關與回歸學習筆記(三十五)——樣條函數變換、線性可加模型(一)

2021-01-14 生信客棧
本筆記中原始數據及代碼均來源於李東風先生的R語言教程,在此對李東風先生的無私分享表示感謝。


m個節點的三次樣條函數需要n+4個參數, 因為每段需要4個參數, m+1段需要4m+4個參數, 而在個節點上連續、一階導數連續、二階導數連續構成三個約束條件, 所以參數個數為m+4個。自然樣條函數假定函數在最左邊一段和最右邊一段為線性函數, 這樣m個節點需要m+2個參數。 R的lm()函數中對自變量x指定ns(x) 可以對輸入的x指定作自然樣條變換, ns()可以用df=指定自由度作為曲線複雜度的度量。 如

在多元回歸中也可以用ns(x)對單個自變量引入非線性。


雖然在用lm()作多元回歸時可以用ns()、poly()等函數引入非線性成分, 但需要指定複雜度參數。 對可加模型

最好能從數據中自動確定fj(·)的複雜度(光滑度)參數。R擴展包mgcv的gam()函數可以執行這樣的可加模型的非參數回歸擬合。 模型中可以用s(x)指定x的樣條平滑, 用lo(x)指定x的局部多項式平滑。 具體的計算是迭代地對每個自變量xj進行, 估計的平滑函數fj(·)時, 採用數據

迭代估計到結果基本不變為止。例如,MASS包的rock數據框是石油勘探中12塊巖石樣本分別產生4個切片得到的測量數據, 共48個觀測, 因變量是滲透率(permeability), 自變量為area, peri, shape。先作線性回歸:

lm.rock <- lm(log(perm) ~ area + peri + shape, data=rock)summary(lm.rock)

## Call:## lm(formula = log(perm) ~ area + peri + shape, data = rock)## ## Residuals:##     Min      1Q  Median      3Q     Max ## -1.8092 -0.5413  0.1734  0.6493  1.4788 ## ## Coefficients:##               Estimate Std. Error t value Pr(>|t|)    ## (Intercept)  5.333e+00  5.487e-01   9.720 1.59e-12 ***## area         4.850e-04  8.657e-05   5.602 1.29e-06 ***## peri        -1.527e-03  1.770e-04  -8.623 5.24e-11 ***## shape        1.757e+00  1.756e+00   1.000    0.323    ## ---## Signif. codes:  0 『***』 0.001 『**』 0.01 『*』 0.05 『.』 0.1 『 』 1## ## Residual standard error: 0.8521 on 44 degrees of freedom## Multiple R-squared:  0.7483,    Adjusted R-squared:  0.7311 ## F-statistic:  43.6 on 3 and 44 DF,  p-value: 3.094e-13



往期回顧

R相關與回歸學習筆記(一)——相關分析

R相關與回歸學習筆記(二)——相關與因果、相關係數大小、相關係數的檢驗

R相關與回歸學習筆記(三)——相關陣、一元回歸分析

R相關與回歸學習筆記(五)——回歸有效性

R相關與回歸學習筆記(六)——R程序

R相關與回歸學習筆記(七)——回歸診斷(一)

R相關與回歸學習筆記(七)——回歸診斷(二)

R相關與回歸學習筆記(八)——回歸診斷(三)

R相關與回歸學習筆記(九)——預測區間、控制、多元線性回歸模型

R相關與回歸學習筆記(十)——參數估計、R的多元回歸程序(一)

R相關與回歸學習筆記(十一)——模型的檢驗

R相關與回歸學習筆記(十二)——線性關係檢驗、單個斜率項的顯著性檢驗

R相關與回歸學習筆記(十三)——回歸自變量篩選

R相關與回歸學習筆記(十四)——啞變量與變截距項的模型(一)

R相關與回歸學習筆記(十五)——啞變量與變截距項的模型(二)

R相關與回歸學習筆記(十六)——殘差診斷(一)

R相關與回歸學習筆記(十七)——殘差診斷(二)

R相關與回歸學習筆記(十八)——殘差診斷(三)

R相關與回歸學習筆記(十八)——多重共線性

R相關與回歸學習筆記(十九)——強影響點分析、過度擬合示例(一)

R相關與回歸學習筆記(二十)——強影響點分析、過度擬合示例(二)

R相關與回歸學習筆記(二十一)——過度擬合示例(三)

R相關與回歸學習筆記(二十二)——嵌套模型的比較

R相關與回歸學習筆記(二十三)——擬合、點預測

R相關與回歸學習筆記(二十四)——均值的置信區間、個別值的預測區間

R相關與回歸學習筆記(二十五)——利用線性回歸模型做曲線擬合(一)

R相關與回歸學習筆記(二十六)——利用線性回歸模型做曲線擬合(二)

R相關與回歸學習筆記(二十七)——利用線性回歸模型做曲線擬合(三)

R相關與回歸學習筆記(二十八)——利用線性回歸模型做曲線擬合(四)

R相關與回歸學習筆記(二十九)——利用線性回歸模型做曲線擬合(五)

R相關與回歸學習筆記(三十)——利用線性回歸模型做曲線擬合(六)

R相關與回歸學習筆記(三十一)——分組建立多個模型(一)

R相關與回歸學習筆記(三十二)——分組建立多個模型(二)

R相關與回歸學習筆記(三十三)——非參數回歸模型、樣條平滑

R相關與回歸學習筆記(三十四)——局部多項式曲線平滑




相關焦點

  • R筆記:多重線性回歸(二)_適用條件考察
    書接上回……我們在<<多重線性回歸(一)_模型擬合>>一文中已經建立了回歸模型lmfit
  • R語言中的多項式回歸、B樣條曲線(B-spline Curves)回歸
    p=18129 在線性模型的文章中,我們已經了解了如何在給出協變量x的向量時構造線性模型。但更一般而言,我們可以考慮協變量的變換,來使用線性模型。我們首先討論多項式回歸,進一步,我們會想到分段線性或分段多項式函數,可能還有附加的連續性約束,這些是樣條曲線回歸的基礎。
  • [PRML]線性回歸模型--線性基函數模型
    這通常稱為線性回歸(linear regression)。多項式基函數的一個限制是他們是輸入變量的全局函數,所以輸入空間的一個區域變化會影響其他區域。這個可以通過將輸入空間劃分成不同的區域並在每個區域擬合一個不同的多項式來解決,這會導致樣條函數(spline functions)。
  • 第四十四講 R-非線性回歸
    它將多項式項或二次項(預測變量的平方、立方等)添加到回歸中。·樣條回歸(Spline regression):用平滑曲線與一系列多項式線段擬合。限定樣條線段的值稱為「 結(Knots)」。·廣義加性模型(Generalized additive models,GAM):通過自動選擇結來擬合樣條線模型。
  • 線性回歸模型
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 吳恩達機器學習筆記 - 線性回歸、代價函數與梯度下降
    回歸問題:預測連續的輸出(擬合函數曲線),比如用最小二乘回歸一個連續的輸出曲線:擬合的曲線可能有多條,通過不斷的優化函數模型和參數,可以看出藍色的曲線比紫色的直線擬合(回歸)效果好。你有一大批同樣的貨物,想像一下,你有上千件一模一樣的貨物等待出售,這時你想預測接下來的三個月能賣多少件?- 回歸問題你有許多客戶,這時你想寫一個軟體來檢驗每一個用戶的帳戶。
  • 第四十講 R-線性回歸:預測模型及可信區間
    今天的課程將繼續帶大家學習R-線性回歸:預測模型及可信區間。線性回歸的一個主要目標是基於一個或多個預測變量來預測結果值。(我們也用它來研究兩個變量的相關性,同時校正其他混雜因素)。那麼,當我們取得了預測模型後,根據該預測模型對新數據進行預測得出的預測值是什麼?這個預測值的可信度如何呢?今天的講解中,我們會給出答案。我們首先建立一個簡單的線性回歸模型,該模型根據速度預測汽車的停車距離。
  • r中回歸結果怎麼判定模型好壞_lasso回歸 模型好壞 - CSDN
    回歸模型主要能做兩件事情,一是用模型去體現事物間的關係,即解釋模型變量間的關係;二是用模型進行預測。                                                                      簡單線性回歸模型的假定       簡單線性回歸模型有下面幾個假定:       所謂線性假定指構建模型時需將模型構建成線性的模式,例如Y=
  • 廣義可加模型GAM是什麼?如何在常用軟體上實現?
    之前,我們引薦了①非參數, 半參數, 廣義可加, 偏線性, 單指數模型代碼公開,②廣義線性回歸模型估計:所有線性回歸的大倉庫,③廣義線性回歸模型估計:所有線性回歸的大倉庫(2)。今天,我們繼續引薦廣義可加模型(generalized additive model)及其程序。
  • 入門| 從線性回歸到無監督學習,數據科學家需要掌握的十大統計技術
    統計學系側重模型及其可解釋性,以及精度和不確定性。二者之間的區別越來越模糊。1. 線性回歸在統計學中,線性回歸通過擬合因變量和自變量之間的最佳線性關係來預測目標變量。第二主成分是和第一主成分不相關的變量的線性組合,且在該約束下有最大的方差。其主要思想是主成分能在各個互相垂直的方向使用數據的線性組合捕捉到最大的方差。使用這種方法,我們還能結合相關變量的效應從數據中獲取更多的信息,畢竟在常規的最小二乘法中需要捨棄其中一個相關變量。
  • 線性回歸中+t值的含義_線性回歸 y截距p值的計算 - CSDN
    線性回歸模型的基本特性就是:模型是參數的線性函數。最簡單的線性回歸模型當然是模型是參數的線性函數的同時,也是輸入變量的線性函數,或者叫做線性組合。一般線性回歸對於一個一般的線性模型而言,其目標就是要建立輸入變量和輸出變量之間的回歸模型。該模型是既是參數的線性組合,同時也是輸入變量的線性組合。
  • 人工智慧之回歸模型(RM)
    前言:人工智慧機器學習有關算法內容,請參見公眾號之前相關文章。人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下回歸模型(RM)。回歸分類:在統計學中,回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變量多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析。
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • r語言一元回歸模型專題及常見問題 - CSDN
    一元線性回歸分析首先介紹回歸分析中最基礎的情況:一元線性回歸分析。它規定模型f函數只能是y=k*x+b的形式,即只使用一個變量x(故稱為一元)的線性形式來預測目標變量y。6.1.1引例利用某網站歷次促銷活動中促銷讓利費用和銷售金額的數據(單位是十萬元),將使用該數據集來說明線性回歸分析的應用。
  • 廣義線性模型學習
    彈性網絡彈性網絡 是一種使用 L1, L2 範數作為先驗正則項訓練的線性回歸模型。 這種組合允許學習到一個只有少量參數是非零稀疏的模型,就像 Lasso 一樣,但是它仍然保持 一些像 Ridge 的正則性質。我們可利用 l1_ratio 參數控制 L1 和 L2 的凸組合。彈性網絡在很多特徵互相聯繫的情況下是非常有用的。
  • 簡單線性回歸模型
    3 求解線性回歸模型函數3.1 極大似然法最小二乘法和極大似然法都可以用來求解線性回歸模型,我們在往期文章中討論過最小二乘法,這裡對似然法進行簡單介紹。3.2 R求解線性回歸模型我們可以利用現有軟體進行模型求解。
  • 深入研究線性回歸
    當我說到「線性回歸」時,大多數人開始想到的是最小二乘法(OLS)。如果你不熟悉這個術語,下面的方程可能會有幫助:學過最小二乘法嗎?如果學過,那麼你就走在正確的道路上了。但是線性回歸不僅僅是最小二乘法。首先,讓我們更仔細地看看最小二乘法。
  • 機器學習的線性回歸分析
    回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱為多元線性回歸分析。
  • 廣義線性模型在生命表死亡率修勻中的應用
    實證分析結果表明,負二項回歸模型的擬合效果優於泊松回歸模型;進一步將年齡和年份兩因子選為數值型變量,對數據進行光滑處理,在負二項回歸模型下應用B-樣條函數進行修勻。在我國人口死亡率修勻的應用研究中,基於GLM的動態死亡率修勻方法可發現近20年來我國分年齡、分性別死亡率變化規律,具有很強的適用性。
  • 兩個例子告訴你:什麼是「線性」回歸模型?
    全文共1534字,預計學習時長3分鐘在機器學習和統計領域,線性回歸模型是最簡單的模型之一。這意味著,人們經常認為對線性回歸的線性假設不夠準確。通過運用該簡單的線性函數,可模擬x和y之間的關係。>現在,對於相同的數據點,可考慮如下的另一模型:如上所示,該模型不再是輸入變量x的線性函數,但仍是參數a、b的線性函數。