廣義可加模型GAM是什麼?如何在常用軟體上實現?

2020-12-27 計量經濟圈子

之前,我們引薦了①非參數, 半參數, 廣義可加, 偏線性, 單指數模型代碼公開,②廣義線性回歸模型估計:所有線性回歸的大倉庫,③廣義線性回歸模型估計:所有線性回歸的大倉庫(2)。今天,我們繼續引薦廣義可加模型(generalized additive model)及其程序。

線性模型簡單、直觀、便於理解,但是,在現實生活中,變量的作用通常不是線性的,線性假設很可能不能滿足實際需求,甚至直接違背實際情況。廣義加性模型是一種自由靈活的統計模型,它可以用來探測到非線性回歸的影響。

提出背景

非參數回歸不需要模型滿足線性的假設前提,可以靈活地探測數據間的複雜關係,但是當模型中自變量數目較多時 ,模型的估計方差會加大,另外,基於核與光滑樣條估計的非參數回歸中自變量與因變量間關係的解釋也有難度,1985 年 Stone 提出加性模型 (additive models) ,模型中每一個加性項使用單個光滑函數來估計,在每一加性項中可以解釋因變量如何隨自變量變化而變化,很好地解決了上述問題 。1990 年,Hastie 和 Tibshirani 擴展了加性模型的應用範圍 ,提出了廣義加性模型(generalized additive models)。

模型形式

經典的線性回歸模型假定因變量

與自變量

是線性形式:

其中,

通過最小二乘法獲得。

加性模型擴展了線性模型:

其中,

是光滑函數,

通過backfitting算法獲得。

廣義加性模型是廣義線性模型的擴展:

其中,

為線性預測值,

是非參數光滑函數,它可以是光滑樣條函數、核函數或者局部回歸光滑函數,它的非參數形式使得模型非常靈活,揭示出自變量的非線性效應。

模型不需要

的任何假設,由隨機部分

(randomcomponent)、加性部分

(additivecomponent)及聯結兩者的連接函數

(linkfunction)組成,反應變量

的分布屬於指數分布族,可以是二項分布、Poisson分布、Gamma分布等。

模型中不必每一項都是非線性的 ,可以納入線性等參數項 ,因為每個解釋變量的關係如都用非參數擬合會出現計算量大 、過擬合等問題 ,有時因變量與某個預測變量的關係簡化成參數形式會更便於解釋 ,這樣就出現了半參數廣義加性模型 ( semi-parametric generalized additive models) ,其形式為 :

優缺點

1) 可以引入非線性函數

2)非線性可能使得對

預測的更準確

3) 因為是」加性的」,所以,線性模型的假設檢驗的方法仍然可以使用

4) 因為是「加性」假設,所以GAMs中可能會缺失重要的交互作用

,只能通過手動添加交互項來彌補

應用示例

某研究者欲研究新生兒出生低體重與孕婦的年齡、先兆流產、妊高症的關係,共調查了997例婦女,整理後的數據見表1。調查包括孕婦的年齡age(0:<20歲;1:20~25歲;2:25~30歲;3:30~40;4:40歲以上),有無先兆流產xz(0:無;1:有),有無妊高症rg(0:無;1:有),試分析低出生體重與這些因素的關係。

分析

該資料的特點是因變量為二分類變量 ,體重小於2500 g 為低出生體重兒 。可以採用 logistic 回歸來分析低出生體重與解釋變量年齡 、先兆流產 、妊高症的關係 ,但是從醫學背景考慮 ,年齡較小與年齡較大的孕婦可能發生低體重的新生兒多 ,要使這種複雜的非線性關係直觀地呈現 ,我們用半參數 logistic 廣義可加模型擬合 ,變量 xz、rg 以參數形式 ,年齡 age 用光滑樣條來擬合 。

Stata軟體的程序:GAM: Stata module for generalised additive models

* 廣義可加模型 Generalized additive model運行程序示例:gam lnhwage educatn hours,df(3)* Graphsgamplot educatn,saving(graph1, replace)gamplot hours,saving(graph2, replace)graph combine graph1.gph graph2.gph,iscale(1.2)rows(1)ysize(2.5)xsize(5)graph export nonparametricfig21.wmf, replace

gam fits a generalized or proportional hazards additive model (GAM) by mazimizing a penalized log likelihood function. Each component of the resulting estimated function of the covariates is a cubic smoothing spline. The smoothness of each component function is determined by the 'equivalent degrees of freedom' of the corresponding covariate. Models supported: Normal (Gaussian) errors, binomial, Poisson, gamma, Cox (now with Stata's stcox), and link functions among identity, log, logit and inverse. This package is an update to accommodate the latest versions of the Windows operating system (specifically, Win 2000 and XP) and supersedes the version published in the STB (Royston P, Ambler G (1998) Generalized additive models. Stata Technical Bulletin 42: 38-43.)

R軟體的程序:Package 『gam』或者更為普遍使用的'mgcv'

gam is used to fit generalized additive models, specified by giving a symbolic description of the additive predictor and a description of the error distribution. gam uses the backfitting algorithm to combine different smoothing or fitting methods. The methods currently supported are local regression and smoothing splines

一些文獻對GAM方法的介紹:

註:由於網盤被過多分享很容易被blocked,決定還是把這個上傳到計量社群,有需要的群友可以自行下載。

相關焦點

  • 廣義可加模型GAM是什麼? 如何在常用軟體上實現?
    之前,我們引薦了①非參數, 半參數, 廣義可加, 偏線性, 單指數模型代碼公開,②廣義線性回歸模型估計:所有線性回歸的大倉庫,③廣義線性回歸模型估計:所有線性回歸的大倉庫(2)。今天,我們繼續引薦廣義可加模型(generalized additive model)及其程序。
  • 零基礎的同學如何用Stata做廣義估計模型(GEE)?
    在縱向數據中如何進行統計分析?如何得出一個正確的估計值?什麼是廣義估計模型?廣義估計方程的打開方式又是怎樣的?在Stata中如何選取合適的變量、合適的代碼進而做出廣義估計模型(GEE)?今天,我們將學習如何在stata軟體中進行廣義估計模型(GEE)的操作,希望大家都能有所收穫。
  • 建立非線性回歸預測模型,來看R教程!
    研究目的是為兩者建立最合適的回歸模型,分析步驟如下:1、初步探索數據2、建立簡單線性回歸3、建立曲線方程4、建立分段回歸5、建立樣條回歸6、構建局部加權回歸7、建立廣義可加模型8、總結分析數據前的準備工作
  • 廣義線性模型與邏輯回歸
    所以我們無法直接採用線性回歸模型進行建模。對於這一類問題,可以用邏輯回歸來處理。在講邏輯回歸之前,先簡單介紹下指數族分布、廣義線性模型,因為邏輯回歸是廣義線性模型的一種,所以我們需要了解如何從廣義線性模型得到邏輯回歸。二、指數族分布之所以先介紹指數族分布,因為指數族分布是所有廣義線性模型的假設條件之一。
  • 最全:ARCH, GARCH等模型家族是什麼?軟體如何做?怎麼解釋?
    時間序列的正名路,8.面板數據單位根檢驗軟體操作和解讀全在這裡,9.動態面板回歸和軟體操作,單位根和協整檢驗(Dynamic Panel Data),10.疫情期計量課程免費開放!面板數據, 因果推斷, 時間序列分析與Stata應用,11.送書: 應用時間序列分析(經典),12.時間序列模型分解,季節調整分析基礎,13.動態因子模型是什麼, 又怎麼去實現? 14.動態面板分位數估計怎麼做?
  • 廣義線性模型到底是個什麼鬼?| 協和八
    畢竟光是理解線性模型的各種用法就已經夠頭疼的了,再加個廣義更繞不清楚了。普通線性模型對數據有著諸多限制,真實數據並不總能滿足。而廣義線性模型正是克服了很多普通線性模型的限制。統計模型是怎樣從具有隨機性的數據中找到自變量和因變量之間的關係的呢?原因在於是隨機誤差也是有規律的。在測量不存在系統性的偏差的情況下,測量到的加速度會以理論值為平均值呈正態分布,詳情可回顧《正態分布到底是怎麼來的?| 協和八》。
  • 3d模型製作軟體有哪些?6款常用的3d模型製作軟體推薦
    提到3d模型製作軟體,最出名的就是:3dmax這一款軟體了,不過,除了3dmax,還有許多3d模型製作軟體也非常不錯。那麼,3d模型製作軟體有哪些?下面,小編就給大家整理了6款常用的3d模型製作軟體推薦給大家!
  • 線性模型(一)普通線性回歸到廣義線性模型
    同時提醒讀者避免只從字面理解「線性」帶來誤會,即線性模型只能解決線性問題。本章將線性模型定位和表述為在數學表達式上具有線性的表示方式的數學模型,包含普通線性回歸模型和廣義線性模型(線性支持向量機本章不進行講述)。
  • 廣義線性模型GLM(泊松分布)
    對於簡單的一元模型,我們可以直接用泊松模型建模,但是如果要引入多個自變量,我們還是需要線性模型。但是線性模型有以下問題:(1)count data值為非負,單純的線性模型無法滿足這一點。當然,我們可以通過開方再平方響應變量解決;(2)count data的數據往往是非線性的;(3)無法確保模型殘差符合同方差。
  • 如何做到全自動VPN換IP;微信加人軟體哪個好;如何在微信上批量加...
    1.如何在微信上批量加好友以及群發?   金蘭VPN自動切換IP軟體是一款專門針對需要在百度知道、百度貼吧、天涯論壇、淘寶購物、投票評選、遊戲登錄等平臺上的用戶,讓你們完全避免這些平臺對IP的限制,實現全自動VPN換IP的功能!
  • BIM建模用什麼軟體?常用的BIM軟體有哪些?
    BIM軟體廠商眾多,其開發的軟體各有優勢與適用領域,據不完全統計,目前全球BIM建模軟體有70款的多,僅為常用的就有25款,今天筆者就與各位聊聊BIM建模用什麼軟體?常用的BIM軟體有哪些?3.Autodesk Plant Design Suite主要應用於廠房工程,可應用3D模型提升廠房設計與審核質量,其包含的BIM軟體為Revit Structure,該軟體說明如前所述。
  • 廣義線性模型在生命表死亡率修勻中的應用
    實證分析結果表明,負二項回歸模型的擬合效果優於泊松回歸模型;進一步將年齡和年份兩因子選為數值型變量,對數據進行光滑處理,在負二項回歸模型下應用B-樣條函數進行修勻。在我國人口死亡率修勻的應用研究中,基於GLM的動態死亡率修勻方法可發現近20年來我國分年齡、分性別死亡率變化規律,具有很強的適用性。
  • 軟體工程——認識方法、模型、工具和技術
    大多數開發者最初拿到的僅僅是招標書、合同、項目基本需求等文檔,這些文檔對軟體功能和資源的需求描述都是對現實問題域的描述,不能直接映射到在計算機中可運行的軟體結構,而且現實問題域的內容在團隊溝通中也會出現大問題,團隊成員對問題域的理解可能不盡相同,導致開發出的軟體功能,與招標書、合同規定的軟體要求會有較大差異。
  • 汽車軟體開發模型——瀑布模型/V模型
    因此,汽車的軟體複雜度,相比於IT軟體,並沒有那麼大,但質量要求相對非常高。汽車行業為了解決軟體開發過程中的各種問題,先後引入了瀑布模型,V模型。什麼是瀑布模型?後續的V模型,螺旋模型,快速原型模型,增量模型,噴泉模型等都是在瀑布模型的基礎上改進或借鑑。瀑布模型的核心思想是按工序將問題化簡,將功能的實現與設計分開,便於分工協作,即採用結構化的分析與設計方法將邏輯實現與物理實現分開。
  • 廣義線性模型學習
    設置正則化參數:廣義交叉驗證RidgeCV 通過內置的 Alpha 參數的交叉驗證來實現嶺回歸。該模型利用函數 logistic function 將單次試驗(single trial)的可能結果輸出為概率。scikit-learn 中 logistic 回歸在 LogisticRegression 類中實現了二分類(binary)、一對多分類(one-vs-rest)及多項式 logistic 回歸,並帶有可選的 L1 和 L2 正則化。
  • 如何實現敏捷軟體開發?
    敏捷開發究竟是什麼?通俗地講,他就是將項目分為多個獨立運行,但又存在聯繫地小項目,通過分別完成實現快速開發。整體來看,它的優勢就是高效!在軟體工程領域,有過很多軟體開發模型,如瀑布模型、快速原型模型、增量模型、螺旋模型、演化模型、噴泉模型、RAD模型、敏捷軟體開發模型、XP極端模型。
  • 常用統計分析軟體:SPSS、Stata、Minitab
    眾多新的統計軟體工具的出現成為了深入大數據洞察研究的重要助力。下面是幾款比較常用的統計分析工具。一、SPSSSPSS(StatisticalProductandServiceSolutions)是全球領先的統計分析與數據挖掘產品。成立於1968年,是世界上應用非常廣泛的專業統計和數據模型軟體之一。2009年IBM全資收購了SPSS公司,正式更名為「IBMSPSS」。
  • 業務場景中較常用的七個統計模型.(值得收藏)
    這次他給大家帶來關於統計(回歸)模型的分享。這些模型經常被廣泛運用到實際的業務場景中。建議大家收藏,如果當你遇到相似場景,就可以翻出來跟著步驟實現啦。統計建模是⼀種用簡化了的,數學公式化的方式來基於數據進行建模預估的方式。而呈現出的等式也就是建模得到的統計模型。而我們建模的最終目的,就是利用我們的模型進行回歸分析。
  • 辦公軟體都有哪些?常用辦公軟體下載推薦
    我們一般所講的辦公軟體,大約就是指微軟的OFFICE套裝,包括WORD、EXCEL、POWERPOINT、ACCESS等,一般常用的是前三者。目前OFFICE的最新版本為2010,但目前使用2003版的人還比較多。微軟的OFFICE是商業軟體,體積龐大,售價不菲,網上能夠下載的都是盜版。