回歸模型擬合優度檢驗 - CSDN

2021-02-08 CSDN技術社區

 

在依賴模型得出結論或預測未來結果之前,我們應儘可能檢查我們假設的模型是否正確指定。也就是說,數據不會與模型所做的假設衝突。對於二元結果,邏輯回歸是最流行的建模方法。在這篇文章中,我們將看一下 Hosmer-Lemeshow邏輯回歸的擬合優度檢驗。

 

Hosmer-Lemeshow擬合優度檢驗


Hosmer-Lemeshow擬合優度檢驗是基於根據預測的概率或風險將樣本分開。具體而言,基於估計的參數值,對於樣本中的每個觀察,基於每個觀察的協變量值計算概率。

 

然後根據樣本的預測概率將樣本中的觀察分成g組(我們回過頭來選擇g)。假設(通常如此)g = 10。然後第一組由具有最低10%預測概率的觀察組成。第二組由預測概率次之小的樣本的10%等組成。

 在實踐中,只要我們的一些模型協變量是連續的,每個觀測將具有不同的預測概率,因此預測的概率將在我們形成的每個組中變化。為了計算我們預期的觀察數量,Hosmer-Lemeshow測試取組中預測概率的平均值,並將其乘以組中的觀察數。測試也執行相同的計算,然後計算Pearson擬合優度統計量

 

   

選擇組的數量


就我所見,關於如何選擇組數g的指導很少。Hosmer和Lemeshow的模擬結論是基於使用的,建議如果我們在模型中有10個協變量 。

直觀地說,使用較小的g值可以減少檢測錯誤規範的機會。 

 

R 

首先,我們將使用一個協變量x模擬邏輯回歸模型中的一些數據,然後擬合正確的邏輯回歸模型。 

n < - 100x < - rnorm(n)xb < - xpr < - exp(xb)/(1 + exp(xb))y < - 1 *(runif(n)<pr)mod < - glm(y~x,family = binomial)

接下來,我們將結果y和模型擬合概率傳遞給hoslem.test函數,選擇g = 10組:

Hosmer and Lemeshow goodness of fit (GOF) testdata: mod$y, fitted(mod)X-squared = 7.4866, df = 8, p-value = 0.4851

這給出p = 0.49,表明沒有合適的不良證據。 我們還可以從我們的hl對象中獲得一個觀察到的與預期的表:

cbind(hl$observed,hl$expected) y0 y1 yhat0 yhat1[0.0868,0.219] 8 2 8.259898 1.740102(0.219,0.287] 7 3 7.485661 2.514339(0.287,0.329] 7 3 6.968185 3.031815(0.329,0.421] 8 2 6.194245 3.805755(0.421,0.469] 5 5 5.510363 4.489637(0.469,0.528] 4 6 4.983951 5.016049(0.528,0.589] 5 5 4.521086 5.478914(0.589,0.644] 2 8 3.833244 6.166756(0.644,0.713] 6 4 3.285271 6.714729(0.713,0.913] 1 9 1.958095 8.041905

為了幫助我們理解計算,現在讓我們自己手動執行測試。首先,我們計算模型預測概率,然後根據預測概率的十分位數對觀測值進行分類:

pihat <- mod$fittedpihatcat <- cut(pihat, brks=c(0,quantile(pi 1,0.9,0.1)),1), els=FALSE)

接下來,我們循環通過組1到10,計算觀察到的0和1的數量,並計算預期的0和1的數量。為了計算後者,我們找到每組中預測概率的均值,並將其乘以組大小,這裡是10:

meanprobs <- array(0, dim=c(10,2))expevents <- array(0, dim=c(10,2))obsevents <- array(0, dim=c(10,2))for (i in 1:10) { meanprobs[i,1] <- mean(pihat[pihatcat==i]) obsevents[i,2] <- sum(1-y[pihatcat==i])}

最後,我們可以通過表格的10x2單元格中的(觀察到的預期)^ 2 /預期的總和來計算Hosmer-Lemeshow檢驗統計量:

[1] 7.486643

與hoslem.test函數的測試統計值一致。

改變組的數量
接下來,讓我們看看測試的p值如何變化,因為我們選擇g = 5,g = 6,直到g = 15。我們可以通過一個簡單的for循環來完成:

for(i in 5:15){ print(hoslem.test(mod $ y,fits(mod),g = i)$ p.value)}

[1] 0.4683388[1] 0.9216374[1] 0.996425[1] 0.9018581[1] 0.933084[1] 0.4851488[1] 0.9374381[1] 0.9717069[1] 0.5115724[1] 0.4085544[1] 0.8686347

雖然p值有所改變,但它們都顯然不重要,所以他們給出了類似的結論,沒有證據表明不合適。因此,對於此數據集,選擇不同的g值似乎不會影響實質性結論。

通過模擬檢查Hosmer-Lemeshow測試


要完成,讓我們進行一些模擬,以檢查Hosmer-Lemeshow測試在重複樣本中的表現。首先,我們將從先前使用的相同模型重複採樣,擬合相同(正確)模型,並使用g = 10計算Hosmer-Lemeshow p值。我們將這樣做1000次,並將測試p值存儲在一個數組中:

pvalues < - array(0,1000)for(i in 1:1000){ n < - 100 x < - rnorm(n) pr < - exp(xb)/(1 + exp(xb)) mod < - glm(y~x,family = binomial) }

完成後,我們可以計算出p值小於0.05的比例。由於此處正確指定了模型,因此我們希望這種所謂的類型1錯誤率不大於5%:

[1] 0.04

因此,在1,000次模擬中,Hosmer-Lemeshow測試在4%的情況下給出了顯著的p值,表明不合適。所以測試錯誤地表明在我們預期的5%限制內不合適 - 它似乎工作正常。

現在讓我們改變模擬,以便我們適合的模型被錯誤地指定,並且應該很難適應數據。希望我們會發現Hosmer-Lemeshow測試在5%的時間內正確地找到了不合適的證據。具體來說,我們現在將生成跟隨具有協變量的邏輯模型,但我們將繼續使用線性協變量擬合模型,以便我們的擬合模型被錯誤地指定。 

 

我們發現,計算p值小於0.05的比例

[1] 0.648

因此,Hosmer-Lemeshow測試為我們提供了65%的不合適的重要證據。

 

最受歡迎的見解

1.R語言多元Logistic邏輯回歸 應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優度檢驗

6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現

7.在R語言中實現Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標

相關焦點

  • 擬合優度檢驗_擬合優度檢驗r方公式 - CSDN
    在依賴模型得出結論或預測未來結果之前,我們應儘可能檢查我們假設的模型是否正確指定。也就是說,數據不會與模型所做的假設衝突。對於二元結果,邏輯回歸是最流行的建模方法。在這篇文章中,我們將看一下 Hosmer-Lemeshow邏輯回歸的擬合優度檢驗。
  • 擬合優度專題及常見問題 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • 回歸方程的擬合優度檢驗 - CSDN
    分類數據的擬合優度檢驗卡方檢驗主要是測試樣本分類數據的分布是否符合預期分布。相信大家如果學過高中生物,都知道孟德爾——遺傳學之父,當時他根據顏色和形狀把豌豆分為四類:黃圓、綠圓、黃皺和綠皺.孟德爾根據遺傳學原理判斷這四類的比例應為9:3:3:1.為做驗證,孟德爾分別統計了這四類豌豆的個數,正是利用檢驗證明了這令人激動的結論在處理分類數據時,這些類別值本身對統計檢驗沒有多大用處,比如像「男性」、「女性」和「其他」這樣的類別數據沒有任何數學意義。
  • logistic回歸Hosmer-Lemeshow擬合優度檢驗
    在建立預測模型的時候通常會報告一個擬合優度檢驗的結果(FrankHarrell指出這個指標存在一些缺點),今天結合
  • 線性回歸的擬合優度檢驗 - CSDN
    這期小統帶大家繼續學習修正檢驗--異方差(2)。昨天我們文末提到:若多重共線性修正後的模型殘差項之間存在異方差,我們該使用什麼方法進行修正呢?答案是:加權最小二乘法能夠看出,經過異方差修正後,該模型的擬合優度為0.7169,修正後的擬合優度為0.7046,相較於異方差前修正後的擬合優度0.2092來看,提升較高;並且其F統計值為58.2521,相較之前也有較大的提升。
  • 擬合優度 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 回歸方程的顯著性檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係一、σ2 的估計  因為假設檢驗以及構造與回歸模型有關的區間估計都需要σ2的估計量,所以先對σ2作估計。
  • 回歸係數顯著性t檢驗 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係一、σ2 的估計  因為假設檢驗以及構造與回歸模型有關的區間估計都需要σ2的估計量,所以先對σ2作估計。
  • 回歸分析中的f檢驗 - CSDN
    ##作業:分析影響中國人口自然增長的主要原因,並建立人口自然增長率與各經濟因子之間的多元回歸模型,並對建立的模型進行統計檢驗(包括擬合優度、F檢驗、t 檢驗,並用多元逐步回歸方法解決多重共性問題。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    (3)t分布(3)F分布三大分布的用途:卡方分布:常用於擬合優度檢驗t分布:       多用於比例的估計和檢驗,用於方差分析,協方差分布和回歸分析t分布:       在信息不足的情況下,只能用t分布,比如在整體方差不知道的情況下,對總體均值的估計和檢驗常用
  • 一元回歸t檢驗與f檢驗_多元回歸模型的r檢驗f檢驗與t檢驗 - CSDN
    在統計學中有一個術語叫做R^2(coefficient ofdetermination,中文叫判定係數、擬合優度,決定係數,系統不能上標,這裡是R^2是「R的平方」),用來判斷回歸方程的擬合程度。變量的顯著性檢驗變量的顯著性檢驗的目的:剔除回歸係數中不顯著的解釋變量(也就是X),使得模型更簡潔。在一元線性模型中,我們只有有一個自變量X,就是要判斷X對Y是否有顯著性的影響;多元線性回歸中,驗證每個Xi自身是否真的對Y有顯著的影響,不顯著的就應該從模型去掉。
  • t檢驗回歸方程專題及常見問題 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係一、σ2 的估計  因為假設檢驗以及構造與回歸模型有關的區間估計都需要σ2的估計量,所以先對σ2作估計。
  • 回歸分析檢驗_回歸分析中f檢驗和t檢驗 - CSDN
    『回歸分析』『線性回歸中的平方誤差』如上圖,線性回歸的平方誤差如下皮爾森卡方檢驗:擬合優度檢驗&ThickSpace;\;
  • 一元線性回歸顯著性檢驗專題及常見問題 - CSDN
    回歸方程的顯著性檢驗  t 檢驗(回歸係數的檢驗)  F 檢驗(回歸方程的檢驗)  相關係數的顯著性檢驗  樣本決定係數  三種檢驗的關係一、σ2 的估計  因為假設檢驗以及構造與回歸模型有關的區間估計都需要σ2的估計量,所以先對σ2作估計。
  • 回歸分析兩個因變量 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記兩個概念:RR和OR二分類資料的logistic回歸SPSS操作示例幾個需要注意的問題:樣本量、啞變量、模型擬合效果和擬合優度檢驗、多重共線【1】兩個概念RR(Relative Risk):相對危險度,也稱危險比(Risk Ratio
  • 回歸方程的擬合效果怎麼看_分析線性回歸方程的擬合效果 - CSDN
    如上圖所示,我們需要從分析的工具欄當中選擇回歸,然後選擇線性(回歸的模型選擇有很多種,本題中我們選擇線性回歸)。,這個檢驗就是之前文章跟大家說的殘差檢驗,查看回歸模型是否有問題。當我們點擊確定以後我們就能夠從輸出界面看到我們本次分析的結果:從上面結果圖中我們可以看出,不管是R方還是調整後的R方都是在90%以上,說明本次回歸模型的擬合效果是很好的。
  • 回歸係數和回歸方程的顯著性_多元線性回歸方程及回歸係數的顯著性...
    基於閥門流阻性能實驗測得相關數據,利用Minitab軟體對其進行回歸分析,得到閥門阻力係數與流速的擬合曲線和回歸方程,然後進行多項式顯著性檢驗和擬合優度檢驗,確定出最優回歸模型
  • adf檢驗r語言分析_r語言adf檢驗 - CSDN
    協整檢驗是為了檢驗非平穩序列的因果關係,協整檢驗是解決偽回歸為問題的重要方法。首先回歸偽回歸例子:偽回歸Spurious regression 偽回歸方程的擬合優度、顯著性水平等指標都很好,但是其殘差序列是一個非平穩序列,擬合一個偽回歸:
  • 檢驗回歸係數的顯著性excel_excel相關係數顯著性檢驗 - CSDN
    通過數據間相關性分析的研究,進一步建立自變量(i=1,2,3,…)與因變量Y之間的回歸函數關係,即回歸分析模型,從而預測數據的發展趨勢。 2、  回歸統計表中的R Square是R平方值,R平方即R的平方,又可以叫判定係數、擬合優度,取值範圍是[0,1],R平方值越大,表示模型擬合的越好。一般大於70%就算擬合的不錯,60%以下的就需要修正模型了。這個案例裡R平方0.9054,相當不錯。