擬合優度檢驗_擬合優度檢驗r方公式 - CSDN

2020-11-21 CSDN技術社區

 

在依賴模型得出結論或預測未來結果之前,我們應儘可能檢查我們假設的模型是否正確指定。也就是說,數據不會與模型所做的假設衝突。對於二元結果,邏輯回歸是最流行的建模方法。在這篇文章中,我們將看一下 Hosmer-Lemeshow邏輯回歸的擬合優度檢驗。

 

Hosmer-Lemeshow擬合優度檢驗


Hosmer-Lemeshow擬合優度檢驗是基於根據預測的概率或風險將樣本分開。具體而言,基於估計的參數值,對於樣本中的每個觀察,基於每個觀察的協變量值計算概率。

 

然後根據樣本的預測概率將樣本中的觀察分成g組(我們回過頭來選擇g)。假設(通常如此)g = 10。然後第一組由具有最低10%預測概率的觀察組成。第二組由預測概率次之小的樣本的10%等組成。

 在實踐中,只要我們的一些模型協變量是連續的,每個觀測將具有不同的預測概率,因此預測的概率將在我們形成的每個組中變化。為了計算我們預期的觀察數量,Hosmer-Lemeshow測試取組中預測概率的平均值,並將其乘以組中的觀察數。測試也執行相同的計算,然後計算Pearson擬合優度統計量

 

   

選擇組的數量


就我所見,關於如何選擇組數g的指導很少。Hosmer和Lemeshow的模擬結論是基於使用的,建議如果我們在模型中有10個協變量 。

直觀地說,使用較小的g值可以減少檢測錯誤規範的機會。 

 

R 

首先,我們將使用一個協變量x模擬邏輯回歸模型中的一些數據,然後擬合正確的邏輯回歸模型。 

n < - 100x < - rnorm(n)xb < - xpr < - exp(xb)/(1 + exp(xb))y < - 1 *(runif(n)<pr)mod < - glm(y~x,family = binomial)

接下來,我們將結果y和模型擬合概率傳遞給hoslem.test函數,選擇g = 10組:

Hosmer and Lemeshow goodness of fit (GOF) testdata: mod$y, fitted(mod)X-squared = 7.4866, df = 8, p-value = 0.4851

這給出p = 0.49,表明沒有合適的不良證據。 我們還可以從我們的hl對象中獲得一個觀察到的與預期的表:

cbind(hl$observed,hl$expected) y0 y1 yhat0 yhat1[0.0868,0.219] 8 2 8.259898 1.740102(0.219,0.287] 7 3 7.485661 2.514339(0.287,0.329] 7 3 6.968185 3.031815(0.329,0.421] 8 2 6.194245 3.805755(0.421,0.469] 5 5 5.510363 4.489637(0.469,0.528] 4 6 4.983951 5.016049(0.528,0.589] 5 5 4.521086 5.478914(0.589,0.644] 2 8 3.833244 6.166756(0.644,0.713] 6 4 3.285271 6.714729(0.713,0.913] 1 9 1.958095 8.041905

為了幫助我們理解計算,現在讓我們自己手動執行測試。首先,我們計算模型預測概率,然後根據預測概率的十分位數對觀測值進行分類:

pihat <- mod$fittedpihatcat <- cut(pihat, brks=c(0,quantile(pi 1,0.9,0.1)),1), els=FALSE)

接下來,我們循環通過組1到10,計算觀察到的0和1的數量,並計算預期的0和1的數量。為了計算後者,我們找到每組中預測概率的均值,並將其乘以組大小,這裡是10:

meanprobs <- array(0, dim=c(10,2))expevents <- array(0, dim=c(10,2))obsevents <- array(0, dim=c(10,2))for (i in 1:10) { meanprobs[i,1] <- mean(pihat[pihatcat==i]) obsevents[i,2] <- sum(1-y[pihatcat==i])}

最後,我們可以通過表格的10x2單元格中的(觀察到的預期)^ 2 /預期的總和來計算Hosmer-Lemeshow檢驗統計量:

[1] 7.486643

與hoslem.test函數的測試統計值一致。

改變組的數量
接下來,讓我們看看測試的p值如何變化,因為我們選擇g = 5,g = 6,直到g = 15。我們可以通過一個簡單的for循環來完成:

for(i in 5:15){ print(hoslem.test(mod $ y,fits(mod),g = i)$ p.value)}

[1] 0.4683388[1] 0.9216374[1] 0.996425[1] 0.9018581[1] 0.933084[1] 0.4851488[1] 0.9374381[1] 0.9717069[1] 0.5115724[1] 0.4085544[1] 0.8686347

雖然p值有所改變,但它們都顯然不重要,所以他們給出了類似的結論,沒有證據表明不合適。因此,對於此數據集,選擇不同的g值似乎不會影響實質性結論。

通過模擬檢查Hosmer-Lemeshow測試


要完成,讓我們進行一些模擬,以檢查Hosmer-Lemeshow測試在重複樣本中的表現。首先,我們將從先前使用的相同模型重複採樣,擬合相同(正確)模型,並使用g = 10計算Hosmer-Lemeshow p值。我們將這樣做1000次,並將測試p值存儲在一個數組中:

pvalues < - array(0,1000)for(i in 1:1000){ n < - 100 x < - rnorm(n) pr < - exp(xb)/(1 + exp(xb)) mod < - glm(y~x,family = binomial) }

完成後,我們可以計算出p值小於0.05的比例。由於此處正確指定了模型,因此我們希望這種所謂的類型1錯誤率不大於5%:

[1] 0.04

因此,在1,000次模擬中,Hosmer-Lemeshow測試在4%的情況下給出了顯著的p值,表明不合適。所以測試錯誤地表明在我們預期的5%限制內不合適 - 它似乎工作正常。

現在讓我們改變模擬,以便我們適合的模型被錯誤地指定,並且應該很難適應數據。希望我們會發現Hosmer-Lemeshow測試在5%的時間內正確地找到了不合適的證據。具體來說,我們現在將生成跟隨具有協變量的邏輯模型,但我們將繼續使用線性協變量擬合模型,以便我們的擬合模型被錯誤地指定。 

 

我們發現,計算p值小於0.05的比例

[1] 0.648

因此,Hosmer-Lemeshow測試為我們提供了65%的不合適的重要證據。

 


最受歡迎的見解

1.R語言多元Logistic邏輯回歸 應用案例

2.面板平滑轉移回歸(PSTR)分析案例實現

3.matlab中的偏最小二乘回歸(PLSR)和主成分回歸(PCR)

4.R語言泊松Poisson回歸模型分析案例

5.R語言回歸中的Hosmer-Lemeshow擬合優度檢驗

6.r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現

7.在R語言中實現Logistic邏輯回歸

8.python用線性回歸預測股票價格

9.R語言如何在生存分析與Cox回歸中計算IDI,NRI指標

相關焦點

  • 回歸模型擬合優度檢驗 - CSDN
    在這篇文章中,我們將看一下 Hosmer-Lemeshow邏輯回歸的擬合優度檢驗。 Hosmer-Lemeshow擬合優度檢驗Hosmer-Lemeshow擬合優度檢驗是基於根據預測的概率或風險將樣本分開。具體而言,基於估計的參數值,對於樣本中的每個觀察,基於每個觀察的協變量值計算概率。
  • logistic回歸Hosmer-Lemeshow擬合優度檢驗
    在建立預測模型的時候通常會報告一個擬合優度檢驗的結果(FrankHarrell指出這個指標存在一些缺點),今天結合
  • 回歸方程的擬合優度檢驗 - CSDN
    分類數據的擬合優度檢驗卡方檢驗主要是測試樣本分類數據的分布是否符合預期分布。使用以下公式計算檢驗統計量的值:樣本觀察值理論值理論值observed = minnesota_tablenational_ratios = national_table/len(national)  # 實際值expected = national_ratios * len(minnesota)   # 理論值chi_squared_stat
  • 擬合優度專題及常見問題 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • 擬合優度 - CSDN
    01 擬合優度是什麼? 下面言歸正傳,敲黑板、劃重點了啊!所謂「擬合優度」,是回歸分析中用來檢驗樣本數據點聚集在回歸線周圍的密集程度,用於評價回歸方程對樣本觀測值的擬合程度。02 擬合優度是怎麼來的?
  • 線性回歸的擬合優度檢驗 - CSDN
    這期小統帶大家繼續學習修正檢驗--異方差(2)。能夠看出,經過異方差修正後,該模型的擬合優度為0.7169,修正後的擬合優度為0.7046,相較於異方差前修正後的擬合優度0.2092來看,提升較高;並且其F統計值為58.2521,相較之前也有較大的提升。
  • r語言 用pearson擬合優度_r語言pearson 擬合優度 - CSDN
    三、其它重要的非參數檢驗法  3.1.理論分布完全已知的情況下     3.1.1.皮爾森擬合優度檢驗據此假設                  H0:喜好5種啤酒的人數分布均勻     可以使用Pearson χ2擬合優度檢驗,R語言中調用chisq.test(X)     chisq.test(x, y = NULL, correct = TRUE,
  • 卡方檢驗多種用途總結
    卡方優度檢驗卡方優度檢驗,是對一列數據進行統計檢驗,分析單個分類變量實際觀測的比例與期望比例是否一致。案例:當前收集了100份數據用於研究,其中有48名男性,52位女性。操作步驟:(1)卡方擬合優度檢驗支持兩種數據格式:整理後的加權數據 或 原始數據。處理好數據後,上傳數據到SPSSAU,開始分析。(2)選擇【實驗/醫學研究】→【卡方優度檢驗】。
  • 別錯過,卡方檢驗實用總結!
    除此之外,卡方檢驗(準確說是卡方擬合優度檢驗)還可以檢驗定類數據的分布特徵是否與預期保持一致。比如本來預計男性和女性的比例各佔一半(50%),但收集回來的數據卻是45%和55%,那麼收集回來的數據是否就明顯的偏差預期(50%)呢?此時也可以使用卡方檢驗。
  • 回歸分析檢驗_回歸分析中f檢驗和t檢驗 - CSDN
    皮爾森卡方檢驗:擬合優度檢驗&ThickSpace;\;不同的卡方檢驗使用不同的計算公式計算統計量,卡方檢驗都假設其使用的統計量服從卡方分布。對分類數據進行分析的統計方法主要是利用卡方分布,也被稱作卡方檢驗。
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。2.F檢驗F檢驗是對整體回歸方程顯著性的檢驗,即所有變量對被解釋變量的顯著性檢驗
  • r語言 t檢驗 假設 - CSDN
    假設檢驗 -T檢驗 -F檢驗 -卡方檢驗 -正太性檢驗T檢驗2兩樣本的T檢驗 -有原始數據的獨立兩樣本T檢測 -有原始數據的配對T檢測 實例如下: Wage 數據中大學學歷的收入和中學一樣嗎
  • adf檢驗r語言分析_r語言adf檢驗 - CSDN
    協整檢驗是為了檢驗非平穩序列的因果關係,協整檢驗是解決偽回歸為問題的重要方法。首先回歸偽回歸例子:偽回歸Spurious regression 偽回歸方程的擬合優度、顯著性水平等指標都很好,但是其殘差序列是一個非平穩序列,擬合一個偽回歸:
  • r 平穩性檢驗 語言_r語言平穩性檢驗方法 - CSDN
    協整檢驗是為了檢驗非平穩序列的因果關係,協整檢驗是解決偽回歸為問題的重要方法。首先回歸偽回歸例子:偽回歸Spurious regression 偽回歸方程的擬合優度、顯著性水平等指標都很好,但是其殘差序列是一個非平穩序列,擬合一個偽回歸:
  • 回歸方程的顯著性檢驗 - CSDN
    為殘差均方,                (13)r的絕對值小於等於1:|r| ≤ 1  根據相關係數的檢驗表,通常當|r| 大於表中α=0.05相應的值時,  缺點:接近於1的程度與數據組數 n 有關(n 較小時,相關係數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關係)  另外補充一點,Pearson相關係數的適用範圍:  ① 兩個變量之間是線性關係
  • 管理心理學之統計(23)擬合度卡方檢驗
    什麼是卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的範疇。其根本思想在於使用樣本頻數與比例來檢驗關於相應總體值的假設。當實驗數據不是等距或等比數據時,實驗不符合參數檢驗的要求,實驗者可以使用擬合度卡方檢驗與獨立性卡方檢驗這兩種方法作為替代,使用樣本數據來評估關於總體內部的比例或關係。這兩種卡方檢驗和多數非參數檢驗一樣,沒有陳述關於特定參數的假設,也很少對總體分布做出假設,因此非參數檢驗有時被稱為任意分布檢驗。
  • 卡方檢驗相關性專題及常見問題 - CSDN
    相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值,r描述的是兩個變量間線性相關強弱的程度,r的絕對值越大表明相關性越強,係數的正負號代表正相關還是負相關。如果是0,代表沒有相關。數值越接近1,相關性越強。
  • 回歸係數顯著性t檢驗 - CSDN
    為殘差均方,                (13)r的絕對值小於等於1:|r| ≤ 1  根據相關係數的檢驗表,通常當|r| 大於表中α=0.05相應的值時,  缺點:接近於1的程度與數據組數 n 有關(n 較小時,相關係數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關係)  另外補充一點,Pearson相關係數的適用範圍:  ① 兩個變量之間是線性關係
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    其定義是若干個隨機變量的平方和也服從一種分布,即卡方分布。(3)t分布(3)F分布三大分布的用途:卡方分布:常用於擬合優度檢驗t分布:       多用於比例的估計和檢驗,用於方差分析,協方差分布和回歸分析t分布:       在信息不足的情況下,只能用t分布,比如在整體方差不知道的情況下,對總體均值的估計和檢驗常用
  • t檢驗回歸方程專題及常見問題 - CSDN
    為殘差均方,                (13)r的絕對值小於等於1:|r| ≤ 1  根據相關係數的檢驗表,通常當|r| 大於表中α=0.05相應的值時,  缺點:接近於1的程度與數據組數 n 有關(n 較小時,相關係數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關係)  另外補充一點,Pearson相關係數的適用範圍:  ① 兩個變量之間是線性關係