因變量二分類資料的Probit回歸

2021-02-08 一統漿糊

Probit回歸即概率單元(Probability Unite)回歸,用於因變量為分類資料的的統計分析(SPSS目前版本尚不能處理因變量為無序多分類和有序多分類的資料,只能處理因變量為二分類的資料),研究的是隨著解釋變量的變化,結局變量出現陽性結果的概率變化情況。概率單元回歸時,最有用的就是半數發生量,比如半數致死量(LD50)、半抑制濃度(IC50)、半數有效濃度(EC50)等劑量濃度的計算,實際上就是考察不同劑量濃度與反應關係的指標的計算。

下面對Probit模型的介紹只為了更好的理解「概率單元」,只對SPSS操作與解讀感興趣可直接越過進入示例部分。

從廣義上來看,Probit回歸也屬於線性回歸的範疇,屬於廣義線性回歸。同logistic回歸類似,Probit回歸也是擬合0-1型因變量的回歸方法,把取值分布在實數範圍的變量通過累積概率函數轉換成分布在(0,1)區間的概率值。Probit回歸的連結函數可以使用logit累積概率函數,也可以採用標準正態分布的累積概率函數的反函數Φ-1,即Probit函數。我們首先回歸一下logit變換與logistic回歸模型:

同樣的,Probit變換與Probit回歸模型如下:

Φ(x) :標準正態分布的概率分布函數。概率分布函數即累積概率函數,也常被稱為累積分布函數(CDF,Cumulative Distribution Function),可用於計算隨機變量小於或等於x的概率,是已知橫軸(某一事件)求縱軸(概率)的過程。將概率密度函數在定義域上進行積分就可以獲得;

∅(z):標準正態分布的概率密度函數。概率密度函數(PDF,probability density function)就是概率的密度,反應的是概率在x點處的「密集程度」,可以表示隨機變量每個取值有多大的可能性。對概率累積函數求導可獲得;

Φ-1(.)是Φ(.)的反函數,即Probit函數,也稱百分點函數(PPF,Percent Point Function)、逆累積分布函數(ICDF)。給定概率p求相應累積分布的隨機變量x,是已知縱軸(概率)求橫軸(某一事件)的過程。有的教程將Φ-1(.)說成是概率密度函數:「Φ-1(.)是標準正態分布累積分布函數Φ(.)的反函數,即概率密度函數」,個人以為這是不恰當的,可能是本人數學不好,沒能從數學上理解Φ-1(.)Φ(.)的真意。

搞清楚概率密度與累積分布這兩個概念對理解Probit非常重要,概率密度與累積分布類似於物理學上的速率和位移的關係。關於概率密度函數與累積分布函數的數學介紹,可參見CSDN社區「求津問道」的文章:正態分布概率密度函數PDF(連結:https://blog.csdn.net/sinat_34546420/article/details/78757111?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~first_rank_v2~rank_v25-9-78757111.nonecase&utm_term=%E6%AD%A3%E6%80%81%E7%B4%AF%E7%A7%AF%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E7%9A%84%E5%8F%8D%E5%87%BD%E6%95%B0&spm=1000.2123.3001.4430)

概率密度函數(綠色線代表標準正態分布)及其對應的累積(概率)分布函數圖如下。注意Probit曲線跟logistic曲線非常類似哦,都是在p=0.5處有拐點。

概率密度函數(PDF)、累積分布函數(CDF)與百分點函數(PPF)圖如下:

https://www.itl.nist.gov/div898/handbook/eda/section3/eda362.htm

這樣以來,βiXi(即β01x12x2+…βnxn)其意義就是Probit函數值。這個Probit就是Probability Unit的簡稱,翻譯為「概率單元」,意為概率p所對應的單元【註:Φ-1(.)函數是從均值為0標準差為1的標準正態分布的累積函數圖像上讀取與概率p相對應的橫坐標的值,統計學家布利斯(此人提出了Probit模型的最大似然估計法)把這個橫坐標的值命名為「概率單元」,https://zhuanlan.zhihu.com/p/150915107】。各自變量的偏回歸係數βi意義為:其他自變量取值保持不變時,自變量每改變一個單位,出現陽性結果的概率單元的改變量β0代表Xi全部取值為0時的概率單元值。如果只有一個自變量X,取值為0和1分別代表對照組和試驗組,β0代表就是對照組的概率單元值,β1代表就是試驗組與對照組的概率單元值的差值,這不難理解。

但「概率單元」這樣一個名詞實在是有些抽象,解釋性不像logistic回歸中的exp(βi)(即OR值)那樣直觀。對比上圖的累積(概率)分布函數圖,概率單元(x)增加時,對應概率(p)也是增加的,因此如果偏回歸係數βi為正,可解釋為扣除其他因素的影響,該因素會使出現陽性結果的概率增加;如果為負值,則表示該因素會使出現陽性結果的概率減少。當然我們也可以將Probit回歸中的β值轉算成logistic回歸中的OR值。

示例:SPSS統計分析高級教程(第2版)/張文彤,董偉主編.北京:高等教育出版社,2013.3.

Hosmer和Lemeshow於1989年研究了低出生體重嬰兒的影響因素,結局變量為是否分娩低出生體重兒(變量名low,0:低出生體重,即嬰兒出生體重<2500克;1:正常)。考慮的影響(自變量)有:產婦妊娠前體重(lwt,磅)、產婦年齡(age,歲)、產婦在妊娠期間是否吸菸(smoke,0=未吸、1=吸菸)、本次妊娠前早產次數(ptl,次)、是否患有高血壓(ht,0=否、1=是)、子宮對按摩、催產素等刺激引起收縮的應激性(ui,0=無、1=有)、妊娠前三個月社區醫生隨訪次數(ftv,次)、種族(race,1=白人、2=黑人、3=其他民族)。

為方便解讀,我們只考察單因素[是否吸菸]對新生兒出生體重的影響。數據處理:SPSS中Probit回歸默認對話框的數據格式是頻數表資料,分析時需要首先進行頻數加權。本例每條記錄對應一個觀察對象,並非數據過的頻數表格式,需要在表格中增加一個表示頻數的變量fre,每個記錄的頻數為1即可。

Transform>>Compute Variable:

Target Variable: fre;

Numeric Expression: 1

Probit分析:Analyze>>Regression>>Probit…

| 默認的模型是Probit,也可以採用Logit模型。採用Logit模型採用logistic回歸是一致的。

| 響應變量:選入變量low。因變量賦值須為0和1,SPSS默認取值=1為陽性結果;

| 總觀測值:選入新生成的變量fre;

| 協變量:選入變量smoke。進行Probit分析,不論選擇Probit模型還是Logit模型,至少一個變量作為協變量納入(協變量框不能空)。連續變量和二分類變量可直接作為協變量納入,多分類變量需視情況而定。[數據變換]可實現對協變量進行lg或者ln變化,本例不做變換;

| OK

【1】數據信息:共有189條記錄納入分析,其中115條出現陰性結果(正常體重)。

 

【2】收斂信息:模型經過9次迭代即收斂。默認最大迭代次數為20,可在Probit分析框中對的[選項]按鈕對話框中修改。

 

【3】模型參數估計

模型表達式如下:

模型截距=-0.668,表示smoke=0即不吸菸組(對照組,基線狀態)的概率單元值,β1=0.428表示smoke=1(吸菸組)與smoke=0(不吸菸組)的概率單元值差值,相比不吸菸組,吸菸組的概率單元值增加(β1=0.428>0),即孕母孕期吸菸會增加出生低出生體重的兒童概率,結果具有統計學意義(P=0.028<0.05)。

你可能覺得「孕母孕期吸菸會增加出生低出生體重的兒童概率」這種描述過於模糊,想進一步知道吸菸和不吸菸出生低體重兒童的概率是多大,或者能像logistic回歸中的OR那樣的解釋,這個需要你對Probit的結果做進一步的求解。

SPSS中CDF&Nocentral CDF函數系列中的Cdfnorm(z)或者Cdf.Normal(z,mean,stddev)可求得概率單元下的P值,可在Transform>>Compute Variable…中實現。Excel中的NORM.S.DIST(z,cumulative)可快速求解。該函數返回標準正態分布函數值(該分布的平均值為 0,標準偏差為 1)。Z是需要計算其分布的數值;Cumulative 是決定函數形式的邏輯值, 如果 cumulative 為 TRUE,則 NORMS.DIST 返回累積分布函數值;如果為 FALSE,則返回概率密度函數值。

結果如下:

不吸菸組:P=Φ(-0.668) =0.2521

【EXCEL計算公式:NORM.S.DIST(-0.668,TRUE)】

吸菸組:P=Φ(-0.668+0.428) =0.4052

【EXCEL計算公式:NORM.S.DIST(-0.24,TRUE)】

OR值:OR=[0.2521/(1-0.2521)]/[0.4052/(1-0.4052)]=2.02單因素分析時使用卡方分析也可以直接求解各組低體重嬰兒出生概率及OR值:

Analyze>>Descriptive Statistics>>Crosstabs…

Row(s): smoke;

Column(s): low

[Statistic…]:選中Chi-square、Risk複選框

Continue,OK

結果如下,與Probit的結果是完全一致的:

採用二分類的logistic回歸分析(Analyze>>Regression>>Binary Logistic…)的結果與Probit的結果也是一致的,本例採用二分類的logistic回歸結果如下:

logistic回歸模型的截距β0=-1.087,其代表的是自變量取值為0(即不吸菸組)時比數(Y=1與Y=0的概率之比)的自然對數:-1.087=ln[(29/115)/(86/115)]=ln(29/86),是不吸菸組的低體重兒概率與正常體重兒概率之比的自然對數,exp(β0)就是不吸菸組的概率比值;β1=0.704,優勢比OR=exp(β1)=2.022,自變量每改變一個單位(即從不吸菸改為吸菸時),吸菸組出現低體重兒的概率與不出現低體重兒的概率的比值是變化前相應比值的2.022倍。

Logistic模型強調的是隨著解釋變量的變化,結局變量的陽性結果是發生還是不發生,而Probit回歸則傾向於研究解釋變量陽性結果發生概率的變化情況。

【4】模型擬合優度檢驗:P=0.445>0.05,表明模型對數據擬合良好。

【5】單元格計數與殘差:輸出第一個協變量不同取值水平的一些信息。【6】置信限度:可獲得半數發生量,即概率為0.5時的概率單元的估計值。

 … E N D …


相關焦點

  • 基礎方法 | Logit回歸和Probit回歸有區別嗎?
    因變量的類型決定了回歸模型的使用! 1、使用場景的一致性都是針對二分類變量,也都發展出序次logit/probit回歸和多分類logit/probit回歸,並且在Stata中,命令長的也基本一樣。針對二分類變量:logit y xprobit y x針對定序變量:ologit y xoprobit y x針對多分類變量:mlogit y xmprobit y x2、本質上的一致性
  • Stata:因變量是類別變量時採用什麼方法估計?
    連享會-文本分析與爬蟲專題班,西北工業大學,2020.3.26-29 問題背景多數情況下,我們的被解釋變量都是連續變量,但也有些情況下,我們會對分類變量感興趣,比如,出門時選擇何種交通工具?大學畢業時是否繼續讀研?
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    一、重要概念一)基本表達式 當因變量為分類變量時,最常用且首先考慮的回歸分析方法應為logistics回歸,也稱為logit回歸,因logistic回歸模型表達式為,由表達式可知logit P與變量間存在線性關係,P/(1-P)稱為發生比(odds)即觀測事件發生的概率與未發生的概率的比值。
  • 回歸分析的基礎概念1:什麼是變量、自變量、因變量和「啞變量」
    大家好,我是許栩,歡迎來到我的專欄《從入門到高手-線性回歸分析詳解》,這是專欄的第一篇文章,介紹幾個回歸分析的基礎概念:變量、自變量、因變量和「啞變量」。常用的定量預測方法包括時間序列預測法與回歸分析預測法。
  • 相關和回歸—分類變量關聯性分析
    對於交叉表分類計數所得列聯表資料相關性分析,一般先做兩種屬性獨立性檢驗,然後選擇合適方法計算關聯繫數。目錄分類變量關聯性係數計算SPSS交叉表資料關聯繫數交叉分類2×2表的關聯性分析2×2配對資料的關聯性分析R×C表分類資料的關聯性分析
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    2016年12月23日,公眾號推送了「SPSS實例教程:二分類Logistic回歸」:在一項成組設計的病例對照研究中,探討調整其他變量(性別、年齡、BMI、COPD病史)後,吸菸與肺癌發生之間的關係。
  • [PRML]線性分類模型--概率判別模型
    對於二分類問題,我們已經看到,對於類條件分布3 邏輯回歸從考慮二分類問題開始處理廣義線性模型。在統計學術語中,這種模型稱為邏輯回歸,但應強調這是一種分類模型,而不是回歸模型。對於logistic回歸,由於logistic sigmoid函數的非線性,不再有一個封閉形式的解。但對二次型的背離並不明顯。準確地說,誤差函數是凹的,因此有唯一的最小值。此外,利用對對數似然函數局部二次逼近的Newton-Raphson迭代優化方案,可以有效地最小化誤差函數。
  • 互助問答第68期:分組檢驗和邊際效應問題、ivprobit交乘項設計
    (1)在分組回歸中,其實每個變量都有各自的係數,比如在OLS回歸中可以根據係數影響大小(若係數表示的是邊際效應)。那為什麼又需要進行假設檢驗?這裡可以這樣想,這個結果僅僅是根據一組樣本做出來的,是否會因為隨機誤差而引起的這個差異呢?所以不能僅根據這一組樣本數據就得出結果,需要進行更為嚴謹的檢驗,即這裡的假設檢驗。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • 回歸模型中引入連續變量,還有哪些玩法?
    中,我們向大家介紹了在回歸模型中引入連續型變量時,除了以其原始變量的形式納入到模型中外,有時還需要考慮到實際的分析需求,將其按照一定的分組切點轉換為啞變量,例如二分類分組、等分位分組、等距分組、臨床界值分組,或者按照自己的「Free Style」進行分組等多種轉換形式。
  • 邏輯回歸的常見問題
    作者:陶立元 趙一鳴 來源:臨床流行病學和循證醫學邏輯回歸是分類資料統計分析的一種重要方法,是一種研究多水平(包括兩水平)的反應變量與其影響因子(又稱自變量)間關係的回歸分析。這裡簡單解釋一下幾個概念:1、分類資料是指所得數據是分類的,不完全連續的;可分為有序分類和無序分類,有序分類如疾病的預後(未改善、改善和痊癒),無序分類如研究對象的職業(工人、農民、知識分子等)。2、反應變量就是我們常說的因變量,顧名思義就是因別人的變化而變化的量,比如研究某病預後的影響因素,這裡的預後就是因變量。
  • SPSS分析技術:Probit回歸模型分析;是藥三分毒,你是否關注過藥品說明書裡的半致死劑量(LD50)?
    基礎準備前段時間我們介紹的都是邏輯回歸方面的內容,根據分類型因變量的類別數不同,邏輯回歸模型可以分為二元邏輯回歸模型、有序多元邏輯回歸模型和無序多元邏輯回歸模型
  • 什麼是回歸?什麼是回歸分析?回歸分析預測的分類方法有哪些?
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》,本篇是專欄的第三篇文章,回歸分析的歷史、概念和分類。本專欄第一章和第二章,我分別講解了學習回歸分析之前必須了解的兩個基礎概念:變量和相關性。
  • 邏輯(Logistic)回歸分析-補充
    在本微信公眾號中已經有邏輯回歸的SPSS操作介紹了,詳見第33期,(加入微信公眾號"bysyrcce",回復"33"可查看)這裡我僅對其作一補充。邏輯回歸是分類資料統計分析的一種重要方法,是一種研究多水平(包括兩水平)的反應變量與其影響因子(又稱自變量)間關係的回歸分析。
  • 多分類邏輯回歸(Multinomial Logistic Regression)
    前言分類從結果的數量上可以簡單的劃分為:其中二分類是最常見且使用最多的分類場景,解決二分類的算法有很多,比如:多分類中比如:改進版的KNN、改進版的貝葉斯、改進版的SVM等多類別的邏輯回歸囉嗦了這麼多,其實就是為了說這個多分類的邏輯回歸。
  • 一文掌握多分類logistic回歸
    1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,
  • 二分類變量STATA-meta指令與操作
    2、meta選項設置,具體見下圖(本節數據二分類變量)6、亞組分析(以本節數據變量「subgroup1」為例,在圖2相應標籤處選subgroup1)以下為亞組1和亞組2的統計結果和森林圖二、指令式操作(在Command框輸入即可,注意空格和逗號不能有誤)metan case·event case·non·event control·event control·non·event, label(namevar=study
  • 利用廣義線性模型實現的分類——Logistic回歸
    ——嶺回歸與LASSO回歸》講的是利用廣義線性模型實現的線性回歸以及它的正則化——嶺回歸和LASSO回歸,它們解決的都是對連續數值進行預測的回歸問題,其實我們還可以利用回歸的思想來解決分類問題,這就是我們今天要介紹的Logistic回歸。
  • 統計學中離散變量與連續變量 - CSDN
    回歸分析是根據相關關係的具體形態,選擇一個合適的數學模型,來近似表達變量間的平均變化關係。回歸分析可是看做是相關關係的具體實現。1. 相關性客觀現象的相關關係有不同得分類標準,兩個變量之間的關係可以用散點圖來表示,進而可以對兩個變量之間的關係作出判斷。(1)相關的類型: 正相關:兩個變量同時增加(或減小)。
  • Logistic(邏輯)回歸分析及癌症分類預測案例
    Logistic(邏輯)回歸分析一、邏輯回歸數學背景1、邏輯回歸(Logistic回歸)分析概要如果現在想對某件事情發生的概率進行預估,比如一個非醫用口罩,在疫情期間是否有人願意買?這裡的Y變量是「是否願意購買」,屬於分類數據,所以不能使用回歸分析。如果Y為類別性(定性)數據,研究影響關係,正確做法是選擇Logistic回歸分析。