Probit回歸即概率單元(Probability Unite)回歸,用於因變量為分類資料的的統計分析(SPSS目前版本尚不能處理因變量為無序多分類和有序多分類的資料,只能處理因變量為二分類的資料),研究的是隨著解釋變量的變化,結局變量出現陽性結果的概率變化情況。概率單元回歸時,最有用的就是半數發生量,比如半數致死量(LD50)、半抑制濃度(IC50)、半數有效濃度(EC50)等劑量濃度的計算,實際上就是考察不同劑量濃度與反應關係的指標的計算。
下面對Probit模型的介紹只為了更好的理解「概率單元」,只對SPSS操作與解讀感興趣可直接越過進入示例部分。
同樣的,Probit變換與Probit回歸模型如下:
Φ(x) :標準正態分布的概率分布函數。概率分布函數即累積概率函數,也常被稱為累積分布函數(CDF,Cumulative Distribution Function),可用於計算隨機變量小於或等於x的概率,是已知橫軸(某一事件)求縱軸(概率)的過程。將概率密度函數在定義域上進行積分就可以獲得;
∅(z):標準正態分布的概率密度函數。概率密度函數(PDF,probability density function)就是概率的密度,反應的是概率在x點處的「密集程度」,可以表示隨機變量每個取值有多大的可能性。對概率累積函數求導可獲得;
Φ-1(.)是Φ(.)的反函數,即Probit函數,也稱百分點函數(PPF,Percent Point Function)、逆累積分布函數(ICDF)。給定概率p求相應累積分布的隨機變量x,是已知縱軸(概率)求橫軸(某一事件)的過程。有的教程將Φ-1(.)說成是概率密度函數:「Φ-1(.)是標準正態分布累積分布函數Φ(.)的反函數,即概率密度函數」,個人以為這是不恰當的,可能是本人數學不好,沒能從數學上理解Φ-1(.)與Φ(.)的真意。
搞清楚概率密度與累積分布這兩個概念對理解Probit非常重要,概率密度與累積分布類似於物理學上的速率和位移的關係。關於概率密度函數與累積分布函數的數學介紹,可參見CSDN社區「求津問道」的文章:正態分布概率密度函數PDF(連結:https://blog.csdn.net/sinat_34546420/article/details/78757111?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~first_rank_v2~rank_v25-9-78757111.nonecase&utm_term=%E6%AD%A3%E6%80%81%E7%B4%AF%E7%A7%AF%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E7%9A%84%E5%8F%8D%E5%87%BD%E6%95%B0&spm=1000.2123.3001.4430)
概率密度函數(綠色線代表標準正態分布)及其對應的累積(概率)分布函數圖如下。注意Probit曲線跟logistic曲線非常類似哦,都是在p=0.5處有拐點。概率密度函數(PDF)、累積分布函數(CDF)與百分點函數(PPF)圖如下:https://www.itl.nist.gov/div898/handbook/eda/section3/eda362.htm
這樣以來,βiXi(即β0+β1x1+β2x2+…βnxn)其意義就是Probit函數值。這個Probit就是Probability Unit的簡稱,翻譯為「概率單元」,意為概率p所對應的單元【註:Φ-1(.)函數是從均值為0標準差為1的標準正態分布的累積函數圖像上讀取與概率p相對應的橫坐標的值,統計學家布利斯(此人提出了Probit模型的最大似然估計法)把這個橫坐標的值命名為「概率單元」,https://zhuanlan.zhihu.com/p/150915107】。各自變量的偏回歸係數βi意義為:其他自變量取值保持不變時,自變量每改變一個單位,出現陽性結果的概率單元的改變量。β0代表Xi全部取值為0時的概率單元值。如果只有一個自變量X,取值為0和1分別代表對照組和試驗組,β0代表就是對照組的概率單元值,β1代表就是試驗組與對照組的概率單元值的差值,這不難理解。
但「概率單元」這樣一個名詞實在是有些抽象,解釋性不像logistic回歸中的exp(βi)(即OR值)那樣直觀。對比上圖的累積(概率)分布函數圖,概率單元(x)增加時,對應概率(p)也是增加的,因此如果偏回歸係數βi為正,可解釋為扣除其他因素的影響,該因素會使出現陽性結果的概率增加;如果為負值,則表示該因素會使出現陽性結果的概率減少。當然我們也可以將Probit回歸中的β值轉算成logistic回歸中的OR值。
示例:SPSS統計分析高級教程(第2版)/張文彤,董偉主編.北京:高等教育出版社,2013.3.Hosmer和Lemeshow於1989年研究了低出生體重嬰兒的影響因素,結局變量為是否分娩低出生體重兒(變量名low,0:低出生體重,即嬰兒出生體重<2500克;1:正常)。考慮的影響(自變量)有:產婦妊娠前體重(lwt,磅)、產婦年齡(age,歲)、產婦在妊娠期間是否吸菸(smoke,0=未吸、1=吸菸)、本次妊娠前早產次數(ptl,次)、是否患有高血壓(ht,0=否、1=是)、子宮對按摩、催產素等刺激引起收縮的應激性(ui,0=無、1=有)、妊娠前三個月社區醫生隨訪次數(ftv,次)、種族(race,1=白人、2=黑人、3=其他民族)。
為方便解讀,我們只考察單因素[是否吸菸]對新生兒出生體重的影響。數據處理:SPSS中Probit回歸默認對話框的數據格式是頻數表資料,分析時需要首先進行頻數加權。本例每條記錄對應一個觀察對象,並非數據過的頻數表格式,需要在表格中增加一個表示頻數的變量fre,每個記錄的頻數為1即可。Transform>>Compute Variable:
Target Variable: fre;
Numeric Expression: 1
Probit分析:Analyze>>Regression>>Probit…
| 默認的模型是Probit,也可以採用Logit模型。採用Logit模型採用logistic回歸是一致的。
| 響應變量:選入變量low。因變量賦值須為0和1,SPSS默認取值=1為陽性結果;
| 總觀測值:選入新生成的變量fre;
| 協變量:選入變量smoke。進行Probit分析,不論選擇Probit模型還是Logit模型,至少一個變量作為協變量納入(協變量框不能空)。連續變量和二分類變量可直接作為協變量納入,多分類變量需視情況而定。[數據變換]可實現對協變量進行lg或者ln變化,本例不做變換;
| OK
【1】數據信息:共有189條記錄納入分析,其中115條出現陰性結果(正常體重)。
【2】收斂信息:模型經過9次迭代即收斂。默認最大迭代次數為20,可在Probit分析框中對的[選項]按鈕對話框中修改。
【3】模型參數估計
模型表達式如下:
模型截距=-0.668,表示smoke=0即不吸菸組(對照組,基線狀態)的概率單元值,β1=0.428表示smoke=1(吸菸組)與smoke=0(不吸菸組)的概率單元值差值,相比不吸菸組,吸菸組的概率單元值增加(β1=0.428>0),即孕母孕期吸菸會增加出生低出生體重的兒童概率,結果具有統計學意義(P=0.028<0.05)。
你可能覺得「孕母孕期吸菸會增加出生低出生體重的兒童概率」這種描述過於模糊,想進一步知道吸菸和不吸菸出生低體重兒童的概率是多大,或者能像logistic回歸中的OR那樣的解釋,這個需要你對Probit的結果做進一步的求解。
SPSS中CDF&Nocentral CDF函數系列中的Cdfnorm(z)或者Cdf.Normal(z,mean,stddev)可求得概率單元下的P值,可在Transform>>Compute Variable…中實現。Excel中的NORM.S.DIST(z,cumulative)可快速求解。該函數返回標準正態分布函數值(該分布的平均值為 0,標準偏差為 1)。Z是需要計算其分布的數值;Cumulative 是決定函數形式的邏輯值, 如果 cumulative 為 TRUE,則 NORMS.DIST 返回累積分布函數值;如果為 FALSE,則返回概率密度函數值。結果如下:
不吸菸組:P=Φ(-0.668) =0.2521
【EXCEL計算公式:NORM.S.DIST(-0.668,TRUE)】
吸菸組:P=Φ(-0.668+0.428) =0.4052
【EXCEL計算公式:NORM.S.DIST(-0.24,TRUE)】
OR值:OR=[0.2521/(1-0.2521)]/[0.4052/(1-0.4052)]=2.02單因素分析時使用卡方分析也可以直接求解各組低體重嬰兒出生概率及OR值:Analyze>>Descriptive Statistics>>Crosstabs…
Row(s): smoke;
Column(s): low
[Statistic…]:選中Chi-square、Risk複選框
Continue,OK
結果如下,與Probit的結果是完全一致的:
採用二分類的logistic回歸分析(Analyze>>Regression>>Binary Logistic…)的結果與Probit的結果也是一致的,本例採用二分類的logistic回歸結果如下:logistic回歸模型的截距β0=-1.087,其代表的是自變量取值為0(即不吸菸組)時比數(Y=1與Y=0的概率之比)的自然對數:-1.087=ln[(29/115)/(86/115)]=ln(29/86),是不吸菸組的低體重兒概率與正常體重兒概率之比的自然對數,exp(β0)就是不吸菸組的概率比值;β1=0.704,優勢比OR=exp(β1)=2.022,自變量每改變一個單位(即從不吸菸改為吸菸時),吸菸組出現低體重兒的概率與不出現低體重兒的概率的比值是變化前相應比值的2.022倍。
Logistic模型強調的是隨著解釋變量的變化,結局變量的陽性結果是發生還是不發生,而Probit回歸則傾向於研究解釋變量陽性結果發生概率的變化情況。【4】模型擬合優度檢驗:P=0.445>0.05,表明模型對數據擬合良好。
【5】單元格計數與殘差:輸出第一個協變量不同取值水平的一些信息。【6】置信限度:可獲得半數發生量,即概率為0.5時的概率單元的估計值。… E N D …