因變量的類型決定了回歸模型的使用!
常見的針對分類變量的回歸模型其實主要有三類:
第一類,Logit回歸(包括:二分類、多分類和序次Logit回歸);
第二類,Probit回歸;
第三類,泊松回歸(又稱為普哇松回歸)。泊松回歸不是很常用,因為他要求的變量類型是離散變量,典型的離散變量就是孩子個數,從0~10,是很分散的,又不符合正態分布,服從泊松分布。
所以,有辨析價值的是Logit回歸和Probit回歸,可能大家看文章時候看的最多的是使用Logit回歸,較少有文章使用Probit回歸,但是Probit總會縈繞在我們的數據分析之中,例如做傾向值匹配,如果你不要求用Logit模型就會自動使用Probit,那麼Probit和Logit回歸之間又有什麼區別和聯繫呢?
答案是二者沒有什麼太大的區別,可能區別就是在數學原理上的不同而已,在使用場景上基本一致,而且數學原理本質上也是一致的,回歸係數上略有差異。
1、使用場景的一致性
都是針對二分類變量,也都發展出序次logit/probit回歸和多分類logit/probit回歸,並且在Stata中,命令長的也基本一樣。
針對二分類變量:
logit y x
probit y x
針對定序變量:
ologit y x
oprobit y x
針對多分類變量:
mlogit y x
mprobit y x
2、本質上的一致性
Logit回歸和Probit回歸本質上都是對二分類變量進行轉換,而且轉換的關鍵都是針對事件發生的概率p。其中Logit模型是進行對數轉換。關於Logit回歸的詳細信息可以參考本公眾號前期的推送(本次推送第三條)
Probit模型顧名思義就是進行了Probit轉換,Probit轉換是得到一個關於p的單調函數,並且該函數和自變量呈線性關係。其轉換的數學原理如下:
(圖片來源:謝宇,2010)
經過轉換後的的變量分布大概如上圖,可以看出沒有什麼太大的區別。
3、回歸係數上的區別
對於我們關注應用的人而言我們可能更加關注回歸的結果,其實統計學家已經為我們證明過,Logit回歸的係數一般是Probit回歸係數的1.8倍左右。我們可以比較一下兩個回歸結果,age這個變量的在logit模型中的係數是probit的1.71倍,grade是1.76倍。
4、用哪一個更好?
我們可以看出,其實兩個模型並沒有什麼本質的區別。但是從目前的應用來看。使用Logit的研究明顯多於Probit,其中一個重要的原因就是Logit的係數可以轉換為OR值進行比較好的解釋,而相比之下Probit則沒有這麼好的解釋值。因此,對於應用而言使用Logit即可。
本文參考資料:
謝宇(2010),《回歸分析》,社會科學文獻出版社:第18章 二分類變量的Logit模型。
丹尼爾·A·鮑威斯、謝宇(2009),《分類數據分析份統計方法》,社會科學文獻出版社:第3章 二分類數據模型。