如果被解釋變量是離散的,而非連續值,則需要運用"離散選擇模型"(discrete choice model)進行分析。
離散被解釋變量包括以下三種情況:
(1)二值選擇(binary choices)。例如,學習或者不學習、論文通過答辯或者不通過答辯、工作或者不工作;(2)多值選擇(multiple choices)。例如,交通方式的選擇:高鐵、飛機或者輪船等;(3)排序數據(ordered data)。排序數據可以視為多值選擇的特殊情況。例如,問卷研究中常見的影響因素重要性評價:沒有影響、影響較小、影響中等、影響較大、影響非常大。這篇文章給大家介紹為什麼要使用離散選擇模型、常見的離散二值選擇模型的聯繫與區別。
線性概率模型我們知道連續型變量最基礎的分析方法就是普通最小二乘估計(OLS),那麼延續這一思路,二值被解釋變量是否可以使用OLS回歸呢?
答案是可以的。因變量取0、1的多元線性回歸模型又被稱為線性概率模型(linear probability model,LPM)。
需要注意的是,由於
假定零條件均值假定成立,有:
其中,
係數解釋:例如,研究年幼子女(不足六歲)對母親參加工作的影響。若
線性概率模型的優點:
(1)計算方便;
(2)係數易於解釋;
(3)易於估計邊際效應,且邊際效應是固定不變的。
線性概率模型的局限性:
(1)取值範圍問題。被解釋變量預測值可能小於0或者大於1,這是不符合概率條件的;類似地,邊際效應取值也會存在邏輯不可能情況;
(2)估計不一致問題。由於
由於
標準正態的累積分布函數——Probit模型邏輯分布的累積分布函數——Logit模型根據上式可以看出,邏輯分布的累積分布函數有明確的解析表達式,因而相較於Probit模型來說,Logit模型更容易計算。
對於Logit模型,記
故:
其中,「
對於
當
當
係數解釋:
若OR=1.5:保持其他因素不變的情況下,x增加一個單位,機率比增加50%;
若0R=0.7:保持其他因素不變的情況下,x增加一個單位,機率比下降30%。
本公眾號定位於Stata語言的學習分享,通過研究方法與論文解析相結合的方式,提高stata學習者的綜合能力,同時附帶專業、高效的數據分析技術支持服務,為您的科研分析保駕護航!
1.發送「Stata」即可立即獲取Stata學習書籍;
2.發送「Stata圖卡」即可獲取Stata學習速記圖卡;
3.發送「stata16」,即可免費獲取Mac、Windows系統stata16.0版本的安裝包;
4.如需技術支持服務,可添加相關負責人微信。微信號:chariness_patience