線性概率模型、probit模型和logit模型的聯繫與區別

2022-01-22 DataSCI

收錄於話題 #實證分析模型 11個



如果被解釋變量是離散的,而非連續值,則需要運用"離散選擇模型"(discrete choice model)進行分析。


寫在前面

離散被解釋變量包括以下三種情況:

(1)二值選擇(binary choices)。例如,學習或者不學習、論文通過答辯或者不通過答辯、工作或者不工作;(2)多值選擇(multiple choices)。例如,交通方式的選擇:高鐵、飛機或者輪船等;(3)排序數據(ordered data)。排序數據可以視為多值選擇的特殊情況。例如,問卷研究中常見的影響因素重要性評價:沒有影響、影響較小、影響中等、影響較大、影響非常大。

這篇文章給大家介紹為什麼要使用離散選擇模型、常見的離散二值選擇模型的聯繫與區別。

線性概率模型

我們知道連續型變量最基礎的分析方法就是普通最小二乘估計(OLS),那麼延續這一思路,二值被解釋變量是否可以使用OLS回歸呢?

答案是可以的。因變量取0、1的多元線性回歸模型又被稱為線性概率模型(linear probability model,LPM)。

需要注意的是,由於

假定零條件均值假定成立,有:

其中,響應概率(response probability),是參數

係數解釋:例如,研究年幼子女(不足六歲)對母親參加工作的影響。若

線性概率模型的優點:
(1)計算方便;
(2)係數易於解釋;
(3)易於估計邊際效應,且邊際效應是固定不變的。

線性概率模型的局限性:
(1)取值範圍問題。被解釋變量預測值可能小於0或者大於1,這是不符合概率條件的;類似地,邊際效應取值也會存在邏輯不可能情況;
(2)估計不一致問題。由於
(3)異方差問題。

Probit模型、Logit模型

由於

標準正態的累積分布函數——Probit模型邏輯分布的累積分布函數——Logit模型

根據上式可以看出,邏輯分布的累積分布函數有明確的解析表達式,因而相較於Probit模型來說,Logit模型更容易計算。

對於Logit模型,記

故:

其中,「「機率比」(odds ratio),即某件事發生的概率與不發生概率的比值。例如,研究某種藥劑對某種疾病治癒的率,odds=治癒的概率/未治癒的概率,如果odds=5,意味著該藥劑對疾病治癒率是未治癒率的5倍。

對於

係數解釋:
若OR=1.5:保持其他因素不變的情況下,x增加一個單位,機率比增加50%;
若0R=0.7:保持其他因素不變的情況下,x增加一個單位,機率比下降30%。

總結線性概率模型(LPM):最簡明,直接把因變量換成二分虛擬變量,沿用OLS線性回歸。存在取值範圍問題、異方差問題等;Logit模型:邏輯分布。係數解釋涉及機率比(odds ratio)的含義,概率因變量對自變量不再是線性關係,擬合優度更高;Probit模型:正態分布。係數本身沒有經濟學含義,只反映自變量影響的方向。
參考文獻:
[1] 計量經濟學及Stata應用[M]. 高等教育出版社 , 陳強, 2015
[2] 計量經濟學導論[M]. 中國人民大學出版社,J.M.伍德裡奇,2009.

推薦閱讀經濟學理論 | 自相關的來源和修正為什麼對變量取對數?
關於我們

本公眾號定位於Stata語言的學習分享,通過研究方法與論文解析相結合的方式,提高stata學習者的綜合能力,同時附帶專業、高效的數據分析技術支持服務,為您的科研分析保駕護航!

1.發送「Stata」即可立即獲取Stata學習書籍;
2.發送「Stata圖卡」即可獲取Stata學習速記圖卡;
3.發送「stata16」,即可免費獲取Mac、Windows系統stata16.0版本的安裝包;
4.如需技術支持服務,可添加相關負責人微信。微信號:chariness_patience

相關焦點

  • Logit-probit中的交乘項及邊際效應圖示
    Ai 和 Norton (2003)2.1 線性模型交互項2.2 非線性模型交互項2.3 推導與估計3. Norton 等 (2004)3.1 Logit 模型3.2 Probit 模型4. Stata 命令5.
  • Stata:離散選擇模型(二值多值嵌套條件排序計數logit)命令匯總
    >logit depvar [indepvars] [if] [in] [weight] [, options]probit depvar [indepvars] [if] [in] [weight] [, options]probit y xl x2 x3logit y xl x2 x3mfx(計算在樣本均值處的邊際效應)predict
  • 多項logit模型詳解
    離散選擇模型中,最主要的是logit模型。認識一下logit模型。通常可供選擇的選項會有多個,因此不能應用二項logit模型,而應該採用多項logit模型。對理性決策者而言,從選擇集C中選擇方案的概率為:對隨機誤差項分布的不同假設形成了不同的模型。
  • 廣義線性模型(GLM)從人話到鬼話連篇
    在筆者的心裡,廣義模型能解決的問題種類比普通線性模型多很多,用圖來表示,大概就是這樣的:圖一:定性對比廣義線性模型和普通線性模型的能解決的問題多少我們將要回到廣義線性模型的本質,從廣義線性模型的三個要素——入手,在理論層面系統深入地了解廣義線性模型。
  • 二元選擇模型:probit 還是 logit?
    Probit/Logit 與線性概率模型對比也有很多人直接使用 regress 估計二值選擇模型,這其實是在估計 線性概率模型,其實就是一個簡單的 OLS 回歸。由於模型的被解釋變量是概率值 (取值介於 0 和 1 之間),而右側的線性擬合值的取值範圍未必在 0 和 1 之間,這個模型的局限也就顯而易見了。
  • 多項logit模型回歸係數解讀
    離散選擇模型中,最主要的是logit模型。繼續認識多項logit模型。之前的文章多項logit模型詳解,介紹了用mlogit命令估計多項logit模型,base選項選定模型估計的參照方案,並將保險方案MoonHealth ( insurance=5 ) 作為參照方案。回歸結果如下,那麼回歸係數該如何解釋?
  • feologit:固定效應有序Logit模型
    這些數據按年收集,涉及家庭結構、家庭和家庭成員的收入和就業等幾個問題,並提供了關於社會變化和個人行為動態的獨特信息。被採訪者需要對自己的工作打一個分,範圍為 1-6,作為實證模型的被解釋變量。被解釋變量有序但類別間的「距離」無法界定,且為面板數據,因此可以使用 固定效應有序 Logit 模型。
  • 混合效應模型MEM
    廣義線性模型:假設誤差來自指數族的統計模型;預測值由離散和連續預測變量以及連接方程(例如邏輯斯蒂回歸, 泊松回歸)(不要被SAS中的PROC GLM所迷惑, 它用於估計諸如經典的ANOVA之類的廣義線性模型)所確定。
  • 線性回歸與Logistic回歸的模型評價
    在統計學上我們經常需要構建模型去分析變量間的關聯以及對某些變量進行預測,在將模型應用於解決問題之前,我們必須對模型性能進行評價,以保證其具有足夠的預測性和準確性。同時還要評價模型的擬合度,防止出現過擬合和欠擬合現象。
  • 乾貨|教你如何用Stata做二元選擇模型
    先確定二元選擇模型的類型,通常有Probit模型、Logit模型、Extreme模型等,前面兩種最常用。如果隨機誤差項服從標準正態分布,就用Probit模型;如果隨機誤差項服從邏輯分布,就用Logit模型。當然,事先也不知道隨機誤差項究竟服從何種分布,所以Probit模型和Logit模型任選一種即可,問題不是很大。二元選擇模型是非線性模型,所以參數估計要用最大似然估計法(MLE)。
  • 動態Probit模型及Stata操作應用
    該包還允許我們估計動態面板logit模型。我們還演示了Stata中可用的這個包的簡化版本。這個包的主要功能的使用是基於使用勞動力市場數據的例子。隨著可獲得的面板數據集的數量不斷增加以及相關統計和計量模型的最新發展,用於估計二元面板數據的非線性模型的現成軟體現在在應用研究中是必不可少的。
  • 正則線性模型
    大多數正則化模型都是如此。     下圖顯示了使用不同α值對某個線性數據進行訓練的幾種嶺回歸模型。左邊直接使用嶺回歸,導致預測是線性的。而右邊,首先使用PolynomialFeatures(degree=10)對數據進行擴展,然後用StandardScaler進行縮放,最後再將嶺回歸模型用於結果特徵:這就是嶺正則化後的多項式回歸。
  • 線性模型之Logistic和Softmax回歸
    線性模型是機器學習中最簡單、應用最廣泛的模型,指通過樣本特徵的線性組合來進行預測的模型。給定一個d維樣本[x1, · · · , xd].T,其線性組合函數為神經網絡的概念和基本用法一個線性分類模型(Linear Classification Model)或線性分類器(LinearClassifier),是由一個(或多個)線性的判別函數f(x, w) =w.T * x + b和非線性的決策函數g(·)組成。
  • 【DCM-04】Stata應用:標準多項式Logit模型
    考慮到標準多項式Logit模型和條件Logit以及混合Logit模型的數據排列格式不一致,故本文主要介紹標準多項式Logit模型,條件Logit模型和混合Logit模型將在下一篇專欄文章進行詳細介紹。1.2 標準多項式logit模型理論標準多項式Logit模型是整個離散選擇模型體系的基礎,並且是最簡單的多分類離散選擇模型形式,具有模型形式簡單、模型樣本量要求少以及易於求解等特點,被廣泛應用於交通與市場研究兩大領域。與二元Logit模型一樣,標準多項式Logit模型也是基於隨機效用與效用最大化假設。
  • 線性回歸模型理論&案例
    1、線性回歸模型是最基礎的模型,我們之前講了很多高大上的模型,卻忽視了這個模型,因此想對這個模型有進一步了解;2、線性回歸模型用起來很簡單,但是看了很多資料後,發現它的原理並不也很簡單,我們經常簡單去使用,而對後面的複雜原理卻了解較少;3、我們分析中經常要做x對連續變量y的(相關分析、影響分析、預測分析),線性回歸模型正是可以用於這些場景。
  • 線性回歸(2)—— 模型評估
    Question: RMSE/MSE 和 MAE 的區別從意義上來講, RMSE/MSE 是用來衡量真實值和預測值的偏差,MAE 能更好地反映真實值和預測值誤差的實際情況。MSE 對誤差取了平方 (令 e = 真實值 - 預測值),因此,如果 e > 1,則 MSE 會進一步增大誤差。
  • 回歸模型|二分類Logistic回歸之stata實現及結果解釋
    use"C:\Users\Ressy\Desktop\微信訂閱號\2018.2.12\白血病.dta",clear  #調取數據#sum #查看基本的統計量#圖1logit y x1-x3  #運用logit命令計算#logistic y x1-x3   #運用logistic命令計算#
  • DEM數字高程模型、DSM數字地形模型和DOM正射影像的聯繫與區別
    DEM在地理學和測繪科學領域被賦予了不同的意義,作為一個地理學畢業的小碩來說,DEM就是我們非常熟悉的地形高程,而我同事他們是測繪科學專業畢業,他們經常所說的地形,居然不是我們地理學所說的數字地形,他們所說的地形對應我們地理學上的土地利用/覆蓋地類,下面就來說說這個3D的區別和聯繫哦。
  • 臨床模型篇第三彈,如何用R語言對Logistic回歸模型進行評價?
    在常用的臨床模型構建中,主要分為兩種,包括臨床預測模型(Cox回歸模型)和臨床診斷模型(Logstic回歸模型)。在之前的內容中,阿琛給大家介紹了如何使用Nomogram圖將臨床預測模型可視化,以及Cox回歸模型的相關評價指標。今天是臨床模型的第三集臨床診斷模型篇,即如何對Logistic回歸模型進行評價。
  • 帶你輕鬆使用 TensorFlow 創建大型線性模型
    您可以在 TensorFlow 中從頭開始構建線性模型,而無需藉助於特殊的 API。不過,Estimator 提供了一些工具,使您可以更輕鬆地構建有效的大型線性模型。特徵列和轉換設計線性模型的主要操作包括將原始數據轉換為合適的輸入特徵。TensorFlow 使用 FeatureColumn 抽象類來實現此類轉換。