基礎方法 | Logit回歸和Probit回歸有區別嗎?

2021-03-02 來點方法

因變量的類型決定了回歸模型的使用!

常見的針對分類變量的回歸模型其實主要有三類:

第一類,Logit回歸(包括:二分類、多分類和序次Logit回歸);

第二類,Probit回歸;

第三類,泊松回歸(又稱為普哇松回歸)。泊松回歸不是很常用,因為他要求的變量類型是離散變量,典型的離散變量就是孩子個數,從0~10,是很分散的,又不符合正態分布,服從泊松分布。

 

所以,有辨析價值的是Logit回歸和Probit回歸,可能大家看文章時候看的最多的是使用Logit回歸,較少有文章使用Probit回歸,但是Probit總會縈繞在我們的數據分析之中,例如做傾向值匹配,如果你不要求用Logit模型就會自動使用Probit,那麼Probit和Logit回歸之間又有什麼區別和聯繫呢?

答案是二者沒有什麼太大的區別,可能區別就是在數學原理上的不同而已,在使用場景上基本一致,而且數學原理本質上也是一致的,回歸係數上略有差異。

 

1、使用場景的一致性

都是針對二分類變量,也都發展出序次logit/probit回歸和多分類logit/probit回歸,並且在Stata中,命令長的也基本一樣。

針對二分類變量:

logit y x

probit y x

針對定序變量:

ologit y x

oprobit y x

針對多分類變量:

mlogit y x

mprobit y x

2、本質上的一致性

Logit回歸和Probit回歸本質上都是對二分類變量進行轉換,而且轉換的關鍵都是針對事件發生的概率p。其中Logit模型是進行對數轉換。關於Logit回歸的詳細信息可以參考本公眾號前期的推送(本次推送第三條)

Probit模型顧名思義就是進行了Probit轉換,Probit轉換是得到一個關於p的單調函數,並且該函數和自變量呈線性關係。其轉換的數學原理如下:

(圖片來源:謝宇,2010)

經過轉換後的的變量分布大概如上圖,可以看出沒有什麼太大的區別。

3、回歸係數上的區別

對於我們關注應用的人而言我們可能更加關注回歸的結果,其實統計學家已經為我們證明過,Logit回歸的係數一般是Probit回歸係數的1.8倍左右。我們可以比較一下兩個回歸結果,age這個變量的在logit模型中的係數是probit的1.71倍,grade是1.76倍。

4、用哪一個更好?

我們可以看出,其實兩個模型並沒有什麼本質的區別。但是從目前的應用來看。使用Logit的研究明顯多於Probit,其中一個重要的原因就是Logit的係數可以轉換為OR值進行比較好的解釋,而相比之下Probit則沒有這麼好的解釋值。因此,對於應用而言使用Logit即可

 

本文參考資料:

謝宇(2010),《回歸分析》,社會科學文獻出版社:第18章 二分類變量的Logit模型。

丹尼爾·A·鮑威斯、謝宇(2009),《分類數據分析份統計方法》,社會科學文獻出版社:第3章 二分類數據模型。

相關焦點

  • reg2logit:用OLS估計Logit模型參數
    應用背景reg2logit 是 2020 年由 Paul T. von Hippel 等人提出的由線性回歸的 OLS 估計 logistic 模型參數的新命令,其估計的理論基礎是 Haggstrom (1983) 提出的變換公式。該公式後來被 Allison (2020) 應用為「線性判別模型」(LDM) 方法。
  • 因變量二分類資料的Probit回歸
    Probit回歸即概率單元(Probability Unite)回歸,用於因變量為分類資料的的統計分析(SPSS目前版本尚不能處理因變量為無序多分類和有序多分類的資料
  • Logistic回歸分析之二元Logistic回歸
    在研究X對於Y的影響時,如果Y為定量數據,那麼使用多元線性回歸分析(SPSSAU通用方法裡面的線性回歸);如果Y為定類數據,那麼使用Logistic回歸分析。結合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。
  • 別慌,先來了解它和線性回歸模型的區別!
    作為回歸模型的一種,其實它和簡單線性回歸模型分析有著非常相似的地方,它們的模型方程形式是一致的,右邊都可以寫成b1x+c的方程形式,並且b1和c都是未知的係數參數。但是和多元線性回歸模型的不同之處在於,Logistic回歸模型的因變量不同,這是因為我們將因變量的值做了logit處理變換,而不是直接將該方程的值作為因變量的結果。
  • 統計·logistic回歸
    研究結果經常會受到混雜因素的印象,因此在研究設計階段,採取匹配來控制混雜因素的影響是常用的方法。比如把病例和對照按照年齡、性別等條件進行匹配,形成多個匹配組,達到控制混雜的目的。有序多分類logistic回歸:比如,治療效果的不同級別。有時也稱為累積比數Logistic回歸、序數Logistic回歸。無序多分類logistic回歸:比如不同類型的肝炎。有時也稱為多項Logistic回歸。
  • STATA學習總結(4):回歸及釋義
    是對回歸方程擬合優度的度量。該統計量越接近於1,模型的擬合優度越高。 多元回歸 回歸應用虛擬變量:由於回歸分析中x和Y變量都要求是連續性變量,所以,但x這必然是受到剛加入的變量的影響,新加入的變量和之前的變量有可能存在著共線性問題。下列情形的出現有可能預示著共線性問題的存在,一是係數的數值和符號發生出乎意料的變化;二是R2很大,但回歸係數不顯著。
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    一、重要概念一)基本表達式 當因變量為分類變量時,最常用且首先考慮的回歸分析方法應為logistics回歸,也稱為logit回歸,因logistic回歸模型表達式為,由表達式可知logit P與變量間存在線性關係,P/(1-P)稱為發生比(odds)即觀測事件發生的概率與未發生的概率的比值。
  • 我就是要R輸出Stata的outreg2和estout一樣的回歸表格!
    這兩天寫文章要分析一個數據,為了一個小問題,結果把latex給搞通了,同時解決了R輸出象Stata的outreg2和outest一樣的回歸結果表格問題。概括地說,R在輸出printable表格時非常強大,十分專業,但操作最好基於Rmd文件進行kinit,或用Latex列印成為pdf或者html,或者pandoc成word文件。
  • 文科生都能看懂的機器學習教程:梯度下降、線性回歸、邏輯回歸
    算法 vs 模型  在理解開始了解機器學習之前,我們需要先搞懂兩個基礎概念:算法和模型。  我們可以把模型看做是一個自動售貨機,輸入(錢),輸出(可樂)。算法是用來訓練這個模型的,  模型根據給定的輸入,做出對應的決策獲得預期輸出。例如,一個算法根據投入的金額,可樂的單價,判斷錢夠不夠,如果多了該找多少錢。
  • Spark權威指南(中文版)----第27章 回歸
    下面列表基於Spark 2.2版本,但還會增長:線性回歸廣義線性回歸保序回歸決策樹隨機森林梯度提升樹生存回歸本章將介紹這些模型的基本知識,包括:一個簡單的模型解釋和算法背後的客觀事實模型超參數(初始化模型的不同方法)訓練參數(影響模型訓練方式的參數
  • 廣義線性回歸分析模型Logistic,一文讀懂它!
    作者:丁點helper來源:丁點幫你前文我們已經講解了相關與回歸的基礎知識,並且重點討論了多重線性回歸的應用與診斷分析。今天的文章,我們來看看日常學習和科研中應用同樣廣泛的另一類回歸分析——Logistic回歸。
  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。
  • Stata: 如何檢驗分組回歸後的組間係數差異?
    最為關注的是白人和黑人(相當於把原始數據分成了兩個樣本組:白人組和黑人組)的工資決定因素是否存在差異。分析的重點集中於工齡(ttl_exp)和婚姻狀況(married) 這兩個變量的係數在兩組之間是否存在顯著差異。下面是分組執行 OLS 回歸的命令和結果:
  • 機器學習開放課程(四)線性分類與線性回歸
    回歸最小二乘法最大似然估計偏置-方差分解線性回歸正則化線性分類線性分類器作為線性分類器的邏輯回歸最大似然估計和邏輯回歸邏輯損失的L2正則化邏輯回歸正則化示例邏輯回歸的優缺點驗證和學習曲線課內Kaggle競賽
  • 回歸XY數據江湖:回歸五式之第三式(定序回歸)
    它能等於3反而感覺一般般,居然可以接受了嗎?顯然不可以。這是第二點:不能做任何代數運算。因此可見,定序數據是什麼樣的數據?是記錄順序的數據。再強調一下兩個關鍵點:(1)他記錄順序;(2)沒有數值意義。以上就是跟大家分享的關於定序回歸分析的第一個方面:定序數據。接下來,繼續討論。這怎麼跟邏輯回歸有啥關係呀,邏輯回歸不是上次課講得處理0-1數據的回歸分析方法嗎?
  • 計數數據回歸操作程序和數據公開, 認真學起來
    在閱讀下面這份操作程序之前,各位學者務必先看看「泊松回歸與負二元回歸什麼鬼?」。下面的內容需要學者們有一定計量基礎,還要對計量經濟圈公眾號裡的內容有一定熟悉度,比如「有限混合模型」、「控制函數法」、「雙欄模型」、「截斷數據」、「歸併數據」等。