Logistic回歸數學模型

2021-12-28 SPSS學堂

作者:劉麗帆    封面:吉江

在Logistic回歸系列(一),我們介紹了一些簡單的邏輯回歸思想,有了一些初步了解。在這個前提下,我們就考慮如何構造一個比較優秀的Logistic回歸模型,並簡單介紹Logistic回歸這個大家族有哪些成員。

在我們做統計分析之前,面對大量雜亂無章的數字往往會做個散點圖,以對數據有直觀的了解。例如,某超市的銷售主管想要知道,顧客的收入水平是否對購買新的智慧型手機有影響。為此,他選擇了12為顧客,調查他們的月收入(X)以及是否購買了新的手機,購買記為{Y=1},未購買記為{Y=0}。調查結果為12位受訪者有7位購買了新手機。

我們的第一想法就是試試用線性回歸看能否較好地描述這個問題。

因此可得以下回歸直線:P=-0.749+0.0003358*X。這裡的Y值可表示為購買手機的概率,但是這裡出現了兩個問題:一是當收入很小時,P值可為負,當收入很大時,P值會大於1;二是當購買概率接近於1或0時,概率對自變量(收入水平)的變化就不是很敏感,即這附近,收入需要很大的變化,才能引起概率P的變化(係數很小)。既然如此,我們如何去修正呢?我們就需要引入logit變換的概念。

Logistic回歸不是估計二元因變量的觀察值,而是要推導出這些觀察值出現的概率。為了能確定事件Y發生的概率,我們假設存在一個關於概率p的函數Ɵ=f(p),此函數形式簡單,且為單調函數。根據數學中導數的定義,以f'(p)反映在p附近的變化,同時,在p=0或1附近時,f'(p)有較大的值,於是取函數f'(p)(公式1),即f(p)(公式2),稱此式為Logistic變換。

可以看出當f'(p)>0時,Ɵ=f(p)為p的增函數,且當p從0至1變化時,Ɵ在(-∞,+∞)上變化,這一變換也解決了上述出現的兩個問題,在數據處理上也帶來了很多方便。

為了建立因變量P與自變量X之間的合理的變化關係,我們令

經過換算,則顧客手機購買概率:

一般的,Y 是0,1變量,X是任意k個變量,那麼變量Y關於變量X的k元logistic回歸模型為公式3,其中,對於二值變量Y關於變量X的一元logistic回歸模型即公式4:

其中α和β是未知參數或待估計的回歸係數,該模型描述了y取某個值(這裡y=1)的概率P與自變量X之間的關係。小結:本期,我們從一個小的案例出發,逐步分析,利用數學知識描述了從簡單線性回歸到logistic回歸的過程,下期我們將簡要介紹logistic回歸係數的相關問題,以期對模型有更深的認識。

關於Logistic回歸概述,小夥伴們可以回顧本系列的第一篇推文《Logistic回歸系列(一)——Logistic回歸概述》。

本期參考:

《Logistic回歸入門》[美]Fred C. Pampel著,周穆之譯,陳偉校;

《Logistic回歸模型分析綜述及應用研究》  [碩士論文]  尹建傑,黑龍江大學 ,2011

 

學堂正在招募內容主筆、短視頻創作者、課程講師,請在公眾號底部菜單欄點擊「招聘」了解詳情!

感謝支持

相關焦點

  • Logistic 回歸101
    Logistc 回歸    今天,我們首先聊一聊最簡單的分類問題——二分類問題。二分類問題並不是要看看誰比較「二」, 純粹只是把數據分為兩類。    既然我們上個系列詳細地聊了聊線性回歸模型,我們首先來聊一聊最重要的線性二分類器之一—— logistic 回歸模型。
  • Logistic回歸分析之二元Logistic回歸
    Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。本次內容將針對二元logistic(logit)回歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。
  • 邏輯回歸(Logistic Regression) 模型簡介
    本文作為美團機器學習InAction系列中的一篇,主要關注邏輯回歸算法的數學模型和參數求解方法,最後也會簡單討論下邏輯回歸和貝葉斯分類的關係,以及在多分類問題上的推廣。模型sigmoid 函數在介紹邏輯回歸模型之前,我們先引入sigmoid函數,其數學形式是:
  • Logistic回歸理論與模型簡介
    本文作者:陳   鼎,中南財經政法大學統計與數學學院本文編輯:任   哲技術總編:張馨月  爬蟲俱樂部於2020
  • 多項無序logistic回歸
    logistic回歸模型並不僅限於二分類因變量,現實中還有很多的多分類變量。多分類變量既可以是無序的,也可以是有序的。
  • 乾貨 | 對數線性模型之 Logistic 回歸、SoftMax 回歸和最大熵模型
    首先以概率的方式解釋了logistic回歸為什麼使用sigmoid函數和對數損失,然後將二分類擴展到多分類,導出sigmoid函數的高維形式softmax函數對應softmax回歸,最後最大熵模型可以看作是softmax回歸的離散型版本,logistic回歸和softmax回歸處理數值型分類問題,最大熵模型對應處理離散型分類問題。
  • Logistic回歸—多重共線性
    多重共線性作為常見問題,存在於線性或者廣義線性模型估計中,包括logistic回歸和Cox回歸。當預測變量間存在高度相關時會出現多重共線性,導致回歸係數估計值不穩定和不可靠。所以,存在多重共線性時,普通的logistic回歸變量篩選中,就有可能將兩個具有相關關係或廣義上具有相關關係的致病因素其中之一被排除在外,導致錯誤的判斷。對參數估計值的影響: 多重共線性常常會增大logistic回歸模型估計參數的均方誤差和標準誤,變大的方差容易使區間預測值變寬,使預測失去意義。
  • logistic(邏輯回歸)
    經驗值是病例對照各50例以上或為自變量的5-10倍(以10倍為宜),不過隨著統計技術和軟體的發展,樣本量較小或不能進行似然估計的情況下可採用精確logistic回歸分析,此時要求分析變量不能太多,且變量分類不能太多;④     當隊列資料進行logistic回歸分析時,觀察時間應該相同,否則需考慮觀察時間的影響(建議用Poisson回歸)。4.
  • 數據分析之邏輯回歸Logistic
    OR比數比4 Logistic回歸的應用領域5 自選數據模型運行結果及分析1 Logistic回歸起源Logistic regression的起源主要分為幾個階段,從開始想到logistic這個詞,到發現logistic function,再推導出logit function,最後才命名
  • 統計·logistic回歸
    Logistic回歸一般用於用於分類問題,比如判斷事件成功/失敗的概率。使用logistic回歸的前提假設:因變量是二分類變量。順序 Logit模型要求因變量是序數。觀測值彼此獨立。換句話說,觀察結果不應來自重複的測量或匹配的數據。
  • Logistic回歸—初步了解10個問題
    >研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。   依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?前面兩期我們已經分享了一元線性回歸模型、多元線性回歸模型的操作方法,今天我們將分享logistic回歸的學習心得,希望大家都能有所收穫哦。
  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • R語言實現logistic回歸
    引言:前面我們已經掌握了logistic回歸的知識點,今天就來看看如何用R語言實現logistic回歸。今天用到的數據來源於機器學習倉庫,基於患者的一些信息以判定該患者是否患有心臟病(heart disease, hd),連結如下:http://archive.ics.uci.edu/ml/datasets/Heart+Disease1.
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • Logistic和Softmax回歸實戰(附代碼)
    當然和其他線性模型一樣,我們也可以對Logistic進行正則化。上面我們用的數據集是有三個類別,然而我們的logistic卻只能處理二分類的問題,對多分類情況,logistic該如何處理呢?Softmax回歸在機器學習尤其是深度學習中,softmax是個非常常用而且比較重要的函數,尤其在多分類的場景中使用廣泛。
  • Logistic回歸—結合ROC曲線應用於聯合診斷
    本文3294字〡14圖〡預計閱讀20分鐘在前面學習了logistic回歸的10個基本問題、樣本量估算、啞變量、OR值、多重共線、變量篩選、混雜因素校正以及條件logistic回歸、多分類有序(無序)logistic回歸在SPSS中的操作,今天主要學習logistic回歸+ROC曲線實現多指標聯合診斷應用。
  • 機器學習算法系列(一):logistic回歸
    七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數二、二項Logistic回歸原理二項Logistic回歸模型時一種分類模型,由條件概率分布P(Y|X)表示,隨機變量Y取0或1。
  • 線性模型篇之Logistic Regression數學公式推導
    線性模型(Linear Model)是機器學習中應用最廣泛的模型,指通過樣本 特徵的線性組合來進行預測的模型。