SAS系列36:Logistic回歸實戰(一)

2021-03-04 精鼎統計

   上一期Logistic回歸的數學模型、基本原理、分析步驟。今天就開始介紹Logistic回歸的SAS實現。

       Logistic回歸模型可以通過PROC LOGISTIC和PROC PHREG過程步實現,其中PROC PHREG過程步是基於COX比例危險模型對生存數據進行回歸分析,也可以用於配對設計的條件Logistic回歸分析,因此,此過程步簡單介紹與Logistic回歸分析相關的主要語句。兩個過程步中與Logistic模型擬合相關的語句詳見表11—4。

表11-4 PROC LOGISTIC和PROC PHREG過程步常用語句介紹

       為了研究少年兒童肥胖症與膽固醇、甘油三酯等因素之間的關係,在一次現況研究中對某地7~18歲年齡段的1352名中小學生的身體做了有關檢查(數據來源於孫振球主編《醫學統計學》第四版)。具體賦值詳見表11-5

表11-5 數據中各變量命名及賦值

(1)單因素Logistic回歸模型初步分析各因素與肥胖症的關係    為了節省篇幅,單因素分析結果僅呈現模型參數估計與OR值估計結果。
PROCLOGISTICDATA=FAT DES;      MODEL FAT=GENDER;      WEIGHT FREQ;RUN; 
PROCLOGISTICDATA=FAT DES;      CLASS AGE (PARAM=REFERENCE REF=FIRST);      MODEL FAT=AGE;      WEIGHT FREQ;RUN;
PROCLOGISTICDATA=FAT DES;      MODEL FAT=CHOL;      WEIGHT FREQ;RUN;
PROCLOGISTICDATA=FAT DES; MODEL FAT=TG;      WEIGHT FREQ;RUN;

                            圖11-13 性別回歸模型的參數估計結果

圖11-14 年齡回歸模型的參數估計結果

圖11-15 膽固醇回歸模型的參數估計結果

圖11-16 甘油三酯回歸模型的參數估計結果

       單因素Logistic回歸模型對各個自變量的初步分析結果顯示:4個自變量均有統計學意義。因此在進行多因素分析時考慮將4個自變量納入到模型中。
PROCLOGISTICDATA=FAT;      CLASS AGE(PARAM=REFERENCE REF=FIRST);      MODEL FAT=GENDER AGE CHOL TG/ AGGREGATESCALE=DEVIANCE RSQ;      WEIGHT FREQ;RUN;

圖11-17 4個自變量回歸模型擬合優度結果

圖11-18 4個自變量回歸模型最大似然估計結果

圖11-19 4個自變量回歸模型OR估計結果

       圖11-17模型擬合優度結果顯示:模型擬合較好;圖11-18最大似然估計結果顯示:自變量膽固醇和性別無統計學意義,但自變量性別的P=0.0582接近於0.05,考慮先剔除膽固醇後再擬合模型。另外:應用PROC REG過程步對模型的多重共線性進行了共線性診斷,自變量間不存在多重共線性問題(具體結果此處省略)。 
PROCLOGISTICDATA=FAT DES;      CLASS AGE(PARAM=REFERENCE REF=FIRST);      MODEL FAT=GENDER TG /AGGREGATESCALE=DEVIANCE RSQ;      WEIGHT FREQ;RUN;

圖11-20 3個自變量回歸模型擬合優度結果

圖11-21 3個自變量回歸模型最大似然估計結果

圖11-22 3個自變量回歸模型OR估計結果

        剔除膽固醇後的模型擬合優度結果顯示:模型擬合較好。參數估計結果顯示:性別和年齡無統計學意義,但是性別的P=0.1048;10歲年齡組與7歲年齡組比較其P值=0.0529,P值均不太大。在嘗試剔除自變量性別保留年齡後模型雖有意義但其自變量均無統計學意義;嘗試剔除年齡保留性別後模型有意義,參數估計均有統計學意義,但其模型擬合優度與其他模型比較並不理想(詳見表11-6),MODEL2的擬合優度指標最小。綜上分析:選用自變量為性別、年齡和甘油三酯的模型。目前數據有限不能進一步的分析,如果數據允許可以對自變量年齡考慮重新分組,或者還有重要的自變量未納入模型中。

       上兩期介紹的多元線性回歸模型在定量數據分析中是最常用的多因素統計分析方法,但是當因變量是分類變量時,多元線性回歸就不適用了。我們先

 

(1)參數估計

      在Logistic回歸分析中,回歸係數的估計方法通常是最大似然法,最大似

       整理不易,歡迎點亮再看哦!

參考文獻:

[1] 高惠璇. SAS系統SAS/STAT軟體使用手冊[M]. 北京:中國統計出版社, 1997.

[2] 孫振球, 徐勇勇. 醫學統計學[M].北京:人民衛生出版社, 2014.

[3] 張家放. 醫用多元統計方法[M]. 武漢:華中科技大學出版社, 2002.

[4] 武松. SPSS實戰與統計思維[M]. 北京:清華大學出版社, 2017.

[5]馮國雙, 劉德平. 醫學研究中的logistic回歸分析及SAS實現. 北京: 北京大學醫學出版社,2011.

[6]繆佳, 譯. Logistic回歸中的交互效應. 上海: 格致出版社, 2014.

[6]趙亮員, 譯. 定序因變量的Logistic回歸模型. 上海: 格致出版社, 2018.

.

相關焦點

  • Logistic和Softmax回歸實戰(附代碼)
    Logistic回歸是一種常用的處理二分類問題的模型,Softmax回歸常用於處理多分類問題。本文主要實戰Logistic回歸和softmax回歸在iris數據集上的應用,通過該文章,希望我們能一起掌握該方面的知識。歡迎文末查看下載關鍵字,公眾號回復即可免費下載實戰代碼。
  • Logistic回歸—多重共線性
    多重共線性作為常見問題,存在於線性或者廣義線性模型估計中,包括logistic回歸和Cox回歸。當預測變量間存在高度相關時會出現多重共線性,導致回歸係數估計值不穩定和不可靠。所以,存在多重共線性時,普通的logistic回歸變量篩選中,就有可能將兩個具有相關關係或廣義上具有相關關係的致病因素其中之一被排除在外,導致錯誤的判斷。對參數估計值的影響: 多重共線性常常會增大logistic回歸模型估計參數的均方誤差和標準誤,變大的方差容易使區間預測值變寬,使預測失去意義。
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    一、重要概念一)基本表達式 當因變量為分類變量時,最常用且首先考慮的回歸分析方法應為logistics回歸,也稱為logit回歸,因logistic回歸模型表達式為,由表達式可知logit P與變量間存在線性關係,P/(1-P)稱為發生比(odds)即觀測事件發生的概率與未發生的概率的比值。
  • Logistic回歸分析之二元Logistic回歸
    Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。本次內容將針對二元logistic(logit)回歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。
  • 機器學習算法系列(一):logistic回歸
    作者| Ray編輯| 安可出品| 磐創AI技術團隊目錄:一、Logistic分布二、二項Logistic七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數
  • Logistic 回歸101
    Logistc 回歸    今天,我們首先聊一聊最簡單的分類問題——二分類問題。二分類問題並不是要看看誰比較「二」, 純粹只是把數據分為兩類。    既然我們上個系列詳細地聊了聊線性回歸模型,我們首先來聊一聊最重要的線性二分類器之一—— logistic 回歸模型。
  • 【理論+案例實戰】Python數據分析之邏輯回歸(logistic regression)
    -item)))    return ax = numpy.arange(-10, 10, 0.1)y = sigmoid(x)plt.plot(x,y)plt.yticks([0.0, 0.5, 1.0])plt.axhline(y=0.5, ls='dotted', color='k')plt.show()
  • 統計·logistic回歸
    Logistic回歸一般用於用於分類問題,比如判斷事件成功/失敗的概率。使用logistic回歸的前提假設:因變量是二分類變量。順序 Logit模型要求因變量是序數。觀測值彼此獨立。換句話說,觀察結果不應來自重複的測量或匹配的數據。
  • 一文掌握多分類logistic回歸
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、多分類logistic回歸分析基本說明只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那麼就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,
  • SAS系列38:Logistic回歸的交互效應(一)
    最近閱讀了一本《Logistic回歸中的交互效應》的書,覺得有必要講一講Logistic回歸的交互效應。
  • 【SAS Says】基礎篇:SAS軟體入門(下)
    它可以讓你很清楚的看到輸出結果的每一部分。下圖是一個方差分析(ANOVA)過程的結果。在這個圖中,左邊是輸出結果的目錄,點擊+號將其展開,可以看見ANOVA結果的各個部分,雙擊某一部分,則該部分結果就會位於輸出窗口頂部。
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • 【SAS Says】基礎篇:1. SAS軟體入門
    本系列【基礎篇】已經完全完結了,方便大家閱讀學習,我們合併在成一個專輯,目錄如下:1.開發數據(一)6. 開發數據(二) 7. SAS宏初步8. 相關、回歸等基本統計您可以在微信公眾號「數說工作室」(微信ID:shushuojun)中回復「sasbase」查看。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?前面兩期我們已經分享了一元線性回歸模型、多元線性回歸模型的操作方法,今天我們將分享logistic回歸的學習心得,希望大家都能有所收穫哦。
  • Logistic回歸—初步了解10個問題
    >研究設計不同,可分為非條件logistic回歸模型和條件logistic回歸模型;採用配伍設計的目的是控制混雜因素,通過匹配後使得病例組、對照組的其他特徵同質化,以消除混雜的影響。   依據因變量類型(水平數量),又可分為二分類logistic回歸模型和多分類logistic回歸模型;二分類logistic回歸也稱二元logistic回歸、二項logistic回歸。
  • R語言實現logistic回歸
    引言:前面我們已經掌握了logistic回歸的知識點,今天就來看看如何用R語言實現logistic回歸。今天用到的數據來源於機器學習倉庫,基於患者的一些信息以判定該患者是否患有心臟病(heart disease, hd),連結如下:http://archive.ics.uci.edu/ml/datasets/Heart+Disease1.
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    本文從觀察性研究的類型出發,基於不同研究類型的研究目的,以logistic回歸分析為例,探討觀察性研究的不同分析思路,希望為醫學科研工作者提供一定的參考和借鑑。 logistic回歸 假定有m個自變量X1,X2,…,Xm,logistic回歸模型的基本形式可表達為: 只從數據本身考慮的話,logistic回歸模型都是包括一個分類因變量及若干自變量(可以是分類變量,也可以是連續變量),
  • 【重溫經典】吳恩達機器學習課程學習筆記七:Logistic回歸
    courseId=1004570029春節充電系列:李宏毅2017機器學習課程學習全部筆記吳恩達課程學習筆記七:Logistic回歸1、 Logistic回歸是一種分類算法所以接下來將說明一些關於logistic回歸算法的知識,它可以將輸出值(預測值)的範圍限制在0到1之間。注意:雖然這裡提到了回歸,但是logistic是一個分類算法。
  • 【花滿帶你學SAS】SAS中的列聯表分析
    RxC表格(單向有序)可用秩和檢驗(proc npar1way)或logistic回歸分析(proc logistic)Rx2表格(行無序,列有序)若R有一定的趨勢,如高中低這樣的,則用趨勢卡方檢驗,代碼把上面卡方檢驗中的Chisq改成Trend。否則用卡方檢驗。
  • 利用R語言進行logistic回歸分析 | 30 天學會R DAY 26
    join函數把兩個資料庫進行合併tt<-inner_join(t1,t2,by="ID")str(tt)二、數據整理工作和線性回歸分析一樣,logistic回歸分析之前也需要對數據進行整理、轉換。