多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)

2021-01-15 醫學統計分析



大家在臨床科研的過程中經常會遇到一些需要研究多種因素之間關係的情況,這時候就要用到多因素分析的統計方法。研究多個因素間關係及具有這些因素的個體之間的一系列統計分析方法稱為多元(因素)分析。主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。

1、  多元回歸分析(multiple linear regression)


回歸分析是定量研究因變量對自變量的依賴程度、分析變量之間的關聯性並進行預測、預報的基本方法。研究一個因變量對幾個自變量的線性依存關係時,其模型稱為多元線性回歸。函數方程建立有四種方法:全模型法、向前選擇法、向後選擇法、逐步選擇法。其數學模型為:Yk=β0+β1X1+β2X2+…+βkXk+ε(k=1,2,…,n).

式中 Y 為因變量,X1,X2```Xk為k個自變量,β0為常數項,β1,β2,```βk為待定參數,稱為偏回歸係數(partial regressioncoefficient),表示在其它自變量固定不變的情況下,自變量Xi 每改變一個單位時,單獨引起因變量Y的平均改變量。ε為隨機誤差,又稱殘差(residual), 它是在 Y 的變化中不能為自變量所解釋的部分。

     例如:1、現有20名糖尿病病人的血糖、胰島素及生長素的數據,討論血糖濃度與胰島素、生長素的依存關係,建立其多元回歸方程。

 

逐步回歸分析(stepwiseregression analysis)

在預先選定的幾個自變量與一個因變量關係擬合的回歸中,每個自變量對因變量變化所起的作用進行顯著性檢驗的結果,可能有些有統計學意義,有些沒有統計學意義。有些研究者對所要研究的指標僅具有初步知識,並不知道哪些指標會有顯著性作用,只想從眾多的變量中,挑選出對因變量有顯著性意義的因素。

一個較理想的回歸方程,應包括所有對因變量作用有統計學意義的自變量,而不包括作用無統計學意義的自變量。建立這樣一個回歸方程較理想的方法之一是逐步回歸分析(stepwise regression analysis)

基本原理:按這個自變量在方程中對因變量作用的大小,由大到小依次引入方程。每引入一個自變量都要對回歸方程中每一個已引入的(包括剛被引入的)自變量的作用作統計意義檢驗,若發現一個或幾個已被引入的自變量的作用無統計學意義時,即行剔除。每剔除一個自變量後,也要對留在回歸方程中的自變量逐個作統計學意義檢驗。如果發現方程中還存在作用無統計學意義的自變量時,也予以剔除,直至沒有自變量可引入,也沒有自變量可從方程中剔除為止。

最優方程應是:Y=β+βX+LβkXk+ε,對y有顯著性作用的自變量全部到回歸方程中。凡是對y沒有顯著性作用的自變量都不被引入方程。

例如:

1、討論中學生的肺活量的影響因素,觀察了10名女中學生的體重(X1, kg)、胸圍(X2, cm)、胸圍之呼吸差(X3, cm)及肺活量(Y, ml)。

2、某研究協作組調查煤礦工人II期高血壓患者40例,同時調查了工作面的汙染程度(X1 )、井下工作時間(X2)、每人的體重(X3)、吸菸年限(X4)、飲酒年限(X5)和收縮壓(y),欲分析影響煤礦工人II期高血壓患者收縮壓高低的主要因素。

3、為探討影響差等生學習成績的因素,某兒科醫生調查了某學校六年級各班倒數第五名以內學生的平均成績(y),並測定了智商(X1 )、血清鐵(X2)、血清酮(X3)、日均熱卡(X4)、日均食入蛋白量(X5)、頭圍(X6 )和月人均收入(X7)


2、  判別分析(discriminant analysis)


根據已掌握的一批分類明確的樣品,制定出一個分類標準用以判斷以後新樣品的歸類。在醫學研究中經常遇到根據某病人的各種症狀、體徵、化驗結果等來判定病人患的什麼疾病,如:根據骨科的X光片的各種特徵判斷病人屬於何種骨瘤?體育選材中根據運動員的體形、運動成績、生理指標、心理素質指標、遺傳因素判斷是否選入運動隊繼續培養等。

判別分析在醫學領域的主要用途是:

1、疾病診斷: 用判別分析的方法診斷疾病又稱為計量診斷。包括臨床診斷、X線診斷、心電圖診斷、超聲波診斷、腦電圖診斷等。

2、疾病預報: 流行病預報、某些疾病(心肌梗死、中風)的早期預報。

3、預後估計: 某些療法的療效估計,某些惡性腫瘤患者的生存期估計等。

4、疾病的病因學估計: 研究引起疾病的原因,並分析其主要影響因素。

判別分析:要求Y變量二分類或多分類的屬性變量。分別用Fisher和Bayes準則進行計算。

同時根據樣本中個體的症狀、體徵選用多元逐步判別分析的方法,來判斷病人患的什麼疾病。其判別函數為:Z = b1x1 + b2x2 +b3x3 …..+ bkxk ,對判別函數在實際應用中的判別能力要進行檢驗。

例如:

1、有健康人10名,心肌梗死病人6名,分別進行心電圖檢查得到三個指標X1、X2、X3 。建立這兩類人的判別式,以次判別新的就診患者是否為心肌梗死病人。

2、對正常人和白血病人進行血清學方面的研究,用高分辨核磁共振譜儀分析α峰形,以α峰的高度(X1)和峰腰(X2)的寬度作為觀察指標,採集了13名白血病人和11名獻血員作為健康人的血清的α峰形。

3、現有已知分類的健康人11人,硬化症患者7人,冠心病患者5人,這23人的心電圖的5個指標測量數據,建立判別方程。


(對於本文有任何疑問可以在下方留言,小編會第一時間回復噠!預告:下一期將介紹logistic回歸分析COX回歸。


相關焦點

  • 線性判別分析LDA(Linear Discriminant Analysis)
    (i從1到m),每個x(i)對應一個類標籤至此,我們只需要求出原始樣本的均值和方差就可以求出最佳的方向w,這就是Fisher於1936年提出的線性判別分析。看上面二維樣本的投影結果圖:線性判別分析(多類情況)前面是針對只有兩個類的情況,假設類別變成多個了,那麼要怎麼改變,才能保證投影后類別能夠分離呢?我們之前討論的是如何將d維降到一維,現在類別多了,一維可能已經不能滿足要求。假設我們有C個類別,需要K維向量(或者叫做基向量)來做投影。將這K維向量表示為
  • 一文讀懂多元回歸分析
    一、多元回歸分析簡介用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear
  • 用R進行Lasso regression回歸分析
    ridge regression,嶺回歸lasso regression,套索回歸elastic-net regression,彈性網絡回歸這3者的區別就在於正則化的不同,套索回歸使用回歸係數的絕對值之和作為正則項,即L1範式;嶺回歸採用的是回歸係數的平方和,即L2範式;彈性網絡回歸同時採用了以上兩種策略,其正則項示意如下
  • 運用sklearn進行線性判別分析(LDA)代碼實現
    基於sklearn的線性判別分析(LDA)代碼實現一、前言及回顧本文記錄使用sklearn庫實現有監督的數據降維技術——線性判別分析(LDA)。在上一篇LDA線性判別分析原理及python應用(葡萄酒案例分析),我們通過詳細的步驟理解LDA內部邏輯實現原理,能夠更好地掌握線性判別分析的內部機制。
  • 淺談「多元線性回歸中的殘差分析」
    一、殘差是什麼?    在建立回歸模型的過程中,由於觀察人員的失誤或偶然因素的幹擾,常會使我們所得到的數據不完全可信,也就是出現異常數據。有的時候,即使結果中的F檢驗證實回歸方程可靠,也不能排除數據存在上述問題。殘差分析的目的就在於解決這一點。在數理統計中,殘差(residual)是指實際觀察值與估計值(擬合值)之間的差。
  • 【線性回歸】多變量分析:多元回歸分析
    實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!下面我們就來談談多元回歸分析,這張圖是利用多元線性回歸製作的策略分析圖,你可以理解X軸是重要性,Y軸是表現;首先,多元回歸分析應該強調是多元線性回歸分析!
  • 範例分析:多元線性回歸分析
    基礎回顧簡單線性和多元線性回歸理論基礎請回顧:相關與回歸分析基礎;一元(簡單線性)相關分析與回歸分析
  • 多元回歸樹分析Multivariate Regression Trees,MRT
    此時,保留的是相對誤差(relative error, RE)最小的回歸樹,但是,這種情況下,回歸樹只具有解釋功能,而缺乏預測功能。相對誤差為所有葉子組哪平方和除以原始數據的平方和,也就是回歸樹不能解釋的方差比例。2.  交叉驗證和回歸樹的剪枝為獲得最最具預測能力的分類方案,第一步產生的回歸樹還需要通過剪枝處理。回歸樹的預測能力可以用其預測誤差進行評估。
  • 【乾貨】微生物高分文章必備分析LEfSe
    今天Fanny給大家介紹一個好玩又簡單的微生物多樣性分析中的組間比較分析——LEfSe,即linear discriminant analysis
  • 【從入門到高手:回歸分析】多元回歸分析:如何求解多元回歸方程
    在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元回歸分析)來做好需求預測。這時,我們需要用到多元回歸分析。回歸分析在需求預測的應用,也主要是多元回歸分析。對需求預測而言,多元回歸更具有適用性和有效性。
  • 多元回歸分析入門
    要了解變量之間如何發生相互影響的,就需要利用相關分析和回歸分析。在上一章講述了相關分析有關內容。本章介紹回歸分析基本概念,回歸分析的主要類型:一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析以及邏輯回歸分析等。j基本概念:    相關分析和回歸分析都是研究變量間關係的統計學課題。
  • 元分析(meta-analysis)新手入門
    本次推送的元分析文章非常適合於元分析新手,雖然是發表在《生態和進化學方法》上的文章,但是對於所有學科其實都是通用的。對於元分析感興趣,可以作為入門文章讀一讀。這篇文章開頭引用了名人名言,現分享之:Meta-analysis makes me very happy – Jacob Cohen, psychologist and statistician(元分析使我快樂—Jacob Cohen,心理學家和統計學家)。希望大家在學習和使用元分析的時候也能感到快樂。
  • 多元線性回歸分析:納入多元回歸自變量的確定及求解多元回歸方程
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第五章,多元線性回歸分析:如何求解多元線性回歸方程。在前面的章節中我講到,實際需求預測場景中,通常,影響需求的因素不止一個,對需求影響的因素可能多種多樣,也就是說自變量多種多樣,很少能用單一的變量(也即一元線性回歸分析)來做好需求預測。這時,我們需要用到多元線性回歸分析。回歸分析在需求預測的應用,也主要是多元線性回歸分析。對需求預測而言,多元線性回歸更具有實用性和有效性。
  • 回歸分析解釋之——估計的標準誤差(SEE)
    CFAL2複習Day3:今天的知識點是一元線性回歸中的SEE,全稱:Standard Error of Estimate。我把它記為估計的標準誤差,不知道對不對。考綱對這個知識點的要求是,要會計算並解釋。
  • 【期刊】《分析化學》2020年第10期英文版正式發布
    本方法樣品預處理簡單、操作簡便、分析速度快,僅需培養1 h即可進行有效分析,整體分析時間少於65 min。利用線性判別分析、二次判別分析、k近鄰、樸素貝葉斯模型、分類決策樹、支持向量機等6種模式識別算法對單一和融合後的數據進行識別歸類研究,發現支持向量機方法效果最好,可有效快速區分不明白色粉末。
  • 多元線性逐步回歸分析
    一、方法簡述多元逐步回歸有3種篩選自變量的方法:(1)向前法:這種算法SPSS會建立由一個自變量開始,每次引入一個偏回歸平方和最大且具有統計學意義的自變量,由少到多,直到無具有統計學意義的因素可以代入方程為止,此法也可能納入部分無意義變量;(2)向後法:這種算法SPSS會先建立一個全因素的回歸方程,再逐步剔除一個偏回歸平方和最小且無統計學意義的自變量