大家在臨床科研的過程中經常會遇到一些需要研究多種因素之間關係的情況,這時候就要用到多因素分析的統計方法。研究多個因素間關係及具有這些因素的個體之間的一系列統計分析方法稱為多元(因素)分析。主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。
1、 多元回歸分析(multiple linear regression)
回歸分析是定量研究因變量對自變量的依賴程度、分析變量之間的關聯性並進行預測、預報的基本方法。研究一個因變量對幾個自變量的線性依存關係時,其模型稱為多元線性回歸。函數方程建立有四種方法:全模型法、向前選擇法、向後選擇法、逐步選擇法。其數學模型為:Yk=β0+β1X1+β2X2+…+βkXk+ε(k=1,2,…,n).
式中 Y 為因變量,X1,X2```Xk為k個自變量,β0為常數項,β1,β2,```βk為待定參數,稱為偏回歸係數(partial regressioncoefficient),表示在其它自變量固定不變的情況下,自變量Xi 每改變一個單位時,單獨引起因變量Y的平均改變量。ε為隨機誤差,又稱殘差(residual), 它是在 Y 的變化中不能為自變量所解釋的部分。
例如:1、現有20名糖尿病病人的血糖、胰島素及生長素的數據,討論血糖濃度與胰島素、生長素的依存關係,建立其多元回歸方程。
逐步回歸分析(stepwiseregression analysis)
在預先選定的幾個自變量與一個因變量關係擬合的回歸中,每個自變量對因變量變化所起的作用進行顯著性檢驗的結果,可能有些有統計學意義,有些沒有統計學意義。有些研究者對所要研究的指標僅具有初步知識,並不知道哪些指標會有顯著性作用,只想從眾多的變量中,挑選出對因變量有顯著性意義的因素。
一個較理想的回歸方程,應包括所有對因變量作用有統計學意義的自變量,而不包括作用無統計學意義的自變量。建立這樣一個回歸方程較理想的方法之一是逐步回歸分析(stepwise regression analysis)
基本原理:按這個自變量在方程中對因變量作用的大小,由大到小依次引入方程。每引入一個自變量都要對回歸方程中每一個已引入的(包括剛被引入的)自變量的作用作統計意義檢驗,若發現一個或幾個已被引入的自變量的作用無統計學意義時,即行剔除。每剔除一個自變量後,也要對留在回歸方程中的自變量逐個作統計學意義檢驗。如果發現方程中還存在作用無統計學意義的自變量時,也予以剔除,直至沒有自變量可引入,也沒有自變量可從方程中剔除為止。
最優方程應是:Y=β+βX+LβkXk+ε,對y有顯著性作用的自變量全部到回歸方程中。凡是對y沒有顯著性作用的自變量都不被引入方程。
例如:
1、討論中學生的肺活量的影響因素,觀察了10名女中學生的體重(X1, kg)、胸圍(X2, cm)、胸圍之呼吸差(X3, cm)及肺活量(Y, ml)。
2、某研究協作組調查煤礦工人II期高血壓患者40例,同時調查了工作面的汙染程度(X1 )、井下工作時間(X2)、每人的體重(X3)、吸菸年限(X4)、飲酒年限(X5)和收縮壓(y),欲分析影響煤礦工人II期高血壓患者收縮壓高低的主要因素。
3、為探討影響差等生學習成績的因素,某兒科醫生調查了某學校六年級各班倒數第五名以內學生的平均成績(y),並測定了智商(X1 )、血清鐵(X2)、血清酮(X3)、日均熱卡(X4)、日均食入蛋白量(X5)、頭圍(X6 )和月人均收入(X7)
2、 判別分析(discriminant analysis)
根據已掌握的一批分類明確的樣品,制定出一個分類標準用以判斷以後新樣品的歸類。在醫學研究中經常遇到根據某病人的各種症狀、體徵、化驗結果等來判定病人患的什麼疾病,如:根據骨科的X光片的各種特徵判斷病人屬於何種骨瘤?體育選材中根據運動員的體形、運動成績、生理指標、心理素質指標、遺傳因素判斷是否選入運動隊繼續培養等。
判別分析在醫學領域的主要用途是:
1、疾病診斷: 用判別分析的方法診斷疾病又稱為計量診斷。包括臨床診斷、X線診斷、心電圖診斷、超聲波診斷、腦電圖診斷等。
2、疾病預報: 流行病預報、某些疾病(心肌梗死、中風)的早期預報。
3、預後估計: 某些療法的療效估計,某些惡性腫瘤患者的生存期估計等。
4、疾病的病因學估計: 研究引起疾病的原因,並分析其主要影響因素。
判別分析:要求Y變量二分類或多分類的屬性變量。分別用Fisher和Bayes準則進行計算。
同時根據樣本中個體的症狀、體徵選用多元逐步判別分析的方法,來判斷病人患的什麼疾病。其判別函數為:Z = b1x1 + b2x2 +b3x3 …..+ bkxk ,對判別函數在實際應用中的判別能力要進行檢驗。
例如:
1、有健康人10名,心肌梗死病人6名,分別進行心電圖檢查得到三個指標X1、X2、X3 。建立這兩類人的判別式,以次判別新的就診患者是否為心肌梗死病人。
2、對正常人和白血病人進行血清學方面的研究,用高分辨核磁共振譜儀分析α峰形,以α峰的高度(X1)和峰腰(X2)的寬度作為觀察指標,採集了13名白血病人和11名獻血員作為健康人的血清的α峰形。
3、現有已知分類的健康人11人,硬化症患者7人,冠心病患者5人,這23人的心電圖的5個指標測量數據,建立判別方程。
(對於本文有任何疑問可以在下方留言,小編會第一時間回復噠!預告:下一期將介紹logistic回歸分析和COX回歸。)