通過前期的學習,我們已經知道判別分析是根據判別對象若干個指標的觀測結果判定其應屬於哪一類的數據統計方法;了解和鑑別四種常用判別方法的基本原理;掌握SPSS的Fisher判別和Bayes判別操作方法;學習判別分析效果評價的方法。
判別分析的最後一期內容,檸檬精給大家準備的是判別分析的注意事項,以作補充。
判別分析的注意事項
1.判別分析中所用的樣本資料可視為對總體的估計,故要求樣本足夠大且有較好的代表性。樣本的原始分類必須正確無誤(金標準),否則得不到可靠的判別函數,同時,判別指標的選擇要適當,並不是越多越好,必要的時候對判別指標進行篩選(逐步判別法)。
2.各類型先驗概率可以由訓練樣本中的各類構成比作為估計值,此時要注意樣本構成比是否具有代表性。如果採樣存在選擇性偏倚,則不能用構成比來估計先驗概率,此時不如採用等概率作為先驗概率,取1/g更為妥當。
3.判別函數的判別能力不能只由訓練樣本的回代情況得出結論,尤其是在小樣本資料中,判別函數的回代誤判率很低,但是訓練樣本以外的樣品誤判率不一定低,因此我們要預留足夠的驗證樣本以考察判別函數的判別能力(前瞻性判別效果評價和刀切法)。
4.判別函數建立後,可在判別應用中不斷累積新的資料,不斷進行修正,逐步完善。臨界值型多用於兩類判別(Fisher判別),概率型多用於多類判別(Bayes判別)。
5.對於兩類判別,Fisher判別、Bayes線性判別及二值回歸判別是等價的,其判別函數均為線性。另外二分類logistic回歸也可以用於兩類判別,稱為logistic判別,是非線性的,logistic回歸模型(判別函數)的判別界值為0.5。
6. logistics判別解決的是二分類問題,那麼針對解決多分類問題一般採用拆解法,來將多分類問題分解為多個二分類問題解決,如一類對一類、一類(正類)對其餘類(負類)以及多類(正類)對多類(負類)。
7.類別不均衡問題,假如我們做某個罕見病的判別分析,收集1萬例數據中僅有8例為病例,那麼判別函數若將所有數據預測為無病,便可達到99%的高成功率,但顯然是不符合要求的。如果要解決這樣的問題,目前主要有三種方法:①欠採樣:去除一些數目過多的類別的數據,使不同類別的數據數目解決。②過採樣:增加數目小的類別的數據,使得不同類別的數據數目接近。③閾值移動:將 原設定閾值×負類數目/正類數目 作為新閾值進行判別。
檸檬精和大家分享的《判別分析》系列文章就告一段落了,希望對大家的工作學習能有一點幫助~
參考資料:醫學統計學第4版(孫振球 徐勇勇)
Logistic判別與線性模型中的問題:http://chrer.com/2018/07/16/logistics判別分析與線性模型中的問題/
顏歡暢(南方醫科大學流行病與衛生統計學)
流行病學實驗設計與分析,生存分析,判別分析,多元線性回歸,ROC曲線分析等。