判別分析——注意事項

2021-02-08 SPSS學堂

通過前期的學習,我們已經知道判別分析是根據判別對象若干個指標的觀測結果判定其應屬於哪一類的數據統計方法;了解和鑑別四種常用判別方法的基本原理;掌握SPSS的Fisher判別和Bayes判別操作方法;學習判別分析效果評價的方法。

判別分析的最後一期內容,檸檬精給大家準備的是判別分析的注意事項,以作補充。

判別分析的注意事項

1.判別分析中所用的樣本資料可視為對總體的估計,故要求樣本足夠大且有較好的代表性。樣本的原始分類必須正確無誤(金標準),否則得不到可靠的判別函數,同時,判別指標的選擇要適當,並不是越多越好,必要的時候對判別指標進行篩選(逐步判別法)。

2.各類型先驗概率可以由訓練樣本中的各類構成比作為估計值,此時要注意樣本構成比是否具有代表性。如果採樣存在選擇性偏倚,則不能用構成比來估計先驗概率,此時不如採用等概率作為先驗概率,取1/g更為妥當。

3.判別函數的判別能力不能只由訓練樣本的回代情況得出結論,尤其是在小樣本資料中,判別函數的回代誤判率很低,但是訓練樣本以外的樣品誤判率不一定低,因此我們要預留足夠的驗證樣本以考察判別函數的判別能力(前瞻性判別效果評價和刀切法)。

4.判別函數建立後,可在判別應用中不斷累積新的資料,不斷進行修正,逐步完善。臨界值型多用於兩類判別(Fisher判別),概率型多用於多類判別(Bayes判別)。

5.對於兩類判別,Fisher判別、Bayes線性判別及二值回歸判別是等價的,其判別函數均為線性。另外二分類logistic回歸也可以用於兩類判別,稱為logistic判別,是非線性的,logistic回歸模型(判別函數)的判別界值為0.5。

6. logistics判別解決的是二分類問題,那麼針對解決多分類問題一般採用拆解法,來將多分類問題分解為多個二分類問題解決,如一類對一類、一類(正類)對其餘類(負類)以及多類(正類)對多類(負類)。

7.類別不均衡問題,假如我們做某個罕見病的判別分析,收集1萬例數據中僅有8例為病例,那麼判別函數若將所有數據預測為無病,便可達到99%的高成功率,但顯然是不符合要求的。如果要解決這樣的問題,目前主要有三種方法:①欠採樣:去除一些數目過多的類別的數據,使不同類別的數據數目解決。②過採樣:增加數目小的類別的數據,使得不同類別的數據數目接近。③閾值移動:將 原設定閾值×負類數目/正類數目 作為新閾值進行判別。


檸檬精和大家分享的《判別分析》系列文章就告一段落了,希望對大家的工作學習能有一點幫助~

參考資料:醫學統計學第4版(孫振球 徐勇勇)

Logistic判別與線性模型中的問題:http://chrer.com/2018/07/16/logistics判別分析與線性模型中的問題/


顏歡暢(南方醫科大學流行病與衛生統計學)

流行病學實驗設計與分析,生存分析,判別分析,多元線性回歸,ROC曲線分析等。

相關焦點

  • 聚類分析、判別分析、主成分分析、因子分析的區別與聯繫
    注意事項:1. 系統聚類法可對變量或者記錄進行分類,K-均值法只能對記錄進行分類;          2.應用領域:細分市場,消費行為劃分,設計抽樣方案等2、判別分析基本原理:從已知的各種分類情況中總結規律(訓練出判別函數),當新樣品進入時,判斷其與判別函數之間的相似程度(概率最大,距離最近,離差最小等判別準則)。常用判別方法:最大似然法,距離判別法,Fisher判別法,Bayes判別法,逐步判別法等。注意事項:1.
  • 分類分析之判別分析,SPSS判別分析實操
    判別分析是常用的一種分類分析方法。與聚類分析不同的是【聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。>定義:判別分析先根據已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • SPSS分析技術:判別分析
    :數據的歸納分析;SPSS分析技術:分層聚類分析;SPSS分析技術:K-Mean聚類分析;下面介紹個案聚類的第三種方法:判別分析。為此,需要根據已被正確分類的樣本及其屬性,進行數據分析,找出影響樣本歸類的關鍵因素,甚至獲得一個判定係數;然後依據判定係數,對未來樣本進行判別。判別分析是為了解決未來個案歸屬問題而提出的一種數據分類技術,它基於已有的分類個案尋求有效的判別規則,並藉助判別規則對未來個案的歸屬進行判定。
  • 安全數據的判別分析
    安全數據的判別分析包括四大內容,如圖所示1 距離判別法2 貝葉斯判別法3基本思想是投影,即將K組p維數據投影到某一個方向,使得組與組之間的距離儘可能的大,藉助一元方差分析的思想來構造一個線性判別函數,其係數是根據類與類之間距離最大、類內部距離最小的原則來確定,再根據所建立的線性判別函數結合相應的判別規則來判斷待判樣品的類別。
  • 線性判別分析LDA
    線性判別分析是一種線性降維的方法,和之前ARGO提及的PCA(見文章主成分分析(PCA)入門)目的一樣,都是為了降低海量特徵以實現降維,但兩者又有顯著的不同。全文分成如下四個部分:PCA 回顧線性判別分析(LDA)多類別的線性判別分析使用LDA的限制一  PCA回顧介紹LDA之前,簡單的回顧一下之前講到的PCA。
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。2 判別分析的基本原理1)判別分析的含義判別分析是在已將安全現象分成若干類、並已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然後對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。
  • LDA線性判別分析
    問題線性判別分析(二分類情況)PCA和LDALDA降維實例小結  參考資料問題之前我們討論的 PCA降維,對樣本數據來言,可以是沒有類別標籤 y 的。如果我們做回歸時,如果特徵太多,那麼會產生不相關特徵引入、過度擬合等問題。我們可以使用PCA 來降維,但 PCA 沒有將類別標籤考慮進去,屬於無監督的。
  • 簡單案例教你學會SPSS判別分析
    判別分析最初應用於考古學, 例如要根據挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.。慢慢的成為一種常用的分類分析方法,其通過已知的分類情況,根據數據的特徵對其他研究對象進行預測歸類。應用場景判別分析與回歸分析相似,可用於確定哪些預測變量與因變量相關,並在給定預測變量的某些值的情況下預測因變量的值。在實際生活中,判別分析也被廣泛用於預測事物的類別歸屬。
  • 數據江湖之多元劍法 | 招式三:判別分析
    今天想跟大家分享的是又一著名招式——判別分析。「判別分析」這個不明覺厲的名字通常和「分類分析」成對出現,有一些熊孩子就問過,這兩者到底有什麼聯繫,它們又跟聚類分析有什麼不同?媛子有個兩歲的女兒,叫小橙子。在橙子一歲的時候,我發現她可以準確地說出馬路上見到的小動物,這只是小貓,那只是小狗。
  • 申論綜合分析題各類型題目判別技巧
    其中「內容、觀點、問題」為綜合分析題目的作答對象;「分析和歸納」中的分析指將整體拆解為部分,歸納指將部分融合為整體;「多角度」指多角度分析,即分析時多層面、多範疇分析,尤其需要注意正反對比分析論證;「合理推斷、評價」指得出結論。大綱中這句話傳遞了綜合分析題目的答題思路,即按照「亮明觀點-分析論證觀點-得出結論」的思路書寫答案。
  • SPSS分析技術:典型判別分析;由鳶(yuan)尾花分類發展而來的分析方法
    因子分析通過變量結構的研究,達到降低維度的目的,使數量很多的變量濃縮成少量的互相獨立的公因子,簡化了後續的分析;聚類分析通過研究個案(記錄)共有的屬性變量,依據它們之間距離的遠近,將數量眾多的個案(記錄)分成幾個類型。判別分析有很多類型,今天介紹的是典型判別分析,從分析原理來看,其與因子分析類似;從模型結構來看,則與前面介紹的邏輯回歸相似。
  • 經典分類:線性判別分析模型!
    作者:小雨姑娘,康乃狄克大學,Datawhale成員這幾天看了看SVM的推導,看的是真的頭疼,那就先梳理基礎的線性判別分析模型
  • 線性判別分析總覽
    該基因表達水平能較好地實現對腫瘤患者的分類,發現大部分反應者的該基因表達水平較低(左側),大分部非反應者的該基因表達水平較高(右側),但反應者與非反應者的該基於表達水平也有一定的重疊(中間)。②使用兩個基因的表達水平對患者進行分類。
  • 【數據分析】R語言實現常用的5種數據分析(主成分+因子+多維標度+判別+聚類)
    正交旋轉的流行方法是方差最大化,需要在principal中增加rotate='varimax'參數加以實現。也有觀點認為主成分分析一般不需要進行旋轉。4 計算主成分得分主成分得分是各變量的線性組合,在計算出主成分得分之後,還可以將其進行回歸等做進一步分析處理。但注意如果輸入數據不是原始數據時,則無法計算主成分得分。
  • 運用sklearn進行線性判別分析(LDA)代碼實現
    基於sklearn的線性判別分析(LDA)代碼實現一、前言及回顧本文記錄使用sklearn庫實現有監督的數據降維技術——線性判別分析(LDA)。在上一篇LDA線性判別分析原理及python應用(葡萄酒案例分析),我們通過詳細的步驟理解LDA內部邏輯實現原理,能夠更好地掌握線性判別分析的內部機制。
  • R語言實現常用的5種分析方法(主成分+因子+多維標度+判別+聚類
    注意此結果與princomp函數結果不同,princomp函數返回的是主成分的線性組合係數,而principal函數返回原始變量與主成分之間的相關係數,這樣就和因子分析的結果意義相一致。 三 、旋轉主成分 旋轉是在保持累積方差貢獻率不變條件下,將主成分負荷進行變換,以方便解釋。
  • 線性分類模型(一):線性判別模型分析
    ,本文首先簡單複習了與算法相關的數學基礎知識,然後分析各線性判別式分類算法,如最小平方法,Fisher線性判別法和感知器法,最後總結全文。目錄1、相關的數學知識回顧2、判別式模型和生成性模型3、最小平方法4、Fisher線性判別函數5、感知器算法6、總結1、直線方程和平面方程拓展到分類思想:
  • R語言實現常用的5種分析方法(主成分+因子+多維標度+判別+聚類)
    注意此結果與princomp函數結果不同,princomp函數返回的是主成分的線性組合係數,而principal函數返回原始變量與主成分之間的相關係數,這樣就和因子分析的結果意義相一致。三 、旋轉主成分旋轉是在保持累積方差貢獻率不變條件下,將主成分負荷進行變換,以方便解釋。
  • 2021年甘肅公務員申論技巧:綜合分析題各類型題目判別技巧
    2021年甘肅公務員申論技巧:綜合分析題各類型題目判別技巧 甘肅省公務員考試筆試內容包括:行政職業能力測試以及申論,對於申論而言,主要是以4道題為主,3道客觀題,1道大作文,掌握的內容在於平時的積累,比如申論熱點、
  • 生成模型學習筆記:從高斯判別分析到樸素貝葉斯
    3 高斯判別分析高斯判別分析(GDA)是一個生成模型,其中 p(x|y) 是多元高斯正態分布。3.1 多元高斯正態分布在多元正態分布中,一個隨機變量是一個在維度為 n 的 Rn 空間中的矢量值。4.1 高斯判別分析我們再來談談二元分類的問題,我們可以用多元高斯模型對 p(x|y) 進行建模。