1 聚類分析的基本原理
1)聚類分析的含義
聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。本章只討論Q型聚類分析。
2)聚類與分類的區別
分類是有指導的學習,聚類是一種無指導的學習通過一定的方法在逐步分類過程中將沒有類標誌的安全統計數據聚集成有意義的類。
3)聚類分析的方法
從基本思路上看,聚類分析的方法主要分為三類:系統聚類法、分解法和動態法(或快速聚類法)。
(2)分解法
分解法的基本思想與系統聚類法恰好相反,先將全部安全統計樣品當成一類,然後是將其分為兩類,再分為三類,……,直到最後將距離相近的樣品聚成一類。分解法與系統聚類法的計算量較大,需要大量的工作時間,通常適用於樣本量不大的樣品群使用。
(3)動態法
動態法是樣本量較大時的最佳使用方法,因此又稱為快速聚類法。其基本思想是:先確定若干個中心,然後將安全統計樣品逐個輸入,觀察樣品到底歸屬為哪類,如果可以歸屬到已有的某個類,則視為同類,並對該中心稍作調整,否則需要建立新類,並調整原有的歸屬類以及重新計算各新類的中心,如此進行下去,直到每個樣品皆有歸屬為止。
2 判別分析的基本原理
1)判別分析的含義
判別分析是在已將安全現象分成若干類、並已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然後對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。
2)判別分析的方法
按照判別的安全統計總體數,判別分析可分為「兩統計總體判別分析」和「多統計總體判別分析」;按照區分不同安全統計總體所用的數學模型,判別分析可分為線性判別和非線性判別;按照判別時處理變量的方法,判別分析可分為逐步判別和序貫判別等等。
3 聚類分析和判別分析在安全統計中的綜合應用
在實際統計分析中,往往要將兩者聯合起來使用:當安全現象統計總體分類不清楚時,可以先用聚類分析把原來的一批安全統計樣品進行分類,然後可以用判別分析對新樣品進行類別判定。
為了得到安全現象的安全係數(或等級),可以對一批類似的評價變量進行聚類分析,再對研究的安全現象進行安全等級劃分。在已知類似安全對象的安全係數(或等級)的情況下,直接根據歷史指標數據與分級結果進行判別分析,得出判斷函數,再判斷待劃分的安全現象所屬的安全等級類別。