安全數據的判別分析包括四大內容,如圖所示
1 距離判別法
2 貝葉斯判別法
3 Fisher判別法
Fisher判別法是一種先進行高維向低維投影,再根據距離判別的一種方法,就是通過將k組多元安全統計數據投影到某一個方向上(或某一低維空間中),使投影后的組與組之間儘可能地分開,然後代入新的安全統計樣品數據,與判別臨界值作比較來確定應將其判別為哪個總體。
基本思想是投影,即將K組p維數據投影到某一個方向,使得組與組之間的距離儘可能的大,藉助一元方差分析的思想來構造一個線性判別函數,其係數是根據類與類之間距離最大、類內部距離最小的原則來確定,再根據所建立的線性判別函數結合相應的判別規則來判斷待判樣品的類別。
4 粉塵爆炸危險性等級的Fisher判別分析
將23種可燃性粉塵的爆炸危險性分類結果作為已知的粉塵爆炸危險性分類數據,然後運用Fisher判別分析法對表8-6中的兩種粉塵進行判別分類。
(1)將表8-4的23種可燃性粉塵的爆炸危險性分成4類;
(2)根據Fisher判別理論,使用SPSS軟體,得出最大特徵值及其對應的特徵向量;
(6)對每個樣品計算第一判別函數值和第二判別函數值,並分別以其為橫、縱坐標,得到散點圖8-2。
4 小結
(1)將安全統計資料進行分類的方法有兩種,一種是聚類分析,是在事先並不知道存在什麼類別的情況下,完全按照反映安全現象特徵的數據所揭示的規律來將安全現象進行分類;另一種是判別分析,在對當前研究的安全現象已經分過類的基礎上,如何將未知的安全現象正確地歸於哪一類的問題。
(2)分析安全統計樣品之間的相似性,一般是用「距離」或「相似係數」來度量安全現象之間的相似性。樣品點之間距離的計算方法主要有歐氏距離、平方歐式距離、絕對距離、切比雪夫距離、馬氏距離等;常用的相似係數測度方法有夾角餘弦與Pearson相關係數。
(3)計算類與類之間距離的方法有最短距離法、最長距離法、中間距離法、重心法、組間平均距離法、可變類平均法、可變法、離差平方和法等。
(4)距離判別法是根據新樣品到各個類之間距離的遠近來判別新樣品的類別。
(5)系統聚類的基本思想是:將距離相近的樣品先聚成類,距離較遠的樣品後聚成類,直到每個樣品都能聚到合適的類中。常用譜系圖來描述聚類過程。
(6)K-均值聚類的基本思想是:事先制定需要劃分的類別個數,然後確定各聚類中心,再計算出各樣本到聚類中心的距離,最後按距離的遠近進行分類。
(7)貝葉斯判別法考慮了各個安全統計總體出現概率與錯判損失的影響,基本思想是:假定在抽樣前就對所研究的安全統計總體有一定的認識,並且要用先驗分布來描述這種認識,然後再根據抽取的安全統計樣本對先驗認識作修正,得到後驗分布,隨後的各種統計推斷均基於後驗分布來進行。
(8)Fisher判別法的基本思想是投影,將數據投影到某一個方向,使投影后組與組之間的距離儘可能的大,構造一個線性判別函數,函數的係數是根據類與類之間距離最大、類內部距離最小的原則來確定,根據線性判別函數與相應的判別規則來判斷待判樣品的類別。