安全數據的聚類分析和判別分析概述

2021-01-10 環境安全科學

1 聚類分析的基本原理

1)聚類分析的含義

聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。本章只討論Q型聚類分析。

2)聚類與分類的區別

分類是有指導的學習,聚類是一種無指導的學習通過一定的方法在逐步分類過程中將沒有類標誌的安全統計數據聚集成有意義的類。

3)聚類分析的方法

從基本思路上看,聚類分析的方法主要分為三類:系統聚類法、分解法和動態法(或快速聚類法)。

(2)分解法

分解法的基本思想與系統聚類法恰好相反,先將全部安全統計樣品當成一類,然後是將其分為兩類,再分為三類,……,直到最後將距離相近的樣品聚成一類。分解法與系統聚類法的計算量較大,需要大量的工作時間,通常適用於樣本量不大的樣品群使用。

(3)動態法

動態法是樣本量較大時的最佳使用方法,因此又稱為快速聚類法。其基本思想是:先確定若干個中心,然後將安全統計樣品逐個輸入,觀察樣品到底歸屬為哪類,如果可以歸屬到已有的某個類,則視為同類,並對該中心稍作調整,否則需要建立新類,並調整原有的歸屬類以及重新計算各新類的中心,如此進行下去,直到每個樣品皆有歸屬為止。

2 判別分析的基本原理

1)判別分析的含義

判別分析是在已將安全現象分成若干類、並已經取得各種類型的一批已知安全統計樣品的觀測數據的基礎上,根據某些準則來建立判別模型,然後對未知類型的安全統計樣品判別其歸屬問題的一種多變量統計分析方法。

2)判別分析的方法

按照判別的安全統計總體數,判別分析可分為「兩統計總體判別分析」和「多統計總體判別分析」;按照區分不同安全統計總體所用的數學模型,判別分析可分為線性判別和非線性判別;按照判別時處理變量的方法,判別分析可分為逐步判別和序貫判別等等。

3 聚類分析和判別分析在安全統計中的綜合應用

在實際統計分析中,往往要將兩者聯合起來使用:當安全現象統計總體分類不清楚時,可以先用聚類分析把原來的一批安全統計樣品進行分類,然後可以用判別分析對新樣品進行類別判定。

為了得到安全現象的安全係數(或等級),可以對一批類似的評價變量進行聚類分析,再對研究的安全現象進行安全等級劃分。在已知類似安全對象的安全係數(或等級)的情況下,直接根據歷史指標數據與分級結果進行判別分析,得出判斷函數,再判斷待劃分的安全現象所屬的安全等級類別。

相關焦點

  • 安全數據的判別分析
    安全數據的判別分析包括四大內容,如圖所示1 距離判別法2 貝葉斯判別法3 Fisher判別法Fisher判別法是一種先進行高維向低維投影,再根據距離判別的一種方法,就是通過將k組多元安全統計數據投影到某一個方向上(或某一低維空間中),使投影后的組與組之間儘可能地分開
  • 分類分析之判別分析,SPSS判別分析實操
    判別分析是常用的一種分類分析方法。與聚類分析不同的是【聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。而且事先並不知曉分類標準】,而判別分析先根據已知類別的事物的性質,利用某種技術建立函數式,然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • 聚類分析與SPSS實操演練
    一、聚類分析概率聚類分析是一種探索性的分析,個案所屬的群組特點還未知,也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得。聚類分析的實質是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。
  • 什麼是判別分析?有哪些使用場景?
    判別分析最初應用於考古學, 例如要根據挖掘出來的人頭蓋骨的各種指標來判別其性別年齡等.。慢慢的已經成為一種常用的分類分析方法,其通過已知的分類情況,根據數據的特徵對其他研究對象進行預測歸類。原理說明判別分析時,通常需要將數據分為兩部分。一部分是訓練模型數據,一部分是驗證模型數據。首先通過訓練集數據訓練擬合出一個模型。接著再利用另一部分驗證模型效果。如果在測試集數據上,也表現良好,那麼說明擬合模型非常好。後面可以利用此模型用於預測其它「沒有確定類別」的數據,來預測新數據的類別情況。
  • 數據分析難?教你spss使用的正確姿勢
    軟體不會用,各種數據傻傻搞不清楚,尤其是怎麼分析數據更是暈頭轉向,當然跟著靠譜的老師學習,一邊看實操一邊自己做,這樣肯定事半功倍。本次我們整理出了spss的數據分析教程,都是有實操的,只要跟著做,絕對沒問題!
  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    研究多個因素間關係及具有這些因素的個體之間的一系列統計分析方法稱為多元(因素)分析。主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。
  • 數據分析淺談 | 基礎篇
    統計分析方法論:描述統計、假設檢驗、信度分析、相關分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析,決策樹。 其實不然,舉個慄子,我們常用的 求和or 平均,這就是最基本的數據描述統計方法,該方法是通過匯總多個數據得到一個具體的確定值來表徵數據特點。其目的是為了描述數據特徵,找出數據的基本規律。描述統計可以分為集中趨勢分析和離散趨勢分析和相關分析三個部分。
  • 數據挖掘(DataMining)概述
    3 數據挖掘的過程數據準備:收集數據數據集成:了解領域特點,確定用戶需求,處理數據中的遺漏和清洗髒數據;數據選擇:從原資料庫中選擇相關數據或樣本,從而辨別出需要需要分析的數據集合4 數據挖掘的方法數據挖掘的方法分類挖掘任務:分類、預測、聚類、關聯規則、異常和趨勢發現;挖掘方法:統計方法和機器學習學習方法。
  • 因子分析與聚類分析在消費者生活形態研究中的應用
    下面本文主要介紹如何通過因子分析和聚類分析方法來對消費者進行分類。2.利用因子分析的結果,對樣本的回答按照新的類型進行重新評估打分,然後根據這些評價進行聚類分析,根據統計原則以及在現實中容易解釋的原則,確定最終採用的分類個數。3.根據分類結果對每一樣本判別其所屬類別,然後對各類型消費者的背景進行交叉分析。
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • 數據分析的幾種常用方法概覽(之二)
    數據分析常用方法概覽(之二)上一篇,我們了解了數據分析時常用的對比分析法、分組分析法、結構分析法、交叉分析法、漏鬥圖分析法、矩陣分析法、綜合評價分析法等八種分析方法,今天我們繼續了解下上文提到的另外八種常見數據分析方法。
  • 統計學最常用的「數據分析方法」清單(二)
    與聚類分析區別 聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本; 聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類; 聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數
  • 一圖讓你1分鐘了解數據分析與挖掘體系
    ▌數據預處理•數據預處理包含數據清洗、數據集成、數據變換和數據規約幾種方法。•而數據清洗包括缺失值處理和異常值處理;•數據集成包括同名同義、異名同義、單位不統一的實體識別和冗餘性識別。•數據變化包括函數變換、規範化、連續屬性離散化、屬性溝通和小波變換。•數據規約包括屬性規約和數值規約。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。 例如被試的平均成績多少? 是正偏分布還是負偏分布?聚類分析所使用方法的不同,常常會得到不同的結論。 不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。  從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。 而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。 聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。
  • 什麼是大數據 大數據有什麼意義,只是僅僅負責採集和收集數據嗎
    「大數據」是指數據量大、類別大的數據集,傳統的資料庫工具無法捕捉、管理和處理這些數據集。「大數據」首先指的是數據量(卷)?大,是指大數據集,一般為10TB?在實際應用中,許多企業用戶將多個數據集合在一起,形成了PB級的數據;其次,數據類別(多樣性)大,數據來源多樣,數據類型和格式越來越豐富,突破了以前的結構化數據類別,包括半結構化數據和非結構化數據。其次是數據處理速度(Velocity),它也可以在數據量巨大的情況下實現實時數據處理。最後一個特點是數據真實性(Vity)很高。
  • 新技術助力單細胞RNA測序數據聚類分析
    新技術助力單細胞RNA測序數據聚類分析 作者:小柯機器人 發布時間:2020/5/6 14:35:34 英國威康桑格研究所Mara K. N.
  • SPSS聚類分析 I K-均值聚類法案例實操
    PART 02 聚類分析入門 聚類分析實質就是按照距離的遠近將數據分為若干個類別,以使得類別內數據的「差異」儘可能小,類別間「差異」儘可能大。 1.
  • 新手如何快速入門數據分析?
    如果你需要前輩的指導,那麼你可以按照CDA數據分析研究院的老師推薦的學習方法來學習數據分析:首先,數據分析師需要三個方面的能力:技術(編程),數據分析方法,行業知識。二、數據分析方法 常用的數據分析方法包括以下13種:1. 描述統計描述性統計是指運用制表和分類,圖形以及計算概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
  • 如何用SPSS進行數據分析?
    SPSS軟體包最初由SPSS Inc.於1968年推出,於2009年被IBM收購,主要運用於各領域數據的管理和統計分析。作為世界社會科學數據分析的標準,SPSS操作操作界面極其友好,結果輸出界面也很美觀,同時還配備十分詳細的用戶手冊。
  • 百篇數據分析方法合集,真是太太太全面了
    1.初步了解什麼是統計學數據分析快速入門一些統計學必懂的概念1小時掌握數據分析的邏輯2.通用方法頻數分析:計算百分比、頻率問卷調查數據如何分析?裡克特量表是什麼?因子分析法確定權重模糊綜合評價灰色關聯法TOPSIS法計算權重2.聚類分析聚類分析分層聚類