SPSS聚類分析 I K-均值聚類法案例實操

2021-01-09 騰訊網

今天想寫一下聚類分析方法之一:K—Mean聚類法

PART

01

聚類分析模型簡介

聚類分析沒有過多的統計理論支持,也沒有統計檢驗對聚類結果的正確性「負責」,僅僅按照所定義的距離將數據歸類而已。

PART

02

聚類分析入門

聚類分析實質就是按照距離的遠近將數據分為若干個類別,以使得類別內數據的「差異」儘可能小,類別間「差異」儘可能大。

1. 所用的變量類型:一類是分類變量;一類是連續變量。連續變量一般使用歐式平方距離,分類變量使用卡方作為距離指標。

2. 多數傳統聚類方法只能使用單一種類的變量進行分析,如果數據中同時有連續和分類兩類變量,由於連續變量攜帶信息量遠多於分類變量,可考慮或者只採用連續變量進行分析,將分類變量用於結果的描述和驗證;或者將分類變量按照啞變量的方式拆分多個二分類變量,然後按照連續變量的方式進行分析。但多採用智能聚類方法,如兩步聚類法。

3. 聚類方法:大致分為兩類:層次聚類法、非層次聚類法

4. 距離的定義:SPSS中最常用的距離定義為歐式幾裡得距離。

5. 數據的標準化問題:各變量數量級相差較大,要對數據進行標準化,使不同數量級的數據之間可以比較。標準化方式有:標準正態分布、或把數據變換為範圍在0-1之間的數據。

PART

03

聚類分析的方法體系

1. 非層次聚類法:將案例快速分成K個類別,一般而言具體的類別個數需要在分析前就加以確定,整個分析過程使用迭代的方式進行。其中K—均值聚類法最為常用,也稱為快速聚類法(不能自動標準化,需要人為手動處理)。

2. 層次聚類法:首先確定距離的基本定義,以及類間距離的計算方式,隨後按照距離的遠近通過把距離較近的數據依次併入一類,直到數據完全歸為一個類別為止。—「樹狀圖」來表示聚類結果。

3. 智能聚類方法:針對海量數據以及距離指標往往不能滿足需求的情況,發展出智能聚類方法,常用:兩步聚類法,最近鄰元素法,和神經網絡中的自組織圖。

PART

04

k-均值聚類法(快速聚類法)

方法原理:可用於大量數據進行聚類分析的情形。

1. 確定聚類的類別數量,分析者指定,可反覆嘗試並得到一個合理的最優方案;

2. 指定聚類中心,初步確認每個類別的原始中心點;

3. 逐一計算各案例到各個類別中心的距離,按照距離最近的原則歸入各個類別,並計算各類別的新中心點;

4. 按照新中心位置,重新計算各案例距離新的類別中心的距離,並重新進行歸類、更新類別中心點;

5. 重複迭代,直到滿足一定的收斂標準或者達到事先指定的迭代次數為止。

k-均值聚類法使用範圍有限:要求事先知道需要將樣品分為多少類;只能對案例進行聚類而不能對變量聚類;所使用的變量必須是連續性變量,且對變量的多元正態性、方差齊性等條件要求較高

PART

05

案例:移動通信客戶細分

1. 預分析:

將數據標準化:「分析」——「描述統計」——「描述」

2. 操作說明:「分析」——「降維」——「k平均值聚類分析」

將標化後的案例選入變量中,選擇customer id作為標記個案,聚類數輸入5,

迭代次數輸入200

「保存」中確認保存聚類成員

「選項」中選擇「ANOVA表」複選框

注意:初始聚類中心有K-Means過程自動進行計算,也可以導入指定文件讀入。

結果解釋:

1. 初始聚類中心:spss自動完成,原則是使得各初始類中心的散點在所有變量構成的空間中離的儘可能遠,而且儘量廣的分布在空間中

2. 迭代歷史記錄

我刪除中間迭代點,可看出類別中心點變化越來越小,直到趨近0,迭代35補終止

3. 方差ANOVA的結果:

按照類別分組後,對所有變量一次進行單因素方差分析,然後匯總在一張表格中。並根據F值近似得到那個變量在聚類分析中的作用更大的結論。

各變量對聚類結果的重要程度排序為:總通話時長>工作日上班時期電話時長>工作日下班時期電話時長>平均每次通話時長>國際電話時長>周末電話時長。

4. 每個聚類中的個案數量:

「保存」了聚類成員。自動生成變量「QCL-1」存儲各案例被歸入的類別號,以便後續分析。

End.

來源:知乎

希望通過上面的一些總結,可以對大家在數據分析工作中提供一些幫助。

相關焦點

  • 聚類分析與SPSS實操演練
    Sosine相似度將樣本各變量看成 k 維空間向量,然後計算各個向量之間夾角的餘弦。順序或名義變量的樣本親疏程度測量方法 :每一小類的重心就是該類中所有樣本在各個變量上的均值代表點。(6)離差平方和法(Ward’s Method)小類合併的方法:在聚類過程中,使小類內各個樣本的歐氏距離總平方和增加最小的兩小類合併成一類。1.1.1、層次聚類分析中的R型聚類定義:層次聚類分析中的R型聚類是對研究對象的觀察變量進行分類,它使具有共同特徵的變量聚在一起。
  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • 有了K均值聚類,為什麼還需要DBSCAN聚類算法?
    >3138字,預計學習時長16分鐘圖源:unsplash聚類分析是一種無監督學習法聚類分析包括基於不同距離度量的多種不同方法。例如。K均值(點之間的距離)、Affinity propagation(圖之間的距離)、均值漂移(點之間的距離)、DBSCAN(最近點之間的距離)、高斯混合(到中心的馬氏距離)、譜聚類(圖之間距離)等。
  • 安全數據的聚類分析和判別分析概述
    1 聚類分析的基本原理1)聚類分析的含義聚類分析是根據「物以類聚」的原理,對樣品或指標進行分類的一種多元統計分析方法,將安全統計對象的集合分成多個類的分析過程。通常聚類分析可分為Q型聚類和R型聚類,Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。
  • 教你spss使用的正確姿勢
    軟體不會用,各種數據傻傻搞不清楚,尤其是怎麼分析數據更是暈頭轉向,當然跟著靠譜的老師學習,一邊看實操一邊自己做,這樣肯定事半功倍。本次我們整理出了spss的數據分析教程,都是有實操的,只要跟著做,絕對沒問題!
  • 分類分析之判別分析,SPSS判別分析實操
    與聚類分析不同的是【聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。而且事先並不知曉分類標準】,而判別分析先根據已知類別的事物的性質,利用某種技術建立函數式,然後對未知類別的新事物進行判斷以將之歸入已知的類別中。
  • 【數據分析】k-mean聚類分析顆粒物
    終止條件可以是以下任何一個:得到相互分離的球狀聚類,在這些聚類中,均值點趨向收斂於聚類中心。一般會希望得到的聚類大小大致相當,這樣把每個觀測都分配到離它最近的聚類中心(即均值點)就是比較正確的分配方案。
  • SPSS因子分析案例
    【二、簡單實例】現在有 12 個地區的 5 個經濟指標調查數據(總人口、學校校齡、總僱員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請確定出這 12 個地區的綜合評價指標。【三、解決方案】1、spss因子分析同一指標在不同地區是不同的,用單一某一個指標難以對12個地區進行準確的評價,單一指標智能反映地區的某一方面。
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。
  • 「數學建模」SPSS案例分析
    欲將兒童生長發育分為四期,故指定聚類的類別數為4,請通過聚類分析確定四個兒童生長發育期的起止區間。實驗步驟:導入數據並設置數據格式:數據導入後,打開變量視圖,將數據測量項下方類型改為標度;聚類分析:在數據視圖中,選擇分析->分類->k-均值聚類,打開窗口後即可進行相關參數設置;k-均值聚集的參數設定:將四項增長率衡量指標選入「變量」中,在右上角「保存」選項中,勾選中「與聚類中心的距離」,繼續並確定後即可;經過上述實驗步驟後,最終的到的
  • 關於SPSS因子分析的幾點總結
    同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。在主成分分析中,最終確定成分是原始變量的線性組合。每個主成分都是由原有p個變量線性組合得到。在諸多主成分Z i中,Z 1在方差中佔的比重最大,說明它綜合原有變量的能力最強,越往後主成分在方差中的比重也小,綜合原信息的能力越弱。
  • 機器學習之分類算法K-Means介紹與代碼分析(篇四)
    維基百科,自由的百科全書中提到K-平均算法(英文:k-means clustering)源於信號處理中的一種向量量化方法,現在則更多地作為一種聚類分析方法流行於數據挖掘領域。k-平均聚類的目的是:把n個點(可以是樣本的一次觀察或一個實例)劃分到k個聚類中,使得每個點都屬於離他最近的均值(此即聚類中心)對應的聚類,以之作為聚類的標準。
  • SPSS方差分析方法與實例演練
    那麼我們一起了解一下方差分析基本概念、 單因素方差分析、 多因素方差分析及協方差分析;同時在spss中的操作演練。方差分析的前提條件,即不同水平下,各總體均值服從方差相同的正態分布,因此方差分析問題就轉換成研究不同水平下各個總體的均值是否有顯著差異的問題。
  • 「spss數據分析系列」方差分析
    上一課我們講的是t檢驗,t檢驗是用於2個類別的均值對比,如果是3分類以及以上的分類的均值對比,則採用方差分析。t檢驗是用的t分布來檢驗時候接受假設,方差分析則用的F分布,如下圖。二、單因素方差分析理論部分:1、在某個群體進行抽樣,用均值代表集中趨勢,用方差代表離散趨勢。
  • 「spss數據分析系列」t檢驗
    一、t統計量及t檢驗本人介紹spss數據分析中的t檢驗,我們平時分析數據時經常對比均值,其中兩分類的均值對比採用的t檢驗,這裡強調一下的是兩分類的對比,其他還有獨立樣本t檢驗,配對t檢驗,我們在下面spss軟體部分再做說明
  • 統計界「扛把子」—SPSS,還有比它更好用的寶藏軟體嗎?
    無論你是要做簡單的統計描述還是需要進行多元回歸、聚類分析等複雜的多因素統計都不在話下!  操作簡便,界面友好,簡直是小白福音  SPSS使用門檻較低,易於操作、輕鬆入門!  通過理論結合案例的形式分享出來,成功幫助30000+新老科研者解決統計分析難題,分分鐘掌握統計學方法。
  • 附案例實操
    那麼如何構建用戶畫像,或者說構建精細化的運營體系,這個過程的數據工作其實就是:畫像相關數據的整理和集中找到同業務場景強相關數據對數據進行分類和標籤化(定量to定性)依據業務需求引入外部數據按照業務需求進行篩選客戶(DMP的作用)本次案例就來分享如何通過數據挖掘的手段對用戶進行精細化分類,以保險行業為例。
  • SPSS實操教程——單因素方差分析
    單因素方差分析:分析——比較均值——單因素ANOVA分析然後將應變量和自變量選入相應可選框,點擊選項,勾選如下圖選項:直接點擊,連結相關教程:SPSS實操之配對T檢驗SPSS實操之T檢驗(一)——單樣本T檢驗SPSS實操 | 兩個獨立樣本均數比較的t檢驗SPSS實操 | 一元線性回歸SPSS:如何進行探索分析?
  • 數據分析基礎相關性分析,SPSS實操
    二、SPSS相關性分析操作spss相關性分析操作流程SPSS方差分析方法與實例演練spss描述性分析基本數據統計分析--spssSPSS主界面操作:spss操作界面與數據分析基礎介紹