今天想寫一下聚類分析方法之一:K—Mean聚類法
PART
01
聚類分析模型簡介
聚類分析沒有過多的統計理論支持,也沒有統計檢驗對聚類結果的正確性「負責」,僅僅按照所定義的距離將數據歸類而已。
PART
02
聚類分析入門
聚類分析實質就是按照距離的遠近將數據分為若干個類別,以使得類別內數據的「差異」儘可能小,類別間「差異」儘可能大。
1. 所用的變量類型:一類是分類變量;一類是連續變量。連續變量一般使用歐式平方距離,分類變量使用卡方作為距離指標。
2. 多數傳統聚類方法只能使用單一種類的變量進行分析,如果數據中同時有連續和分類兩類變量,由於連續變量攜帶信息量遠多於分類變量,可考慮或者只採用連續變量進行分析,將分類變量用於結果的描述和驗證;或者將分類變量按照啞變量的方式拆分多個二分類變量,然後按照連續變量的方式進行分析。但多採用智能聚類方法,如兩步聚類法。
3. 聚類方法:大致分為兩類:層次聚類法、非層次聚類法
4. 距離的定義:SPSS中最常用的距離定義為歐式幾裡得距離。
5. 數據的標準化問題:各變量數量級相差較大,要對數據進行標準化,使不同數量級的數據之間可以比較。標準化方式有:標準正態分布、或把數據變換為範圍在0-1之間的數據。
PART
03
聚類分析的方法體系
1. 非層次聚類法:將案例快速分成K個類別,一般而言具體的類別個數需要在分析前就加以確定,整個分析過程使用迭代的方式進行。其中K—均值聚類法最為常用,也稱為快速聚類法(不能自動標準化,需要人為手動處理)。
2. 層次聚類法:首先確定距離的基本定義,以及類間距離的計算方式,隨後按照距離的遠近通過把距離較近的數據依次併入一類,直到數據完全歸為一個類別為止。—「樹狀圖」來表示聚類結果。
3. 智能聚類方法:針對海量數據以及距離指標往往不能滿足需求的情況,發展出智能聚類方法,常用:兩步聚類法,最近鄰元素法,和神經網絡中的自組織圖。
PART
04
k-均值聚類法(快速聚類法)
方法原理:可用於大量數據進行聚類分析的情形。
1. 確定聚類的類別數量,分析者指定,可反覆嘗試並得到一個合理的最優方案;
2. 指定聚類中心,初步確認每個類別的原始中心點;
3. 逐一計算各案例到各個類別中心的距離,按照距離最近的原則歸入各個類別,並計算各類別的新中心點;
4. 按照新中心位置,重新計算各案例距離新的類別中心的距離,並重新進行歸類、更新類別中心點;
5. 重複迭代,直到滿足一定的收斂標準或者達到事先指定的迭代次數為止。
k-均值聚類法使用範圍有限:要求事先知道需要將樣品分為多少類;只能對案例進行聚類而不能對變量聚類;所使用的變量必須是連續性變量,且對變量的多元正態性、方差齊性等條件要求較高
PART
05
案例:移動通信客戶細分
1. 預分析:
將數據標準化:「分析」——「描述統計」——「描述」
2. 操作說明:「分析」——「降維」——「k平均值聚類分析」
將標化後的案例選入變量中,選擇customer id作為標記個案,聚類數輸入5,
迭代次數輸入200
「保存」中確認保存聚類成員
「選項」中選擇「ANOVA表」複選框
「
注意:初始聚類中心有K-Means過程自動進行計算,也可以導入指定文件讀入。
」
結果解釋:
1. 初始聚類中心:spss自動完成,原則是使得各初始類中心的散點在所有變量構成的空間中離的儘可能遠,而且儘量廣的分布在空間中
2. 迭代歷史記錄
我刪除中間迭代點,可看出類別中心點變化越來越小,直到趨近0,迭代35補終止
3. 方差ANOVA的結果:
按照類別分組後,對所有變量一次進行單因素方差分析,然後匯總在一張表格中。並根據F值近似得到那個變量在聚類分析中的作用更大的結論。
各變量對聚類結果的重要程度排序為:總通話時長>工作日上班時期電話時長>工作日下班時期電話時長>平均每次通話時長>國際電話時長>周末電話時長。
4. 每個聚類中的個案數量:
「保存」了聚類成員。自動生成變量「QCL-1」存儲各案例被歸入的類別號,以便後續分析。
End.
來源:知乎
希望通過上面的一些總結,可以對大家在數據分析工作中提供一些幫助。