SPSS分析技術:K-Mean聚類分析

2021-02-19 生活統計學

基礎準備

前面我們對原始數據的處理方法進行了歸納介紹,請點擊下方藍字進行回顧:

數據分析技術:數據的歸納分析;

在上面的文章中,我們總結了針對個案聚類以及針對變量降維的不同方法,其中分層聚類法既可以對個案進行聚類,也可以對變量進行降維,回顧請點擊藍色文章名稱:SPSS分析技術:分層聚類分析。

下面,我們介紹個案聚類的另外一種方法:K-Mean聚類分析。

K-Mean聚類

分層聚類解決了自行確定類別中心並依據最短距離逐層歸類的問題,但在樣本規模非常大(例如幾萬個個案)的情況下,分層聚類存在著效率不足的問題。

K-Mean聚類也叫做快速聚類,是在明確類別中心點和類別數量情形下的歸類技術,具有高效,便捷的特點。K-Mean聚類事先預設類別中心點和指定類別數,讓大批量個案快速地依附到各個類別中心點,從而實現快速歸類。快速聚類必須滿足兩個條件:

由於類別中心和類別數都已經確定,所以對個案的歸類就變得非常簡單、快捷,只需判斷當前個案距離哪一個類別中心最近,就讓該個案直接歸結到最近的類別中。

隨著快速聚類技術的發展,為了糾正類別中心不準確或者缺乏初始類別中心等問題,快速聚類也允許數據分析者事先不指定類別中心,而是由系統藉助小規模樣本自動以迭代的方式生成各個類別中心點,SPSS系統藉助這些中心點快速聚類。基於快速聚類模型,可以快速地實現大規模樣本的歸類,快速結束聚類過程。

快速聚類方式

快速聚類共有兩種基本方式:

迭代與分類是指在開始對個案實施歸類前,事先基於個案數據執行迭代操作,確定類中心,然後再執行歸類操作。迭代與分類方式既可以施加於已有類中心的歸類操作,也可以施加於尚沒有類中心的歸類操作。如果施加於已有類中心的歸類操作,系統會先以給定的類中心為基礎,進行迭代,確立更加優質的類中心。僅分類是指僅僅做分類操作,不做確立類中心的工作,因此這種方式通常施加於類中心已經確定且不允許修改的情況下。

輸入與輸出

根據快速聚類的定義,在執行快速聚類時應該提供待分析的原始數據、聚類數目值和初始的類中心。類中心信息可由指定的數據集或數據文件提供。如果沒有提供初始類中心,則需要選擇迭代與分類模式由系統自動產生類中心。在完成了快速聚類後,系統應該完成對所有個案的分類,同時產生新的類中心點。

 

K-Mean聚類流程

對大規模個案進行聚類時,通常不是直接對全部個案實施迭代與分類方式的聚類,而是依據以下流程操作:首先,抽取部分有代表性的樣本,實施小規模樣本的迭代與分類,生成合適的類中心,並把類中心信息存儲在指定的數據集中;然後,啟動針對大規模樣本的快速聚類命令,讀取已經存儲在指定數據集中的類中心信息,藉助已有的類中心,使用僅分類方式快速地對大規模樣本歸類。

範例分析

我國的不同省份因為環境,經濟發展水平和發展方向不同,能源的消耗量和利用效率也是有很大不同。現在有一份《XXX年各省能源消耗數據》,請根據數據將所有的省份分為三類。數據如下圖:


(所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載)

分析步驟

1、觀察數據,發現數據中,三個變量的數量級相差太大,所以要先對數據進行標準化處理。選擇菜單【分析】-【描述性統計】-【描述】,在對話框中,將【標準化得分另存為變量】選中,在原數據表中,新增三項Z得分變量,如下圖:


2、進行K-Mean聚類分析;選擇菜單【分析】-【分類】-【K平均值聚類】。按照下面圖片在跳出的對話框中選擇相應的項目。另外,在【保存】中選中「聚類成員」和「與聚類中心距離」項目;在【選項】中選中「初始聚類中心」、「ANOVA表」和「每個個案的聚類信息」。點擊【確定】。


結果解讀

1、每個個案的分類信息表;

表格中輸出了每個個案被分配的類以及與類中心的距離。

2、最終聚類中心、類別之間距離及每個類別中的個案數表格。


從結果可以知道這樣幾個結果:1、三個聚類中心的坐標值的大小是1<2<3;2、被分到第一類的有24個省;第二類的有5個省;第三類的有1個省。

如果想知道每類省份的具體能源消耗情況,可以對三類省份的能源消耗平均值進行比較。這時,我們可以再做一次按照單因素方差分析,因素就是類別。選擇菜單【分析】-【比較平均值】-【單因素ANOVA】,將三個能耗變量的實際數據選為變量,將新產生的變量QCL(類變量)選為因子。如下圖所示:


結果解讀

從結果可以知道,分配到第一類的24個省份的能耗情況都是比較低的,第二類的5個省份能夠較高,是第一類的2倍左右,第三類的省份只有一個,寧夏,它的能耗最高,是第一類的4倍。

所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載。

溫馨提示:

SPSS教學視頻,請點擊:《SPSS入門基礎》視頻教程;

生活統計學QQ群:134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。

生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。

數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!

相關焦點

  • spss聚類分析功能怎麼使用?spss聚類分析教程
    spss 是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦,下面小編就來告訴大家spss聚類分析使用教程吧!
  • SPSS聚類分析 I K-均值聚類法案例實操
    今天想寫一下聚類分析方法之一:K—Mean聚類法 PART 01 聚類分析模型簡介 聚類分析沒有過多的統計理論支持,也沒有統計檢驗對聚類結果的正確性「
  • spss聚類分析步驟
    spss是一個非常好用的統計分析軟體,spss有一個聚類分析的功能哦,但是很多人不知道spss聚類分析功能怎麼使用?spss聚類分析是一個將case分析的數據的功能哦 spss聚類分析使用步驟教程: 1、依次點擊:analyse--classify--hierarchical cluster,打開分層聚類對話框。如圖1所示
  • K-mean聚類(快速聚類)
    spss中提供了多種分類方法 ,如下圖所示,本文先介紹最簡單的一種,K-mean聚類,也稱這種聚類方法為
  • 聚類分析與SPSS實操演練
    一、聚類分析概率聚類分析是一種探索性的分析,個案所屬的群組特點還未知,也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,聚類分析變量的聚類分析類似於因素分析。兩者都可用於辨別變量的相關組別。
  • 聚類分析及其實現
    對於用戶(以個體為中心的)分類的方法主要有潛在類別分析和聚類分析。聚類分析(Cluster analysis)是對一組對象進行分組的方法。它基於這樣一種假設,相對於其它類的對象,同一類中的對象有著更高的相似性。組內相似性越大,組間差距越大,說明聚類效果越好。
  • SPSS因子分析案例
    因子分析在各行各業的應用非常廣泛,尤其是科研論文中因子分析更是頻頻出現。【二、簡單實例】現在有 12 個地區的 5 個經濟指標調查數據(總人口、學校校齡、總僱員、專業服務、中等房價),為對這 12 個地區進行綜合評價,請確定出這 12 個地區的綜合評價指標。【三、解決方案】1、spss因子分析同一指標在不同地區是不同的,用單一某一個指標難以對12個地區進行準確的評價,單一指標智能反映地區的某一方面。
  • spss代做風口不再,stata代做才是未來?
    spss是IBM家的軟體,也是網際網路上第一代賣統計技術的人選擇的切入口。三年過去了,時過境遷,我們看一看那些淘寶店家發出的單子,可以發現,這個簡單的傻瓜相機的需求越來越薄弱,取而代之的是需要編程的一些代理做需求。
  • 聚類分析的基本概況
    五、分析步驟:1.定義問題與選擇分類變量2.聚類方法3.確定群組數目4.聚類結果評估5.結果的描述、解釋六、主要應用:1.在商業上:聚類分析被用來發現不同的客戶群,並且通過購買模式刻畫不同的客戶群的特徵。
  • SAS用K-Means 聚類最優k值的選取和分析
    輸入:樣本集D,簇的數目k,最大迭代次數N;輸出:簇劃分(k個簇,使平方誤差最小);算法步驟:(1)為每個聚類選擇一個初始聚類中心;(2)將樣本集按照最小距離原則分配到最鄰近聚類;(3)使用每個聚類的樣本均值更新聚類中心;(4)重複步驟(2)、(3),直到聚類中心不再發生變化;(
  • 聚類分析原理和實操
    ']   # 定義每個分類的顏色for i in range(k):          # k為分類的個數 v = tsne[r[u'類別數目'] == i]    plt.plot(v[0],v[1],c[i])
  • 數據分析難?教你spss使用的正確姿勢
    軟體不會用,各種數據傻傻搞不清楚,尤其是怎麼分析數據更是暈頭轉向,當然跟著靠譜的老師學習,一邊看實操一邊自己做,這樣肯定事半功倍。本次我們整理出了spss的數據分析教程,都是有實操的,只要跟著做,絕對沒問題!
  • R語言學習筆記之聚類分析
    在聚類之前我們可以先進行一些必要的數據檢查即數據描述性統計,如平均值、標準差等desc_stats <- data.frame( Min=apply(USArrests, 2, min),#minimumMed=apply(USArrests, 2, median),#medianMean=apply(USArrests, 2, mean
  • 關於SPSS因子分析的幾點總結
    對因子分析的幾次嘗試與實踐,有一些新的認識。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子的狀態。
  • R語言聚類分析及可視化展示
    聚類分析是發現數據集蔟或模式的數據探索技術。常用的聚類方法有基於劃分的聚類、基於層次的聚類、基於密度的聚類幾種。
  • SPSS分析技術:判別分析
    基礎準備前面歸納了對原始數據的歸納總結技術,並介紹了對個案的兩種聚類方法,需要回顧請點擊下方藍色文章名稱閱讀歷史文章:
  • spss怎麼分析因子?spss因子分析法詳細步驟
    spss不僅可以分析主成分 ,還可以分析因子哦,但是很多朋友不知道spss怎麼分析因子?小編下面有一個spss因子分析法詳細步驟哦,只要大家按照spss因子分析法詳細步驟一步步操作就知道spss怎麼分析因子了哦,下面就和小編一起來看看吧!
  • SPSS方差分析方法與實例演練
    在數據分析過程中,為了進行兩組以上均數的比較,往往可以使用方差分析方法。那麼我們一起了解一下方差分析基本概念、 單因素方差分析、 多因素方差分析及協方差分析;同時在spss中的操作演練。在spss中經常使用方差齊性檢驗(都是levene檢驗),一般情況下,只要sig值大於0.05就可以認為方差齊性的假設成立,因此方差分析的結果應該值得信賴;如果sig值小於或等於0.05,方差齊性的假設就值得懷疑,導致方差分析的結果也值得懷疑。
  • spss主成分怎麼進行分析?spss主成分分析法步驟
    spss 這款軟體功能非常多哦,還可以分析主成分哦,但是很多朋友不知道spss主成分怎麼進行分析?小編下面準備了spss主成分分析法詳細步驟,大家安裝 詳細步驟一步步操作就知道spss主成分怎麼進行分析?
  • 基本數據統計分析--spss
    在數據分析工作中,描述性統計分析是我們日常使用率最高的,主要的基本統計分析維度包括但不限於均值、 中位數、眾數、方差、百分位、頻數、峰度、偏度、探索分析、交叉聯列表分析、多選項分析、基本統計報表製作等。而這些功能操作在spss中是可以直接使用的。當然我們也需要理解相關定義。