基礎準備
前面我們對原始數據的處理方法進行了歸納介紹,請點擊下方藍字進行回顧:
數據分析技術:數據的歸納分析;
在上面的文章中,我們總結了針對個案聚類以及針對變量降維的不同方法,其中分層聚類法既可以對個案進行聚類,也可以對變量進行降維,回顧請點擊藍色文章名稱:SPSS分析技術:分層聚類分析。
下面,我們介紹個案聚類的另外一種方法:K-Mean聚類分析。
K-Mean聚類
分層聚類解決了自行確定類別中心並依據最短距離逐層歸類的問題,但在樣本規模非常大(例如幾萬個個案)的情況下,分層聚類存在著效率不足的問題。
K-Mean聚類也叫做快速聚類,是在明確類別中心點和類別數量情形下的歸類技術,具有高效,便捷的特點。K-Mean聚類事先預設類別中心點和指定類別數,讓大批量個案快速地依附到各個類別中心點,從而實現快速歸類。快速聚類必須滿足兩個條件:
由於類別中心和類別數都已經確定,所以對個案的歸類就變得非常簡單、快捷,只需判斷當前個案距離哪一個類別中心最近,就讓該個案直接歸結到最近的類別中。
隨著快速聚類技術的發展,為了糾正類別中心不準確或者缺乏初始類別中心等問題,快速聚類也允許數據分析者事先不指定類別中心,而是由系統藉助小規模樣本自動以迭代的方式生成各個類別中心點,SPSS系統藉助這些中心點快速聚類。基於快速聚類模型,可以快速地實現大規模樣本的歸類,快速結束聚類過程。
快速聚類方式
快速聚類共有兩種基本方式:
迭代與分類是指在開始對個案實施歸類前,事先基於個案數據執行迭代操作,確定類中心,然後再執行歸類操作。迭代與分類方式既可以施加於已有類中心的歸類操作,也可以施加於尚沒有類中心的歸類操作。如果施加於已有類中心的歸類操作,系統會先以給定的類中心為基礎,進行迭代,確立更加優質的類中心。僅分類是指僅僅做分類操作,不做確立類中心的工作,因此這種方式通常施加於類中心已經確定且不允許修改的情況下。
輸入與輸出
根據快速聚類的定義,在執行快速聚類時應該提供待分析的原始數據、聚類數目值和初始的類中心。類中心信息可由指定的數據集或數據文件提供。如果沒有提供初始類中心,則需要選擇迭代與分類模式由系統自動產生類中心。在完成了快速聚類後,系統應該完成對所有個案的分類,同時產生新的類中心點。
K-Mean聚類流程
對大規模個案進行聚類時,通常不是直接對全部個案實施迭代與分類方式的聚類,而是依據以下流程操作:首先,抽取部分有代表性的樣本,實施小規模樣本的迭代與分類,生成合適的類中心,並把類中心信息存儲在指定的數據集中;然後,啟動針對大規模樣本的快速聚類命令,讀取已經存儲在指定數據集中的類中心信息,藉助已有的類中心,使用僅分類方式快速地對大規模樣本歸類。
範例分析
我國的不同省份因為環境,經濟發展水平和發展方向不同,能源的消耗量和利用效率也是有很大不同。現在有一份《XXX年各省能源消耗數據》,請根據數據將所有的省份分為三類。數據如下圖:
(所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載)
分析步驟
1、觀察數據,發現數據中,三個變量的數量級相差太大,所以要先對數據進行標準化處理。選擇菜單【分析】-【描述性統計】-【描述】,在對話框中,將【標準化得分另存為變量】選中,在原數據表中,新增三項Z得分變量,如下圖:
2、進行K-Mean聚類分析;選擇菜單【分析】-【分類】-【K平均值聚類】。按照下面圖片在跳出的對話框中選擇相應的項目。另外,在【保存】中選中「聚類成員」和「與聚類中心距離」項目;在【選項】中選中「初始聚類中心」、「ANOVA表」和「每個個案的聚類信息」。點擊【確定】。
結果解讀
1、每個個案的分類信息表;
表格中輸出了每個個案被分配的類以及與類中心的距離。
2、最終聚類中心、類別之間距離及每個類別中的個案數表格。
從結果可以知道這樣幾個結果:1、三個聚類中心的坐標值的大小是1<2<3;2、被分到第一類的有24個省;第二類的有5個省;第三類的有1個省。
如果想知道每類省份的具體能源消耗情況,可以對三類省份的能源消耗平均值進行比較。這時,我們可以再做一次按照單因素方差分析,因素就是類別。選擇菜單【分析】-【比較平均值】-【單因素ANOVA】,將三個能耗變量的實際數據選為變量,將新產生的變量QCL(類變量)選為因子。如下圖所示:
結果解讀
從結果可以知道,分配到第一類的24個省份的能耗情況都是比較低的,第二類的5個省份能夠較高,是第一類的2倍左右,第三類的省份只有一個,寧夏,它的能耗最高,是第一類的4倍。
所有例題的數據文件都已經上傳到QQ群中,需要的朋友可以前往下載。
溫馨提示:
SPSS教學視頻,請點擊:《SPSS入門基礎》視頻教程;
生活統計學QQ群:134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。
生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。
數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!