對數據進行描述統計,觀察和了解其分布、變化的狀態,這是展開具體統計的基礎工作。而現實數據中,分組分類數據是常見,因此針對分組/每一組數據的描述統計則成為普遍需要掌握的技能。比如我想知道不同職位等級員工的當前薪金水平。職位等級含經理和非經理兩種,即經理人(管理層)和非經理人(普通職工)工資差異對比。這就是分組的描述統計。依據分組變量,分別考察兩組或多組樣本在某個指標數據的集中趨勢、離散趨勢。注意,在SPSS中我們習慣於把分組變量稱之為因子或自變量,把要評價對比的指標稱之為因變量或目標變量。另外,此處說的指標/因變量應當為連續數據。關於連續數據分組描述統計,建議採用SPSS的【平均值】菜單來完成,它可以直接進行分組的平均值、標準差計算,非常方便。考察不同職位類別的工資水平差異。job是分類數據,sal是連續數據。當前薪金為因變量,職位類別為分組變量,點開【選項】按鈕對話框。對連續數據,選擇哪些統計學指標來描述和展示數據的集中趨勢、離散趨勢呢?直白點說,首要考慮平均數看集中趨勢,標準差看離散變化。平均值 (Mean). 集中趨勢的測量。算術平均,總和除以個案個數。標準差 (Standard Deviation). 對圍繞平均值的離差的測量。在正態分布中,68% 的個案在平均值的一倍標準差範圍內,95% 的個案在平均值的兩倍標準差範圍內。例如,在正態分布中,如果平均年齡為 45,標準差為 10,那麼 95% 的個案將處於 25 到 65 之間。平均值能理解吧,如果這個不能理解那不要學統計了,平均數是最生活化的統計量,沒有之一。標準差能反映一個數據集的離散程度。它講得是靠近或偏離平均數的程度。一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。例如,兩組數{0,5,9,14}和{5,6,8,9}其平均值都是7,但很明顯第組數具有較小的標準差。Mean平均值,職工平均薪金28053美元,經理平均薪金63977美元,哇哦果然是要升職才能加薪啊。大家注意,兩組數據的平均值相差很大,所以就不要比較後面的兩個標準差SD了,比如不要說經理人的薪金標準差大於職工的薪金標準差,沒有可比性。當然最起碼的,如果你發現一組數據的標準差遠大於平均值了,說明啥?說明這組數據波動太大了,數據的離散程度很大很大,有較多極值,數據質量堪憂。當然,集中程度除了平均數外,還有中位數,數據不那麼服從正態分布時,中位數能比平均值價值更大些。而離散程度的指標除了標準差外,還有比人方差、變異係數等。
--
還在為數據分析該如何學而煩惱的朋友,趕緊學起來,跟著數據分析入門與進階線路圖學,一步一步進階數據分析大師。
量身打造,少走彎路,6~8折限時優惠、永久有效,隨到隨學,Q群答疑
A系列是數據分析入門必學、必備課程
非編程學習路線一(SPSS方向):A+B
非編程學習路線二(Modeler方向):A+C
編程學習路線一(Python方向):A+D
編程學習路線二(R方向):A+E
長按識別下方二維碼進入課程頁面學習,也可點文末「閱讀原文」進入。