直方圖是一種用於展示定量數據分布的常用圖形。通過直方圖,用戶可以很直觀的看出數據分布的形狀、中心位置以及數據的離散程度等。很多軟體也可以為直方圖添加上正態曲線,進一步通過正態曲線判斷數據的正態性。
直方圖與柱狀圖的區別
需要注意的是,直方圖和我們常見的柱狀圖可不一樣。直方圖用於顯示定量數據的分布;而柱狀圖對比定類數據。在繪製時,直方圖是按照數值大小進行分組排列,前後順序不可變更;柱狀圖則是對分類對象進行分組,而不是根據具體數值進行分組,分組順序可以調整。
使用場景
直方圖一般在初步研究中使用,對數據分布特徵進行描述。以及在判斷數據正態性時,可作為初步判斷工具。
操作步驟
假設我們有以下一份數據,數據集中顯示了某市121名成年男性的血紅蛋白量。希望通過直方圖對觀測數據圖形化,以判斷該數據是否滿足正態分布。
原始數據
登錄SPSSAU,選擇【可視化】--【直方圖】。
SPSSAU【可視化】-【直方圖】
將分析項拖拽至右側分析框。單擊開始分析。
組數可以由自己設定,也可默認由系統設置,這裡的組數指的就是直方圖柱子的個數。選擇的組數過大或過小都會影響數據的展示。一般情況下默認由系統確定組數即可。
直方圖如何解讀
橫軸各坐標為各分組的起止範圍;左邊Y軸代表的是正態曲線的概率密度;右側Y軸代表頻率。
通過直方圖可以得到以下信息:
(1)顯示數據波動及分布情況,有無離群值等
通過上圖可以看出觀測樣本的血紅蛋白量在134.47~141.17(g/L)這個區間上的統計頻次最高。這與正常值是相吻合的(120~160g/L),說明該數據基本能夠反映該市成年男性的血紅蛋白量的正常情況。
(2)顯示數據正態性
正態曲線基本對稱,且呈「鐘形」分布,說明數據基本滿足正態分布。
其他正態性檢驗方法
除上面介紹的直方圖判斷正態性,檢測數據正態性的方法還有很多,這些方法在SPSSAU裡均有提供。
不同方法判斷正態性有時可能出現結果矛盾,這時該如何處理?或者數據出現不正態,該如何辦?
這些在之前的文章中都有詳細總結,有需要大家可參看SPSSAU往期文章內容。