連續型數據,又稱度量數據,是與某種標準比較所得到的數據。
頻數分布表是對連續性原始數據的歸納整理,其主要目的是反映樣本數據的分布規律。直方圖是對頻數分布表最的可視化。
本文以圓周率(π)的浦豐投針模擬數據為例,介紹Excel中頻數分布表和直方圖的整理方法。
數據下載地址:
連結:http://pan.baidu.com/s/1qYwQ0Lu 密碼:rrx3
樣本含量為100,每個模擬π值鈞由100次模擬投針產生。
頻數分布表
1. 數據排序(sort):首先對數據按從小到大排列(升序)或從大到小排列(降序)。排序的作用見次數分布圖表的整理。
2. 求極差(range):所有數據中的最大值和最小值的差數,稱為極差,即整個樣本的變異幅度。利用Excel的「=max()」函數得最觀察值為3.1535,利用「=min()」得最小值為3.1295,極差為3.1535-3.1295=0.024。
3. 確定組數和組距(classinterval ):根據極差將樣本數據分為若干組,每組的距離相等,稱為組距。組數的個數與樣本含量相關。下表是組數與樣本含量的經驗參考。
本例中為100,可分為8—16組,假定分為8組,則組距為0.024/8=0.003。
4.計算組限(class limit )和組中點值(組值,classvalue )。組限最小值應小於樣本數據最小值,組限最大值應大於樣本數據最大值。
本例以最小值3.1295作為第一組的組限,則第一組的最大值為1.3295+0.003=3.1325。組中點值=(組下限+組上限)/2=3.1310
本例操作如下圖所示,首先輸入表頭、第一組的上下限和組中點值。滑鼠選中E3:G10區域,鍵盤輸入公式「=E3+0.003」,按「ctrl+enter」組合鍵填充。
5. 把樣本數據按分組數列的各組組限歸組。滑鼠選中H3:H10單元格,輸入公式「=FREQUENCY(B:B,F3:F10)」,然後按「ctrl+shift+enter」組合鍵填充。
6. 選中「I3:I10」單元格,輸入公式「=H3/100」,按「ctrl+enter」組合鍵填充。頻數分布表整理完畢。
直方圖繪製
1. 依次點擊「插入」→「柱形圖」→「二維柱形圖」。選中圖片,右鍵→「選擇數據」,在彈出的對話框中,將組中點值作為水平軸標籤,將頻數作為縱坐標軸標籤。這步操作產生柱形圖。
2. 直方圖為連續型數據的可視化,在柱子之間不應有間隔。
選中圖形中的柱子,右鍵→「設置系列數據格式」,將「分類間隔」設置為0,將「邊框顏色」設置為實線。
這個直方圖很醜陋,主要原因有兩個:
1. 顏色等需要美化。
2. 最關鍵的一點是,這個直方圖並不能夠反映數據的真實面貌。根據頻數分布表畫直方圖的要點,就是變換不同的組數,找到最能反映數據真實分布規律的那張圖。
本例中,假如將最小值作為第一組的中點值,組數設定為7組,直方圖經過適當美化之後,看上去會好很多。而且基本能夠反映圓周率(π)的真實值。