本篇主要介紹關於如何通過一系列數據創建並繪製頻率分布圖的方法和建議。Graphpad中文官方用戶指南現已上線,建議大家到官網學習一下,快速上手Prism8~
查看數據分布
首先我們要思考是否真的需建立頻率分布?不妨先看看自己的數據分布情況。
因為在很多情況下,要了解數據分布情況,只需要畫個列散點圖就可以。
左側圖形是根據「頻率分布」樣本數據繪製的列散點圖(以平均值為線);中間圖形是相同數據的盒須圖,以圓圈形式示出了低於2.5%和高於97.5%的數值。請注意,Prism為如何定義盒須圖提供了幾種選擇;右側圖形是一個Prism8特有的小提琴圖。該圖示出了中值和四分位數,就與盒須圖一樣,但也顯示出了平滑的頻率分布,你可以一眼看出數據是如何分布的。三個圖表均可由Prism直接根據列數據表創建,無需手動分析的過程。
方法:Prism創建頻率分布
1. 輸入數據
選擇「列」表格和列散點圖。如果你尚未準備好輸入自己的數據,請選擇樣本數據集:頻率分布數據和直方圖。
2. 選擇分析
點擊「分析」,然後從「列」數據分析列表中選擇「頻率」分布。
3. 選擇分析選項
在頻率分布中,每個箱型包含的數值數量在定義該箱型的數值範圍之內。在累積分布(Cumulative Distribution)中,每個箱型包含的數值數量位於範圍之內 或者 箱型下方。並且根據定義,最後一個箱型是數值總數。下圖左側表示的是頻率分布,右側表示的是相同數據下的累積分布,兩者均繪製每個箱型中的數值數量。
累積分布的主要優點是你無需決定箱寬。而且,你可以將精確累積分布製成如下所示。數據集有250個數值,因此該精確累積分布有250個點,這使得它有點參差不齊。當你選擇使用百分比而非分數製成累積頻率分布的表格時,這些百分比實際上是百分位數,結果圖有時稱為 「百分比圖」。
4. 相對頻率OR絕對頻率?
選擇相對頻率用於確定每個箱型中數值的分數(或百分比),而非每個箱型中數值的實際數量。例如,如果45個數值中有15個數值落入一個箱型中,則相對頻率為0.33或33%。
如果選擇累積頻率和相對頻率,可以使用概率軸繪製分布圖。以此方式繪圖時,高斯分布呈線性。
5. 箱寬
如果你選擇累積頻率分布,建議選擇創建精確的分布。精確分布無需選擇箱寬,每個數值都會被單獨繪出。
普通的頻率分布,就需要確定箱寬。如果箱寬過大,只有幾個箱型,就無法很好地展現數據的分布情況(如下圖左一)。如果箱寬過小,也無法很好地展現數據的分布情況(如下圖右一)。
到底放多少個箱型合適呢?這取決於你的分析目標和樣本量。如果你的樣本量足夠多,即使展示的箱型很多,頻率分布也會很平滑。有一條經驗法則是:箱型的數量等於樣本量以2為底的對數。Prism在自動生成箱寬時,採用的就是這個法則。(同時也會滿足默認箱寬為一個整數)
下圖示出了具有三種不同箱寬的相同數據。中間圖表示出了正常的數據分布。左側圖表中的細節過少,而右側圖表中的細節則過多。
6. 箱型範圍
除決定控制箱型數量的箱寬外,你還可以選擇第一個箱型的中心。這可能很重要。假設你的數據是百分比,從0到100。數值不可能小於0(負值)或大於100。假設你想將箱寬設為10,這樣就可以做成10個箱型。如果第一個箱型以0為中心,其將包含 - 5至5之間的數值;下一個箱型將包含5至15之間的數值,下一個箱型將包含15至25之間的數值,以此類推。由於不可能出現負值,因此,第一個箱型實際上只包含0 - 5之間的值,因此,其有效箱寬是其他箱寬的一半。此外,還需注意的是,有11個箱型包含數據,而非10個。
如果你改為第一個箱型以5為中心,它將包含0 - 10之間的值,下一個箱型包含10 - 20之間的值,等等。現在,所有箱型均包含相同數值範圍,且所有數據均包含在十個箱型中。
邊界上的一個點與保持較大數值的箱型對應。因此,如果一個箱型由3.5變為4.5,下一個箱型由4.5變為5.5,則4.5將落在第二個箱型中(由4.5變為5.5)。
7. 重複數據
如果你輸入重複值,則Prism可以將每個重複數據放入其相應的箱型中,或者計算重複數據的平均值,且只將平均值放入箱型中。在分析過程中,會忽略所有過小而無法放入第一個箱型的數值。此外,你還可以輸入上限,以便從分析中忽略較大的數值。
8. 圖形示例
更多Prism示例請參考GraphPad官方用戶指南。