標準差(standard deviation, SD)用來衡量一組數據的變異性或分散性,單位與該組數據的單位相同。
標準差的表示方法有兩種:
1. 平均值±標準差,並且聲明後面這個值就是標準差。例如下圖:
2. 有人認為,由於標準差是單個值,因此不應該跟隨正負號,應該單獨表示。例如下圖:
標準差的計算步驟如下:
1. 計算每個值與樣本均值之差的平方;
2. 將這些值加起來;
3. 將總和除以N-1(此時稱為方差);
4. 取平方根求得標準差。
在第三步中,為什麼是除以N-1而不是N?
因為我們想通過樣本來推斷整體,得出一般性的結論,也就是說我們想知道的是總體的SD,除以N-1算出來的是對總體標準差的最佳估測。在步驟1中,計算每個值與平均值之間的差,這裡的平均值是樣本的平均值,總體的平均值是不知道的,樣本的均值與真實的總體均值是有差異的;在第2步中算出的值要比使用真實的總體均值要小(不可能大),所以除以N-1而不是除以N。
當然,如果只是量化一組特定數據的變化,並不打算進行推斷以得出更廣泛的結論,這個時候就除以N,得出的SD就是這組特定數據的SD。比如,在量化考試成績之間的差異時,全年級全部人的考試成績都用來分析。
GraphPad中計算SD是基於N-1的,excel中函數STDEV ()是基於N-1,函數STDEVP ()是基於N的。
當數據來自高斯分布時,約有68%的數據分布在平均值±一個標準差之內,約有95%的數據分布在平均值±兩個標準差之內。如下圖所示:
當數據來自非高斯分布時,至少75%的值在平均值±兩個標準差之內,至少89%的值在平均值±三個標準差之內。