已申請原創,商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
在實際應用中,除了需要觀察一組數據平均值水平外,還需要了解觀察值之間的偏離情況或集中位置等。衡量算法有幾種:
也叫全距,一組數據中的最大值與最小值的差值。優點是可以快速簡單的觀察數據的總體離散程度,但是,①粗略。一旦數據量變大,很難準確判斷中間數據的分布情況。②不穩定。如果把兩邊離散的數據去掉一定比例,則會趨於穩定。
公式:R=最大值-最小值
這種方法把一組觀察值排序,分成四個數目相等的部分。具體算法是:
1、一組數據按照個數分為4組:①組25%,②組25%,③組25%,④組25%。
2、去掉①組和④組,取中間②組+③組的50%,觀察值的數據範圍。
公式:Q=Q75-Q25
要觀察一組數據的偏離情況,也可以計算每個觀察值偏離平均值的平均差距(Σ,音:西格瑪)。為了避免正負抵消,取差值絕對值,然後取平均值。公式如下:
絕對值數學上較難處理,於是取平方計算,既避免正負抵消,又優化計算。即方差(variance)。方差越大,偏離越大。公式如下:
分母n-1稱為自由度,(df,degree of free)。S2表示樣本方差(總體方差用σ2表示)。
查了一些相關資料及推導公式,借用幾個易於理解的理念,進行如下解說:
①樣本方差:S2,你測量的群組的方差,通過你的群組測量(或者多個群組測量),來了解總體情況。
②總體方差:σ2,你選擇的群組整體的真實方差,是真值,是理論值。
③無偏估計:在多次測量時,多次取樣測量的平均值接近所估計的總體測量真值。在計算樣本方差時,希望它是總體方差的一個無偏估計,即樣本方差=總體方差,S2=σ2。
再舉個例子,便於理解樣本和總體這兩個概念:比如我們的研究對象是老鼠,樣本測量可以指你多次生物學重複實驗中的1組老鼠(1-n只),隨著抽樣的無限增多(n組老鼠),理論上測量值會等於地球上全部老鼠的測量值,當然你希望你的樣本測量結果等同於地球上全部老鼠的測量結果,即取樣值等於真值。——這個故事間接的說明,為什麼生物學重複越多,實驗結果越有統計學意義。
綜上再來解釋,簡單來說,如果用n計算,則對樣本方差不是無偏估計,通過公式推倒,S2≤σ2,要想是無偏估計就要進行校正,嘗試用n-1進行校正計算公式可以得到S2=σ2。
在統計分析中,為了方便,通常將方差取平方根,還原成與原始觀察值單位相同的變異度量。公式為:
標準差可以直接用於代數計算。標準差與均數結合,能夠完整的概括一個正態分布。
兩組數據的均數相差不大、單位相同時,標準差的大小可以直接比較兩個樣本的變異程度。但是在需要對均數相差較大或者單位不同的幾組觀察值的變異程度進行比較,這時使用標準差就不再合適,則可以用變異係數(CV,coefficient of variation)。變異係數可以消除單位和(或)平均數不同對兩個或多個資料變異程度比較的影響。
簡單理解,標準差有單位,不能橫向比較(身高cm偏離大還是體重kg偏離大)變異係數沒單位(都是%),所以可以橫向比較。
內容整理自醫學統計學及網絡。