這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
一般老師對這個問題通常會回答說因為分子使用了樣本平均數,失去了一個「自由度」(degrees of freedom),所以除以n-1。有的老師還會進一步說如果計算差方和使用的不是樣本平均數而是母體平均數,則除以n即可。至於為何使用樣本平均數會失去一個「自由度」,有點耐心的老師會解釋:樣本平均數是原來n個數算出來的,有了樣本平均數,原來n個數就被「限制」住了,只有n-1個是「自由」的。學生聽到這裡常常滿頭霧水。他們會想:原來n個數不是已經知道了嗎,說他們是「自由」究竟是什麼意思?而且就算「自由度」的概念懂了,又為什麼要把差方和除以自由度,除以n得到平均差方不是更直接了當嗎?
如果學生那樣反問,沒有耐心的老師可能會幹脆說:當n很大的時候,其實除以n和除以n-1是差不多的,照著公式做就對了。學過數理統計學又超有耐心的老師則會說:這與統計推論有關,當我們用樣本變異量來估計母體變異量時,為了避免估計上的偏差,必須要除以n-1。剛開始學基本統計學的學生聽了當然毫無頭緒,此時老師可能會說:你們以後去修數理統計學就會明白了,這個除以n-1而不是除以n的方法喚作「貝索校正」(Bessel’s correction)。學生聽到這裡,大概也只好知難而退等以後再說了。不過誨人不倦的老師還會進一步說:其實這要看你用哪一種估計方法,如果你用「最大概似估計法」(MLE),除以n才是對的;有人選擇「最小均方誤差估計法」(MMSE)還除以n+1呢。說到這裡,學生恐怕已經決定退選了。
我教基本統計學教了20幾年,常被學生追問這個問題,逼得自己也只好認真想出一些可以讓學生稍感滿意的答案。本文嘗試在不用高深數學的原則下來回答這個問題。
變異量的概念
首先,我們假設有一組n個數目的數據:x1, x2, …, xn,它們的樣本平均數是x̅。
變異量所要測量的是這一組數據彼此間差異的程度,它告訴我們數據的同構型或一致性。我們可以先想像這組數據全部相同的情況:數據彼此之間完全沒有差異,也就是同構型高到不能再高了,一致性也大到不能再大了,此時變異量為0。如果數據彼此間差異極大,也就是同構型或一致性極低,此時變異量極大。
想像一個大聯盟球隊的球員,我們有這些球員上個球季打擊率的數據。如果這些數據的變異量極小,這代表球員們打擊能力大致相同,同構型極高;反之,如果變異量極大,則能力參差不齊,同構型低。再想像我們特別關注其中一位球員,我們有他參加大聯盟以來每個球季的打擊率。如果這些數據的變異量極小,這代表這球員每年打擊表現的一致性極高;反之,如果變異量極大,則一致性低。
然則為何變異量要用上面的公式計算?要算數據彼此間差異的程度,不是算出數目兩兩之間差異的總和或其平均值就好了嗎?這樣說雖然不無道理,但實際上大有問題。
設想我們把數據中所有數目依其大小標在一直在線,一共有n個點,則這些點兩兩之間一共會有C(n,2)=n!/(n-2)!2!個距離,例如n=3會有3個距離,n=4會有6個距離,n=5會有10個距離,等等。但這些距離並不是相互獨立的,因為除了相鄰兩點之間的距離外,其它的距離都可以算出來。舉例來說,若n=3而三點為x1<x2<x3,則共有|x1-x2|、| x2-x3|、|x1- x3|三個距離,但|x1-x2|+| x2-x3|=|x1- x3|,也就是3個距離中只有2個是獨立的,第三個可以由這兩個獨立的距離算出來。推而廣之,直線上n個點x1<x2<…<xn,雖然可有C(n,2)個距離,只有|x1-x2|、| x2-x3|、|x3- x4|、…、|xn-1- xn|這n-1個相鄰兩點之間的距離是獨立的;這n-1個距離知道之後,其它的距離也就知道了。這n-1個相鄰兩點的「獨立」距離,包含了樣本變異量所有的信息,因此我們不妨暫且把n-1喚作「自由度」。換句話說,「自由度」就是樣本變異量所含獨立信息的數目。
如果我們把總變異量定義為數據中這些獨立信息的總和,則當我們把總變異量除以自由度n-1,我們就得到這些獨立信息的平均變異量了。但這樣的定義有一個問題,我們看下式就明白了: