1.【關於自由度】
我的理解,自由的程度。
【在統計學中,自由度(degree of freedom)指的是計算某一統計量時,取值不受限制的變量個數。——百度百科】
舉個例子,
①這裡有5個變量 X₁,X₂,X₃,X₄,X₅
請你計算它們的平均值
μ=(X₁+X₂+X₃+X₄+X₅)/5
因為,【沒有條件限制】這5個變量的取值
所以5個變量可以任意取值
μ=f( X₁,X₂,X₃,X₄,X₅)
根據自由度的定義,此時這5個數的自由度是5。
②這裡有5個數,平均值為 10
易知,X₁+X₂+X₃+X₄+X₅=50
⇒ X₅=50 -(X₁+X₂+X₃+X₄)
根據經驗我們知道,在總和為50的限制下,先任意取4個數,最後一個值是固定的。
5個數可寫為:
X₁,X₂,X₃,X₄,[50 -(X₁+X₂+X₃+X₄)]
在平均值已知的情況下,5個數裡面實際上可自由變動(任意取值)的數只有有4個
所以,這5個數的自由度為4
我們發現,多了1個限制條件, 「平均值為10」,自由度就 -1
【通常df=n-k。df為自由度,n為樣本數量,k為被限制的條件數或變量個數,或計算某一統計量時用到其它獨立統計量的個數。——百度百科】
限制的條件越多,自由度就越低
這和我們對實際生活的理解也是一致的。
2.【關於樣本方差中的自由度】
舉個例子,
研究,某中學整個高三年級學生的IQ
我們研究的總體是
【整個高三年級的每一位學生的IQ】
情況①:我們精確調查每一位學生IQ,
我們可以算出,
μ=∑x / N
σ²=∑(X-μ)² / N
解釋一下 σ² :
(X-μ)是原始分數到均值的距離,也就是,原始分數相對於均值的【偏離程度】
那麼(X-μ)²是一個【放大的偏離程度】,實質上就是【偏離程度】
所以,σ²=∑(X-μ)² / N
就是一個【平均偏離程度】
分母為N是因為
全體學生IQ都是
【取值不受限制的】即【自由度為N】
【它們共同的影響了μ的大小】
即每個人都對當前的偏離程度做出了貢獻
情況②,我們偷懶,抽樣調查。
我們研究一部分人來代表總體情況。
我們抽取了一個樣本容量為n的樣本。
此時,
樣本平均數=n個學生IQ之和 / n
【注意】
此時【樣本自由度】不再為n
因為,樣本是從總體中抽取的,
【總體的情況限制了樣本】
具體來說,就是
【樣本均值受限】
雖然你可能直觀的感受是:
每一次抽樣,算出的樣本均值都不同啊,
哪裡被限制了???
理由如下:
從直覺上我們都認同:
樣本可以代替總體,
樣本均值可以代替總體均值,
【樣本均值是圍繞總體均值上下波動的】
(是這樣的直覺吧?)
不僅是直覺,書上也是這麼說的
「中心極限定理 :對於任何均值為μ,標準差為σ的總體,樣本大小為n的[樣本均值的分布]的均值為μ,標準差為σ/√n,並且當n趨於無窮大時,接近正態分布」
——行為科學統計精要,第八版,p114
它告訴我們,【樣本均值】圍繞總體均值上下波動。【樣本均值分布的均值】與μ相等
所以
【樣本均值雖然沒被限制為一個具體值,但它被限制在一個範圍內】
【樣本均值是趨近 μ 的】
所以此時參考前面的,
【X₁+X₂+X₃+X₄+X₅=50】
得出,X₁+X₂+X₃+X₄+……+Xₙ≈nμ
Xₙ≈nμ-(X₁+X₂+X₃+X₄+……Xₙ₋₁)
n個數裡,只有n-1個數是可以任意取值
所以,我們得出
【樣本自由度】=n-1
此時,樣本方差為:
S²=∑(X-μ)² / n-1
因為,
樣本裡真正在自由變動的只有(n-1)個數
【所有的偏離程度】,都是,且僅是,那
(n-1)個數造成的。
所以【所有的偏離程度】全算在在他們頭上
所以,∑(X-μ)² / n-1
這樣才能精確算出每個【做出貢獻的變量】的平均偏離程度,若除以n會導致
【實際在變動的變量】的偏離程度偏小
即,會導致要估計的 σ² 偏小。
【這麼說吧】
一個樣本裡,共有n個數,你除以n,的的確確是可以精確的算出了,這n個值的方差。
但是,你的【目的】,並不是為了求某一個特定樣本的方差,你是想通過樣本方差來估算總體方差。
正是因為你有了這一目的,才有「總體」和「樣本」概念,才會讓樣本受限,從而導致自由度減小
如果你沒有這一目的,你抽出來的n個值就不再是一個樣本了,而是一個總體
就像,
【某一個學校高三年紀全體學生IQ】可以是一個總體,自由度為N
當你研究【全省高三學生的IQ】時,
【某一個學校高三年紀全體學生IQ】
就包含在了【全省高三學生的IQ】裡
它就受制於【全省高三學生的IQ】
相對的,自由度就會改變。