費歇爾小時候有很嚴重的視力損傷,因此醫生禁止他晚上在燈光下閱讀。即使後來上學時,他的數學導師也在黑暗中教他數學,黑暗使人強大,長期在黑暗中腦補使得費歇爾形成了強大的幾何能力。這也是為什麼費歇爾可以很輕易的解決t檢驗的證明等一系列問題,因為這些問題本質上就是數形結合的問題。費歇爾的黑暗能力使他看到了別人都沒有注意到的新概念——自由度。在t檢驗中,我們首先要計算一個t值,t值的計算方法就是用均值的差值除以標準誤(這個我們後面會講到)。不同自由度下t值的分布是不同的,而一旦給定自由度,t值的分布就固定了(對於很多其他檢驗也是如此,比如方差分析中的F值),這就是為什麼我們在做t檢驗的時候要在後面的括號裡寫上自由度,一般情況下,對t檢驗而言,自由度就是被試量n再減去1。t值的分布不是一個固定的圖形,而是一系列圖形,費歇爾直接用多維幾何把他腦子裡在黑暗中呈現的分布族圖形給描述出來了,這也是戈賽特和卡爾.皮爾遜看不懂費歇爾的文章的原因。
t值的分布是一個分布族,df就是自由度,對t檢驗df=n-1,df越大則t值的分布越接近正態分布
上一講我們說到了集中與平均數,這一講我們要說變異性了。我們為什麼需要變異性?假設你的班主任嘗試了新的教學方法,使全班的平均成績提高了5分,我們能說這個新方法是有效的嗎?如果這裡的成績指的是雅思成績,雅思滿分9分,平均提高5分的話這個老師就可以封神了;不過如果這裡的成績指的是SAT,SAT滿分1600分,提高5分有可能只是這一次同學們偶然的發揮好了而已。如果不衡量變異性,我們將不知道5分意味著什麼。
實驗A和實驗B中,兩組樣本的均值差值都是5,但實驗A的樣本間有明顯的不同,兩個實驗的差別就是變異性的不同
生活中,無論我們測量什麼,都有意想不到的變異,我們不能徹底消滅變異,但是卻可以測量它。把一組數據中的每一個分數都減去他們的平均數,然後平方(平方是為了消除負號),再把它們加起來,這就是平方和SS(sum of squared deviations)。請記住SS,因為我們之後會經常用上它。
SS有兩種計算方法,得到的結果是一樣的,右面的方法計算起來容易些,所以叫計算公式
平方和再除以自由度就是方差,對於總體而言,每個數據都是自由的,因此自由度就是總的個數N;對於樣本而言,樣本均值理論上應該等於總體的均值,用總體均值和前n-1個數據就可以估計最後一個數據,因此只有n-1個數據是自由的,所以樣本的自由度是n-1。
由於範圍變窄了,樣本的變異性要小於總體的變異性,而樣本方差除以n-1時彌補了這個差異,就變回「無偏」了
另外,由於平方的操作導致方差的單位不對,如果你測量了幾個人的身高(以米作為單位),這組樣本的方差的單位將是平方米,因此需要開根號,方差再開根號就是標準差。需要注意的是,我們在第一講說過,總體和樣本的標準差的符號不同,總體的標準差是σ,而樣本標準差是s。好好理解一下標準差吧,因為下一講,標準誤就要登場了。
Long-press QR code to transfer me a reward
你不給,我不給,小宇怎麼吃外賣
As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.