統計起源 第四講:黑暗中誕生的天才——自由度與標準差

2021-01-14 小宇哥科普

費歇爾小時候有很嚴重的視力損傷,因此醫生禁止他晚上在燈光下閱讀。即使後來上學時,他的數學導師也在黑暗中教他數學,黑暗使人強大,長期在黑暗中腦補使得費歇爾形成了強大的幾何能力。這也是為什麼費歇爾可以很輕易的解決t檢驗的證明等一系列問題,因為這些問題本質上就是數形結合的問題。費歇爾的黑暗能力使他看到了別人都沒有注意到的新概念——自由度。在t檢驗中,我們首先要計算一個t值,t值的計算方法就是用均值的差值除以標準誤(這個我們後面會講到)。不同自由度下t值的分布是不同的,而一旦給定自由度,t值的分布就固定了(對於很多其他檢驗也是如此,比如方差分析中的F值),這就是為什麼我們在做t檢驗的時候要在後面的括號裡寫上自由度,一般情況下,對t檢驗而言,自由度就是被試量n再減去1。t值的分布不是一個固定的圖形,而是一系列圖形,費歇爾直接用多維幾何把他腦子裡在黑暗中呈現的分布族圖形給描述出來了,這也是戈賽特和卡爾.皮爾遜看不懂費歇爾的文章的原因。

t值的分布是一個分布族,df就是自由度,對t檢驗df=n-1,df越大則t值的分布越接近正態分布

上一講我們說到了集中與平均數,這一講我們要說變異性了。我們為什麼需要變異性?假設你的班主任嘗試了新的教學方法,使全班的平均成績提高了5分,我們能說這個新方法是有效的嗎?如果這裡的成績指的是雅思成績,雅思滿分9分,平均提高5分的話這個老師就可以封神了;不過如果這裡的成績指的是SAT,SAT滿分1600分,提高5分有可能只是這一次同學們偶然的發揮好了而已。如果不衡量變異性,我們將不知道5分意味著什麼。

實驗A和實驗B中,兩組樣本的均值差值都是5,但實驗A的樣本間有明顯的不同,兩個實驗的差別就是變異性的不同

生活中,無論我們測量什麼,都有意想不到的變異,我們不能徹底消滅變異,但是卻可以測量它。把一組數據中的每一個分數都減去他們的平均數,然後平方(平方是為了消除負號),再把它們加起來,這就是平方和SS(sum of squared deviations)。請記住SS,因為我們之後會經常用上它。

SS有兩種計算方法,得到的結果是一樣的,右面的方法計算起來容易些,所以叫計算公式

平方和再除以自由度就是方差,對於總體而言,每個數據都是自由的,因此自由度就是總的個數N;對於樣本而言,樣本均值理論上應該等於總體的均值,用總體均值和前n-1個數據就可以估計最後一個數據,因此只有n-1個數據是自由的,所以樣本的自由度是n-1。

由於範圍變窄了,樣本的變異性要小於總體的變異性,而樣本方差除以n-1時彌補了這個差異,就變回「無偏」了

另外,由於平方的操作導致方差的單位不對,如果你測量了幾個人的身高(以米作為單位),這組樣本的方差的單位將是平方米,因此需要開根號,方差再開根號就是標準差。需要注意的是,我們在第一講說過,總體和樣本的標準差的符號不同,總體的標準差是σ,而樣本標準差是s。好好理解一下標準差吧,因為下一講,標準誤就要登場了。


Long-press QR code to transfer me a reward

你不給,我不給,小宇怎麼吃外賣

As required by Apple's new policy, the Reward feature has been disabled on Weixin for iOS. You can still reward an Official Account by transferring money via QR code.

相關焦點

  • 在統計中自由度是什麼?
    一位讀者問我是否可以試著解釋自由度在統計學中的意義。從那時起,我一直在思考因為請求非常謹慎,像某種野獸,我不確定我是否可以安全地把它打倒在地。自由度不容易解釋,他們在統計中的一些先進和複雜的許多不同的情況下出現。  在數學方面,他們在技術上定義為一個隨機向量域的維數。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 回歸標準差的計算公式 - CSDN
    (2)標準差標準差項列出了係數估計的標準差.估計係數的協方差矩陣是由以下公式計算得到的:,,(3)t-統計量t統計量是由係數估計值和標準差之間的比率來計算,它是用來檢驗係數為零的假設的。(4)概率結果的最後一項是在誤差項為正態分布或係數估計值為漸近正態分布的假設下,指出t統計量與實際觀測值一致的概率。這個概率稱為邊際顯著性水平或p值。
  • 方差的計算公式 方差和標準差公式等
    稱為標準差或均方差,方差描述波動平方差公式:兩個數的和與這兩個數的差的積等於這兩個數的平方差,用字母表示為公式特徵:左邊為兩個數的和乘以這兩個數的差,即右邊是兩個二項式的積,在這兩個二項式中有一項(a)完全相同,另一項(b與-b)互為相反數;右邊為這兩個數的平方差即右邊是完全相同的項的平方減去符號相反項的平方。字母的含義:公式中字母的不僅可代表具體的數字、字母、單項式或多項式等代數式。
  • 方差的計算公式 平方差及方差和標準差公式
    稱為標準差或均方差,方差描述波動平方差公式:兩個數的和與這兩個數的差的積等於這兩個數的平方差,用字母表示為公式特徵:左邊為兩個數的和乘以這兩個數的差,即右邊是兩個二項式的積,在這兩個二項式中有一項(a)完全相同,另一項(b與-b)互為相反數;右邊為這兩個數的平方差即右邊是完全相同的項的平方減去符號相反項的平方。字母的含義:公式中字母的不僅可代表具體的數字、字母、單項式或多項式等代數式。
  • 標準差的公式中分母為何用n-1而不用n?
    ),每一個差的平方,並且計算所有平方值的總和。然後用平方和除以樣本規模(減去1),最後求平方根。大家可能會注意到,為什麼公式中的分母要減去1呢?為什麼我們除以n-1而不只是n呢?這是個很好的問題,那我們就探討一下為什麼除以n-1而不除以n的道理。我們知道的是標準差是總體標準差的估計值,只有我們用n-1的情況下才是無偏估計。我們把分母減去1會使得標準差大於實際的大小。為什麼我們要這樣做呢?因為最優秀的科學家一般都是保守的。
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 「超自由度」矢量渦旋光束雷射器誕生
    這項工作創新性地發現:通過精確地控制腔內對增益晶體的泵浦點,同一振蕩周期的兩種不同取向的光跡軌道,可以存在重合的一對拐點,它們分享一個離軸泵浦光斑的增益,從而可以在諧振腔中同時產生兩種軌道而形成穩定混合疊加態——稱為混合SU(2)相干態,進而從一個諧振腔中直接發射出具有混合軌道疊加態的「波跡二象」結構光。
  • 不懂統計和數據分析講的是什麼?看這篇就夠了,乾貨值得收藏
    0,標準差為1的正態分布、3sigma準則:質量檢測、剔除異常值z標準化:將正態分布轉化為標準正態分布卡方分布用於卡方檢驗若n個相互獨立的隨機變量ξ,ξ,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和構成一新的隨機變量,其分布規律稱為卡方分布t分布t分布是一簇曲線,其形態變化與n(確切地說與自由度df)大小有關。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標準正態分布(u分布)曲線。
  • 《正義聯盟》多元宇宙的起源歷史,黑暗女神的命運已經註定!
    大家好,今天繼續給大家講一下正義聯盟的故事。前期提要:在金屬大事件的結局中,正義聯盟的超級英雄們破壞了DC宇宙的起源牆。他們並不知道這是一件多麼可怕的事情,起源牆已經徹底碎裂,被封印的黑暗女神帕佩圖阿也被盧瑟救走,整個多元宇宙已經達到了毀滅的邊緣。
  • 管理心理學之統計(5)變異性
    變異性是統計最基本的概念之一。它是對分布中的數據分散或聚集程度地數量的測量。一個好的變異性測量不僅能夠體現數據是集中還是分布在較大的區域還能夠讓我們了解到單個數據是否能很好的代表整個分布,即可以預期一個樣本代表總體時的誤差值。今天我們會介紹三種變異性的測量:全距,四分位距和標準差。 1.
  • 標準差計算公式
    標準差是測量數據離散程度的指標。 The  symbol for Standard Deviation is σ (the Greek letter sigma).標準差的代碼是希臘字母西格瑪σ標準差的計算公式為
  • 標準差還是標準誤?
    標準差( standard deviation) 作為隨機誤差( 或真差) 的代表,是隨機誤差絕對值的統計均值 。大白話解釋,就是衡量一組數據的離散程度。在國家計量技術規範中,標準差的正式名稱是標準偏差,簡稱標準差,用符號 σ表示:式中 xi 為一組樣本變量( 從總體中抽取的一部分個體的集合)。
  • 地學統計中的算術平均值、幾何平均值、中位數、標準偏差和標準誤差的意義和用法有何不同
    在處理分析實驗數據或採樣數據時,經常會遇到對相同採樣或相同實驗條件下同一隨機變量的多個不同取值進行統計處理的問題。此時,多數人會不假思索地直接使用算術平均值和標準差。顯然,這種做法是不嚴謹的。那麼在地學統計中不同的平均值和誤差計算方法的概念在意義和使用上有何不同呢?
  • 管理心理學之統計(11)t分數
    然而計算z分數的前提又必須是總體的標準差已知。如何解決兩者之間的矛盾呢?當總體的變異性未知時,我們可以用樣本的變異性來代替。也就是說我們可以通過樣本來估計標準誤。當σ未知時,估計標準誤(SM)被用作實際標準誤的估計值,它提供了樣本平均數M到其總體平均數之間的標準距離的估計。
  • 標準差與標準誤的區別
    在日常的統計分析中,標準差和標準誤是一對十分重要的統計量,兩者有區別也有聯繫。
  • 樣本標準差的公式中為什麼是n-1
    很多統計學書上都提到,在樣本標準差的計算公式中,平方根中的分子是 其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。常用統計量① 樣本均值它反映出總體X數學期望的信息。樣本均值是最常用的統計量。② 樣本方差 它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。
  • 「超自由度」矢量渦旋光束雷射器誕生
    新結構光束的產生方法是利用量子相干態中概率波包與粒子經典運動軌跡相互耦合的原理,即SU(2)相干態,在經典結構光中構造與這種相干態類似的結構,從而使得結構光產生波跡二象性,即這種幾何結構光同時具有空間相干波包和幾何光線軌道的描述,而這種軌跡性恰恰可以在開放式雷射腔中表徵,即不同橫縱模頻率耦合的諧振腔結構對應不同周期振蕩的光跡軌道
  • 附錄 統計方法通用符號與縮寫
    拉丁字母 符號 名稱 符號 名稱 A X2檢驗中的實際頻數 A,b,c,d 四格表中的實際頻樣本含量;各樣本含量的總和 P 概率 P(1) 單側檢驗的概率 P(2) 雙側檢驗的概率 Px 第x百分位數 P 樣本率 R 極差;樣本復相關係數;x2檢驗中的行數 r 樣本相關係數 RR 相對危險度 s 樣本標準差