統計計量丨統計學中算變異量為什麼要除以n-1?什麼是「自由度」?

2021-02-15 數據Seminar
的結果。隨機樣本的假設是指數據的每一個數都是從同一個母體抽出而獨立分布的(identically and independently distributed)。在這個假設之下,xi與xj是獨立的,因此它們的共變量為0。在重複抽樣的情況下,xi有時候大於µ,有時候小於µ;xj也是;而且xi跟µ的偏差與xj跟µ的偏差是互相獨立的。因此(xi-µ)(xj-µ)的值有時候為正,有時候為負;雖然大小不一,但「平均來說」,他們加起來會互相取消。此所以我們知道在理論上Σall i≠j(xi-µ)(xj-µ)≈0。


以上證明參考了:

R.A. Fisher, 1912. 「On an Absolute Criterion for Fitting Frequency Curves.」 Messenger of Mathematics 41, pp. 155-160. Republished in Statistical Science, Vol. 12, No. 1 (Feb., 1997), pp. 39-41.

但原文條理並沒有交代得很清楚,這裡主要是我自己的詮釋。

Lin, T. (2017). 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?[EB/OL].

http://blog.udn.com/nilnimest/92412101


作者簡介:林澤民(LIN, Tse-min),美國明尼蘇達大學政治學博士,現任美國德克薩斯大學奧斯汀分校(University of Texas at Austin)政府系副教授,專長政治學方法論、形式理論、美國與比較政治行為研究,在American Political Science Review, American Journal of Political Science, Journal of Democracy, Journal of Politics, Political Analysis, World Politics等國際頂級期刊上發表論文多篇。

相關焦點

  • 統計學中算變異量為什麼要除以n-1?什麼是「自由度」?
    這個公式的分子是所謂「差方和」(sum of squared deviations) , 還不算太難懂。真正難懂的地方是分母:如果要求 「平均差方」(mean squared deviations),應該把差方和除以n,為什麼要除以n-1?
  • 自由度統計學和計量經濟學
    統計學上的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的資料的個數,稱為該統計量的自由度。統計學上的自由度包括兩方面的內容:  首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n.
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。③ 樣本變異係數變異係數 樣本變異係數反映出變異係數的信息。變異係數反映出隨機變量在以它的均值為單位時取值的離散程度。此統計量消除了均值不同對不同總體的離散程度的影響,常用來刻畫均值不同時不同總體的離散程度。
  • 在統計中自由度是什麼?
    一位讀者問我是否可以試著解釋自由度在統計學中的意義。從那時起,我一直在思考因為請求非常謹慎,像某種野獸,我不確定我是否可以安全地把它打倒在地。自由度不容易解釋,他們在統計中的一些先進和複雜的許多不同的情況下出現。  在數學方面,他們在技術上定義為一個隨機向量域的維數。
  • 樣本標準差的公式中為什麼是n-1
    其理由是為了校正樣本變異性而做出的調整,這是對總體標準差的無偏估計。但是,為什麼說這是一種無偏估計,很多書中並沒有提及,或者說是只用了很粗略的語言簡單地說了一下,其實也沒必過於糾結這個問題,記住就行。最近我看到了一本統計學的書《行為科學統計》(第七版)作者:[美]FrederickJ Gravetter,這本書中對這個問題的描述很清楚,通過用舉例子的方式說明了一下(並非嚴格證明),為什麼在樣本標準差中,使用
  • 統計起源 第四講:黑暗中誕生的天才——自由度與標準差
    即使後來上學時,他的數學導師也在黑暗中教他數學,黑暗使人強大,長期在黑暗中腦補使得費歇爾形成了強大的幾何能力。這也是為什麼費歇爾可以很輕易的解決t檢驗的證明等一系列問題,因為這些問題本質上就是數形結合的問題。費歇爾的黑暗能力使他看到了別人都沒有注意到的新概念——自由度。在t檢驗中,我們首先要計算一個t值,t值的計算方法就是用均值的差值除以標準誤(這個我們後面會講到)。
  • 統計學中「固定效應 vs. 隨機效應」
    隨機效應(random effect, RE)是統計學中躲不開的一對重要概念,也是統計學思想的一個非常核心的理念:真實世界的複雜現象 = 確定的統計模型 + 不確定的隨機誤差。雖然在特定的統計方法中,大家或多或少能區分什麼是固定效應、什麼是隨機效應,但是由於不同的統計方法(甚至不同的學科)對FE和RE的界定不盡相同,所以當你接觸到更多的統計方法之後,很可能將不同模型的FE和RE搞混淆。理解透徹FE和RE並不容易,因為這兩個詞本身並不夠descriptive、比較籠統且具有一定的誤導性。
  • 質量統計中,「P」為什麼飽受爭議?
    老早就有一篇爭議挺大的公眾號文章說「P值已死」,立馬就有人反駁「別鬧了,P值沒死」。其實, Nature雜誌在14年2月份時就刊發了一篇文章,對統計效度的金標準「P值」提出了質疑,認為P值並沒有統計學家所認為的那樣可信。我們暫且把這個問題擱置一下,替P值君問一句:「為什麼受傷的總是我呀?是我是我還是我」真要說起個問題,咱們得從統計學的框架說起。
  • 統計學入門級-描述性統計理論
    最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    與統計學家建立的以「總體中沒差別」作基礎的隨機變量t分布進行比較,看看在多少%的機會(亦即顯著性sig值)下會得到目前的結果。若顯著性sig值很少,比如<0.05(少於5%機率),亦即是說,「如果」總體「真的」沒有差別,那麼就只有在機會很少(5%)、很罕有的情況 下,才會出現目前這樣本的情況。
  • 標準差的公式中分母為何用n-1而不用n?
    ),每一個差的平方,並且計算所有平方值的總和。然後用平方和除以樣本規模(減去1),最後求平方根。大家可能會注意到,為什麼公式中的分母要減去1呢?為什麼我們除以n-1而不只是n呢?這是個很好的問題,那我們就探討一下為什麼除以n-1而不除以n的道理。我們知道的是標準差是總體標準差的估計值,只有我們用n-1的情況下才是無偏估計。我們把分母減去1會使得標準差大於實際的大小。為什麼我們要這樣做呢?因為最優秀的科學家一般都是保守的。
  • 樣本方差的分母為什麼是n-1?
    方差為離均差平方和除以總例數,其大小用來衡量數據的變異程度,總體方差計算公式為:其中μ為總體均數。如果總體均數已知,樣本方差的計算公式為:而實際工作中,μ往往未知,只能用樣本均數代替之,此時的樣本方差需要用n-1代替n,即:
  • 樣本量n>30時,還能繼續使用T檢驗嗎?
    比如,按照書上手算部分的講解,只適合Z 檢驗的例題,可SPSS操作部分卻用的是T檢驗,前面和費勁地講解兩個公式的區別,後面卻又一樣了,如何解釋?在兩個樣本平均數的差異性檢驗中,什麼時候用t檢驗,什麼時候用z檢驗?不少人存在困惑。大家根深蒂固的認識:樣本容量大於30時,用z檢驗;樣本容量小於30時,用t檢驗。
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 1 計量變量 資料的自然分布形態,稱為規律。 趨勢:集中和分散
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。
  • 做實驗需要掌握哪些統計學知識?
    如果學了統計學,那麼我們就能以更多更科學的角度看待數據。 大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析。這個時候也需要你去了解更多的Excel函數來實現基本的計算,或者python、R裡面一些對應的可視化方法。
  • 管理心理學之統計(5)變異性
    心理學家們需要通過統計模型來區分正常和非正常行為。首先,他們需要取一個大樣本並記錄每個人在特定的一天中洗手的次數,結果如下圖:要檢驗王先生的行為是否屬於極端的異常行為,我們需要用到統計中的兩個基本概念:集中趨勢(測量平均數)和變異性(偏離平均數值的測量)。如果王先生的分數處在平均的正常的行為這個區間中,那麼他的行為是正常的。
  • 統計學原理 導論
    ——德國斯勒茲統計學在現實生活中的重要作用幾乎無處不在:一個數學(統計)算法成就一個巨大產業,如Google(PageRank搜索算法)大數據分析,本質上依賴於統計算法(網購、輿情)提升產品質量的核心手段之一是統計學的試驗設計經濟指數的建立,使人們對經濟運行的狀態的了解變得更容易組合投資、資產定價
  • 徵服統計學01|什麼是統計分布?
    ❝之前讀書期間學的概率統計什麼的都忘得七七八八了,工作中也常在用,一直想系統再學習下,苦於無好的教材,最近發現了一個有趣的統計學課程(「 StatQuest!」 )現在決定站在巨人的肩膀上系統梳理一遍統計學基礎知識,希望能學到最後~~~。 StatQuest!