最重要的統計定理:詳解強大的中心極限定理

2021-01-11 讀芯術

全文共1204字,預計學習時長4分鐘

圖源:unsplash

中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。

這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。

例1

取一個均勻分布(從0到1,稱為均勻分布,因為在0和1之間選擇值的概率相等,因此它的概率密度函數(PDF)就是水平的黑色直線)。現在,假設從這個分布(綠點)中隨機抽取20個樣本,並計算這些樣本的均值,最後得到一個值,在本例中,黑色點線表示0.5。

繼續在直方圖上繪製這個均值。因為此直方圖目前只有一個均值,除此之外沒有任何信息(下圖1)。繼續從相同的分布中隨機抽取更多的樣本,計算各自的均值並再次在直方圖上繪製這些均值,便開始得到一個有趣的輸出(下圖2)。

隨著不斷從均勻分布中隨機取出越來越多的樣本,並不斷在直方圖上繪製樣本均值,我們可以得到一個正態分布的結果(右曲線)。

推論:從均勻數據分布開始,但是從中抽取的樣本均值結果為正態分布。

例2

在第二例中進行與例1相同的步驟,唯一不同的是,這次將從指數分布中抽取樣本。

再次隨機抽取20個樣本,計算樣本的均值,並將其繪製在直方圖上。以此類推,在此指數數據分布中抽取大約100個樣本,直方圖如下所示。沒錯,樣本的均值結果是正態分布!

推論:從指數數據分布開始,但從中抽取的樣本均值為正態分布。

此時CLT的含義就變得非常直觀了。它意味著,即使數據分布不是正態的,從中抽取的樣本均值的分布也將是正態的。

了解樣本均值總是*呈正態分布有什麼實際意義?

分析學領域從來少不了各種各樣的數據,而源數據的分布我們不一定了解,但有了CLT,我們甚至不需要考慮這種情況,因為均值永遠為正態分布,完全沒有必要擔心源數據的分布。

(注*-為了應用CLT,必須能夠計算樣本的均值。Cauchy分布沒有樣本均值,因此CLT不適用於該分布,但除了Cauchy,筆者沒有遇到任何其他分布不適用於CLT的情況,因此,CLT可以適用於任何其他分布。)

圖源:unsplash

我們能利用CLT作答還有很多:

· 可以利用均值的正態分布來確定置信區間。

· 在使用樣本均值的情況下,可以進行任何統計檢驗。

· 可以進行t檢驗(即,利用兩個樣本的均值之間存在差異的特點)

· 可以進行方差分析測試(即,利用3個或3個以上樣本的均值之間存在差異的特點)

本文涵蓋了所有在處理數據和樣本時應該了解的中心極限定理,你掌握了嗎?

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 徹底理解中心極限定理——最重要的統計定理之一
    中心極限定理(CLT)是統計學中的一個基本定理,它是一個非常簡單的概念。當你進一步閱讀時就會發現,這也是一個很重要的概念。在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章
  • 中心極限定理通俗介紹
    是統計學中比較重要的一個定理。本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。什麼是中心極限定理(Central Limit Theorem)中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。
  • 大數定律與中心極限定理
    在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。
  • 講講中心極限定理
    總第202篇/張俊紅今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理,中心極限定理是指:現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本
  • CLT - 中心極限定理
    在樣本對總體的統計推論過程當中,中心極限定理就是理論基礎。我們通過下面這個小練習來了解該定理吧,我們用MiniTAB生成9列數據,每列100個,要求: 步驟一:生成數據。MiniTAB命令:計算>>隨機數據>>正態分布
  • 大數定律和中心極限定理的區別和聯繫
    閱讀大概需要5分鐘昨天看了中心極限定理,今天寫本科論文期間,又抽業餘時間看了看大數定律,剛開始差點把本小博主給看蒙了O.O
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    今天我們接著學習概率論與數理統計,第四章大數定律與中心極限定理。先說重點,好像平時考試、考研數學裡這一章不是重點。①理解三種大數定律,努利大數定律、切比雪夫大數定律、辛欽大數定律。②兩種中心極限定理,林德伯格-萊維中心極限定理、棣莫弗-拉普拉斯中心極限定理。 (名字有點長啊)
  • 考研數學:中心極限定理
    中心極限定理是研究獨立隨機變量和的極限分布為正態分布的問題。它是概率論中最重要的一類定理,有廣泛的實際應用背景。中心極限定理(central limit theorem)是概率論中討論隨機變量序列部分和分布漸近於正態分布的一類定理。
  • 中心極限定理
    第四步、結果我們讓中心極限定理髮揮作用。現在我們抽取1000組,每組50個。我們把每組的平均值都算出來。這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 … 4.08, 3.74],用直方圖表示(如下),很明顯是一個正態分布。
  • 改變世界的統計發現:中心極限定理的偉大是炒作嗎?
    該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。閱讀本文不需要任何深入的統計知識,知道均值、方差和標準差就可以開始了。
  • 2021考研概率論與數理統計衝刺:大數定律和中心極限定理考試要求
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。大數定律和中心極限定理考試要求1.了解切比雪夫不等式。2.了解切比雪夫大數定律、伯努利大數定律和辛欽大數定律(獨立同分布隨機變量序列的大數定律)。
  • 中心極限定理:從高爾頓板到麥克斯韋分布
    高爾頓板丨圖片來源:維基百科從最上方的節點往下,是幾排交錯排列的釘子。從入口扔下的小球撞上一個釘子,就像觸網的桌球一樣,彈向左邊和右邊的概率相等。咦?這不就是老早學過的楊輝三角嗎?如今,我們把這一系列逼近正態分布的性質稱為「中心極限定理」,結論從最初的二項分布,已經擴展到了任意分布(包括同分布和不同分布)的廣闊天地。就如同上一段中的誤差——即便我們對微觀下的擾動一無所知,也能通過這種極限形式,了解大樣本下的整體行為。應用這一思想的最為經典的例子當屬統計力學。假如有一大堆粒子,每個都雜亂無章地運動,我們自然無從知曉每一個粒子的運動狀況。
  • 山頂洞人學機器學習之——中心極限定理(通俗理解版)
    機器學習是實現人工智慧的重要技術之一。在學習機器學習的過程中,必須要掌握一些基礎的數學與統計知識。中心極限定理(CLT)是數理統計中最重要的定理之一,具有廣泛的應用場景。準確理解中心極限定理背後深層次的含義,有助於打牢機器學習的基礎。
  • 中心極限定理的最最通俗解釋
    下面我們來通過實例來看看一個擲骰子的平均分布,如何變成一個正態分布。在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究對象統計參數的目的。其中要注意的幾點:總體本身的分布不要求正態分布:我們的例子是擲一個骰子(平均分布),最後每組的平均值也會組成一個正態分布。樣本每組要足夠大,但也不需要太大:取樣本的時候,一般認為每組大於等於30個,即可讓中心極限定理髮揮作用。
  • 考研數學大數定律和中心極限定理題型解析
    下面主要分析概率統計部分中的大數定律和中心極限定理的題型及解題方法。 題型:概率統計中的大數定律和中心極限定理的題型及解題方法 概率統計中的大數定律和中心極限定理的題型,在考研數學(一)和(三)的歷年考試中出現的頻率雖然不高,但仍在考試大綱範圍之內,考試中仍有可能出現這種題型,因此,考生們對這種題型也應該有所了解,對基本題的解題方法應該掌握。
  • 數據科學家必須了解的事:中心極限定理
    來源:Pexels數據科學家必須了解的事:中心極限定理。你了解嗎?編碼之前,快速回顧今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。回顧直方圖首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
  • 極限套路之夾逼定理
    農村土氣叫法:夾擠定理。而像小編這樣的數學流氓最喜歡叫它夾逼定理!!!我承認我是流氓   你們呢?? 我的想法當然和純(wei)潔(suo)的你們不一樣。我叫他夾逼定理的原因是:這樣比較有氣勢,在做題的時候可以配合著大喊一聲:哪裡跑!(定理性質就是去夾,去逼式子的極限)。 下面簡單介紹一下夾逼定理!!
  • 2021考研數學高數衝刺備考:重要定理之函數與極限
    ►函數與極限1、函數的有界性在定義域內有f(x)&geK1則函數f(x)在定義域上有下界,K1為下界如果有f(x)&leK2,則有上界,K2稱為上界。函數f(x)在定義域內有界的充分要條件是在定義域內既有上界又有下界。2、數列的極限定理(極限的性)數列xn不能同時收斂於兩個不同的極限。
  • PPT+視頻詳解戴維寧定理
    戴維南定理(或譯為戴維寧定理),是由法國科學家L·C·戴維南於1883年提出的一個電學定理。
  • 碩博學術專欄——中央極限定理
    正因為抽樣分配為常態分配這個基本假設的存在,樣本統計量的機率分配可以利用常態分配來表述,並據此來進行假設考驗。基於上述幾個特徵,樣本統計量可以根據抽樣分配的機率原理來推估母數,並估計抽樣誤差的大小,稱為中央極限定理(Central Limit Theorem)。