中心極限定理通俗介紹

2021-01-14 深度學習自然語言處理


閱讀大概需要5分鐘


作者 朱曦熾

編輯 zenRRan

連結 https://www.zhuxichi.com/2017/02/14/CentralLimitTheorem/


中心極限定理是統計學中比較重要的一個定理。 本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。


什麼是中心極限定理(Central Limit Theorem)

中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分布。


我們先舉個慄子🌰


現在我們要統計全國的人的體重,看看我國平均體重是多少。當然,我們把全國所有人的體重都調查一遍是不現實的。所以我們打算一共調查1000組,每組50個人。 然後,我們求出第一組的體重平均值、第二組的體重平均值,一直到最後一組的體重平均值。中心極限定理說:這些平均值是呈現正態分布的。並且,隨著組數的增加,效果會越好。 最後,當我們再把1000組算出來的平均值加起來取個平均值,這個平均值會接近全國平均體重。


其中要注意的幾點


1.總體本身的分布不要求正態分布

上面的例子中,人的體重是正態分布的。但如果我們的例子是擲一個骰子(平均分布),最後每組的平均值也會組成一個正態分布。(神奇!)


2.樣本每組要足夠大,但也不需要太大

取樣本的時候,一般認為,每組大於等於30個,即可讓中心極限定理髮揮作用。


話不多說,我們現在來一步步看到中心極限定理是如何起作用的。


註:我們使用python語言以及iPython Notebook來生成和展現數據。不懂的童鞋可以略過代碼


第一步, 生成數據

假設我們現在觀測一個人擲骰子。這個骰子是公平的,也就是說擲出1~6的概率都是相同的:1/6。他擲了一萬次。我們用python來模擬投擲的結果:

生成出來的平均值:3.4927(每次重新生成都會略有不同)

生成出來的標準差:1.7079


平均值接近3.5很好理解。 因為每次擲出來的結果是1、2、3、4、5、6。 每個結果的概率是1/6。所以加權平均值就是3.5。


第二步,畫出來看看

我們把生成的數據用直方圖畫出來直觀地感受一下:

可以看到1~6分布都比較平均,不錯。


第三步,抽一組抽樣來試試

我們接下來隨便先拿一組抽樣,手動算一下。例如我們先從生成的數據中隨機抽取10個數字:

這10個數字的結果是: [3, 4, 3, 6, 1, 6, 6, 3, 4, 4]

平均值:4.0

標準差:1.54


可以看到,我們只抽10個的時候,樣本的平均值(4.0)會距離總體的平均值(3.5)有所偏差。

有時候我們運氣不好,抽出來的數字可能偏差很大,比如抽出來10個數字都是6。那平均值就是6了。 為什麼會出現都是6的情況呢?因為我比較6…哦不是,因為這就是隨機的魅力呀!


不過不要擔心,接下去就是見證奇蹟的時刻。


第四步,見證奇蹟的時刻

我們讓中心極限定理髮揮作用。現在我們抽取1000組,每組50個。

我們把每組的平均值都算出來。


這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 … 4.08, 3.74] (我肯定不會把1000個數字都寫完,又沒有稿費可以騙)


然後,我們把這1000個數字用直方圖畫出來:

TADA! 完美地形成了正態分布


結果列印如下:

平均值:3.48494

標準差:0.23506


在實際生活當中,我們不能知道我們想要研究的對象的平均值,標準差之類的統計參數中心極限定理在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究對象統計參數的目的

在上文的例子中,擲骰子這一行為的理論平均值3.5是我們通過數學定理計算出來的。而我們在實際模擬中,計算出來的樣本平均值的平均值(3.48494)確實已經和理論值非常接近了。


adrenaline  n.  腎上腺素

analogous  adj. 類似的

precipitate  v. 促使,導致  adj. 倉促的,匆忙的

alienate  v. 使疏遠

permanent  adj. 永久的,永恆的


推薦閱讀:

精彩知識回顧

深度學習之激活函數詳解

深度學習之卷積神經網絡CNN理論與實踐詳解

深度學習之RNN、LSTM及正向反向傳播原理

TreeLSTM Sentiment Classification

一分鐘搞懂的算法之BPE算法

【乾貨】神經網絡SRU

基於attention的seq2seq機器翻譯實踐詳解

【乾貨】基於注意力機制的seq2seq網絡

【乾貨】GRU神經網絡



歡迎關注深度學習自然語言處理公眾號,我會每天更新自己在機器學習深度學習NLPlinuxpython以及各種數學知識學習的一點一滴!再小的人也有自己的品牌!期待和你一起進步!


長按識別二維碼


點個讚唄


相關焦點

  • 山頂洞人學機器學習之——中心極限定理(通俗理解版)
    中心極限定理(CLT)是數理統計中最重要的定理之一,具有廣泛的應用場景。準確理解中心極限定理背後深層次的含義,有助於打牢機器學習的基礎。本篇文章將用最通俗的語言來揭示中心極限定理,並結合R語言,通過可視化的途徑來還原這一定理。本文的結構安排將從中心極限定理的定義、案例分析、R語言還原、總結四個部分來展開。
  • 中心極限定理的最最通俗解釋
    下面我們來通過實例來看看一個擲骰子的平均分布,如何變成一個正態分布。樣本每組要足夠大,但也不需要太大:取樣本的時候,一般認為每組大於等於30個,即可讓中心極限定理髮揮作用。
  • 中心極限定理
    第四步、結果我們讓中心極限定理髮揮作用。現在我們抽取1000組,每組50個。我們把每組的平均值都算出來。這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 … 4.08, 3.74],用直方圖表示(如下),很明顯是一個正態分布。
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    今天我們接著學習概率論與數理統計,第四章大數定律與中心極限定理。先說重點,好像平時考試、考研數學裡這一章不是重點。①理解三種大數定律,努利大數定律、切比雪夫大數定律、辛欽大數定律。②兩種中心極限定理,林德伯格-萊維中心極限定理、棣莫弗-拉普拉斯中心極限定理。 (名字有點長啊)
  • CLT - 中心極限定理
    在樣本對總體的統計推論過程當中,中心極限定理就是理論基礎。我們通過下面這個小練習來了解該定理吧,我們用MiniTAB生成9列數據,每列100個,要求: 步驟一:生成數據。Stacked樣本量n平均值xbarμ方差s2σ2 從這裡我們可以看到樣本均值分布(Row_Mean)和總體分布(Stacked)間的平均值與方差存在關係: 這個也就是我們學習六西格瑪時所說的中心極限定理
  • 大數定律與中心極限定理
    在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。
  • 講講中心極限定理
    總第202篇/張俊紅今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理,中心極限定理是指:現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本
  • 考研數學:中心極限定理
    中心極限定理是研究獨立隨機變量和的極限分布為正態分布的問題。它是概率論中最重要的一類定理,有廣泛的實際應用背景。中心極限定理(central limit theorem)是概率論中討論隨機變量序列部分和分布漸近於正態分布的一類定理。
  • 徹底理解中心極限定理——最重要的統計定理之一
    中心極限定理(CLT)是統計學中的一個基本定理,它是一個非常簡單的概念。當你進一步閱讀時就會發現,這也是一個很重要的概念。在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章
  • 中心極限定理:從高爾頓板到麥克斯韋分布
    百年之後,拉普拉斯試圖挽救這個定理的人氣,依然沒有成功。為了紀念這對「難兄難弟」,現在人們把這個定理稱為棣莫弗-拉普拉斯定理。這種逼近的本質究竟是什麼呢?我們看到,不管是高爾頓板,還是多次賭博,二項分布拆成每一步都是簡單的概率事件。那麼就可以說,二項分布是這樣的一步一步「加」起來的。
  • 考研數學大數定律和中心極限定理題型解析
    下面主要分析概率統計部分中的大數定律和中心極限定理的題型及解題方法。 題型:概率統計中的大數定律和中心極限定理的題型及解題方法 概率統計中的大數定律和中心極限定理的題型,在考研數學(一)和(三)的歷年考試中出現的頻率雖然不高,但仍在考試大綱範圍之內,考試中仍有可能出現這種題型,因此,考生們對這種題型也應該有所了解,對基本題的解題方法應該掌握。
  • 數據科學家必須了解的事:中心極限定理
    來源:Pexels數據科學家必須了解的事:中心極限定理。你了解嗎?編碼之前,快速回顧今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。回顧直方圖首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
  • 最重要的統計定理:詳解強大的中心極限定理
    圖源:unsplash中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。例1取一個均勻分布(從0到1,稱為均勻分布,因為在0和1之間選擇值的概率相等,因此它的概率密度函數(PDF)就是水平的黑色直線)。
  • 大數定律和中心極限定理的區別和聯繫
    閱讀大概需要5分鐘昨天看了中心極限定理,今天寫本科論文期間,又抽業餘時間看了看大數定律,剛開始差點把本小博主給看蒙了O.O
  • 二項式定理的通俗解釋
    在中學數學裡,我們會經常遇到一個叫做「二項式定理(Binomial Theorem)」的知識。
  • 極限套路之夾逼定理
    J胖今天要介紹的定理名字很多很洋氣。它的英文名: Sandwich Theorem。數學老師常用名:兩邊夾定理。
  • 改變世界的統計發現:中心極限定理的偉大是炒作嗎?
    該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。閱讀本文不需要任何深入的統計知識,知道均值、方差和標準差就可以開始了。
  • 2021考研概率論與數理統計衝刺:大數定律和中心極限定理考試要求
    大數定律和中心極限定理考試要求1.了解切比雪夫不等式。2.了解切比雪夫大數定律、伯努利大數定律和辛欽大數定律(獨立同分布隨機變量序列的大數定律)。3.了解棣莫弗-拉普拉斯定理(二項分布以正態分布為極限分布)和列維-林德伯格定理(獨立同分布隨機變量序列的中心極限定理)。 免責聲明:本站所提供試題均來源於網友提供或網絡搜集,由本站編輯整理,僅供個人研究、交流學習使用,不涉及商業盈利目的。
  • 數列極限專題:Stolz定理及在數列未定式極限中的應用典型題分析
    ,一般用於 "*/∞" 型的極限(即分母趨於正無窮大的分式極限,分子趨不趨於無窮大無所謂)、0/0型極限(此時要求分子分母都以0為極限)。該定理可以認為是函數極限洛必達法則的離散版本.  例1:證明以下結論成立:  【參考證明】:問題轉換:兩端取對數,則  由於  記上面得到的數列的分子為  記 ,則 嚴格單調遞增且  從而有  所以,由Stolz定理的結論,有  即有  【注2】:使用Stolz定理的結論證明或者求數列的極限
  • 遞推數列存在極限的證明與極限值求解思路與典型題分析(三)——拉鏈定理
    【注】:公式顯示不全時請在公式上左右滑動完整顯示拉鏈定理:數列繼續以遞推數列存在極限的證明與極限值思路與典型題分析(三)——夾逼定理(定義法)中的例題為例,分析基於拉鏈定理的遞推數列極限存在性證明思路與步驟:例:驗證數列逼近方程