講講中心極限定理

2021-02-19 俊紅的數據分析之路

總第202篇/張俊紅

今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理,中心極限定理是指:現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值(比如均值)與總體的統計值(比如均值)應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分布。還是直接來看例子吧。

import numpy as np
import pandas as pd
import seaborn as sns
data = np.random.rand(10000)
sns.distplot(data)

上面代碼是用來生成10000個隨機數的,並繪製分布圖。通過分布圖可以看出,這10000個隨機數基本是均等分布,也就是每個值出現的概率差不多。

現在我們從這10000個樣本中隨機抽取若干個樣本(30、50、100、500),重複抽取100次,會得到100個樣本均值,然後繪製樣本均值分布圖。

plt.figure(figsize = (9,9))
plt.subplot(221)
sample_mean = []
for i in range(1,100):
    s = np.random.choice(data,size = 30).mean()
    sample_mean.append(s)
sns.distplot(sample_mean)
plt.title("size = 30")

plt.subplot(222)
sample_mean = []
for i in range(1,100):
    s = np.random.choice(data,size = 50).mean()
    sample_mean.append(s)
sns.distplot(sample_mean)
plt.title("size = 50")

plt.subplot(223)
sample_mean = []
for i in range(1,100):
    s = np.random.choice(data,size = 100).mean()
    sample_mean.append(s)
sns.distplot(sample_mean)
plt.title("size = 100")

plt.subplot(224)
sample_mean = []
for i in range(1,100):
    s = np.random.choice(data,size = 500).mean()
    sample_mean.append(s)
sns.distplot(sample_mean)
plt.title("size = 500")

上面代碼是我們每次抽取的樣本量為:30、50、100、500,通過運行上面代碼可以得到每次抽取不同樣本量對應的樣本均值的分布結果:

可以看到,不同樣本量對應的均值分布均符合正態分布。以上就是關於中心極限定理的思想。這裡需要弄清楚的一點是樣本均值符合正態分布,而不是樣本本身符合正態分布哦。

那這個定理有什麼用呢?還記得我們前面一開始說過的結論嗎?就是抽樣算出來的均值會接近總體的均值,所以基於這個定理的存在,我們可以用抽樣結果的均值來估計總體的均值。比如你要統計一下北京市的平均工資,那麼你就可以從北京全部人口這個總體中隨機抽取部分樣本,抽取若干次,把這若干次的均值再求均值以後,就可以作為北京市全部人口的平均工資。

相關焦點

  • 數學教育:中心極限定理
    這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量近似服從正態分布的條件。它是概率論中最重要的一類定理,有廣泛的實際應用背景。在自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分布的。中心極限定理就是從數學上證明了這一現象。最早的中心極限定理是討論重點,伯努利試驗中,事件A出現的次數漸近於正態分布的問題。
  • 大數定律與中心極限定理
    在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。
  • 中心極限定理通俗介紹
    本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。什麼是中心極限定理(Central Limit Theorem)中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分布。
  • 徹底理解中心極限定理——最重要的統計定理之一
    中心極限定理(CLT)是統計學中的一個基本定理,它是一個非常簡單的概念。當你進一步閱讀時就會發現,這也是一個很重要的概念。在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章
  • 大數定律與中心極限定理的理解(筆記)
    無論是隨機過程,還是中心極限定理,都使用了概率論,中心極限定理的推導過程也是很複雜,所以,一個重要問題就是,它們到底對不對?    學習理論要達到的目的是指導實踐,指導投資,增加對現實的理解,增加對理論本身的理解,以及想要建立一個分析框架等。
  • 中心極限定理(概率統計19)
    這種現象就是中心極限定理的客觀背景。為了簡單起見,可以先假設μ=0,σ2 > 0,這樣就可以認為Yn期望等於Xi的期望。方差刻畫了單個隨機變量相對於均值的波動程度,類似地,我們也想要知道隨機變量之和的波動,以便了解「骰子全部都是1點」這種小概率事件發生的機率。
  • 抽樣分布之中心極限定理(Central Limit Theorem)
    雖然在數理統計的教科書中,在講完隨機變量的分布和數字特徵後才開始講中心極限定理,但實際中心極限定理的提出和應用卻早於正態分布,而正態分布恰恰是運用中心極限定理證明出來的。現代的課本都是按照數學內在的邏輯編排出來的,而科學家很少按照課本的安排順序推進問題的研究進程。請允許我多囉嗦幾句,按中心極限定理的發展順序來說。
  • 統計學最重要的定理之一:中心極限定理
    今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值(比如均值)與總體的統計值(比如均值)應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分布。還是直接來看例子吧。
  • 中心極限定理:從高爾頓板到麥克斯韋分布
    百年之後,拉普拉斯試圖挽救這個定理的人氣,依然沒有成功。為了紀念這對「難兄難弟」,現在人們把這個定理稱為棣莫弗-拉普拉斯定理。 這種逼近的本質究竟是什麼呢?我們看到,不管是高爾頓板,還是多次賭博,二項分布拆成每一步都是簡單的 概率事件。那麼就可以說,二項分布是這樣的一步一步「加」起來的。
  • 最重要的統計定理:詳解強大的中心極限定理
    圖源:unsplash中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。
  • 大數定律和中心極限定理的區別和聯繫
    閱讀大概需要5分鐘昨天看了中心極限定理,今天寫本科論文期間,又抽業餘時間看了看大數定律,剛開始差點把本小博主給看蒙了O.O
  • 山頂洞人學機器學習之——中心極限定理(通俗理解版)
    中心極限定理(CLT)是數理統計中最重要的定理之一,具有廣泛的應用場景。準確理解中心極限定理背後深層次的含義,有助於打牢機器學習的基礎。本篇文章將用最通俗的語言來揭示中心極限定理,並結合R語言,通過可視化的途徑來還原這一定理。本文的結構安排將從中心極限定理的定義、案例分析、R語言還原、總結四個部分來展開。
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    ②兩種中心極限定理,林德伯格-萊維中心極限定理、棣莫弗-拉普拉斯中心極限定理。 (名字有點長啊)中心極限定理(2)解釋(我們只看常考的兩種)林德伯格-萊維中心極限定理:① 是獨立同分布下的中心極限定理,揭示了測量誤差近似地服從正態分布。
  • 極限套路之夾逼定理
    農村土氣叫法:夾擠定理。而像小編這樣的數學流氓最喜歡叫它夾逼定理!!!我承認我是流氓   你們呢?? 我的想法當然和純(wei)潔(suo)的你們不一樣。我叫他夾逼定理的原因是:這樣比較有氣勢,在做題的時候可以配合著大喊一聲:哪裡跑!(定理性質就是去夾,去逼式子的極限)。 下面簡單介紹一下夾逼定理!!
  • 2021考研概率論與數理統計衝刺:大數定律和中心極限定理考試要求...
    大數定律和中心極限定理考試要求1.了解切比雪夫不等式。3.了解棣莫弗-拉普拉斯定理(二項分布以正態分布為極限分布)和列維-林德伯格定理(獨立同分布隨機變量序列的中心極限定理)。 免責聲明:本站所提供試題均來源於網友提供或網絡搜集,由本站編輯整理,僅供個人研究、交流學習使用,不涉及商業盈利目的。
  • 改變世界的統計發現:中心極限定理的偉大是炒作嗎?
    該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。
  • 夾逼定理在求和數列極限中的應用
    求和數列極限的求解,通常有兩種方法,1)化求和數列極限為定積分;2)夾逼定理,通俗講,就是放大縮小法。本期,小編重點介紹夾逼定理在求和數列極限中的應用。在用夾逼定理對求和數列極限求解過程中,通用的思路邏輯:1)確定採用何種方法。
  • 數列極限專題:Stolz定理及在數列未定式極限中的應用典型題分析
    ,一般用於 "*/∞" 型的極限(即分母趨於正無窮大的分式極限,分子趨不趨於無窮大無所謂)、0/0型極限(此時要求分子分母都以0為極限)。該定理可以認為是函數極限洛必達法則的離散版本.  例1:證明以下結論成立:  【參考證明】:問題轉換:兩端取對數,則  由於  記上面得到的數列的分子為  記 ,則 嚴格單調遞增且  從而有  所以,由Stolz定理的結論,有  即有  【注2】:使用Stolz定理的結論證明或者求數列的極限
  • 2020山東專升本考試:函數與極限定理(二)
    2020山東專升本考試:函數與極限定理(二) 對於專升本數學來說,高數部分很重要,要想拿分,必須把一些定理記牢。為了幫助大家更好的備考,今天山東中公教育小編就整理分享:2020山東專升本考試:函數與極限定理(二)的相關內容,希望大家在備考的時候多多注意!
  • 數列極限專題:夾逼定理與單調有界原理求數列極限實例分析
    夾逼準則與單調有界原理是直接判定數列極限是否存在與計算極限的基本方法,它們包含的內容非常簡單:定理:(夾逼定理) 設數列定理:(單調有界原理)設數列,如果存在求其極限值,其中【分析一】(夾逼定理):將分子(設