徹底理解中心極限定理——最重要的統計定理之一

2020-12-13 老胡說科學

本文參加百家號 #科學了不起# 系列徵文賽。

中心極限定理(CLT)是統計學中的一個基本定理,它是一個非常簡單的概念。當你進一步閱讀時就會發現,這也是一個很重要的概念。在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章徹底理解正態分布——強大的數學分析工具,它是中心極限定理的完美前傳。

中心極限定理的準定義是:

中心極限定理(CLT)指出,如果樣本量足夠大,則變量均值的採樣分布將近似於正態分布,而與該變量在總體中的分布無關。

解碼晦澀的定義

讓我們直接進入一些例子!

示例# 1

選取一個均勻分布[0,1],它被稱為均勻分布,因為在0和1之間選擇值的概率相等,因此它的概率密度函數(PDF)是水平的直線。現在,讓我們假設我們從這個分布中隨機抽取20個樣本(綠點)並計算這些樣本的均值,我們得到一個值,在這個例子中是0.5,用虛線表示。讓我們把這個平均值畫在直方圖上。由於這個柱狀圖到目前為止只有一個平均值,它並沒有告訴我們任何其他信息(左圖)。繼續從相同的分布中提取更多的隨機樣本,計算各自的平均值並將這些平均值繪製在直方圖上,我們開始得到一個有趣的結果。

隨著我們從均勻分布中抽取越來越多的隨機樣本,並在直方圖上繪製樣本均值,我們得到一個正態分布結果如下(見右曲線)。

推論:

我們從均勻的數據分布開始,但是從中抽取的樣本均值是正態分布。

例# 2

在第二個例子中,讓我們按照與第一個例子相同的步驟,唯一的不同是我們這次要從指數分布中提取樣本。

我們將再次隨機抽取20個樣本,計算樣本的均值,並將其繪製在直方圖上。計算100這樣的樣本的均值並將其畫在直方圖上,這樣的分布對我們來說並不陌生。樣本均值是正態分布!

推論:我們從指數數據分布開始,但從中抽取樣本的均值得到正態分布。

我們從指數數據分布開始,但是從中抽取的樣本均值得到正態分布。

因此,它在這一點上變得非常直觀,中心極限定理意味著什麼?

中心極限定理意味著即使數據分布不是正態的,從中抽取的樣本均值的分布也是正態的。

知道樣本均值總是正態分布的實際含義是什麼?

在分析領域,我們每天都會遇到各種各樣的數據,而源數據的分布並不總是被我們所知道的,但是,因為我們了解中心極限定理,所以我們甚至不需要關心源數據的分布,因為我們總是可以得到正態分布。

為了使中心極限定理能夠起作用,我們必須能夠計算出樣本的平均值。有一個分布稱為柯西分布,沒有樣本均值,從而中心極限定理論並不適用於它,但除了柯西分布,我沒有遇到除中心極限定理以外的任何其他分布。)

下面是了解均值正態分布的實際含義:

我們可以用均值的正態分布來分配置信區間。我們可以進行T檢驗(即兩個樣本均值之間是否存在差異)我們可以進行方差分析(即3個或更多樣本的均值之間是否存在差異)這篇文章涵蓋了我們在處理數據和樣本時應該知道的中心極限定理的整個理論。

相關焦點

  • 最重要的統計定理:詳解強大的中心極限定理
    圖源:unsplash中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。
  • 統計學最重要的定理之一:中心極限定理
    今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本,重複多次,每次抽樣得到的樣本量統計值(比如均值)與總體的統計值(比如均值)應該是差不多的,而且重複多次以後會得到多個統計值,這多個統計值會呈正態分布。還是直接來看例子吧。
  • 大數定律與中心極限定理的理解(筆記)
    在以下文章中,多次提到隨機過程、中心極限定理等概念,即使反覆的推敲,似乎仍然沒有達到深入理解的程度,所以,繼續學習和增加理論基礎。
  • 數學教育:中心極限定理
    這組定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量近似服從正態分布的條件。它是概率論中最重要的一類定理,有廣泛的實際應用背景。在自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,如果每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分布的。中心極限定理就是從數學上證明了這一現象。最早的中心極限定理是討論重點,伯努利試驗中,事件A出現的次數漸近於正態分布的問題。
  • 山頂洞人學機器學習之——中心極限定理(通俗理解版)
    機器學習是實現人工智慧的重要技術之一。在學習機器學習的過程中,必須要掌握一些基礎的數學與統計知識。中心極限定理(CLT)是數理統計中最重要的定理之一,具有廣泛的應用場景。準確理解中心極限定理背後深層次的含義,有助於打牢機器學習的基礎。
  • 中心極限定理(概率統計19)
    這種現象就是中心極限定理的客觀背景。為了簡單起見,可以先假設μ=0,σ2 > 0,這樣就可以認為Yn期望等於Xi的期望。方差刻畫了單個隨機變量相對於均值的波動程度,類似地,我們也想要知道隨機變量之和的波動,以便了解「骰子全部都是1點」這種小概率事件發生的機率。
  • 中心極限定理通俗介紹
    是統計學中比較重要的一個定理。本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。什麼是中心極限定理(Central Limit Theorem)中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態分布。
  • 講講中心極限定理
    總第202篇/張俊紅今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理,中心極限定理是指:現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    今天我們接著學習概率論與數理統計,第四章大數定律與中心極限定理。先說重點,好像平時考試、考研數學裡這一章不是重點。①理解三種大數定律,努利大數定律、切比雪夫大數定律、辛欽大數定律。②兩種中心極限定理,林德伯格-萊維中心極限定理、棣莫弗-拉普拉斯中心極限定理。 (名字有點長啊)
  • 抽樣分布之中心極限定理(Central Limit Theorem)
    雖然在數理統計的教科書中,在講完隨機變量的分布和數字特徵後才開始講中心極限定理,但實際中心極限定理的提出和應用卻早於正態分布,而正態分布恰恰是運用中心極限定理證明出來的。現代的課本都是按照數學內在的邏輯編排出來的,而科學家很少按照課本的安排順序推進問題的研究進程。請允許我多囉嗦幾句,按中心極限定理的發展順序來說。
  • 改變世界的統計發現:中心極限定理的偉大是炒作嗎?
    該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。
  • 大數定律與中心極限定理
    在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。
  • 中心極限定理:從高爾頓板到麥克斯韋分布
    百年之後,拉普拉斯試圖挽救這個定理的人氣,依然沒有成功。為了紀念這對「難兄難弟」,現在人們把這個定理稱為棣莫弗-拉普拉斯定理。 這種逼近的本質究竟是什麼呢?我們看到,不管是高爾頓板,還是多次賭博,二項分布拆成每一步都是簡單的 概率事件。那麼就可以說,二項分布是這樣的一步一步「加」起來的。
  • 2021考研概率論與數理統計衝刺:大數定律和中心極限定理考試要求...
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。大數定律和中心極限定理考試要求1.了解切比雪夫不等式。
  • 大數定律和中心極限定理的區別和聯繫
    閱讀大概需要5分鐘昨天看了中心極限定理,今天寫本科論文期間,又抽業餘時間看了看大數定律,剛開始差點把本小博主給看蒙了O.O
  • 數學史上最重要的證明之一:微積分基本定理證明
    本篇文章旨在證明微積分基本定理,對於不那麼熱衷於代數的人來說,這是一種視覺方法,而對於那些對精確性不那麼嚴格的人,要採用一種代數的,稍微更嚴格的方法。我們將理解數學中最重要的歷史證明之一。之所以重要,是因為它將以前不可能解決的問題(即函數的積分問題)簡化為查找導數的藝術。
  • 極限套路之夾逼定理
    農村土氣叫法:夾擠定理。而像小編這樣的數學流氓最喜歡叫它夾逼定理!!!我承認我是流氓   你們呢?? 我的想法當然和純(wei)潔(suo)的你們不一樣。我叫他夾逼定理的原因是:這樣比較有氣勢,在做題的時候可以配合著大喊一聲:哪裡跑!(定理性質就是去夾,去逼式子的極限)。 下面簡單介紹一下夾逼定理!!
  • 《95%》極值類型定理(ETT)
    如果被問及數理統計中最重要的定理,最普遍的答案可能是中心極限定理(CLT)。中心極限定理是概率論中最著名的結果之一。它提出,大量的獨立隨機變量之和具有近似於正態的分布。因此,它不僅提供了計算獨立隨機變量之和的近似概率的簡單方法,而且有助於解釋為什麼有很多自然群體的經驗頻率呈現出鐘形(即正態)曲線這一事實,因此中心極限定理這個結論使正態分布在數理統計中具有很重要的地位,也使正態分布有了廣泛的應用。 中心極限定理有著有趣的歷史。
  • 2021考研數學高數衝刺備考:重要定理之函數與極限
    ►函數與極限1、函數的有界性在定義域內有f(x)&geK1則函數f(x)在定義域上有下界,K1為下界如果有f(x)&leK2,則有上界,K2稱為上界。函數f(x)在定義域內有界的充分要條件是在定義域內既有上界又有下界。2、數列的極限定理(極限的性)數列xn不能同時收斂於兩個不同的極限。
  • 2018考研高數重要定理證明:微分中值定理
    我們可以按照導數定義寫出f'(x0)的極限形式。往下如何推理?關鍵要看第二個條件怎麼用。「f(x0)為f(x)的極值」翻譯成數學語言即f(x)-f(x0)<0(或>0),對x0的某去心鄰域成立。結合導數定義式中函數部分表達式,不難想到考慮函數部分的正負號。若能得出函數部分的符號,如何得到極限值的符號呢?極限的保號性是個橋梁。