改變世界的統計發現:中心極限定理的偉大是炒作嗎?

2021-01-08 讀芯術

全文共2431字,預計學習時長8分鐘

圖源:Pawanpreet

隨著人類進入先進的超級智能技術時代,一些領域正以前所未有的速度蓬勃發展。數據科學就是其中一個。

該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?

當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。閱讀本文不需要任何深入的統計知識,知道均值、方差和標準差就可以開始了。

什麼是總體?

假設想知道一個印度成年人的平均工資是多少。去詢問每一個印度成年人,即大約7.7億人,並計算他們的平均工資。在這種情況下,觀察的是整個「總體」,沒有遺漏任何一個人。可以說總體包含了構成一組數據的所有可能元素。

總體的可測量特徵,如均值或標準差,稱為參數。表示總體均值,表示總體標準差。

什麼是樣本?

既然已經定義了什麼是總體,就不需要解釋為什麼在實際情況下觀察整個總體是不可能的。了解總體的最好方法是從總體中隨機抽取一些人。這些人被稱為樣本。

之所以把重點放在「隨機」這個詞上,是因為樣本中所有n個對象被選中的可能性都是相等的,這一點至關重要。

想像一下,如果樣本由一群在谷歌、微軟、Facebook等公司工作的軟體工程師組成。這將不能準確地代表整個總體。這樣會得到一個偏態樣本,這種情況是不可取的。

樣本的可測量特徵,如均值或標準差,稱為統計量。X表示樣本均值,S表示樣本標準差。

正態分布

接著來介紹構成CLT基礎的最重要的概念了:

正態分布:在現實生活中,數據科學家要處理大量的數據。將數據繪製在圖上可以很容易地理解和定義測量其屬性(均值、方差等)的方法。

為了理解正態分布,必須理解如何繪製相對頻率圖形。下面的柱狀圖是在美國隨機抽取的200個軟體工程師組成的樣本。x軸表示以千美元為單位的工資間隔,y軸表示每個間隔的相對頻率(或概率)。

需要注意的是,這隻適用於小型數據集。當處理具有數百萬個條目的較大數據時,間隔會變得越來越小。在某個時刻,間隔變得小到甚至可以看作是一條曲線。來看看下面的動畫:

在動畫的最後可以看到曲線是某個分布的可視化,其中的數據點可以取任何連續值。這條曲線被稱為密度曲線,這種分布被稱為正態分布(或高斯分布或鐘形曲線)。

正態分布的許多特點使得它獨一無二且非常有用。宇宙中的很多現象都遵循這個分布。

為了直觀地理解為什麼這種分布形狀是這樣的,來看這樣一個例子:在一個班級中,分數很低的學生很少,分數很高的學生也很少。學生的分數是正態分布的。在許多其他情況下,異常高或異常低的值(稱為離群值)很少,而大多數數據是對稱分布的鐘形。

圖源:unsplash

正態分布有這樣一些重要性質:

· 正態分布關於其均值()對稱,表明靠近均值的數據比遠離均值的數據更頻繁地出現。這就是為什麼在圖中,正態分布顯示為鐘形曲線的原因。

μ=均值和σ=標準差

· 對於正態分布的數據集,均值和中位數相等(都等於)

· 大約68%的數據位於均值的1個標準差之內

· 大約95%的數據位於均值的2個標準差之內

圖源:Pawanpreet

中心極限定理

用一個例子來理解這個定理:

有一個大的數據集:印度的人口。假設要計算印度人的平均身高。由於已經討論過總體的概念,不能觀察每個數據點並計算其均值。可以做的就是從人群中隨機抽取5個人作為樣本(即從人群中隨機抽取5個人並測量他們的身高)。

假設現在有250人正在閱讀這篇文章,所有的讀者都收集了一個隨機樣本,樣本大小為5。現在有250個樣本大小為5的樣本。

計算每個樣本的均值得到250個樣本均值。現在,如果把這250個均值畫在一個頻率分布上,可得:

通過OnlineStatsBook模擬

我們能看出這趨於正態分布。

另一個有趣的結果是上述樣本均值分布的均值(X)近似於總體均值()。這意味著,無需分析整個總體,就可以估計總體均值。

如果把每個隨機樣本的大小從5增加到25,模擬結果是什麼:

通過OnlineStatsBook模擬

是的,更趨於正態分布(即數據點與均值的偏差更小)!隨著增加單個樣本的大小,這種分布變得越來越接近正態。

請注意,沒有增加隨機樣本的數量,即文章的讀者數量相同,但是現在每個讀者收集的樣本大小為25而不是5。每當對任何數據集執行上述步驟時,樣本均值的分布將始終保持正態分布。多麼奇妙的結果!

上面顯示的樣本均值分布稱為樣本均值(X)的採樣分布。

最終後來模擬圖形趨於理想正態分布的情況:

當樣本大小增加到10248時,觀察左邊的「Reps」

從以上結果可以看出,當樣本量為25時,樣本均值的抽樣分布比當樣本大小為5時更趨於正態。

CLT的美妙之處在於,它甚至可以用於非正態分布的總體。總體可能看起來是這樣的:

或者是你可以想到的任何情況。關鍵是不需要知道總體的狀況,而仍然有能力進行研究。

最後我們來正式認識一下CLT吧。根據Investopedia的研究,中心極限定理(CLT)指出,假設所有樣本大小相同,不論總體分布的形狀,隨著樣本大小越大,樣本均值的分布近似於正態分布(也稱為「鐘形曲線」)。

中心極限定理的應用

是時候看看這個發現是如何以及為什麼讓我們的生活變得如此簡單:

1.如果不知道總體分布或是非正態分布 (在大多數情況下都是這樣),根據CLT,可以認為抽樣分布服從正態分布。該方法假設抽樣分布是正態分布的,這有助於用構造置信區間(如何確定某個結果是正確的)等方法分析數據。

2.CLT最常見的應用之一是在選舉後的民意調查中。計算新聞中支持某候選人的百分比,即置信區間。

3.為了更準確地估計總體均值,可以增加從總體中抽取的樣本,最終減小樣本均值偏差。

圖源:unsplash

列出每個用例就像數天上的星星一樣,別傻了,讓統計學來拯救你吧!

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 最重要的統計定理:詳解強大的中心極限定理
    圖源:unsplash中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。例1取一個均勻分布(從0到1,稱為均勻分布,因為在0和1之間選擇值的概率相等,因此它的概率密度函數(PDF)就是水平的黑色直線)。
  • 講講中心極限定理
    總第202篇/張俊紅今天我們來聊聊統計學裡面比較重要的一個定理:中心極限定理,中心極限定理是指:現在有一個總體數據,如果從該總體數據中隨機抽取若干樣本
  • 徹底理解中心極限定理——最重要的統計定理之一
    中心極限定理(CLT)是統計學中的一個基本定理,它是一個非常簡單的概念。當你進一步閱讀時就會發現,這也是一個很重要的概念。在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章
  • CLT - 中心極限定理
    任何過程的控制與分析都難以做到對樣本的總體數據進行收集和分析,都是通過特定的抽樣計劃進行樣本採集、分析,然後通過樣本數據的結論對樣本的總體進行統計推論
  • 大數定律與中心極限定理
    在概率統計的學習或使用過程中,經常有人會提到大數定律和中心極限定理,它們也恰恰是概率論、統計學和理論科學的基石。
  • 半個月學完概率論與數理統計(第四章),大數定律與中心極限定理
    今天我們接著學習概率論與數理統計,第四章大數定律與中心極限定理。先說重點,好像平時考試、考研數學裡這一章不是重點。①理解三種大數定律,努利大數定律、切比雪夫大數定律、辛欽大數定律。②兩種中心極限定理,林德伯格-萊維中心極限定理、棣莫弗-拉普拉斯中心極限定理。 (名字有點長啊)
  • 中心極限定理通俗介紹
    本文將通過實際模擬數據的形式,形象地展示中心極限定理是什麼,是如何發揮作用的。什麼是中心極限定理(Central Limit Theorem)中心極限定理指的是給定一個任意分布的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。
  • 中心極限定理:從高爾頓板到麥克斯韋分布
    這不就是老早學過的楊輝三角嗎?最上方只有一種可能,下降之後,左右兩邊比例變成,繼續這個步驟,第行的比例係數其實就是次二項式的展開係數或者。正因如此,這種分布被稱為二項分布。如今,我們把這一系列逼近正態分布的性質稱為「中心極限定理」,結論從最初的二項分布,已經擴展到了任意分布(包括同分布和不同分布)的廣闊天地。就如同上一段中的誤差——即便我們對微觀下的擾動一無所知,也能通過這種極限形式,了解大樣本下的整體行為。應用這一思想的最為經典的例子當屬統計力學。假如有一大堆粒子,每個都雜亂無章地運動,我們自然無從知曉每一個粒子的運動狀況。
  • 2021考研概率論與數理統計衝刺:大數定律和中心極限定理考試要求
    概率論與數理統計是考研數學中尤其重要的一門,在這個階段大家一定不要放鬆,持續備戰方可戰勝困難,下面中公考研小編為大家整理概率論與數理統計相關內容,希望對各位考生有所幫助。大數定律和中心極限定理考試要求1.了解切比雪夫不等式。2.了解切比雪夫大數定律、伯努利大數定律和辛欽大數定律(獨立同分布隨機變量序列的大數定律)。
  • 中心極限定理
    第四步、結果我們讓中心極限定理髮揮作用。現在我們抽取1000組,每組50個。我們把每組的平均值都算出來。這一共1000個平均值大概是這樣的:[3.44, 3.42, 3.22, 3.2, 2.94 … 4.08, 3.74],用直方圖表示(如下),很明顯是一個正態分布。
  • 考研數學大數定律和中心極限定理題型解析
    下面主要分析概率統計部分中的大數定律和中心極限定理的題型及解題方法。 題型:概率統計中的大數定律和中心極限定理的題型及解題方法 概率統計中的大數定律和中心極限定理的題型,在考研數學(一)和(三)的歷年考試中出現的頻率雖然不高,但仍在考試大綱範圍之內,考試中仍有可能出現這種題型,因此,考生們對這種題型也應該有所了解,對基本題的解題方法應該掌握。
  • 盤點改變世界的六個偉大數學方程式:勾股定理上榜
    (勾股定理)和谷歌搜索算法等。以下是其中對世界改變最大的6個數學方程式。流行文化已經將E=mc2變成了印在T恤上的符號,但它可是有史以來最著名的方程式。任何上過中學的人都能將其與愛因斯坦聯繫起來。而且知道E和m是什麼意思也不難。但你知道為什麼寫的是c的平方嗎?總之,我們真的清楚這個公式的全部含義嗎?
  • 大數定律和中心極限定理的區別和聯繫
    閱讀大概需要5分鐘昨天看了中心極限定理,今天寫本科論文期間,又抽業餘時間看了看大數定律,剛開始差點把本小博主給看蒙了O.O
  • 考研數學:中心極限定理
    中心極限定理是研究獨立隨機變量和的極限分布為正態分布的問題。它是概率論中最重要的一類定理,有廣泛的實際應用背景。中心極限定理(central limit theorem)是概率論中討論隨機變量序列部分和分布漸近於正態分布的一類定理。
  • 數據科學家必須了解的事:中心極限定理
    來源:Pexels數據科學家必須了解的事:中心極限定理。你了解嗎?編碼之前,快速回顧今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。回顧直方圖首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
  • 山頂洞人學機器學習之——中心極限定理(通俗理解版)
    在學習機器學習的過程中,必須要掌握一些基礎的數學與統計知識。中心極限定理(CLT)是數理統計中最重要的定理之一,具有廣泛的應用場景。準確理解中心極限定理背後深層次的含義,有助於打牢機器學習的基礎。本篇文章將用最通俗的語言來揭示中心極限定理,並結合R語言,通過可視化的途徑來還原這一定理。本文的結構安排將從中心極限定理的定義、案例分析、R語言還原、總結四個部分來展開。
  • 中心極限定理的最最通俗解釋
    中心極限定理告訴我們,當樣本量足夠大時,樣本均值的分布慢慢變成正態分布,就像下圖:下面我們來通過實例來看看一個擲骰子的平均分布,如何變成一個正態分布在理論上保證了我們可以用只抽樣一部分的方法,達到推測研究對象統計參數的目的。其中要注意的幾點:總體本身的分布不要求正態分布:我們的例子是擲一個骰子(平均分布),最後每組的平均值也會組成一個正態分布。樣本每組要足夠大,但也不需要太大:取樣本的時候,一般認為每組大於等於30個,即可讓中心極限定理髮揮作用。
  • 極限套路之夾逼定理
    農村土氣叫法:夾擠定理。而像小編這樣的數學流氓最喜歡叫它夾逼定理!!!我承認我是流氓   你們呢?? 我的想法當然和純(wei)潔(suo)的你們不一樣。我叫他夾逼定理的原因是:這樣比較有氣勢,在做題的時候可以配合著大喊一聲:哪裡跑!(定理性質就是去夾,去逼式子的極限)。 下面簡單介紹一下夾逼定理!!
  • 100 個最偉大的數學定理,你知多少?
    數學家並沒有免疫這些影響,在 1999 年 7 月的一個數學會議中,Paul 和 Jack Abad 提出了他們的「一百個最偉大的定理」名單。他們給出的排列是基於一下標準;「定理在文獻中的地位、證明的質量與結果的意外性」。這個排列當然同電影還有書排列的一樣的武斷,但是這裡的定理必定都是很有價值的結果。
  • 費馬大定理,概率統計,動畫片《辛普森一家》中隱藏的數學世界
    從圓周率到梅森素數,從歐拉方程到世界七大數學難題之一的NP完全問題,這部由美國福克斯廣播公司出品的情景喜劇動畫片不僅僅是超現實幽默,還蘊藏著數不清的數學難題及科學知識,與某些國產動畫片的暴力幽默截然相反。