全文共1204字,預計學習時長4分鐘
中心極限定理(CLT)是指,給定足夠大的樣本量,無論變量在總體中的分布如何,變量均值的抽樣分布都將近似於正態分布。
這是統計學中的一個基本定理,也是最重要的統計定理之一,是學習統計學繞不過的坎兒。不過好在這個概念實際上不難理解,看過下面這些例子,你也會覺得它其實蠻簡單的。這些例子從反方面著手,我們很容易就能清楚地理解CLT了。
例1
取一個均勻分布(從0到1,稱為均勻分布,因為在0和1之間選擇值的概率相等,因此它的概率密度函數(PDF)就是水平的黑色直線)。現在,假設從這個分布(綠點)中隨機抽取20個樣本,並計算這些樣本的均值,最後得到一個值,在本例中,黑色點線表示0.5。
繼續在直方圖上繪製這個均值。因為此直方圖目前只有一個均值,除此之外沒有任何信息(下圖1)。繼續從相同的分布中隨機抽取更多的樣本,計算各自的均值並再次在直方圖上繪製這些均值,便開始得到一個有趣的輸出(下圖2)。
隨著不斷從均勻分布中隨機取出越來越多的樣本,並不斷在直方圖上繪製樣本均值,我們可以得到一個正態分布的結果(右曲線)。
推論:從均勻數據分布開始,但是從中抽取的樣本均值結果為正態分布。
例2
在第二例中進行與例1相同的步驟,唯一不同的是,這次將從指數分布中抽取樣本。
再次隨機抽取20個樣本,計算樣本的均值,並將其繪製在直方圖上。以此類推,在此指數數據分布中抽取大約100個樣本,直方圖如下所示。沒錯,樣本的均值結果是正態分布!
推論:從指數數據分布開始,但從中抽取的樣本均值為正態分布。
此時CLT的含義就變得非常直觀了。它意味著,即使數據分布不是正態的,從中抽取的樣本均值的分布也將是正態的。
了解樣本均值總是*呈正態分布有什麼實際意義?
分析學領域從來少不了各種各樣的數據,而源數據的分布我們不一定了解,但有了CLT,我們甚至不需要考慮這種情況,因為均值永遠為正態分布,完全沒有必要擔心源數據的分布。
(注*-為了應用CLT,必須能夠計算樣本的均值。Cauchy分布沒有樣本均值,因此CLT不適用於該分布,但除了Cauchy,筆者沒有遇到任何其他分布不適用於CLT的情況,因此,CLT可以適用於任何其他分布。)
我們能利用CLT作答還有很多:
· 可以利用均值的正態分布來確定置信區間。
· 在使用樣本均值的情況下,可以進行任何統計檢驗。
· 可以進行t檢驗(即,利用兩個樣本的均值之間存在差異的特點)
· 可以進行方差分析測試(即,利用3個或3個以上樣本的均值之間存在差異的特點)
本文涵蓋了所有在處理數據和樣本時應該了解的中心極限定理,你掌握了嗎?
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範