全文共2431字,預計學習時長8分鐘
隨著人類進入先進的超級智能技術時代,一些領域正以前所未有的速度蓬勃發展。數據科學就是其中一個。
該領域最常使用的就是中心極限定理(CLT)中既基本又深奧的概念。當我開始探索數據科學時,我開始想:CLT的炒作是否是真的?這真的是一個驚人的發現嗎?
當我開始越來越深入地研究這個領域時,我找到了這個問題的答案,本文將與你分享結論。為了得到答案,我們要先理解什麼是CLT以及它所表達的內容。閱讀本文不需要任何深入的統計知識,知道均值、方差和標準差就可以開始了。
什麼是總體?
假設想知道一個印度成年人的平均工資是多少。去詢問每一個印度成年人,即大約7.7億人,並計算他們的平均工資。在這種情況下,觀察的是整個「總體」,沒有遺漏任何一個人。可以說總體包含了構成一組數據的所有可能元素。
總體的可測量特徵,如均值或標準差,稱為參數。表示總體均值,表示總體標準差。
什麼是樣本?
既然已經定義了什麼是總體,就不需要解釋為什麼在實際情況下觀察整個總體是不可能的。了解總體的最好方法是從總體中隨機抽取一些人。這些人被稱為樣本。
之所以把重點放在「隨機」這個詞上,是因為樣本中所有n個對象被選中的可能性都是相等的,這一點至關重要。
想像一下,如果樣本由一群在谷歌、微軟、Facebook等公司工作的軟體工程師組成。這將不能準確地代表整個總體。這樣會得到一個偏態樣本,這種情況是不可取的。
樣本的可測量特徵,如均值或標準差,稱為統計量。X表示樣本均值,S表示樣本標準差。
正態分布
接著來介紹構成CLT基礎的最重要的概念了:
正態分布:在現實生活中,數據科學家要處理大量的數據。將數據繪製在圖上可以很容易地理解和定義測量其屬性(均值、方差等)的方法。
為了理解正態分布,必須理解如何繪製相對頻率圖形。下面的柱狀圖是在美國隨機抽取的200個軟體工程師組成的樣本。x軸表示以千美元為單位的工資間隔,y軸表示每個間隔的相對頻率(或概率)。
需要注意的是,這隻適用於小型數據集。當處理具有數百萬個條目的較大數據時,間隔會變得越來越小。在某個時刻,間隔變得小到甚至可以看作是一條曲線。來看看下面的動畫:
在動畫的最後可以看到曲線是某個分布的可視化,其中的數據點可以取任何連續值。這條曲線被稱為密度曲線,這種分布被稱為正態分布(或高斯分布或鐘形曲線)。
正態分布的許多特點使得它獨一無二且非常有用。宇宙中的很多現象都遵循這個分布。
為了直觀地理解為什麼這種分布形狀是這樣的,來看這樣一個例子:在一個班級中,分數很低的學生很少,分數很高的學生也很少。學生的分數是正態分布的。在許多其他情況下,異常高或異常低的值(稱為離群值)很少,而大多數數據是對稱分布的鐘形。
正態分布有這樣一些重要性質:
· 正態分布關於其均值()對稱,表明靠近均值的數據比遠離均值的數據更頻繁地出現。這就是為什麼在圖中,正態分布顯示為鐘形曲線的原因。
· 對於正態分布的數據集,均值和中位數相等(都等於)
· 大約68%的數據位於均值的1個標準差之內
· 大約95%的數據位於均值的2個標準差之內
中心極限定理
用一個例子來理解這個定理:
有一個大的數據集:印度的人口。假設要計算印度人的平均身高。由於已經討論過總體的概念,不能觀察每個數據點並計算其均值。可以做的就是從人群中隨機抽取5個人作為樣本(即從人群中隨機抽取5個人並測量他們的身高)。
假設現在有250人正在閱讀這篇文章,所有的讀者都收集了一個隨機樣本,樣本大小為5。現在有250個樣本大小為5的樣本。
計算每個樣本的均值得到250個樣本均值。現在,如果把這250個均值畫在一個頻率分布上,可得:
我們能看出這趨於正態分布。
另一個有趣的結果是上述樣本均值分布的均值(X)近似於總體均值()。這意味著,無需分析整個總體,就可以估計總體均值。
如果把每個隨機樣本的大小從5增加到25,模擬結果是什麼:
是的,更趨於正態分布(即數據點與均值的偏差更小)!隨著增加單個樣本的大小,這種分布變得越來越接近正態。
請注意,沒有增加隨機樣本的數量,即文章的讀者數量相同,但是現在每個讀者收集的樣本大小為25而不是5。每當對任何數據集執行上述步驟時,樣本均值的分布將始終保持正態分布。多麼奇妙的結果!
上面顯示的樣本均值分布稱為樣本均值(X)的採樣分布。
最終後來模擬圖形趨於理想正態分布的情況:
從以上結果可以看出,當樣本量為25時,樣本均值的抽樣分布比當樣本大小為5時更趨於正態。
CLT的美妙之處在於,它甚至可以用於非正態分布的總體。總體可能看起來是這樣的:
或者是你可以想到的任何情況。關鍵是不需要知道總體的狀況,而仍然有能力進行研究。
最後我們來正式認識一下CLT吧。根據Investopedia的研究,中心極限定理(CLT)指出,假設所有樣本大小相同,不論總體分布的形狀,隨著樣本大小越大,樣本均值的分布近似於正態分布(也稱為「鐘形曲線」)。
中心極限定理的應用
是時候看看這個發現是如何以及為什麼讓我們的生活變得如此簡單:
1.如果不知道總體分布或是非正態分布 (在大多數情況下都是這樣),根據CLT,可以認為抽樣分布服從正態分布。該方法假設抽樣分布是正態分布的,這有助於用構造置信區間(如何確定某個結果是正確的)等方法分析數據。
2.CLT最常見的應用之一是在選舉後的民意調查中。計算新聞中支持某候選人的百分比,即置信區間。
3.為了更準確地估計總體均值,可以增加從總體中抽取的樣本,最終減小樣本均值偏差。
列出每個用例就像數天上的星星一樣,別傻了,讓統計學來拯救你吧!
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範