全文共1222字,預計學習時長4分鐘
數據科學家必須了解的事:中心極限定理。你了解嗎?
編碼之前,快速回顧
今天,我想重構中心極限定理(CentralLimit Theorem),以及該定理與數據科學家的大量工作之間的關係。
回顧直方圖
首先,對於任何數據科學家來說,核心工具都是直方圖——一種非常簡單的圖表。雖然我們肯定會看到許多直方圖,但經常會忽略它的重要性。直方圖的核心目的是了解給定數據集的分布。
直方圖表示在x軸上找到的變量,其不同值在y軸上出現的次數。
這是一個示例,如果想了解數據集裡面每加侖汽油行駛的英裡數在汽車總數中的分布。在這裡使用 mtcars 數據集,可以在圖表的右側看到一條尾巴,這種直方圖就是所謂的右偏。這背後傳達的概念是:有些汽車的油耗極高,但這些汽車很少。
標準正態分布
與剛才看到的類似,經典分布是正態分布,也叫鐘形曲線或標準正態分布。其核心概念是事件的「分布」是「對稱的」。
下面的直方圖與之前的圖類似,而這裡的更加對稱。
中心極限定理究竟是什麼?
中心極限定理指出,樣本均值的分布應近似正態。
實踐中的定理
請看下面的例子:假設你在大學工作,並且想了解校友離開學校第一年的收入分配情況。
事實是你將無法向每個校友收集該數據點。或者,你可以對總體進行多次採樣,以獲取每個「樣本」的單獨樣本均值。
現在,通過直方圖繪製樣本均值,可以看到正態分布的出現。
這裡的關鍵要點是,即使輸入變量不是正態分布的,採樣分布也將近似於標準正態分布。
編碼!
作為該想法的最後一個演示,首先從mtcars數據集裡得出並繪製了MPG的分布。在這裡,為每個mpg樣本劃分一個向量,遍歷50個樣本。每個樣本取數據集裡10條隨機記錄的平均值。再次將它們繪製為直方圖,這樣可以看到正態分布出現。
mpg_samples <-c()for(i in 1:50){mpg_samples [i] =平均值(sample(mtcars $ mpg,10,replace = TRUE)))} hist(mpg_samples,col ='purple',xlab =「 MPG 」)
中心極限定理作為數據科學培訓中的基礎概念。該定理是假設檢驗、實驗以及其他數據科學方法和技術的基礎。
也是你必須了解和掌握的事物。
感謝閱讀,希望本文對你有所幫助!
留言點讚關注
我們一起分享AI學習與發展的乾貨
如轉載,請後臺留言,遵守轉載規範