在之前的推送中,我們已經了解了正態分布、標準分數及其應用,以及中心極限定理。
在介紹中心極限定理時,我們知道:在大樣本情況下,如果已知總體的標準差σ,那麼樣本均值分布的標準差為σ/√n,稱為樣本均值的標準差(StandardDeviation)。
因此,我們可以用總體的標準差σ估計樣本均值分布的標準差。
但,現實生活中考察的總體通常都會很大,調查總體中的每一個個體不太現實,並且成本巨大。因此,我們很少能知道真實的總體均值μ和總體標準差σ,而且還考慮通過樣本的均值和標準差來估算總體的均值。
我們可以很容易地在總體中抽取到一個樣本,但它並不能完全代表總體。如果進行隨機抽樣模擬實驗會發現,在總體和樣本量相同的情況下,每次抽取得到的樣本都可能不同;樣本均值雖然與總體均值近似,但樣本均值與總體均值不同。
閱讀下方的「正態總體與其樣本均值的抽樣分布圖」,中間紫色的正態分布表示的是從總體中抽取的樣本均值的分布,總體均值可能落在紫色正態分布圖中的任意一點。
正態總體與其樣本均值的抽樣分布
在σ未知的情況下,可以用樣本的標準差來估計樣本均值分布的標準差:
稱為樣本均值的標準誤(Standard Error)。
但用樣本均值估計總體均值會存在一定的誤差,所以我們下一步就是計算誤差的範圍,以及構建置信區間——區間估計。
根據正態分布的性質,與90%,95%,99%的概率區間對應的標準差倍數分別應該為:1.645, 1.96, 2.575。其中,大約有95%的數值落在距均值1.96個標準差的區間內。
正態分布的3σ原則
因此,當用樣本均值作為總體均值的估計時,95%的置信區間是:
我們估計,所有可能的樣本中,95%的樣本均值都在總體均值約2個標準差以內。因此,如果多次重複抽樣以及構建置信區間,那麼95%的置信區間將會包含總體均值,而5%的則不包含。
上圖很好的描述了樣本均值95%的置信區間的含義。在大部分的情況下,總體真實的均值都是落在樣本均值的置信區間內的,只有少數的樣本均值的置信區間沒有包含總體真實的均值。
小案例:
根據上述對標準誤和置信區間的解釋,我們來分析一個與中國家庭收入調查有關的數據:
在2013年進行了中國家庭收入調查,總共調查了n=16907個家庭,數據顯示:2013年家庭收入的平均值為55329.19元,標準差為s=53794.82。請基於此數據估計全國居民家庭收入的平均值。
閱讀完整篇文章後,我們可以輕鬆地根據樣本均值和樣本量計算出樣本的標準誤;
再根據,95%的置信區間公式,
計算得到2013年全國居民的家庭平均收入95%的置信區間為[54518.30, 56140.08]。
在這篇推文中,我們重點需要了解的知識點是標準誤和標準差的區別,如何計算樣本均值的誤差範圍,以及如何構建置信區間。
如果之前對正態分布、標準分布和中心極限定理等知識點了解得不夠透徹,可能會被繞暈,建議大家先回過頭去補補課。
我之前的推文中已經積累了很多有關統計學的基礎介紹,大家可以翻閱。我發布的內容主要參考了松鼠的《妙趣橫生的統計學》課程,你也可以和我一樣,直接學習視聽課程,學習會更系統更高效。
想要了解或學習這套課程的小夥伴可以掃描下方二維碼,或點擊文末的閱讀原文,和我一起每天學點統計學。
《妙趣橫生的統計學》
Q: 課程有效期?
A: 松鼠全部課程,都是購買後永久有效。
Q: 課程觀看方式?
A: 課程是上傳在網易雲課堂的,因此在電腦,手機,Pad上都可以看(需要用購買課程的帳號登錄),其中手機和Pad上可以下載【網易雲課堂APP】離線觀看視頻。
Q: 購買課程後,看課程不懂的地方是否可以提問?
A: 每個課程都有對應的課程QQ群,老師會在群裡解答大家的疑問。
Q: 是否可以開發票?
A: 如果需要開發票,則不能使用優惠券,且購買前先聯繫小編溝通。
小編微信是:cccc_fys