抽樣進階3:標準誤差

2021-03-02 丹說方法

《抽樣進階2》結尾描述了抽樣分布和總體分布的關係(三大規律):

抽樣分布的形狀與總體分布無關,總是正態分布(樣本量n≥30);

抽樣分布的均值等於總體均值μ;

抽樣分布的標準差等於總體標準差σ的1/√n倍。

抽樣誤差

從總體(全國7億成年男性的身高)中隨機抽取一個樣本(300名成年男性的身高),這個樣本的均值(300名成年男性的平均身高)很難恰好等於總體的均值(全國成年男性的平均身高)。如果我們用這個樣本均值來估計總體均值μ,就會產生估計誤差(Error)。因為這個誤差是由抽樣的隨機性造成的(如果再抽樣一次,就可能是另外300人入選,樣本的平均身高就變了),所以命名為「抽樣誤差」(Sampling Error)。

標準誤差

我們非常希望知(ji)道(suan)抽樣誤差(-μ)的大小,但它是個隨機變量(取值總在變化)。因此我們想到了之前的抽樣分布,它的標準差 (σ/√n)刻畫了樣本均值 (一個隨機變量)圍繞總體均值μ(一個常數)波動的幅度,可以從「平均意義上」代表抽樣誤差。這就是標準誤差。如果你願意,也可以叫「平均」抽樣誤差

註:

「標準誤差」有時簡稱為「標準誤」,

「標準差」其實是「標準離差」的簡稱。

標準誤差的公式寫成字母更簡單:

這個公式告訴我們:

n=2500?

弄明白標準誤差,我們就可以完成《抽樣進階1》中的川普任務了。

假如我們準備調查n名美國公民對川普的態度(一次隨機抽樣),每個人可以自由選擇:

「喜歡」,(翻譯成小學數學是x=1)

「討厭」,(翻譯成小學數學是x=0)

那麼x是個隨機變量,這n名美國人(樣本)對於川普的支持率,恰好就是樣本均值(把所有人的1或0加起來,除以n)。

總體標準差σ專門用來刻畫全體美國人民對川普的態度差異,有三種極端情況:

當全體美國選民都選擇「喜歡」時,大家態度完全一致,完全沒有差異,因此σ達到最小,σmin=0;

當全體美國選民都選擇「討厭」時,大家態度也完全一致,完全沒有差異,所以σ也達到最小,σmin=0;

當「喜歡」和「討厭」川普的人數一樣多的時候,因為沒有了「大多數」,兩派勢均力敵,所以意見最不一致,態度差異最大(完全對立),這時σ最大,σmax=0.5。具體計算,請先回憶一下標準差的計算公式,再代入此時總體均值μ=0.5,N是美國選民總數:

根據抽樣分布的三大規律,對於無數次抽樣,會有95.4%的樣本均值(抽樣觀察到的支持率)出現在總體均值μ(全國的支持率)兩側各2個標準誤差的範圍內。如下圖:

因為總體標準差σ最大為0.5,所以在95%把握下,估計誤差最大值為:

因為白宮要求估計誤差在正負2%以內,所以:

口算就可以知道,n=2500!也就是說,我們調查2500人就夠了。

(,千萬別大聲!)

記住這個公式,你會馬上知道:

當n=100時,估計誤差最大是正負10%;

當n=400時,估計誤差最大是正負5%;

當n=10000時,估計誤差最大是正負1%;

……

這個在95%的把握下,用樣本均值估計總體均值所產生的的誤差最大值,被稱作「保守邊際誤差」,有點「最大」抽樣誤差的意思,簡稱CME。有些專業報告裡面會出現,它是反映抽樣誤差的另一個常用指標。

相關焦點

  • 大數據與抽樣誤差
    之前兩講我們介紹了傳統抽樣調查中的抽樣誤差問題。在這一講,我們將著重介紹大數據(big data)與抽樣誤差的關係。
  • 如何控制調查中的非抽樣誤差
    由於抽樣的子總體為省,對於市級樣本,就會與整體人口分布存在一定的偏差,導致測算市級失業率時存在誤差。本文從抽樣技術的角度對此類誤差產生的原因和控制方法提出一些思考。    誤差的來源與種類    抽樣調查中的誤差包括抽樣誤差和非抽樣誤差。抽樣誤差是指由於抽樣的隨機性所引起的樣本統計量的數值與總體目標變量真值之間的差異。
  • 你不知道的抽樣誤差
    和李詠一樣患癌,被醫生告知活不過3個月,11年後依然健康!你信嗎?
  • 地學統計中的算術平均值、幾何平均值、中位數、標準偏差和標準誤差的意義和用法有何不同
    此時,多數人會不假思索地直接使用算術平均值和標準差。顯然,這種做法是不嚴謹的。那麼在地學統計中不同的平均值和誤差計算方法的概念在意義和使用上有何不同呢?| 算術平均數( arithmetic mean)我們常常稱的均值,就是算術平均數,它是統計學中最基本、最常用的一種平均指標。
  • 統計基礎:【11】分層抽樣
    例如:一所學校的男女比例是3:7,那麼對該校男女生進行分層抽樣的樣本數比值也應該是3:7。非比例分配法:當某個層次包含的個案數在總體中所佔比例太小時,為使該層的特徵在樣本中得到足夠的反映,可人為地適當增加該層樣本數在總體樣本中的比例,但這樣做會增加推論的複雜性。
  • 標準差與標準誤的區別
    對於標準差與標準誤的區別,很多書上這樣表達:標準差表示數據的離散程度,標準誤表示抽樣誤差的大小。這樣的解釋可能對於許多人來說等於沒有解釋。其實這兩者的區別可以採用數據分布表達方式描述如下:如果樣本服從均值為μ,標準差為δ的正態分布,即X~N(μ, δ2),那麼樣本均值服從均值為0,標準差為δ2/n的正態分布,即~ N(μ,δ2/n)。這裡δ為標準差,δ/n1/2為標準誤。明白了吧,用統計學的方法解釋起來就是這麼簡單。
  • 標準差和標準誤差,你懂嗎?
    對於等精度測量來說,還有一種更好的表示誤差的方法,就是標準誤差。  標準誤差定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差。  設n個測量值的誤差為ε1、ε2……εn,則這組測量值的標準誤差σ等於:
  • 從此分清標準誤(se)與標準差(sd)
    我不是大神,但我可以縮短你走彎路的半年~   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~   這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!標準差和標準誤標準差(standard deviation,sd):反應單次抽樣數據的離散程度;標準誤(standard error,se):多次抽樣,每次都會得到一個mean,多個mean組成的分布的sd,即se從同一群體種多次抽樣,得到多個樣本平均值,這些樣本平均值的標準差叫做標準誤
  • 高二數學複習方法:數學統計簡單隨機抽樣
    (2)簡單隨機抽樣,也叫純隨機抽樣。就是從總體中不加任何分組、劃類、排隊等,完全隨  機地抽取調查單位。特點是:每個樣本單位被抽中的可能性相同(概率相等),樣本的每個單位完全獨立,彼此間無一定的關聯性和排斥性。簡單隨機抽樣是其它各種抽樣形式的基礎。通常只是在總體單位之間差異程度較小和數目較少時,才採用這種方法。
  • 瑞士機械錶誤差標準,機械錶誤差多少正常
    機械機芯走時誤差標準數據:日曆機械手錶I型(男表)走時瞬間誤差範圍為:優等品每24小時誤差-30~+45秒;一等品每24小時誤差-40~+75秒;合格品每24小時誤差-60~+105秒。延續走時均大於等於36小時。
  • 自動機械手錶為什麼有誤差?機械錶誤差多少才是標準?
    而機械最大的缺點就是走時有誤差,自動機械錶完全靠機械運動,它的精準度受機械器件的頻率影響,具體我們了解一下自動機械產生誤差的原因:飛克全自動機械手錶機芯飛克多功能手錶2、機械錶誤差標準範圍根據手錶行業規定
  • 系統誤差和偶然誤差的區別
    系統誤差和偶然誤差的區別是:系統誤差不可避免(但可通過平衡摩擦力等方法減小),而偶然誤差可通過多次測量的避免。系統誤差是指:實驗時不可避免的誤差。偶然誤差是指:實驗操作失誤等人為的,可避免的誤差。1系統誤差系統誤差,是指一種非隨機性誤差。如違反隨機原則的偏向性誤差,在抽樣中由登記記錄造成的誤差等。它使總體特徵值在樣本中變得過高或過低。
  • 【知識】標準差與標準誤差的區別和用法
    標準誤差   標準誤差的解釋>雖然標準誤差(SE)和標準差(SD)僅有一字之差,但是他們有本質上的區別。SEM的解釋如下:總體均值μ由95%的可能性落入樣本均值的均值±1.96*SEM內;樣本均值的均值±3.5*SEM有99.96%的概率「捕獲」總體均值μ。
  • 實習九 均數、標準差、標準誤
    實習九 均數、標準差、標準誤   一、目的要求   1.明確平均數、標準差、標準誤的概念的意義。   2.學會平均數、標準差、標準誤計算的基本方法。   3.正確應用平均數、標準差、標準誤進行統計分析。
  • R語言——通過bootstrap自抽樣量化統計估計量的不確定性
    這時候bootstrap就是一個很有用的替代方法,bootstrap本質就是對現有的樣本進行重複抽樣得到新樣本,以這種方法來模擬擴大樣本容量。bootstrap的適用範圍不僅限於線性回歸估計,任何統計學裡的估計量都可以通過bootstrap進行量化並且計算standard error標準誤。
  • 標準差還是標準誤?
    之前後臺小夥伴留言詢問標準差和標準誤的區別,說是看公式一陣眩暈,分不清楚。其實,科班出生的同學,也是挺容易搞混的。
  • 2017版ISO17025對抽樣的修訂
    是否適用於只進行抽樣,而不從事任何檢測或校準活動的機構,是爭論最大的問題,這裡的抽樣不僅僅是為檢測或校準活動所進行的抽樣,還包括用於其他目的,如認證、檢驗或確認活動所進行的現樣。就ISO/IEC17025本身來講,其預定的標準適用範圍是從事檢測或校準活動的實驗室,校準活動幾乎很少涉及抽樣,如果抽樣是為了進行後續的檢測,一個機構即使不進行後續的檢測活動,其適用性沒有爭議。但目前歐洲有些認可機構已用ISO/IEC 17025對單獨從事抽樣活動的機構進行認可,而且抽樣是不限於為檢測的目的,那麼對於ISO/IEC 17025能否適用於這類機構,爭議很大。
  • 《崩壞3》夏日特惠進階補給了什麼 夏日特惠進階補給介紹
    導 讀 崩壞3將在本周五8月9日開啟夏日特惠進階補給,本次進階補給分為三個階段,至多百連補給即可將每個階段的指定目標從S級晉升至SS級。
  • 標準誤和標準差,傻傻分不清?
    因此,我們很少能知道真實的總體均值μ和總體標準差σ,而且還考慮通過樣本的均值和標準差來估算總體的均值。 我們可以很容易地在總體中抽取到一個樣本,但它並不能完全代表總體。如果進行隨機抽樣模擬實驗會發現,在總體和樣本量相同的情況下,每次抽取得到的樣本都可能不同;樣本均值雖然與總體均值近似,但樣本均值與總體均值不同。
  • 食品安全抽樣檢驗管理辦法(修訂草案)
    第十二條 食品安全抽樣檢驗工作計劃應當包括下列內容:(一)抽樣檢驗的食品品種;(二)抽樣環節、抽樣方法、抽樣數量等抽樣工作要求;(三)檢驗項目、檢驗方法、判定依據等檢驗工作要求;(四)抽檢結果及匯總分析的報送方式和時限;(五)法律、法規、規章、標準、技術要求規定的其他內容。