之前後臺小夥伴留言詢問標準差和標準誤的區別,說是看公式一陣眩暈,分不清楚。
其實,科班出生的同學,也是挺容易搞混的。下面,我們就來梳理一遍,這兩個到底有什麼區別和聯繫。
一,定義
掌握新事物,定義是最新需要關注的,因為可以從內涵和外延對事物有個較為清晰的界定。
標準差( standard deviation) 作為隨機誤差( 或真差) 的代表,是隨機誤差絕對值的統計均值 。
大白話解釋,就是衡量一組數據的離散程度。
在國家計量技術規範中,標準差的正式名稱是標準偏差,簡稱標準差,用符號 σ表示:
式中 xi 為一組樣本變量( 從總體中抽取的一部分個體的集合)。由於上式中的總體均值和總體N常常不可得,所以在實際運用中以樣本參數來估計總體的參數 ,即用樣本標準差 s 的值作為總體標準差 σ的估計值。公式為:
標準誤差(stand error)衡量特定樣本統計量抽樣誤差大小的尺度,常用到樣本平均數的標準差。
直白點,標準誤差是對統計量精度的度量。如果統計量是一把尺子,標準誤就是看看尺子測量有多準的一個指標。
樣本標準誤的估計值用下式表示:
二,區別
從定義上,二者區別就顯而易見了。首先,標準差和總體或者給定的數據有關,標準誤差和統計量有關。其次,二者的定義公式是那麼不同。
三,聯繫
樣本標準誤的估計值就體現了二者聯繫,百度百科的公式更為到位:
看到了否,SE等於SD除以根號n。說明可以通過SD就是標準差直接求解SE。
對於給定的數據,我們怎麼改進測量的精度呢?答案就是減少SE,從公式中發現分子SD不能改變,只能從分母根號n入手。當n增大,SE可以減少。所以實際抽樣調查中,總喜歡說,樣本量不能太少就是這個道理,因為這樣會導致SE太大。但是,我們也要看到,為了減少SE,付出的代價也不小。假設SD=1,最初樣本量n=100,讓SE從1/10減小到1/100,需要樣本量從100增加到10000,以調查一個樣本量花費1元錢為例,成本需要增加9000元。實際操作中困難可想而知。所以,估計的時候得在測量精度和成本角度同時做出考量。
得益於標準誤的發展,點估計就邁入了區間估計的時代。所以,大家看到的區間估計公式,帶有標準誤就是這個原因。
胡說一通,若有誤,歡迎指正。