微信公眾號:生信小知識
關注可了解更多的生物信息學教程及知識。問題或建議,請公眾號留言;
前言1. 參數估計2. 一個總體參數的區間估計2.1 總體均值的區間估計2.1.1 正態總體,方差已知2.1.2 非正態總體,大樣本2.1.3 正態總體,小樣本2.1.4 小結2.3 總體比例的區間估計2.4 總體方差的區間估計2.5 置信區間分布小結3. 兩個總體參數的區間固件3.1 兩個總體均值之差的區間估計3.1.1 獨立樣本3.1.1.1 大樣本3.1.1.2 小樣本3.1.2 配對樣本3.2 兩個總體比例之差的區間估計3.3 兩個總體方差之比的區間估計4. 樣本量的確定4.1 估計總體均值時的樣本量4.2 估計總體比例時的樣本量總結
前言決定趁空閒時間,系統的補習統計學相關知識,因為看到知乎上都在推薦統計學第7版(賈俊平)的書籍,所以我買了這本書,開始邊閱讀邊寫筆記,系統記錄下知識點。
考慮到我有一定的統計學基礎,最最基礎的知識點我就忽略不記錄了,只記錄我不知道或者容易忘記的知識點,有需要的同學可以自己購買書籍閱讀。
之前已有筆記可以在下面查看:
統計學第7版(賈俊平)—— 基礎概念匯總
統計學第7版(賈俊平)—— 概率分布
統計學第7版(賈俊平)—— 統計量,抽樣分布及中心極限定理
1. 參數估計我們一般在談參數時,多半是針對總體而言的。而總體一般對我們而言是未知的,我們知道的一般是樣本的統計量。而我們對樣本進行統計分析,目的是為了通過樣本的統計量去估計總體的參數。
點估計:直接將樣本的統計量當作總體的參數。例如我們直接將樣本均值當作總體均值,這就是一個點估計。這裡面顯而易見有很多問題,因為我們不知道這次的樣本量與總體參數真實值之間接近的程度。因此引入區間估計。
區間估計:在點估計的基礎上,給出總體參數估計的一個區間範圍。其實也就是所謂的置信區間。
需要注意:
在20次抽樣得到的95%置信區間中,有一次置信區間沒有包含真正的總體均值 μ
評價估計量的標準:
無偏性:樣本估計量抽樣分布的期望值應該等於總體參數。數學上可以證明樣本均值、樣本比例及樣本方差是無偏估計量。
有效性:除了估計量要與總體參數無偏,還需要保證估計量抽樣分布的離散程度更小。
一致性:隨著樣本量的增大,估計量的值越來越接近被估計總體的參數。
2. 一個總體參數的區間估計2.1 總體均值的區間估計2.1.1 正態總體,方差已知根據中心極限定理,我們知道如果總體是正態分布,那麼樣本均值分布也屬於正態分布,且樣本均值=總體均值,樣本方差=總體方差/n。
那麼我們在使用樣本均值去估計總體均值時,可以首先將樣本均值進行標準正態變換:
而對於標準正態分布,我們知道是服從N(0,1)的。那麼我們就可以知道此時總體均值的置信區間計算方法。
根據樣本均值推斷總體均值的1-α置信區間(例如α=5%,則表示最常見的95%置信區間)的計算公式如下(具體推理並不準備去細細解析,有需要的可自行去閱讀原著):
x :樣本均值
z :標準正態分布z值
σ:總體標準差
n:樣本數
這裡面只有總體標準差σ是未知的,其他的都可以用樣本的統計值求得。
不過,如果總體服從正態分布,那麼我們可以用樣本標準差s代替總體標準差σ,於是我們得到:
這樣就可以通過樣本的統計量得到總體的估計量。
當總體不是正態分布時,根據中心極限定理,我們知道如果樣本量較大時(n>=30),同樣樣本均值的分布同樣是符合正態分布的,所以同樣可以用上述的思想去計算總體均值在1-α置信區間的區間估計值:
當總體是正態分布時,根據中心極限定理,我們知道樣本均值的分布同樣是符合正態分布的。
這時唯一不能確定的是如何用樣本方差去估計總體方差。
利用數學推導(具體如何推導就不
管了),可以證明在小樣本時,用樣本標準差s代替總體標準差σ,這時樣本標準差s經過標準化轉化後服從自由度為(n-1)的t分布:
根據這個,我們就可以得到總體均值在1-α置信區間的區間估計值:
總體均值在1-α置信區間的區間估計值:
2.3 總體比例的區間估計這裡僅僅討論大樣本情況下,根據樣本比例估計總體比例的問題。
在後面的解析中,用以下符號進行表示:
樣本比例p的抽樣分布可以用正態分布近似,所以樣本比例的期望值為:
p的方差為:
同樣的,我們將其進行標準正態轉化:
這樣,根據同樣的思想,我們就可以根據根據樣本比例p,得到總體比例π在1-α置信區間的區間估計值:
同樣,在這個表達式中,我們仍然是對總體比例π未知。所以我們要用樣本比例p來估計,於是總體比例的置信區間估計值可表示為:
這裡僅僅討論正態總體方差的估計問題。
根據樣本方差的抽樣分布可知,樣本方差服從自由度為n-1的卡方分布,因此可以利用卡方分布計算總體方差的置信區間。
2.5 置信區間分布小結3. 兩個總體參數的區間固件對於兩個總體,我們所關心的參數主要是:
兩個總體的均值之差μ1-μ2:例如我們做表達量差異分析其實就是在看兩個總體之間的均值是否相同
兩個總體的比例之差π1-π2:例如我們常常想知道兩個人群中患病比例是否相同
兩個總體的方差之比(σ1/σ2)2:例如我們常常通過方差分析進行多組均數之間的比較
3.1 兩個總體均值之差的區間估計假設分別有2個總體1和2:
總體均值:μ1,μ2
分別從總體中抽樣n1和n2個隨機樣本
樣本均值:x1,x2
現在想要解決的問題是通過x1-x2的值來估計μ1-μ2
3.1.1 獨立樣本3.1.1.1 大樣本要求:
通過數學推斷(無需我們會推斷),我們可以知道兩個樣本之差x1-x2的抽樣分布服從期望值為(μ1-μ2)、方差為(σ12/n1+σ22/n2)的正態分布,所以,我們對其進行標準正態分布轉化:
這時,我們又需要進行分類討論:
如果兩個樣本都是小樣本,那麼在估計兩個總體均值之差時,需要作出以下假定:
在上述假定下,兩個樣本均值之差則服從正態分布。
根據總體方差是否已知,我們再次進行分類討論。
(1)兩個總體方差已知
直接使用上面的計算方法即可:
(2)兩個總體方差未知但是相等
這是需要結合兩個樣本方差去估算出一個新的合併方差,利用這個方差去計算兩個總體均值之差。
合併方差:
用合併方差代替兩個總體方差,這時經過標準化轉化後服從自由度為(n1+n2-2)的t分布:
因此我們可以寫出兩個總體均值之差的區間估計:
(3)兩個總體方差未知但是不等
兩個樣本均值之差經過標準化後近似服從自由度為υ的t分布,自由度υ的計算如下:
因此我們可以寫出兩個總體均值之差的區間估計:
對於配對樣本來說:
d=u1-u2:兩個配對樣本對應數據的差值
d:各差值的均值
σd:表示各差值的標準差
當總體的 σd 已知時,兩個配對總體均值之差的區間估計:
當總體的 σd 未知時,我們同樣可以利用樣本標準差sd來代替,從而求得兩個配對總體均值之差的區間估計:
使用同樣的思想,將兩個樣本的比例之差進行標準化處理後,其符合標準正態分布:
可以使用樣本比例p1、p2來代替總體的π1、π2,於是我們可以得到兩個總體比例之差(π1-π2)在1-α水平下的置信區間:
3.3 兩個總體方差之比的區間估計兩個樣本方差之比的抽樣分布服從F(n1-1,n2-1)分布,因此可以利用F分不來構造兩個總體方差之比 (σ1/σ2)2 的置信區間。
根據數學推導,最後得到兩個總體方差之比在1-α水平下的置信區間:
在進行參數估計時,我們總是希望提高估計的可靠程度:
4.1 估計總體均值時的樣本量根據前面的基礎知識,我們知道估計樣本均值的置信區間:
其中,我們後部分我們稱之為估計誤差E:
這裡面:
我們對公式進行轉化:
所以,綜合以上,我們需要人工指定需要的E和α,然後並查閱總體或者樣本的σ值,然後便可以計算出對應的樣本量n
根據前面的基礎知識,我們知道估計樣本均值的置信區間:
其中,我們後部分我們稱之為估計誤差E:
這裡面:
我們對公式進行轉化:
所以,綜合以上,我們需要人工指定需要的E和α,然後並查閱總體π或者樣本p的值,然後便可以計算出對應的樣本量n
這部分內容比較理論,不過中心思想其實一直都是根據中心極限定理進行的。
具體公式我們可以不去記憶,但是理解起來其實是不難的,因為上述所有的公式其實都是同一個公式在來回變化而已~
至於樣本量的計算部分,個人覺得這部分內容只需要理解其思想即可。現在有大量的在線工具可以幫助我們直接計算樣本量,但是對於其中的原理,我們還是需要自己去學習理解的