統計學第7版(賈俊平)—— 參數估計與樣本量估算原理

2022-01-15 生信小知識

收錄於話題 #統計學 44個

統計學第7版(賈俊平)—— 參數估計與樣本量估算原理

微信公眾號:生信小知識
關注可了解更多的生物信息學教程及知識。問題或建議,請公眾號留言;

目錄

前言1. 參數估計2. 一個總體參數的區間估計2.1 總體均值的區間估計2.1.1 正態總體,方差已知2.1.2 非正態總體,大樣本2.1.3 正態總體,小樣本2.1.4 小結2.3 總體比例的區間估計2.4 總體方差的區間估計2.5 置信區間分布小結3. 兩個總體參數的區間固件3.1 兩個總體均值之差的區間估計3.1.1 獨立樣本3.1.1.1 大樣本3.1.1.2 小樣本3.1.2 配對樣本3.2 兩個總體比例之差的區間估計3.3 兩個總體方差之比的區間估計4. 樣本量的確定4.1 估計總體均值時的樣本量4.2 估計總體比例時的樣本量總結

前言

決定趁空閒時間,系統的補習統計學相關知識,因為看到知乎上都在推薦統計學第7版(賈俊平)的書籍,所以我買了這本書,開始邊閱讀邊寫筆記,系統記錄下知識點。

考慮到我有一定的統計學基礎,最最基礎的知識點我就忽略不記錄了,只記錄我不知道或者容易忘記的知識點,有需要的同學可以自己購買書籍閱讀。

之前已有筆記可以在下面查看:

統計學第7版(賈俊平)—— 基礎概念匯總

統計學第7版(賈俊平)—— 概率分布

統計學第7版(賈俊平)—— 統計量,抽樣分布及中心極限定理

1. 參數估計

我們一般在談參數時,多半是針對總體而言的。而總體一般對我們而言是未知的,我們知道的一般是樣本的統計量。而我們對樣本進行統計分析,目的是為了通過樣本的統計量去估計總體的參數

點估計:直接將樣本的統計量當作總體的參數。例如我們直接將樣本均值當作總體均值,這就是一個點估計。這裡面顯而易見有很多問題,因為我們不知道這次的樣本量與總體參數真實值之間接近的程度。因此引入區間估計

區間估計:在點估計的基礎上,給出總體參數估計的一個區間範圍。其實也就是所謂的置信區間

需要注意:

在20次抽樣得到的95%置信區間中,有一次置信區間沒有包含真正的總體均值 μ

評價估計量的標準:

無偏性:樣本估計量抽樣分布的期望值應該等於總體參數。數學上可以證明樣本均值、樣本比例及樣本方差是無偏估計量

有效性:除了估計量要與總體參數無偏,還需要保證估計量抽樣分布的離散程度更小

一致性:隨著樣本量的增大,估計量的值越來越接近被估計總體的參數。

2. 一個總體參數的區間估計2.1 總體均值的區間估計2.1.1 正態總體,方差已知

根據中心極限定理,我們知道如果總體是正態分布,那麼樣本均值分布也屬於正態分布,且樣本均值=總體均值,樣本方差=總體方差/n

那麼我們在使用樣本均值去估計總體均值時,可以首先將樣本均值進行標準正態變換

而對於標準正態分布,我們知道是服從N(0,1)的。那麼我們就可以知道此時總體均值的置信區間計算方法。

根據樣本均值推斷總體均值的1-α置信區間(例如α=5%,則表示最常見的95%置信區間)的計算公式如下(具體推理並不準備去細細解析,有需要的可自行去閱讀原著):

x :樣本均值

z :標準正態分布z值

σ:總體標準差

n:樣本數

這裡面只有總體標準差σ是未知的,其他的都可以用樣本的統計值求得。

不過,如果總體服從正態分布,那麼我們可以用樣本標準差s代替總體標準差σ,於是我們得到:

這樣就可以通過樣本的統計量得到總體的估計量。

2.1.2 非正態總體,大樣本

當總體不是正態分布時,根據中心極限定理,我們知道如果樣本量較大時(n>=30),同樣樣本均值的分布同樣是符合正態分布的,所以同樣可以用上述的思想去計算總體均值在1-α置信區間的區間估計值:

2.1.3 正態總體,小樣本

當總體是正態分布時,根據中心極限定理,我們知道樣本均值的分布同樣是符合正態分布的。

這時唯一不能確定的是如何用樣本方差去估計總體方差。

利用數學推導(具體如何推導就不

管了),可以證明在小樣本時,用樣本標準差s代替總體標準差σ,這時樣本標準差s經過標準化轉化服從自由度為(n-1)的t分布

根據這個,我們就可以得到總體均值在1-α置信區間的區間估計值:

2.1.4 小結

總體均值在1-α置信區間的區間估計值:

2.3 總體比例的區間估計

這裡僅僅討論大樣本情況下,根據樣本比例估計總體比例的問題。

在後面的解析中,用以下符號進行表示:

樣本比例p的抽樣分布可以用正態分布近似,所以樣本比例的期望值為:

p的方差為:

同樣的,我們將其進行標準正態轉化

這樣,根據同樣的思想,我們就可以根據根據樣本比例p,得到總體比例π在1-α置信區間的區間估計值

同樣,在這個表達式中,我們仍然是對總體比例π未知。所以我們要用樣本比例p來估計,於是總體比例的置信區間估計值可表示為:

2.4 總體方差的區間估計

這裡僅僅討論正態總體方差的估計問題。

根據樣本方差的抽樣分布可知,樣本方差服從自由度為n-1的卡方分布,因此可以利用卡方分布計算總體方差的置信區間。

2.5 置信區間分布小結

3. 兩個總體參數的區間固件

對於兩個總體,我們所關心的參數主要是:

兩個總體的均值之差μ1-μ2:例如我們做表達量差異分析其實就是在看兩個總體之間的均值是否相同

兩個總體的比例之差π1-π2:例如我們常常想知道兩個人群中患病比例是否相同

兩個總體的方差之比(σ1/σ2)2:例如我們常常通過方差分析進行多組均數之間的比較

3.1 兩個總體均值之差的區間估計

假設分別有2個總體1和2:

總體均值:μ1,μ2

分別從總體中抽樣n1和n2個隨機樣本

樣本均值:x1,x2

現在想要解決的問題是通過x1-x2的值來估計μ1-μ2

3.1.1 獨立樣本3.1.1.1 大樣本

要求:

通過數學推斷(無需我們會推斷),我們可以知道兩個樣本之差x1-x2的抽樣分布服從期望值為(μ1-μ2)方差為(σ12/n1+σ22/n2)正態分布,所以,我們對其進行標準正態分布轉化

這時,我們又需要進行分類討論:

3.1.1.2 小樣本

如果兩個樣本都是小樣本,那麼在估計兩個總體均值之差時,需要作出以下假定

在上述假定下,兩個樣本均值之差則服從正態分布。

根據總體方差是否已知,我們再次進行分類討論。

(1)兩個總體方差已知

直接使用上面的計算方法即可:

(2)兩個總體方差未知但是相等

這是需要結合兩個樣本方差去估算出一個新的合併方差,利用這個方差去計算兩個總體均值之差。

合併方差:

用合併方差代替兩個總體方差,這時經過標準化轉化服從自由度為(n1+n2-2)的t分布

因此我們可以寫出兩個總體均值之差的區間估計:

(3)兩個總體方差未知但是不等

兩個樣本均值之差經過標準化後近似服從自由度為υ的t分布,自由度υ的計算如下:

因此我們可以寫出兩個總體均值之差的區間估計:

3.1.2 配對樣本

對於配對樣本來說:

d=u1-u2:兩個配對樣本對應數據的差值

d:各差值的均值

σd:表示各差值的標準差

當總體的 σd 已知時,兩個配對總體均值之差的區間估計:

當總體的 σd 未知時,我們同樣可以利用樣本標準差sd來代替,從而求得兩個配對總體均值之差的區間估計:

3.2 兩個總體比例之差的區間估計

使用同樣的思想,將兩個樣本的比例之差進行標準化處理後,其符合標準正態分布:

可以使用樣本比例p1、p2來代替總體的π1、π2,於是我們可以得到兩個總體比例之差(π1-π2)在1-α水平下的置信區間:

3.3 兩個總體方差之比的區間估計

兩個樣本方差之比的抽樣分布服從F(n1-1,n2-1)分布,因此可以利用F分不來構造兩個總體方差之比 (σ1/σ2)2 的置信區間。

根據數學推導,最後得到兩個總體方差之比在1-α水平下的置信區間:

4. 樣本量的確定

在進行參數估計時,我們總是希望提高估計的可靠程度:

4.1 估計總體均值時的樣本量

根據前面的基礎知識,我們知道估計樣本均值的置信區間:

其中,我們後部分我們稱之為估計誤差E:

這裡面:

我們對公式進行轉化:

所以,綜合以上,我們需要人工指定需要的E和α,然後並查閱總體或者樣本的σ值,然後便可以計算出對應的樣本量n

4.2 估計總體比例時的樣本量

根據前面的基礎知識,我們知道估計樣本均值的置信區間:

其中,我們後部分我們稱之為估計誤差E:

這裡面:

我們對公式進行轉化:

所以,綜合以上,我們需要人工指定需要的E和α,然後並查閱總體π或者樣本p的值,然後便可以計算出對應的樣本量n

總結

這部分內容比較理論,不過中心思想其實一直都是根據中心極限定理進行的。

具體公式我們可以不去記憶,但是理解起來其實是不難的,因為上述所有的公式其實都是同一個公式在來回變化而已~

至於樣本量的計算部分,個人覺得這部分內容只需要理解其思想即可。現在有大量的在線工具可以幫助我們直接計算樣本量,但是對於其中的原理,我們還是需要自己去學習理解的



相關焦點

  • 【經典教材】賈俊平《統計學》(第7版)筆記和習題(含考研真題)詳解【考研真題精選+章節題庫】
    點擊上方👆,關注公眾號 查看547所院校12萬份考研、考證、學習資料導語:賈俊平《統計學》(第7版)筆記和習題(含考研真題)
  • 《統計學(第7版)》學習指導書 賈俊平pdf,9787300261713
    《《統計學(第7版)》學習指導書/***經濟管理類核心課程教材,「十二五」普通高等教育本科國家級規劃教材》在第6版的基礎上修訂而成,主要有以下特色:  (1)強調對統計思想的闡述,通過實例講解統計方法,強調與計算機的結合。
  • 直播|賈俊平:統計學邏輯體系與經典方法
    全國統計名家、中國人民大學統計學教授賈俊平老師將為您娓娓道來。統計學的邏輯體系統計推斷的思想方差分析的原理與思路回歸建模的邏輯和過程描述分析的思路與方法直播嘉賓賈俊平(中國人民大學) 全國知名統計教育專家,中國人民大學統計學院副教授。
  • 賈俊平統計學第7版pdf課後題及答案簡介
    賈俊平統計學第7版pdf課後題及答案摘錄:一、單項選擇題1設用於檢驗的行因素為R,列因素為C,行因素有k個水平,列因素有r個水平,並假設兩個因素有交互作用,交互作用平方和的自由度為()。(k-1)(r-1)C.r-1D.kr-1【答案】B賈俊平統計學第7版pdf課後題及答案【解析】在有交互作用的雙因素方差分析中,將行因素與列因素共同作用產生的交互作用視為新變量進行方差分析。若行因素有k個水平,列因素有r個水平,則交互作用平方和的自由度為(k-1)(r-1)。
  • G.Power教程 | 樣本量估計
    那麼,今天就詳細講解一下,如何使用G.Power進行樣本量的估計?當然,想要弄懂背後的統計學原理,還是需要花費一番功夫。G*power軟體是由德國杜塞道夫大學幾位樂於分享知識的老師開發的,專門用於統計功效(包括樣本量)計算的免費統計軟體,在心理學領域有著很高的聲譽和認可度。首先,在官網即可下載軟體,Windows和Mac版本均有。
  • #高階統計#樣本量估計V1.0
    樣本量的估計(Sample Size Estimate)是指應用一定的統計方法在保證研究結論具有一定可靠性(精度與檢驗效能
  • 臨床試驗樣本量計算
    科技期刊中樣本量的計算是研究原著文章必備的步驟之一,但目前中國大部分科技期刊對樣本量描述的要求不夠清晰和規範,仍有一部分期刊的稿件不進行樣本量估算的描述,現將科技期刊研究原著文章中樣本量描述方法做一歸納。
  • 抽樣分布篇之十:再談參數的點估計和區間估計
    本單元本來稱為「推斷統計」,但後來覺得不太恰當,因為沒有包含「假設檢驗」這一最重要的推斷統計原理。考慮再三,改成「抽樣分布」,因為這是這一單元的最核心的內容。但其實其中包含了抽樣理論和估計理論兩部分,上一篇及本篇屬於估計理論的範疇。    總體的參數是我們對未知事物的一種量化表達,因為未知,所以我們就通過抽樣來管中窺豹。但是誰又能說我們看到的是真實的呢?
  • 中山大學《醫學統計學》中英文雙語公開課
    模塊一 《衛生統計學》理論課(中文授課)第1講緒論第2講定量變量的統計描述第3講定性變量的統計描述第4講常用概率分布第5講參數估計基礎第6講假設檢驗基礎第7講方差分析基礎第8講卡方檢驗第9講基於秩次的非參數檢驗第10講兩變量關聯性分析
  • 每周一書《統計學(第七版)》分享
    《統計學》(第7版)》共十四章,第1章介紹統計的應用領域和數據類型等基本概念;第2~4章,介紹數據的搜集方法,數據的圖表展示方式和數據的概括性度量等內容
  • 張厚粲現代心理與教育統計學第3版視頻課程
    張厚粲《現代心理與教育統計學》(第3版)精講班【教材精講+考研真題串講】目錄張厚粲《現代心理與教育統計學》網授精講班第2章 統計圖表
  • R語言統計—配對t檢驗樣本量計算
    在我們實際科學研究中,樣本量是一個頭疼的問題。一般而言,樣本量越大,結果估計更精確,但是過大影響計劃的實施,過小不能提供足夠的統計效能。因此如何確定一個合適的樣本量,增加研究的可靠性,得到可信的結果,這是一個重要的問題。因此,我們來講講在R語言中如何計算研究需要的樣本量。一、樣本量的影響因素「我的研究究竟需要多少樣本量?」
  • 張厚粲現代心理與教育統計學第3版教材精講視頻網課
    《現代心理與教育統計學》(第3版)的考生複習專業課,我們根據教材和名校考研真題的命題規律精心講解教材章節內容。課程目錄張厚粲《現代心理與教育統計學》網授精講班【共34課時】序號 名稱 課時1 第2章 統計圖表(1) 01:04:172 第2章 統計圖表(2) 00:53:463 第3章 集中量數(1) 00:41:454 第3章 集中量數(2) 00:48:385
  • 參數估計-矩估計
    在數學和統計學中,矩(moment)是對變量分布和形態特點的一組度量。在統計學中,總體特徵數除了平均數、方差等,還有就是原點矩與中心距,稱其為總體中心距與總體原點矩。在樣本特徵數中也有原點矩與中心距,稱其為樣本原點矩與樣本中心距。
  • 科研實務 | 護理研究:「總體參數估計」樣本量選擇(1)
    小編上兩期幫大家匯總了預實驗以及正式實驗的樣本量計算公式,可是公式裡各種代碼、字母太多,很容易計算錯誤,今後這段時間,小編針對每個公式進行講解。今天先來講第一個。1.總體均數區間估計樣本量總體參數估計是指根據樣本的特徵,去估計總體的特徵。總體均數區間估計樣本量是指對計量資料進行樣本量估計。
  • [理論+SPSS實戰] 點估計與區間估計詳細解析+把論文寫在抗擊疫情的第一線
    正文:點估計點估計(point estimation)是用樣本統計量來估計總體參數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。如利用樣本平均數作為總體平均數μ的估計數,用樣本方差直接作為總體方差的估計值。
  • 樣本量計算軟體PASS集錦
    (P=0.7279);當兩組樣本量各擴充為原來的100倍時,其對應的有效率不變,但經過卡方檢驗,組間差別具有統計學意義(P=0.0005);兩次檢驗P值的差別事由樣本量導致的,因此,臨床試驗,不能僅僅關注P值,還要關注樣本量,結果解釋要結合統計和專業兩方面,樣本量並非越大越好。
  • 如何理解統計學中的「估計」,用Excel來幫助你學習
    樣本數據為眾多支持決策的有益分析奠定了基礎。估計涉及使用樣本數據來估計某個未知的母體參數的值,比如母體平均值、母體比例,或母體方差。估計量是指用來估計母體參數的量數,例如,我們使用樣本平均值來估計母體平均值。
  • 非參數檢驗—兩相關樣本資料
    ,考慮使用McNemar 檢驗(需要校正),可在SPSS交叉表中、非參數檢驗下的【相關樣本】或者舊對話框下的【2個相關樣本】選擇McNemar檢驗。   3   配對設計2×2列聯表資料McNemar檢驗   方積乾老師主編的第7版《衛生統計學》教材第