通俗易懂告訴你:何為95%置信區間?

2020-12-23 CDA數據分析師

CDA數據分析師 出品

置信區間的概念是由原籍波蘭的美國統計學家耶日·奈曼提出的。

簡單理解,比如從北京到張家界旅遊5天,你恐怕不能準確說出要花多少錢,但你可以給出一個範圍,比如10000—13000,你會覺得比較可信。如果給的範圍太大,比如10000—30000,雖然可信度更高一些,但這麼大的範圍參考意義不大;如果給的範圍很小,如10000—10500,雖然準確性提高了,但可信度就似乎不會很高。而找到一個合適的估值範圍,這是置信區間要解決的問題。

說到置信區間我們就要說到點估計和區間估計。

那麼什麼是點估計?什麼是區間估計呢?

之前看到過這樣一個例子,簡直可以很完美的解釋這個問題~

以前很流行一種刮刮卡:

遊戲規則是(假設只有一個大獎):

· 大獎事先就固定好了,一定印在某一張刮刮卡上

· 買了刮刮卡之後,刮開就知道自己是否中獎

那麼我們起碼有兩種策略來刮獎:

· 點估計:買一張,這就相當於你猜測這一張會中獎(直接用樣本統計量來估計總體參數值)

· 區間估計:買一盒,這就相當於你猜測這一盒裡面會有某一張中獎(根據樣本統計量,按一定的概率大小確定包含總體參數值)

很顯然區間估計的命中率會更高(當然費用會更高,因為風險降低了)。

實際上:

點估計量是用於估計總體參數的樣本統計量。但我們不可能期望點估計量能給出總體參數的精確值,所以經常在點估計上加減估計誤差來計算區間估計。

即區間估計的一般形式為:點估計±邊際誤差。

有一個零部件的長度θ未知,我們通過點估計推測θ為9 cm,這還不足夠。如果我們能知道θ有95%的概率在(8.7cm,9.2cm),那麼就理想多了。

那麼由此我們就引出了其他兩個關鍵詞:

置信區間和置信水平

其中(8.7cm,9.2cm)我們就可以理解成置信區間,那麼95%就是置信水平。

由樣本統計量所構造的總體參數的估計區間為置信區間。由於統計學家在某種程度上確定這個區間會包含真正的總體參數,所以取名置信區間。在統計中,一個概率樣本的置信區間(Confidence interval)是對這個樣本的某個總體參數的區間估計。置信區間展現的是這個參數的真實值有一定概率落在測量結果的周圍的程度。置信區間給出的被測量參數的測量值的可信程度,即前面所要求的"一定概率"。這個概率被稱為置信水平。

簡單理解,我們抽取100個樣本,當你不斷改變樣本的時候,由100個樣本構造的總體參數的100個置信區間中,有95%的區間包含了總體參數的真正值,5%沒包含,這個95%稱為置信水平,即1-α。

下面給大家總結一下常用置信水平

那麼怎麼建立置信區間?

置信區間的建立就與中心極限定理和抽樣分布有關,在給定置信度的條件下,置信區間的寬度決定於抽樣分布,會隨著樣本量的增大而減小,在樣本量給定時,置信區間的寬度隨著置信係數的增大而增大。

例如:想了解全國成年男性平均身高,可用抽樣的方法,用樣本信息估計總體信息。從全國男性中抽取一個樣本,這個樣本平均值及對總體平均值的一個點估計,當有多個樣本,即有多個點估計,但不知道哪個樣本對總體的估計最正確,所以用區間估計來解決這個問題。假設全國成年男性平均身高在165-175cm之間,這個區間叫置信區間,及[165,175],這個區間的可信程度是有置信水平來表現,置信水平指置信區間包含總體平均值的概率多大,如置信水平為95%。

當然在不同情況下求不同類型的區間估計時,所用的分布也不同,這裡我們做簡單了解,

1.個總體樣本參數時:

2.兩個總體樣本參數時:

我們以一個總體均值的區間估計為例來理解一下:

【 例 】一家食品生產企業以生產袋裝食品為主,為對食品質量進行監測,企業質檢部門經常要進行抽檢,以分析每袋重量是否符合要求。現從某天生產的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產品重量的分布服從正態分布,且總體標準差為10g。試估計該批產品平均重量的置信區間,置信水平為95%。

該食品平均重量的置信區間為101.44g~109.28g

下面讓我們通過一道練習題鞏再固一下:

從一批產品中隨機抽取100盒進行質量檢驗,檢驗結果有72盒合格,試在95%的把握程度之下對該批產品的合格率進行區間估計,並指出樣本的抽樣平均誤差和極限誤差。

及格率的區間估計:

根據題目可知:n=100 p=72% 1-α=0.95

因為p±Zα/2·{p(1-p)/n}(總體比率置信區間)

α=0.05 查表得Zα/2=1.96

得p±Zα/2·{p(1-p)/n}

=0.72±1.96×{0.72(1-0.72)/100}

=0.72±1.96×(0.448/10)

=0.72±0.088

即區間為【0.632,0.808】

相關焦點

  • 二度拯救,用檢驗方法打敗少量重疊的置信區間
    第17篇User Research #04書接上回,如果碰到下圖這樣置信區間有少量重疊怎麼辦
  • 參數估計之點估計和區間估計
    它是統計推斷的一種基本形式,分為點估計和區間估計兩部分。一、點估計點估計是依據樣本估計總體分布中所含的未知參數或未知參數的函數。簡單的來說,指直接以樣本指標來估計總體指標,也叫定值估計。通常它們是總體的某個特徵值,如數學期望、方差和相關係數等。
  • 如果你搞懂了「燃脂心率區間」,減重減脂會變得事半功倍哦
    它不僅能通過震動來告知會員手機簡訊、電話(通訊),也能通過手錶下面一個綠色的光線探測出會員的心率(它能實時監測心率,並通過手機連接的APP告訴自己燃脂心率區間)。這個神奇的黑科技讓減重減肥變得簡單和輕鬆!
  • 置信春曉計劃·國色天鄉兒童關懷在行動
    這個世界總有一些角落不被陽關照耀,總有一些孩子的命運多舛,我們可能無力改變他們的命運,但是,我們想為他們做點什麼,即使是一段美好的回憶也好。立冬以來,成都的雨一直斷斷續續地下著,像斷了線的珠子,將整個世界浸漬在溼冷的雨水中。
  • 浙江高職院校舉行科技成果拍賣,所得資金95%返還給科研團隊
    杭州職業技術學院教授童國通公開演示了「一種用於熱溶膠改進的彈性樹脂合成技術」,他從生活中常見的不乾膠說起,通俗易懂地介紹了熱熔膠改進原理,讓前來選購成果的企業人士很滿意。經過一個多小時的競拍,總起拍價678萬元的17項科技成果全部成交,最終總成交價達958.5萬元,溢價率達41.37%。這些成果涉及智能製造、健康醫療、教育、新材料、農林畜牧等技術領域。
  • 通俗易懂的告訴你,Polkadot 到底是什麼?
    什麼是 Polkadot,它與現有的區塊鏈有何不同?它的目的是什麼?與哪些鏈競爭?其他區塊鏈可以連接到該主鏈,我們稱這些其他鏈為平行鏈。 連接鏈會產生自己認為合適的區塊 —— 比特幣區塊鏈有自己的出塊規則,以太坊有自己的規則,而智能合約區塊鏈 Edgeware 則有自己的出塊方法。 它們(平行鏈)從中繼鏈中獲得的是終結性(Finality) —— 讓一個區塊終結的能力,這樣它和它內部的交易都不能還原。
  • 雙子3種生日區間,3種不同的你,雙子座的生日區間性格解析
    今天就讓我們一起來看看,雙子座生日的三個區間,分別又會是怎麼樣的性格呢!,你的反應會比一般人都還要快,表達的能力也比別人還要好,這是你的優點,不過你卻也因為這樣,常常會覺得跟別人一起做事很沒有效率,你總是表較喜歡獨來獨往。
  • 怎麼劃分你的心率區間?
    根據心率分區表,可以將心率劃分為5個區間,他們各自對應著不同的鍛鍊目的。第一區間是放鬆和熱身的慢跑區間,第二區間是燃脂區間,第三區間是有氧耐力的訓練區間,第四區間是無氧速度的訓練區間,最後一個是比賽中全力衝刺的區間,這個區間只出現在比賽最激烈的階段,因此不安排在日常訓練中。了解完每個分區的鍛鍊目的之後,那我們怎麼來劃分屬於我們自己的心率區間呢?
  • 中歐投資協定95%的內容已談妥?外交部回應
    外交部對此有何評論?第二個問題,據報導,歐盟官員在對歐盟成員國大使吹風時表示,中歐投資協定95%的內容已談妥。你可否介紹最新情況?汪文斌:關於第一個問題,中國是網絡安全的堅定維護者,同時也是黑客攻擊的最大受害國之一。中方一貫堅決反對並打擊任何形式的網絡攻擊和網絡犯罪。
  • 你運動時心率處在哪個區間?不同區訓練效果大不同!
    找出目標心率區間 首先,你一定要知道所有人的目標心率區間都不同,因為,目標心率數字將取決於您的年齡和健康狀況,你可以使用Karvonen公式或目標心率表來做計算。
  • 究竟何為原單?
    如果你對這一話題感興趣的話,請耐心閱讀本文哈!一:何為原單?用通俗易懂的方式來講,原單就是有品牌授權的代工廠生產下線,因特殊問題或經特殊渠道、特殊方式流出的商品。這其中包含老鼠貨,QC品,或餘料加工等。
  • -置信逸都城裝修
    裝修就是在有限的空間裡配合無限的創意,展示出自我想法的過程,置信逸都城這套北歐風的案例就是將創意發揮到極致,2萬的裝修預算,讓三居室的戶型承載了一家人的需求,不如我們一起來看看,說不定會給你家的裝修也帶來些許靈感。全屋定製家裝已經逐步走廊了普通的家庭中,打造出來的北歐效果也是符合自己的風格。