Python數據分析:置信度與置信區間如何區分?

2021-02-20 愛數據原統計網

今天這篇聊聊統計學裡面的置信度和置信區間,好像沒怎寫過統計學的東西,這篇試著寫一寫。

在講置信度和置信區間之前先講講點估計,那什麼是點估計呢?給你舉兩個例子你就知道了。

現在你想要知道一個學校學生的身高情況,你可以把所有的學生測量一遍,然後得到答案,這種方法可以,而且得到的數據肯定是最真實的,但是這裡有一個問題,什麼問題呢?就是如果學生人數太多,全部測量的話工作量太大了,那怎麼辦呢?那就隨機挑選一部分學生,然後測量這一部分學生的身高,得到一個值(一般用平均值),用這一部分的平均值來估計整體學生的身高情況,我們把這種估計方式稱為點估計。

現在你要看一下某流水線上 iphone 手機的不合格率,怎麼看呢?最笨的方法還是把所有的手機全部開機試用,統計不合格手機的佔比,這樣可以嗎?很明顯是不可以的。那怎麼才能知道這一條流水線的質量,那就是抽樣,抽取整條流水線上的部分手機進行檢驗,會得到一個合格率,然後用這個合格率去估計整條流水線的合格率,同樣這種方式也是點估計。

那現在是不是大概理解點估計的意思了,就是用隨機抽樣的樣本的計算出來的指標值去估計整體指標情況。常用的點估計方法有如下:

用樣本均值估計總體均值

用樣本方差估計總體方差

用樣本的分位數估計總體分位數

用樣本的中位數估計總體中位數

以前上學的時候經常會考試,考完試以後老愛去估分,一般人估分不太可能直接估一個具體的數,肯定都是估一個大概的數,啥叫大概的數呢?就是比如高考分數預計 600 左右,這個左右其實就是一個區間,還有平常很多食品包裝袋上會寫 ±0.5 KG,表示啥意思呢?就是要麼多給了你 0.5 KG,要麼少給了你 0.5 KG。我們把這種用一個範圍來對一個事情進行估計的方式稱為區間估計,得出來的區間就是置信區間。

你是估算出一個區間了,但是你估算的準不準呢?準確度又有多大呢?我們把這個估算的區間的準確度(可信度)稱為置信度。比如說我有 95% 的把握估計我高考分數是 600-650,這裡的置信區間就是 [600,650],置信度就是 95%。

一般置信度和置信區間是同向的,啥意思呢?就是置信度和置信區間一般是相同趨勢。當置信度很高時,置信區間也會很大;當置信區間很大時,置信度也會很高。

比如我有 100% 的把握估計我高考分數是 0-750,這裡的置信區間是 [0,750] 包含了所有分數的可能,那置信度肯定是 100% 哈。

那麼我們該如何通過部分樣本來計算總體的一個置信區間呢?主要有下面幾個步驟:

1. 首先明確要求解的問題

就是你要預估什麼?不管是全校學生身高還是學生成績。

2. 求抽樣樣本的平均值與標準誤差(standard error)

注意標準誤差與標準差(standard deviation)不一樣(標準差反映了整個樣本對樣本平均數的離散程度,標準誤差反映樣本平均數對總體平均數的變異程度)。

標準差等於方差開根號

標準誤差等於樣本標準差除n的開根號

3. 確定需要的置信水平

比如常用的 95% 的置信水平,就是我有 95% 的把握估算對,這樣可以保證樣本的均值會落在總體平均值2個標準差範圍內。

4. 查z表,求z值

什麼是z表呢?是不是已經忘記了,z表是標準正態分布表,是用來反映標準分與概率值之間的關係表,也就是通過標準分能查到概率值,通過概率值也可以反查標準分。

現在我們知道了 95% 的置信水平對應的概率值是 2.5% ,只需要通過標準正態分布表查出 2.5% 概率對應的標準分即可,也就是z值。

常用置信水平與標準分z值的對應表

5. 計算置信區間

a = 樣本均值 - z*標準誤差

b = 樣本均值 + z*標準誤差

最後置信區間就為 [a,b]。

End.

作者:俊紅的數據分析之路

本文為轉載分享,轉載請聯繫原作者

· 零基礎入職數據分析就業班 ·

課程形式主為「直播+錄播」

課程專享:月考測試通關+課程項目作業+1v1職場生涯規劃+班主任輔導學習+資深講師答疑

課程結束後能熟練掌握SQL、Python、Excel、PPT等數據分析工具

金3銀4招聘季,愛數據帶你成功入職數據分析!

相關焦點

  • 通俗易懂學Python,置信度與置信區間
    -今天這篇聊聊統計學裡面的置信度和置信區間,好像沒怎寫過統計學的東西,這篇試著寫一寫。在講置信度和置信區間之前先講講點估計,那什麼是點估計呢?給你舉兩個例子你就知道了。就是比如高考分數預計 600 左右,這個左右其實就是一個區間,還有平常很多食品包裝袋上會寫 ±0.5 KG,表示啥意思呢?就是要麼多給了你 0.5 KG,要麼少給了你 0.5 KG。我們把這種用一個範圍來對一個事情進行估計的方式稱為區間估計,得出來的區間就是置信區間。你是估算出一個區間了,但是你估算的準不準呢?準確度又有多大呢?我們把這個估算的區間的準確度(可信度)稱為置信度。
  • 線性回歸分析詳解9:顯著性水平、置信度、置信區間及其計算方法
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第9章,總體回歸、置信度、置信區間及其計算方法。多元回歸方程求解後,我們分別確認了回歸方程的精度和進行了回歸方程的顯著性驗證,接下來,需要計算置信區間。置信區間是回歸分析的一個重要概念,但是,將回歸分析應用到需求預測時,並不強求引入置信區間,也就是說,用回歸分析做需求預測時,可以不進行置信區間的計算,而直接進行後續的預測步驟。所以,從這一點來說,大家可以跳過本章,直接進入專欄的第10章,用線性回歸分析進行預測。
  • 我們常聽說的置信區間與置信度到底是什麼?
    選自TowardsDataScienceR作者:Dima Shulga機器之心編譯參與:程耀彤、思源機器學習本質上是對條件概率或概率分布的估計,而這樣的估計到底有多少是置信度這裡就涉及到統計學裡面的置信區間與置信度,本文簡要介紹了置信區間這一核心概念,它有助於我們從直觀上理解評價估計優劣的度量方法。本文討論了統計學中的一個基本術語 :置信區間。我們僅以一種非常友好的方式討論一般概念,沒有太多花哨的統計術語,同時還會使用 Python 完成簡單的實現!
  • Python時間序列數據分析--以示例說明
    雖然右圖在均值和方差上都是與時間無關的,但仍是非穩定數據。2. python判斷時序數據穩定性有兩種方法:1.Rolling statistic-- 即每個時間段內的平均的數據均值和標準差情況。Dickey-Fuller Test -- 這個比較複雜,大致意思就是在一定置信水平下,對於時序數據假設 Null hypothesis: 非穩定。
  • 通俗易懂告訴你:何為95%置信區間?
    CDA數據分析師 出品置信區間的概念是由原籍波蘭的美國統計學家耶日·奈曼提出的。簡單理解,比如從北京到張家界旅遊5天,你恐怕不能準確說出要花多少錢,但你可以給出一個範圍,比如10000—13000,你會覺得比較可信。
  • Python數據科學:正態分布與t檢驗
    方差,標準差反映數據的離散程度,其值越大,數據波動越大。在實際情況裡,總體的信息往往難以獲取,所以需要抽樣,通過樣本來估計總體。點估計和區間估計是通過樣本來估計總體的兩種方法。那麼樣本是否能夠代表總體就是關鍵點,樣本需要具有代表性。點估計:用樣本統計量去估計總體參數。區間估計:不同於點估計,能夠提供待估計參數的置信區間和置信度。
  • 「置信區間」是什麼?(修訂版)
    例如,我們分析僱員數據,研究「少數族裔」對年薪的淨影響,控制教育程度與工作崗位。我們的研究目的首先是解決一個疑難:在全體僱員中,在教育程度相同而且工作崗位也相同的情況下,相對於白人而言,少數族裔的年薪有「顯著」的區別嗎?溫馨提示:工作崗位實際上是定類變項,我把它視為定序變項,因為這個「歪曲的」分析結果最適合下面的討論。
  • 如何做主成分分析加"置信區間"?
    使用R語言為PCA散點圖加置信區間的方法,我知道的有三種,分別是使用ggplot2、ggord和 ggfortify三個R包去繪製。
  • Pytorch貝葉斯庫BLiTZ實現使用LSTM預測時序數據和繪製置信區間
    本文將主要講述如何使用BLiTZ(PyTorch貝葉斯深度學習庫)來建立貝葉斯LSTM模型,以及如何在其上使用序列數據進行訓練與推理。在本文中,我們將解釋貝葉斯長期短期記憶模型(LSTM)是如何工作的,然後通過一個Kaggle數據集進行股票置信區間的預測。
  • 區間估計、置信區間
    點估計與區間估計刮獎猜測點估計就是單猜某一張彩票是大獎,區間估計就是將點估計的範圍擴大,可以一盒一盒、一個區域、一座城市,說白了就是設置一個半徑。下面採用置信區間構造區間估計但是這個區間多大會影響到所有估計中包含真值的比例,比如由樣本均值的抽樣分布可知,在重複抽樣或者無限總體抽樣的情況下,樣本均值的期望等於總體均值。
  • 第四十講 R-線性回歸:預測模型及可信區間
    那麼,當我們取得了預測模型後,根據該預測模型對新數據進行預測得出的預測值是什麼?這個預測值的可信度如何呢?今天的講解中,我們會給出答案。我們首先建立一個簡單的線性回歸模型,該模型根據速度預測汽車的停車距離。
  • 靈敏度和特異度的置信區間怎麼算?
    我們簡單的回顧一下,診斷試驗評價的基本方法是用所謂的「金標準」,確診區分患者和非患者,再應用待評價的方法測定這些研究對象,然後比較兩種方法的一致性。   公式法   評價診斷試驗的常用指標主要有靈敏度、特異度、一致率、Youden指數、似然比等,由於靈敏度、特異度、似然比都是率或百分比變量,因此,相應的置信區間可以採用標準的率或百分比的方法來計算。
  • 【入門】數據分析必備——統計學入門基礎知識
    、數據分析One old watch, like brief python成功的關鍵在於相信自己有成功的能力。因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的網際網路領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。
  • 抽樣分布:如何進行參數的點估計和區間估計?
    用極差來估計標準差的方法在控制圖、測量系統分析、過程能力分析等工具中廣泛運用。(這兩段內容來自馬逢時《六西格瑪管理統計指南》p.96)有效性:當一個參數有多個無偏估計時,估計方差越小則越有效。他的論文是關於抽樣調查分析的。但全文最重要的部分卻在附錄裡,奈曼在這個附錄中提出了一個很直接的方法,用來創建區間估計,並確定所得的區間估計值有多準確。奈曼稱這個新的方法為「置信區間」(confidence intervals),而把置信區間的兩端稱為「置信界限」(confidence bounds)。
  • 經驗貼 | Excel中的數據統計與分析
    儘管早就知道Excel是個數據統計分析的最基本的工具,但是聽說過很多道理,依然「做不了分析」,核心還是沒有自己實際操作過。正所謂,進一寸有一寸的歡喜(你看,這裡竟然也有數字……)。描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中離散程度和相關分析三大部分。
  • Excel數據分析工具:描述統計
    Excel統計描述在Excel分析工具介紹(回顧:Excel數據分析工具介紹)中已經介紹過如何調用出分析工具,這裡就不在贅述。Excel函數:峰度:KURT();偏度:SKEW();推斷統計在Excel統計描述中包含兩個推斷統計的指標:標準誤差和置信度(置信水平可調整);這兩個指標是基於假設:總體是正態總體且總體方差未知的情況,之前介紹過(回顧:不同條件的總體均值單樣本估計方法總述),這種情況下,需要用到t分布來進行參數估計和假設檢驗,Excel
  • [理論+SPSS實戰] 點估計與區間估計詳細解析+把論文寫在抗擊疫情的第一線
    任意給你一袋食品,是100%在這個區間內,還是95%的可能在這個區間內,還是90%的可能在這個區間內?這個可能性(n%)就是常說的置信水平,也稱為置信度或者置信係數。舉個例子:從10萬袋上述食品中抽取1000袋食品,其中有900袋的重量在[97.5g---102.5g]之間,有100袋未在此區間,那麼可以估計這批食品重量有90%的可能在[97.5g---102.5g]之間,即在置信度90%條件下,這批食品重量的置信區間為[97.5g---102.5g]。
  • Python統計分析
    描述性統計偏度和峰度累計值假設檢驗和區間估計示例1假設檢驗置信區間示例2假設檢驗置信區間描述性統計# 導入相關的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt均值,標準差,分位數,最大,最小值df.count()
  • 用R進行多層中介的完整流程:從數據預處理到置信區間的生成
    多層中介模型在R中的實現那麼,我們如何在R中製作測試Z模型所需的數據結構,並用R測試,並解釋結果呢?本文將利用UCLA的教學資料庫進行分析。(文末點擊閱讀原文即可下載,或者可以利用R直接讀取在線數據)。 我們將用lme4和lmerTest進行分析。
  • 抽樣分布篇之十:再談參數的點估計和區間估計
    這個接近的程度如何呢,就需要用一個量來進行描述,於是奈曼就告訴我們,置信區間就是我們對接近程度的一種估計。    置信區間實際上是圍繞著點估計所構建的一個區間,告訴我們雖然不知道總體參數到底是多少,但我們有足夠的信心說總體參數在哪個範圍內。範圍的大小代表估計的精度,或者反過來說是估計誤差,它與樣本量有直接的關係。下面兩張圖就說明了均值和標準差的置信區間與樣本量之間的關係。