抽樣分布之卡方分布01

2021-02-13 Jeff的LSS分享

最常用的描述分布特徵的統計量有期望(E)和方差(Var),在對總體進行樣本抽樣時,如果按照特定樣本量n,按照特定的抽樣方式進行反覆抽樣Xi,所有Xi的特定統計量組合在一起就會得到一些特定的分布。這些分布就是我們常用到的抽樣分布:

 

卡方分布最早由恩斯特·卡爾·阿貝(Ernst Karl Abbe)在1863年首先提出,後經海爾墨特(Hermert)和卡爾·皮爾森(Karl Person)分別於1875年和1900年推導出來。

Ernst Karl Abbe(1840-1905)

恩斯特·卡爾·阿貝(德國物理學家、光學家)

卡爾·蔡司公司創始人之一

Karl Pearson(1857-1936)

卡爾·皮爾遜(英國數學家、現代統計學之父)

將統計學和概率論兩者融為一體

[注]:海爾墨特Hermert的資料度娘上實在搜不到,等啥時候不用翻牆上Google再補上了。

 

相互獨立的樣本X1、X2、……Xn均來源於總體為N~ (0, 1)分布,則

稱為服從自由度(degree of freedom,縮寫df,符號ν)為n的卡方分布Chi-SquareDistribution (χ2), 表達示為X ~ χ2(n)。

 

其特點有:

期望E(X) = n,方差Var(X) = 2n;

具有可相加性。如Z1 ~ χ2(n1), Z2 ~ χ2(n2),則Z3 = (Z1+Z2) ~ χ2(n1+n2)

當n→∞時,卡方分布近似於正態分布。

卡方分布的這些特點是可以通過公式來推導出來的,這裡就不列了,有興趣的可以自行結合標準正態分布的E(X) = 0和Var(X) = 1以及概率密度公式來推導。下面我們來按卡方分布的定義來生成樣本數據來近似驗證這些特點:

 

用Excel生成11列樣本量為1000且服從標準正態分布Xi ~N(0,1)的數據列X1 ~ X11,Excel命令:數據>> 數據分析 >> 隨機數據發生器,並修正為E(X`i) = 0,數據列X`1 ~ X`11:

根據卡方分布的定義變量Yi = ∑(Xi2), i=1, 2 … n對X`1 ~ X`11進行轉換得到數據列Y1 ~ Y11,則這些樣本數據分別為服從自由度為1 ~ 11的卡方分布:

上面表的第2行和第3行分別為期望和方差,可以看得到卡方分布的期望E(Yi)是近似於n(自由度ν);方差Var(Yi)是近似於2n(之所以強調近似於是因為生成的數據為樣本數據,且X並不是嚴格意義的標準正態分布)。

將上述卡方數據Y1 ~ Y11複製到Minitab裡,與Minitab生成的卡方數據進行比較(Minitab命令:Calc >> Random Data >> Chi-Square分別生成1000行自由度為1 ~ 11的卡方數據列):

狀圖對比(Graph >> Histogram),在相同的自由度下Excel生成的數據與Minitab直接生成的Chi-square數據分布近似;而且可以看出自由度越大,柱狀圖的形態越來越接近正態分布。

再通過概率密度圖(Graph >> Probability Plot)進行對比,亦是高度重合的。說明Excel轉換公式是正確的:

前面的步驟驗證了卡方分布的期望E(X)和方差Var(X)的特點,而且自由度越大越接近於正態分布。我們再通過Minitab生成自由度更高(ν = 100, 500,1000)的卡方數據列來檢驗正態性:

從正態性檢驗可以看到生成的樣本數據:

a)      df = 500時,p-value = 0.058;

b)      df = 1000時,p-value = 0.184

在df越大時,卡方分布的正態性檢驗P-value值就越大了。

  

由英國統計學家皮爾遜在1900年用來檢驗實際分布與理論分布的配合程度時提出。也叫做皮爾遜統計量。

其中:

fo為實際觀測的頻度ObservedFrequency

fe為理論值ExpectedFrequency

 

方差、標準偏差的區間估計 (ConfidenceInterval for Variance, Standard Deviation)

單樣本方差的假設檢驗 (1Variance)

擬合度檢驗 (Goodness-of-fitTest)

定性數據不同分類的獨立性檢驗 (列聯表Contingency Table)

。。。

 

- Jeff整理於2020/01/18

[完]

相關焦點

  • 六西格瑪管理基礎-t分布和卡方分布
    T分布是一種抽樣分t分布是一種抽樣分布。它是區間估計,和假設檢驗的理論基礎,也是六西格瑪管理中,統計分析方法的基礎。它是這樣定義的,說從正態總體中進行抽樣,形成樣本,那麼,當總體標準差已知時,樣本均值的分布與總體分布完全一致,通過標準變換,可以轉換為標準正態分布;當總體標準差未知時,樣本均值的分布就構成了自由度為(n-1) 的t分布。t分布的概率密度函數也是兩頭低,中間高的鐘形曲線。其自由度越小,曲線越平坦,自由度越大,曲線越高企,當自由度大於30的時候,曲線與正態分布接近。
  • 抽樣分布:t分布
    基礎準備抽樣分布:解釋「大數據」及推斷性統計學:抽樣分布t分布:連續型隨機變量概率分布— —T分布和F分布
  • 卡方分布與卡方檢驗
    本文轉載自CSDNsselssbh的卡方分布與卡方檢驗 https://blog.csdn.net/bitcarmanlee
  • 統計學——常用統計量以及統計三大分布
    統計三大分布精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。χ2分布χ2分布即卡方分布。若隨機變量X,X,… , Xn相互獨立,且數學期望為0,方差為1(即服從標準正態分布),則隨機變量X稱為服從自由度為n的卡方分布。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.標準差標準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。
  • 巧用excel製作t-分布和卡方分布的臨界值表
    巧用Excel製作臨界值表02:05來自LearningYard學苑本篇推送將介紹如何用Excel製作t-分布和卡方分布臨界值表A.t-分布t-分布是用於根據小樣本來估計呈正態分布且方差未知的總體的均值步驟一:打開excel,橫軸為置信水平,豎軸為自由度,填好相應的值,做一個框架步驟二:點擊菜單欄的公式,選擇插入函數
  • 從賭色子到新冠肺炎,一文幫你弄懂什麼是卡方分布?
    作者:丁點helper來源:丁點幫你今天我們開始講什麼是卡方分布及卡方檢驗。第一個問題是,卡方為什麼有平方?還記得我們在第一篇講兩類錯誤中談過的賭場的例子嗎,小金賭色子輸了很多錢,為了看色子是否有問題,他偷了一顆拿回家想偷偷驗證一下是否有人動手腳。
  • 管理心理學之統計(24)獨立性的卡方檢驗
    卡方也可以被用於檢驗兩個變量間是否存在關係。這種情況下,樣本中的每個個體被歸入兩個不同的變量,通常用矩陣表示。行與一個變量類別相對應,列與另一個變量類別相對應。矩陣的每個單元中的數字表示特定組的頻數。例如H0:在學生的總體中,性格內向的人的顏色喜好分布於性格外向的人的顏色喜好分布之間不存在顯著差異。兩個分布有相同的形狀和相同的比例。雖然形式不同,但這兩種概念形式之間具有等價性。備擇假設H1認為總體有不同的比例。例如H1:性格內向的人的顏色喜好分布與性格外向的人的顏色喜好分布之間存在差異。
  • 卡方檢驗講解
    卡方檢驗的值用來反映理論頻數和實際頻數的差異大小。理論頻數和實際頻數差別越大(分子越大),卡方檢驗值越大;反之,卡方檢驗值越小。如果只是由於抽樣誤差造成的實際頻數和理論頻數的差異,那卡方檢驗的值應該很小,因為我們相信我們的抽樣還是比較合理的,所以誤差不會特別大;如果卡方檢驗值太大,就不太能夠用誤差來解釋,只能說明原假設不成立,即各組之間的數據本來就有差異。
  • 管理心理學之統計(23)擬合度卡方檢驗
    什麼是卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的範疇。其根本思想在於使用樣本頻數與比例來檢驗關於相應總體值的假設。當實驗數據不是等距或等比數據時,實驗不符合參數檢驗的要求,實驗者可以使用擬合度卡方檢驗與獨立性卡方檢驗這兩種方法作為替代,使用樣本數據來評估關於總體內部的比例或關係。這兩種卡方檢驗和多數非參數檢驗一樣,沒有陳述關於特定參數的假設,也很少對總體分布做出假設,因此非參數檢驗有時被稱為任意分布檢驗。
  • 如何用SAS畫正態、t、卡方以及F分布曲線?
    正態分布正態分布,她是擁有完美身材、曼妙身姿的鐘形曲線,她是令無數人魂牽夢繞的自然女神。自然界的諸多現象都拜倒在她的石榴裙下,眾多假設檢驗的也都依託於她的光華。關於她的故事,推薦閱讀「正態分布的前世今生」(在原文連結裡)。2. t分布t分布算是正態分布的小表妹,外表酷似她的表姐。
  • python卡方檢驗 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 卡方檢驗原理與應用實例
    本文簡單介紹卡方檢驗的原理和兩個類型的卡方檢驗實例。本期推送的另外幾篇文章,來自微信公眾號「amegroups  」,長按下方二維碼,關注該公眾號。關注後,回復「卡方檢驗」即可看原文,給出出處,以防止轉載過程中,關鍵信息丟失影響閱讀時,找不到原文。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    泊松分布與二項分布關係當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。事實上,泊松分布正是由二項分布推導而來的,具體推導過程參見本詞條相關部分。
  • 卡方檢驗在實際工作中的應用
    卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用,如兩個或多個率/構成比之間的比較以及分類資料的相關分析等。根據這個基本思想及過程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我們進行卡方檢驗的必要元素。具體怎麼算?
  • 什麼是卡方檢驗?
    卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。很多不知道的人,一聽到這個名詞,會馬上聯想到, 啊?還要拿張卡來檢驗嗎?其實卡方檢驗是英文Chi-Square Test 的諧音。在大數據運營場景中,通常用在某個變量(或特徵)值是不是和應變量有顯著關係。
  • 管理心理學之統計(25)獨立性卡方檢驗的效應假設限定與特殊應用
    2.卡方檢驗的假設與限定使用擬合度卡方檢驗或獨立性卡方檢驗必須滿足幾個條件。否則犯第一類錯誤的可能性就會出現偏差。如果一個人的答案可以被歸入多個類別或者在一個類別中可以被技術多次,則不適合使用卡方檢驗。B.期望頻數的大小任意一個單元的期望頻數小於5時,不應該使用卡方檢驗。較小的分母fe值會對總卡方值造成較大印象。避免的方法是使用較大的樣本。
  • 【1007】R*C卡方的Fisher確切概率法為什麼會有卡方值
    一位老師問松哥:Fisher確切概率法計算的直接是P值,可是為什麼R×C表的Fisher確切概率法,卻有卡方值,這到底是怎麼回事呢?
  • python 卡方檢驗專題及常見問題 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • spss卡方_spss卡方檢驗 - CSDN
    analyze--descriptive--crosstabs,打開交叉表對話框 2、將性別放到行列表,將對讀物的選擇變量放到列,這樣就構成了一個交叉表  3、設置輸出的結果,點擊statistics,打開一個新的對話框   4、勾選chi-square(卡方檢驗