卡方分布與卡方檢驗

2021-02-13 深度學習自然語言處理

本文轉載自CSDN

sselssbh的卡方分布與卡方檢驗

 https://blog.csdn.net/bitcarmanlee/article/details/52279907

閱讀大概需要6分鐘

卡方分布(chi-square distribution,-distribution)是概率統計裡常用的一種概率分布,也是統計推斷裡應用最廣泛的概率分布之一,在假設檢驗與置信區間的計算中經常能見到卡方分布的身影。

我們先來看看卡方分布的定義: 

若k個獨立的隨機變量Z1,Z2,⋯,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和 

為服從自由度為k的卡方分布,記為: 

也可以記為: 

卡方分布的期望與方差分為為:

其中n為卡方分布的自由度。

χ2檢驗是以χ2分布為基礎的一種假設檢驗方法,主要用於分類變量。其基本思想是根據樣本數據推斷總體的分布與期望分布是否有顯著性差異,或者推斷兩個分類變量是否相關或者獨立。

一般可以設原假設為 H0:觀察頻數與期望頻數沒有差異,或者兩個變量相互獨立不相關。

實際應用中,我們先假設H0成立,計算出χ2的值,χ2表示觀察值與理論值之間的偏離程度。根據χ2分布,χ2統計量以及自由度,可以確定在H0成立的情況下獲得當前統計量以及更極端情況的概率p。如果p很小,說明觀察值與理論值的偏離程度大,應該拒絕原假設。否則不能拒絕原假設。

χ2的計算公式為: 

其中,A為實際值,T為理論值。

χ2用于衡量實際值與理論值的差異程度,這也是卡方檢驗的核心思想。χ2包含了以下兩個信息: 

1.實際值與理論值偏差的絕對大小。 

2.差異程度與理論值的相對大小。

卡方檢驗經常被用來做特徵選擇。舉個網絡上的例子,假設我們有一堆新聞標題,需要判斷標題中包含某個詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表:

通過這個四格表我們得到的第一個信息是:標題是否包含吳亦凡確實對新聞是否屬於娛樂有統計上的差別,包含吳亦凡的新聞屬於娛樂的比例更高,但我們還無法排除這個差別是否由於抽樣誤差導致。那麼首先假設標題是否包含吳亦凡與新聞是否屬於娛樂是獨立無關的,隨機抽取一條新聞標題,屬於娛樂類別的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%

理論值的四格表為:

顯然,如果兩個變量是獨立無關的,那麼四格表中的理論值與實際值的差異會非常小。

則χ2值為: 

標準的四格表χ2值可以用以下方式進行計算:

得到χ2的值以後,怎樣可以得知無關性假設是否可靠?接下來我們應該查詢卡方分布的臨界值表了。

首先我們明確自由度的概念:自由度v=(行數-1)*(列數-1)。 

然後看卡方分布的臨界概率,表如下: 

一般我們取p=0.05,也就是說兩者不相關的概率為0.05時,對應的卡方值為3.84。顯然10.0>3.84,那就說明包含吳亦凡的新聞不屬於娛樂的概率小於0.05。換句話說,包含吳亦凡的新聞與娛樂新聞相關的概率大於95%!

總結一下:我們可以通過卡方值來判斷特徵是否與類型有關。卡方值越大,說明關聯越強,特徵越需要保留。卡方值越小,說明越不相關,特徵需要去除。

confine  v.限制

ozone  n.臭氧

molecular  adj. 分子的

exploit  v.開發,利用  v.剝削  n.英勇行為

refrigerant  n.製冷劑

推薦閱讀:

詳解依存樹的來龍去脈及用法

TreeLSTM Sentiment Classification

福利來了!本人近300G的學習資料願與大家分享

【乾貨】神經網絡SRU

基於attention的seq2seq機器翻譯實踐詳解

【乾貨】基於注意力機制的seq2seq網絡

【乾貨】GRU神經網絡

歡迎關注深度學習自然語言處理公眾號,我會在這裡記錄自己在路上的一點一滴!再小的人也有自己的品牌!期待和你一起進步!

相關焦點

  • 卡方檢驗講解
    這個時候就不可以使用方差分析了,就需要使用專門用於分類變量比較的卡方檢驗。接下來我們具體看一下卡方分析是怎麼做的。現在某個研究機構為了驗證一下吸菸與肺病的關係,通過抽樣調查得到如下數據:卡方檢驗的值用來反映理論頻數和實際頻數的差異大小。理論頻數和實際頻數差別越大(分子越大),卡方檢驗值越大;反之,卡方檢驗值越小。如果只是由於抽樣誤差造成的實際頻數和理論頻數的差異,那卡方檢驗的值應該很小,因為我們相信我們的抽樣還是比較合理的,所以誤差不會特別大;如果卡方檢驗值太大,就不太能夠用誤差來解釋,只能說明原假設不成立,即各組之間的數據本來就有差異。
  • python卡方檢驗 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • spss卡方_spss卡方檢驗 - CSDN
    8、先看到的第一個表格就是交叉表,性別為行、選擇的讀物為列   9、卡方檢驗結果:主要看pearson卡方檢驗,sig值小於0.05,因此認為不同的性別的人對周末讀物的選擇有顯著的差別   10、最後一個表格,輸出的是phi值和V值,兩個都代表兩個變量之間的關係的緊密度,數值小於0.1說明關係不緊密,即性別與周末讀物的選擇沒有明顯的關係,這個結論和上面的卡方檢驗有出入,所以需要進一步進行兩兩比較。
  • 卡方檢驗原理與應用實例
    本文簡單介紹卡方檢驗的原理和兩個類型的卡方檢驗實例。本期推送的另外幾篇文章,來自微信公眾號「amegroups  」,長按下方二維碼,關注該公眾號。關注後,回復「卡方檢驗」即可看原文,給出出處,以防止轉載過程中,關鍵信息丟失影響閱讀時,找不到原文。
  • 抽樣分布之卡方分布01
    如Z1 ~ χ2(n1), Z2 ~ χ2(n2),則Z3 = (Z1+Z2) ~ χ2(n1+n2)當n→∞時,卡方分布近似於正態分布。根據卡方分布的定義變量Yi = ∑(Xi2), i=1, 2 … n對X`1 ~ X`11進行轉換得到數據列Y1 ~ Y11,則這些樣本數據分別為服從自由度為1 ~ 11的卡方分布:
  • 卡方檢驗
    對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述
  • 什麼是卡方檢驗?
    卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。很多不知道的人,一聽到這個名詞,會馬上聯想到, 啊?還要拿張卡來檢驗嗎?其實卡方檢驗是英文Chi-Square Test 的諧音。在大數據運營場景中,通常用在某個變量(或特徵)值是不是和應變量有顯著關係。
  • T檢驗、F檢驗和卡方檢驗
    T檢驗、F檢驗、卡方檢驗是統計學中常見的假設檢驗,今天記錄下這幾個假設檢驗的原理和應用場景。
  • 卡方檢驗在實際工作中的應用
    答案是:卡方檢驗。為什麼用卡方檢驗?定義是什麼?卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用,如兩個或多個率/構成比之間的比較以及分類資料的相關分析等。
  • 卡方檢驗,T檢驗和F檢驗
    卡方檢驗、T-test、F檢驗區別卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。
  • 別錯過,卡方檢驗實用總結!
    通常情況下,卡方檢驗是研究分類數據與分類數據之間關係的分析方法,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0.05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯繫。
  • python 卡方檢驗專題及常見問題 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    正態分布正態分布(Normal distribution),也稱「常態分布」,又名高斯分布,正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。
  • 卡方檢驗(2x2表格)
    摘自:醫學統計園(微信公眾號)臨床上會遇到評價兩種藥物,對治療同一種疾病的不同患者,哪一種療效會更好,如下表,這時就需要用到卡方檢驗。卡方檢驗是針對計數資料的一種檢驗方法。如果卡方值越大,超出了設定檢驗水準(α=0.05)下的卡方值(χdf,0.05),則認為實際值與理論值之間偏差屬於隨機誤差的概率較小,故而拒絕H0假設;若卡方值為0,則表示觀察值與理論值完全一致。下面介紹如何使用SPSS對2x2表格,進行卡方檢驗;如前所述,對數據的預處理,是數據分析過程中花費時間最多也是最麻煩的,因此我們先講述如何將計量資料輸入SPSS。
  • 卡方檢驗多種用途總結
    概念卡方檢驗是一種用途廣泛的分析定類數據差異性的方法,主要用於比較定類與定類數據的關係情況,以及分析實際數據的比例與預期比例是否一致。02.卡方優度檢驗卡方優度檢驗,是對一列數據進行統計檢驗,分析單個分類變量實際觀測的比例與期望比例是否一致。案例:當前收集了100份數據用於研究,其中有48名男性,52位女性。
  • 管理心理學之統計(24)獨立性的卡方檢驗
    卡方檢驗的目的在於確定總體間是否存在顯著的差異。例如H0:在學生的總體中,性格內向的人的顏色喜好分布於性格外向的人的顏色喜好分布之間不存在顯著差異。兩個分布有相同的形狀和相同的比例。雖然形式不同,但這兩種概念形式之間具有等價性。備擇假設H1認為總體有不同的比例。例如H1:性格內向的人的顏色喜好分布與性格外向的人的顏色喜好分布之間存在差異。
  • 管理心理學之統計(23)擬合度卡方檢驗
    什麼是卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的範疇。其根本思想在於使用樣本頻數與比例來檢驗關於相應總體值的假設。當實驗數據不是等距或等比數據時,實驗不符合參數檢驗的要求,實驗者可以使用擬合度卡方檢驗與獨立性卡方檢驗這兩種方法作為替代,使用樣本數據來評估關於總體內部的比例或關係。這兩種卡方檢驗和多數非參數檢驗一樣,沒有陳述關於特定參數的假設,也很少對總體分布做出假設,因此非參數檢驗有時被稱為任意分布檢驗。
  • 卡方檢驗最全總結
    資料類型詳細步驟 → 【卡方檢驗】核心步驟當n<40 或 T<1 ,則選用Fisher確切概率法此類資料基本原理與2 X 2相同,通過計算卡方值來判斷多個組間是否存在差異,但不能確定哪兩個組間存在差異。
  • 卡方檢驗和精確概率法及兩兩比較
    如果不服從正態分布,採用中位數(四分位數間距)進行統計描述,組間比較採用非參數檢驗(Kruskal-Wallis秩和檢驗),當組間總的有統計學差異,進一步採用Dunn法(也可以是其它方法)進行多重比較。
  • 卡方檢驗中的p值計算 - CSDN
    卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴展點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。