本文轉載自CSDN
sselssbh的卡方分布與卡方檢驗
https://blog.csdn.net/bitcarmanlee/article/details/52279907
閱讀大概需要6分鐘
卡方分布(chi-square distribution,-distribution)是概率統計裡常用的一種概率分布,也是統計推斷裡應用最廣泛的概率分布之一,在假設檢驗與置信區間的計算中經常能見到卡方分布的身影。
我們先來看看卡方分布的定義:
若k個獨立的隨機變量Z1,Z2,⋯,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和
為服從自由度為k的卡方分布,記為:
也可以記為:
卡方分布的期望與方差分為為:
其中n為卡方分布的自由度。
χ2檢驗是以χ2分布為基礎的一種假設檢驗方法,主要用於分類變量。其基本思想是根據樣本數據推斷總體的分布與期望分布是否有顯著性差異,或者推斷兩個分類變量是否相關或者獨立。
一般可以設原假設為 H0:觀察頻數與期望頻數沒有差異,或者兩個變量相互獨立不相關。
實際應用中,我們先假設H0成立,計算出χ2的值,χ2表示觀察值與理論值之間的偏離程度。根據χ2分布,χ2統計量以及自由度,可以確定在H0成立的情況下獲得當前統計量以及更極端情況的概率p。如果p很小,說明觀察值與理論值的偏離程度大,應該拒絕原假設。否則不能拒絕原假設。
χ2的計算公式為:
其中,A為實際值,T為理論值。
χ2用于衡量實際值與理論值的差異程度,這也是卡方檢驗的核心思想。χ2包含了以下兩個信息:
1.實際值與理論值偏差的絕對大小。
2.差異程度與理論值的相對大小。
卡方檢驗經常被用來做特徵選擇。舉個網絡上的例子,假設我們有一堆新聞標題,需要判斷標題中包含某個詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表:
通過這個四格表我們得到的第一個信息是:標題是否包含吳亦凡確實對新聞是否屬於娛樂有統計上的差別,包含吳亦凡的新聞屬於娛樂的比例更高,但我們還無法排除這個差別是否由於抽樣誤差導致。那麼首先假設標題是否包含吳亦凡與新聞是否屬於娛樂是獨立無關的,隨機抽取一條新聞標題,屬於娛樂類別的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
理論值的四格表為:
顯然,如果兩個變量是獨立無關的,那麼四格表中的理論值與實際值的差異會非常小。
則χ2值為:
標準的四格表χ2值可以用以下方式進行計算:
得到χ2的值以後,怎樣可以得知無關性假設是否可靠?接下來我們應該查詢卡方分布的臨界值表了。
首先我們明確自由度的概念:自由度v=(行數-1)*(列數-1)。
然後看卡方分布的臨界概率,表如下:
一般我們取p=0.05,也就是說兩者不相關的概率為0.05時,對應的卡方值為3.84。顯然10.0>3.84,那就說明包含吳亦凡的新聞不屬於娛樂的概率小於0.05。換句話說,包含吳亦凡的新聞與娛樂新聞相關的概率大於95%!
總結一下:我們可以通過卡方值來判斷特徵是否與類型有關。卡方值越大,說明關聯越強,特徵越需要保留。卡方值越小,說明越不相關,特徵需要去除。
confine v.限制
ozone n.臭氧
molecular adj. 分子的
exploit v.開發,利用 v.剝削 n.英勇行為
refrigerant n.製冷劑
推薦閱讀:
詳解依存樹的來龍去脈及用法
TreeLSTM Sentiment Classification
福利來了!本人近300G的學習資料願與大家分享
【乾貨】神經網絡SRU
基於attention的seq2seq機器翻譯實踐詳解
【乾貨】基於注意力機制的seq2seq網絡
【乾貨】GRU神經網絡
歡迎關注深度學習自然語言處理公眾號,我會在這裡記錄自己在路上的一點一滴!再小的人也有自己的品牌!期待和你一起進步!