從賭色子到新冠肺炎,一文幫你弄懂什麼是卡方分布?

2021-01-09 CDA數據分析師

作者:丁點helper

來源:丁點幫你

今天我們開始講什麼是卡方分布及卡方檢驗。

第一個問題是,卡方為什麼有平方?

還記得我們在第一篇講兩類錯誤中談過的賭場的例子嗎,小金賭色子輸了很多錢,為了看色子是否有問題,他偷了一顆拿回家想偷偷驗證一下是否有人動手腳。

小金悶在家丟了一天,一共丟了902次,而且每一次都做了記錄(丟的是昏天黑地,可腦補這個畫面)。

下面表格就是小金記錄的獲得的點數情況,比如一共有242次(27%)出現1點,有56次(6%)出現2點……有196次(22%)出現6點。

實際情況的色子點數

小金怎樣通過」狂丟色子「來判斷其是否有問題呢?

這就需要用到卡方檢驗了,實際上也是假設檢驗的大邏輯。

我們知道小金一共丟了902次,假設這顆色子是正常均勻的,那麼每次丟色子,每一點出現的可能性都是1/6,所以理論上每一點出現的次數應該都是:150.33=902/6次。

如下表:我們把每一點實際出現的次數與理論情況下應該出現的次數做一個對比,其中實際觀察次數用A表示,理論次數用T表示:

色子點數:理論VS實際

採用假設檢驗的標準語言來驗證就是:

H0:這顆色子是均勻公平,每一點出現的可能性都為1/6;

H1:這顆色子不是均勻公平的,每一點點數出現的概率不都相同;

如果H0假設成立,那麼「觀察次數」和「理論次數」之間不會差很多;可是如果兩者的差距過大,達到我們規定的某個水平,就認為在H0假設成立的情況下是不會出現的,此時就會拒絕原假設,即認為這個色子不是均勻的。

那怎麼來計算這個差呢?

依照我們講標準差的思路,如果直接將實際情況的點數與理論情況點數相減再加和取平均數,基本會得到0的結果,沒有什麼意義,而取絕對值運算又不方便,所以還是得通過平方。這就是卡方中平方的由來。

卡方值計算

上面這個計算公式,A代表「實際頻數」,T代表「理論頻數」。

如果把這個公式應用到小金丟色子的例子,就會得到:

卡方值為274.92,其對應的P值小於0.01,也就意味著,如果原假設成立(色子沒問題),那麼「理論與現實」出現這麼大的差距的可能低於5%,我們認為這是不可能,因此,要拒絕原假設,認為「色子有問題」。

所以「十賭九輸」是有原因的。

好了,回到今天的正題,小夥伴們可能覺得上面的例子和平常用到的卡方檢驗好像不太一樣。

實際上,原理完全一致。

卡方檢驗最常用的是檢驗兩個率是否一致,對照上述「丟色子」的例子,我們會先假設這兩個率(注意是指總體率)相等,通過相等的總體率,再反推理論發生的頻數,然後計算實際的觀察頻數與理論頻數的卡方值來判斷差距是否足夠大,從而決定假設是否可以被拒絕。

下面以新冠肺炎為例,說明一下卡方檢驗的應用。

為比較A、B兩個城市新冠肺炎病例的檢出情況,分別隨機抽取A地377人,B地301人,進行核酸檢測。結果見下表(數據純屬虛構),現判斷兩個城市的新冠肺炎檢出率是否相同?

如上表,A地的檢出率是19.89%;B地的檢出率是32.89%,卡方檢驗就要來判斷這兩個樣本率所代表的總體率是否相等。

現在我們假設它們相等,那怎麼計算理論頻數呢?

此時就需要用到「合計檢出率——25.66% 「來算,這個數據就相當於上述色子例子中的1/6,是一個標準。

所以,如果兩城市新冠肺炎檢出率沒有區別,且大概都為25.66%,那理論上A地會檢出多少例呢?96.75(377*25.66%),而未檢出的就為280.25(377-96.75)。

同理,B地會檢出77.25(301*25.66%),未檢出的就為223.75(301-77.25)。

現在我們就得到了各城市檢出與未檢出的理論頻數,從而就能計算卡方值。

該卡方值對應的P值小於0.05,所以可以認為A、B兩個城市新冠肺炎的檢出率不一致,B檢出率更高,感染情況更嚴重。

相關焦點

  • 卡方分布與卡方檢驗
    本文轉載自CSDNsselssbh的卡方分布與卡方檢驗 https://blog.csdn.net/bitcarmanlee
  • 抽樣分布之卡方分布01
    這些分布就是我們常用到的抽樣分布: 卡方分布最早由恩斯特·卡爾·阿貝(Ernst Karl Abbe)在1863年首先提出,後經海爾墨特(Hermert)和卡爾·皮爾森(Karl Person)分別於1875年和1900年推導出來。
  • 什麼是卡方檢驗?
    卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。很多不知道的人,一聽到這個名詞,會馬上聯想到, 啊?還要拿張卡來檢驗嗎?其實卡方檢驗是英文Chi-Square Test 的諧音。在大數據運營場景中,通常用在某個變量(或特徵)值是不是和應變量有顯著關係。
  • 一文弄懂工控機是什麼
    打開APP 一文弄懂工控機是什麼 工程師之餘 發表於 2018-11-26 11:03:43 嵌入式工控機的產品性能優勢及其巨大的市場潛力,刺激和吸引了眾多工控機廠商投入到嵌入式工控機的開發行列中。
  • 一文幫你弄懂
    意識、意識障礙是什麼?首先,意識是指個體對外界環境、自身狀況及他們相互聯繫的確認。意識障礙則指機體對內外界刺激以及周圍狀況不能認知、判斷,不能作出正確反應的狀態。例如在心肺復甦過程中首先需要判斷病人有沒有意識,如「同志,同志,你怎麼了?」,如果沒有反應,再次判斷脈搏和呼吸。
  • 巧用excel製作t-分布和卡方分布的臨界值表
    巧用Excel製作臨界值表02:05來自LearningYard學苑本篇推送將介紹如何用Excel製作t-分布和卡方分布臨界值表A.t-分布t-分布是用於根據小樣本來估計呈正態分布且方差未知的總體的均值步驟一:打開excel,橫軸為置信水平,豎軸為自由度,填好相應的值,做一個框架步驟二:點擊菜單欄的公式,選擇插入函數
  • 卡方檢驗講解
    請注意,這裡面我們提到是兩組或者多組之間的均值比較時,我們用方差分析,想一下什麼類型的數據可以求均值呢?是不是只有數值類型的數據才可以求均值。也就是所謂的連續型變量。那如果我們要比較兩組或者多組之間的分類型變量之間是否有顯著性差異呢?這個時候就不可以使用方差分析了,就需要使用專門用於分類變量比較的卡方檢驗。接下來我們具體看一下卡方分析是怎麼做的。
  • 統計學的卡方檢驗方法是什麼呢?用幾個生活實例帶你揭秘!
    作者 | 文文醬的數據課堂 來源 | 知乎專欄 卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。 很多不知道的人,一聽到這個名詞,會馬上聯想到,啊?還要拿張卡來檢驗嗎?
  • 六西格瑪管理基礎-t分布和卡方分布
    T分布是一種抽樣分t分布是一種抽樣分布。它是區間估計,和假設檢驗的理論基礎,也是六西格瑪管理中,統計分析方法的基礎。它是這樣定義的,說從正態總體中進行抽樣,形成樣本,那麼,當總體標準差已知時,樣本均值的分布與總體分布完全一致,通過標準變換,可以轉換為標準正態分布;當總體標準差未知時,樣本均值的分布就構成了自由度為(n-1) 的t分布。t分布的概率密度函數也是兩頭低,中間高的鐘形曲線。其自由度越小,曲線越平坦,自由度越大,曲線越高企,當自由度大於30的時候,曲線與正態分布接近。
  • 卡方檢驗原理與應用實例
    本期推送的另外幾篇文章,來自微信公眾號「amegroups  」,長按下方二維碼,關注該公眾號。關注後,回復「卡方檢驗」即可看原文,給出出處,以防止轉載過程中,關鍵信息丟失影響閱讀時,找不到原文。怎麼理解這句話呢,拿一個群體的身高來說,理論上身高低於1米5的佔10%,高於2.0的佔10%,中間的佔80%,現在我們抽取了這個群體中的一群人,那麼對應這三個身高段的人數的比例關係是不是1:8:1呢?卡方分析就是解決這類問題。2)卡方檢驗的原理:上面已經提到卡方檢驗是檢驗實際的分布於理論的分布時候一致的檢驗,那麼用什麼統計量來衡量呢!
  • 如何用SAS畫正態、t、卡方以及F分布曲線?
    正態分布正態分布,她是擁有完美身材、曼妙身姿的鐘形曲線,她是令無數人魂牽夢繞的自然女神。自然界的諸多現象都拜倒在她的石榴裙下,眾多假設檢驗的也都依託於她的光華。關於她的故事,推薦閱讀「正態分布的前世今生」(在原文連結裡)。2. t分布t分布算是正態分布的小表妹,外表酷似她的表姐。
  • 卡方檢驗適用條件及R*C交叉表 - CDA數據分析師
    文章來源: 丁點幫你作者:丁點helper首先,卡方檢驗的適用條件主要是針對表格的理論頻數(還不太懂什麼叫理論頻數,戳此了解),具體內容如下:>以上n代表總的樣本量,如果是四格表卡方檢驗,就是兩組人群之和,如下圖,常用的符號了解一下:上述表格也稱」四格表「明白了卡方檢驗的適用條件,我們來看看什麼是R*C交叉表檢驗,以前的教材也叫R*C列聯表。
  • 全流程總結卡方檢驗,幫你理清分析思路
    卡方分析卡方檢驗是研究數據比率上的差異性,用於比較定類與定類數據的關係情況。1. 數據類型卡方檢驗要求X、Y項均為定類數據,即數字大小代表分類。什麼時候需要加權數據?4.(2)卡方檢驗如果使用加權數據,就要用「實驗研究」→「卡方檢驗」。如下面例子:A、B兩種藥治療感冒,分析兩種藥的療效是否有差別?放置位置和交叉卡方一樣,只是多加了一個加權項。
  • python卡方檢驗 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    正態分布正態分布(Normal distribution),也稱「常態分布」,又名高斯分布,正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。
  • 元素方尖卡圖了怎麼辦-卡圖解決方法介紹
    元素方尖卡圖了怎麼辦,有不少的玩家都想知道答案,今天小編就為大家帶來元素方尖卡圖解決方法介紹,希望可以幫到玩家。元素方尖卡圖解決方法介紹  如打小怪都沒法保證隊伍高狀態,BOSS八成是打不過的
  • 卡方檢驗在實際工作中的應用
    答案是:卡方檢驗。為什麼用卡方檢驗?定義是什麼?既然是對兩個分類變量(設計因素、高低CTR)做相關分析,卡方檢驗很適用於此案例。卡方檢驗怎麼做?思路是什麼?兩兩比較方法之Bonferroni法(邦弗倫尼法,修正最小顯著差法):在每次比較中,將顯著性水平α除以兩兩比較的次數N,使得顯著性水平縮小到原來的N分之一,降低α錯誤的概率,避免在原假設為真時拒絕原假設,沒有顯著差異卻認為有顯著差異。
  • 卡方檢驗相關性專題及常見問題 - CSDN
    相關係數法、卡方檢驗法和互信息法是進行特徵選擇時常用的幾種過濾式方法。 卡方檢驗和卡方分布卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
  • 一文弄懂什麼是頻譜?
    無論你什麼時候使用手機,無論是上網還是打電話,你都是在通過電磁波發送或接收信息。這些電磁波被對應的發射塔接收,傳送到目標發射塔,最後到達終端用戶。在蜂窩通信中,地理區域被劃分為不同的小區。蜂窩通信中的困難之處在於,如果一個小區中有五個用戶,則應使用五個不同的頻率來傳輸其信號。通過下面的例子來說明。
  • spss卡方_spss卡方檢驗 - CSDN
    例如分析不同的性別對不同的報紙的選擇有什麼不同。,這個結論和上面的卡方檢驗有出入,所以需要進一步進行兩兩比較。 ,數值小於0.1說明關係不緊密,即性別與周末讀物的選擇沒有明顯的關係,這個結論和上面的卡方檢驗有出入,所以需要進一步進行兩兩比較。