卡方檢驗在實際工作中的應用

2020-11-29 人人都是產品經理

卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用。

在電商平臺中,廣告圖到處可見,引起用戶興趣,為商品或者店鋪帶去流量。表徵廣告圖是否「優秀」的關鍵數據就是CTR(Click-Through-Rate,點擊通過率)。為了設計高CTR圖片,電商運營、設計同學們都總結出了一些經驗,但這些經驗未形成更精細化的設計原則來回答「特定品類下,什麼樣的廣告圖CTR最高」。

藉助於京東平臺沉澱的大量廣告圖數據,我們希望通過分析歷史廣告圖的數據表現,得到不同品類下高CTR廣告圖的設計特徵,也為後期驗證提供初步的數據假設。

我們對廣告圖包含的設計元素進行了分類打標,但在缺少廣告圖的CTR具體數據,僅有高低CTR分組數據時,應該如何分析呢?

答案是:卡方檢驗

為什麼用卡方檢驗?

定義是什麼?

卡方檢驗是以χ2分布為基礎的一種常用假設檢驗方法,統計樣本的實際觀測值與理論推斷值之間的偏離程度,主要在分類數據資料統計推斷中應用,如兩個或多個率/構成比之間的比較以及分類資料的相關分析等。

基於這個定義,我們了解到卡方檢驗的適用範圍是「分類數據」,即說明事物類別名稱的數據,比如「性別」是一個分類變量,其變量值是「男」或「女」,兩者之間無法進行運算或比較。

此案例為什麼合適?

此案例中,廣告圖中不同的設計元素,如裝飾元素、設計手法、背景色調等均是分類變量。同時,圖片被分為高低CTR兩組,也屬於分類變量。既然是對兩個分類變量(設計因素、高低CTR)做相關分析,卡方檢驗很適用於此案例。

卡方檢驗怎麼做?

思路是什麼?

在基本的假設檢驗思路上,卡方檢驗與t檢驗、F檢驗等有著相似的過程:

建立無效假設H0:觀察頻數與期望頻數沒有差別(即某一因素設計水平下高低點擊率廣告圖頻數與平均頻數沒有區別);在假設H0成立基礎上,計算出χ2值來表徵觀察值與理論值之間的偏離程度根據p值(多設定為0.05)及自由度,根據χ2分布查出拒絕H0假設的臨界值;若計算得χ2>臨界值,即H0成立的概率<5%,表示在95%置信水平下,觀察值與理論值之間有顯著差異;反之,則說明兩者無差異。根據這個基本思想及過程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我們進行卡方檢驗的必要元素。

具體怎麼算?

(1)計算χ2值:

舉個例子來說明公式的含義:

1)將高低CTR的廣告圖設計因素不同水平的數據呈現為列聯表形式

2)公式中A代表觀察值,E代表理論值,(A-E)代表觀察值及理論值的差異,其中理論值是假設兩個因素無關的情況下計算出來的。

e.g. 設計因素1水平1×高CTR組的理論值即(a+b)×(a+c)/N

3)求平方和以避免正負差值間抵消:由於有多個觀察值,差值可能出現正負值而互相抵消,故利用平方的計算來避免。

4)除以理論值以避免理論值大小影響偏差。

(2)確定自由度(df)

自由度指計算某一統計量時,取值不受限制的變量個數。在列聯表中,由於行或列總數一定,因此行或列中受限制條件數為1,列聯表總df=(行數-1)×(列數-1)。

e.g. 2×2列聯表中df=1,在3×2列聯表中df=2

(3)結合df及p值確定χ2分布中的臨界值,與計算所得χ2值比較

e.g. df=1,p值為0.05情況下,χ2臨界值為3.84

如果我們計算所得的χ2值>3.84,意味著H0假設落入了下圖所示的右側「小尾巴」似的拒絕域,H0假設就不成立,即設計因素1不同水平下高低點擊率廣告圖頻數與平均頻數有區別,換句話說,設計因素1的不同水平與高低點擊率有相關

spss怎麼操作?

除了手工計算及查表外,可通過spss來進行卡方檢驗,步驟如下:

(1)導入數據

將每張廣告圖的高低CTR分組作為A列,設計因素1分組作為B列,導入spss作為原始數據,如下圖框1所示。(若原始數據是上方表格的頻數數據,需進行頻數加權處理)

(2)選擇<分析>-<描述統計>-<交叉表>

如下圖框2所示:

(3)將變量添加到行列中

在<統計>對話框中勾選卡方,在<單元格>對話框中勾選<z-檢驗>下方倆選項以便進行多變量間的兩兩比較。

兩兩比較方法之Bonferroni法(邦弗倫尼法,修正最小顯著差法):在每次比較中,將顯著性水平α除以兩兩比較的次數N,使得顯著性水平縮小到原來的N分之一,降低α錯誤的概率,避免在原假設為真時拒絕原假設,沒有顯著差異卻認為有顯著差異。與常規的兩兩比較LSD檢驗(最小顯著差法,Least Significant Difference)相比,其採用更嚴格的標準,更容易導致兩兩比較時無顯著差異。

(4)解讀結果

1)重點關注第三張卡方檢驗表格,指標的選擇依照以下條件(定義n為總樣本量,理論頻數T):

n≥40,T<5的單元格未超20%,且T均>1(圖中展示符合此條件),採用皮爾遜卡方檢驗結果。e.g. χ2=10.38,p=0.001<0.05,即設計因素的不同水平會影響點擊率情況,結合描述統計判定水平2的高點擊率概率高於水平1。若行、列變量較多, n<40,或有T<1,採用似然比卡方檢驗。若是2×2的四格表,n≥40,1≤T<5的單元格超20%,採用連續性修正檢驗結果。若是2×2的四格表,n<40,或有T<1,採用費希爾精確檢驗結果。若行、列量變量是等級變量(可從小到大排列)時,採用線性關聯檢驗結果。2)在確定初步結果顯著之後,若列聯表達到3列及以上,需兩兩比較列變量水平間是否有差異。第二張交叉表表格中有a、b的下標提供了比較結果,不同下標的列變量水平之間有顯著差異。

結論不符合預期時,卡方檢驗結論如何解讀?

至此完成了卡方檢驗的基本操作,但檢驗結果僅代表數據的顯著性,該顯著性是否有意義仍需要結合實際情況來看。當數據顯著性出現與假設、預期不相符時,多是以下幾種情況。

1. 描述統計差異較大但卡方檢驗不顯著

e.g. 某品類廣告的<商品圖數量>元素,描述結論發現「兩個」商品圖的圖片高於平均水平(高點擊率圖片整體比例)11%,但卡方檢驗卻沒有顯著(χ2=6.79,p=0.08)。

這裡就涉及到自由度的概念,由於<商品圖數量>原始數據分類有四個水平:「無、一個、兩個、三個及以上」,導致自由度增加,卡方分布由陡峭變成緩坡,拒絕域隨之右移,需要更大的卡方值才能拒絕零假設,雖然例子中6.59>3.84(自由度為1的極限卡方值),但仍<7.82(自由度為3時的極限卡方值),因此判定該設計因素不同水平對高低點擊率沒有顯著影響。

2. 描述統計差異不大但卡方檢驗顯著

同樣是多水平條件的卡方檢驗,可能導致另一種現象,某一水平下點擊率情況與總體平均水平差異不大,但卡方檢驗顯示其與高點擊率相關。

e.g. 某品類<裝飾元素>共三個水平「純色、少量、複雜」,其中「複雜」水平下高點擊率(32.5%)與整體平均水平(29.7%)差異並不大,但整體卡方檢驗顯著,並將「純色」、「複雜」兩個水平認為與高點擊率相關。

除「複雜」水平外其他兩組分布與理論頻數差異較大,導致整體的卡方分布顯著,而事後進行兩兩比較的時候,「複雜」水平下頻數表現與「純色」組更為接近,因此「複雜」水平被認為與高點擊率相關。

3. 結論與常規認知不相符

在對廣告圖進行分析時,有一定的常規認知假設,如用戶會更偏好「有利益點」、「有品牌標識」的圖片,但當卡方檢驗顯示兩者對點擊率無影響時,可嘗試從以下維度去排查問題。

(2)是否分類方式出了問題?

e.g.<利益點>原分類方式:有具體數值或明確贈品為「有利益點」,其他為「無利益點」,卡方檢驗後此設計因素對點擊率無影響。

考慮到用戶在瀏覽廣告圖時,不一定有具體數值才是有利益點,「全場秒殺」、「直降」的文字也會吸引用戶點擊,後續將<利益點>分類方式調整為{「無」、「直降促銷(文字或數值)」、「滿減、買免等促銷(文字或數值)」、「買贈或其他」}。卡方檢驗發現中間兩類明確利益點的廣告圖均有較高點擊率。

分類方式作為原始數據對檢驗結論影響巨大,在進行設計因素分類時應遵循用戶認知廣告圖的方式,不局限於單純的視覺展現形式,從內容、視覺形式等角度全面考慮。

(3)是否品類有其特殊性?

e.g. <是否有大促標識>這個因素,在其他品類中,卡方檢驗常得到「有大促標識」比「無大促標識」有更多「高點擊率」圖片的結論,但在手機品類下卻未有顯著差異。

仔細觀察後發現,手機品類廣告圖的單品促銷較為常見,與大促活動關聯度不高,因此在手機品類廣告圖展現大促標識對點擊率影響不大是可以解釋的。

(3)是否採樣方式出了問題?

e.g. <文案行數>因素在某品類下僅「兩行文案」水平與「高點擊率」相關,難以解釋。

用戶對廣告圖的利益點感知最強烈,所以選擇了<利益點>因素作為代表,與<文案行數>進行交叉,看兩因素是否相互影響。而後發現,兩行文案廣告圖中更多是低點擊率利益點,即不同文案行數的廣告圖利益點分布不一致,樣本分布有偏。這也提示後期在驗證時,利益點、品牌效應等作為影響用戶點擊廣告圖的最重要因子,應儘量在其他變量間保持一致的分布。

4. 分類數據是否有更好的分析方法?

受數據類型的限制,不得已採用了卡方檢驗,僅能進行單個設計因素內不同水平的對比,無法進行多個設計因素間重要性對比,也無法考慮不同設計因素間的交叉影響,綜合確定CTR更高的設計組合。

那麼分類數據有沒有更深入的分析方法呢?曾經同事採用了聯合分析方法,對廣告圖元素設計進行了數據探索。簡要來說,聯合分析可以把用戶在購買決策中一系列的產品特徵/價格考慮在內,綜合評估後確定用戶偏好的因素組合。

本文案例為什麼不適用呢?

因為聯合分析對數據樣本的元素組合分布有一定要求,必須符合「均勻分散」、「整齊可比」的正交分布特徵。本文案例中的卡方檢驗更多是初步探索,在後續投放廣告圖進行A/B Test時可採用正交設計來確定不同設計因素組合,回收數據後採用聯合分析明確最優廣告圖形式。

作者: 韓泱泱,京東設計中心JDC

來源:https://mp.weixin.qq.com/s/rf1ME045WoyEyQrTFp5coQ

本文由 @京東設計中心JDC 授權發布於人人都是產品經理,未經作者許可,禁止轉載

題圖來自Unsplash,基於CC0協議

相關焦點

  • 卡方分布與卡方檢驗
    本文轉載自CSDNsselssbh的卡方分布與卡方檢驗 https://blog.csdn.net/bitcarmanlee
  • 卡方檢驗原理與應用實例
    本文簡單介紹卡方檢驗的原理和兩個類型的卡方檢驗實例。本期推送的另外幾篇文章,來自微信公眾號「amegroups  」,長按下方二維碼,關注該公眾號。關注後,回復「卡方檢驗」即可看原文,給出出處,以防止轉載過程中,關鍵信息丟失影響閱讀時,找不到原文。
  • python卡方檢驗 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 卡方檢驗講解
    這個時候就不可以使用方差分析了,就需要使用專門用於分類變量比較的卡方檢驗。接下來我們具體看一下卡方分析是怎麼做的。現在某個研究機構為了驗證一下吸菸與肺病的關係,通過抽樣調查得到如下數據:Ai為實際頻數(出現的次數),Ti為理論頻數。我們把第一個表中各組的值稱為實際頻數,把第二個表中各組的值稱為理論頻數。
  • T檢驗、F檢驗和卡方檢驗
    T檢驗、F檢驗、卡方檢驗是統計學中常見的假設檢驗,今天記錄下這幾個假設檢驗的原理和應用場景。
  • spss卡方_spss卡方檢驗 - CSDN
    spss中交叉分析主要用來檢驗兩個變量之間是否存在關係,或者說是否獨立,其零假設為兩個變量之間沒有關係。在實際工作中,經常用交叉表來分析比例是否相等。例如分析不同的性別對不同的報紙的選擇有什麼不同。
  • 卡方檢驗,T檢驗和F檢驗
    卡方檢驗、T-test、F檢驗區別卡方檢驗卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。
  • python 卡方檢驗專題及常見問題 - CSDN
    卡方檢驗可以用於判斷兩個類別變量的相關性是否顯著。在分類的應用場景中可以用卡方檢驗選擇特徵,特徵與目標變量的相關性越顯著說明特徵越重要,預測力越強。      一、先簡單介紹一下卡方檢驗的步驟。假設y為目標變量,取值為好和壞,x為特徵變量取值為高、中、低。
  • 什麼是卡方檢驗?
    卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。很多不知道的人,一聽到這個名詞,會馬上聯想到, 啊?還要拿張卡來檢驗嗎?其實卡方檢驗是英文Chi-Square Test 的諧音。在大數據運營場景中,通常用在某個變量(或特徵)值是不是和應變量有顯著關係。
  • 卡方檢驗多種用途總結
    概念卡方檢驗是一種用途廣泛的分析定類數據差異性的方法,主要用於比較定類與定類數據的關係情況,以及分析實際數據的比例與預期比例是否一致。02.卡方優度檢驗卡方優度檢驗,是對一列數據進行統計檢驗,分析單個分類變量實際觀測的比例與期望比例是否一致。案例:當前收集了100份數據用於研究,其中有48名男性,52位女性。
  • 卡方檢驗(2x2表格)
    摘自:醫學統計園(微信公眾號)臨床上會遇到評價兩種藥物,對治療同一種疾病的不同患者,哪一種療效會更好,如下表,這時就需要用到卡方檢驗。卡方檢驗是針對計數資料的一種檢驗方法。其是通過評估實際值與理論值之間差異大小,來判斷實際值與理論值之間的偏差是否有統計學意義。如果卡方值越大,超出了設定檢驗水準(α=0.05)下的卡方值(χdf,0.05),則認為實際值與理論值之間偏差屬於隨機誤差的概率較小,故而拒絕H0假設;若卡方值為0,則表示觀察值與理論值完全一致。
  • 別錯過,卡方檢驗實用總結!
    通常情況下,卡方檢驗是研究分類數據與分類數據之間關係的分析方法,如性別和是否戴隱形眼鏡之間的關係。卡方檢驗通常會涉及卡方值和P值兩個名詞術語。卡方值與P值有對應關係,P值小於0.05則說明有差異存在,即性別與是否戴隱形眼鏡之間有聯繫。
  • 卡方檢驗中的p值計算 - CSDN
    卡方檢驗作為一種常見的假設檢驗,在統計學中的地位是顯而易見的,如果你還不太清楚可以參看這篇博文:卡方檢驗用於特徵選擇,寫的非常的淺顯易懂,如果你還想再擴展點卡方檢驗方面的知識,可以參看這篇博文卡方檢驗基礎,寫的也很有意思。
  • 卡方檢驗
    ,採用非參數檢驗進行組間比較。對於分類變量,採用頻數(百分比)的形式描述,組間比較採用χ2檢驗。選擇Analyze - Descriptive Statistics - Crosstabs 將分組變量group放入Row(s)框中→將變量sex放入Column(s)框中; 在Crosstabs: Statistics框中:勾選Chi-square,然後點擊Continue點擊Cells,激活Crosstabs: Cell display框,勾選Observed和Expected,勾選Row,點擊
  • 每天學習一點R:44.卡方檢驗
    卡方檢驗卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度
  • 卡方檢驗最全總結
    資料類型詳細步驟 → 【卡方檢驗】核心步驟當n<40 或 T<1 ,則選用Fisher確切概率法此類資料基本原理與2 X 2相同,通過計算卡方值來判斷多個組間是否存在差異,但不能確定哪兩個組間存在差異。
  • 卡方檢驗結果分析專題及常見問題 - CSDN
    R語言卡方檢驗與結果可視化1,卡方分析簡介與實例2,R語言chisq.test()3,基於ggstatsplot包的可視化分析卡方分析簡介與實例:卡方檢驗是生物學中應用很廣的一種假設檢驗,可以通過對構成比,率進行檢驗,進而判斷分類資料間的偏差程度。
  • 1151期-3:【統計】卡方檢驗詳細講解
    1四格表資料的卡方檢驗用於進行兩個率或兩個構成比的比較應用條件:要求樣本含量應大於40且每個格子中的理論頻數不應小於5。2.行×列表資料的卡方檢驗用於多個率或多個構成比的比較應用條件:要求每個格子中的理論頻數
  • 卡方檢驗相關性專題及常見問題 - CSDN
    卡方檢驗和卡方分布卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
  • 管理心理學之統計(25)獨立性卡方檢驗的效應假設限定與特殊應用
    2.卡方檢驗的假設與限定使用擬合度卡方檢驗或獨立性卡方檢驗必須滿足幾個條件。否則犯第一類錯誤的可能性就會出現偏差。B.期望頻數的大小任意一個單元的期望頻數小於5時,不應該使用卡方檢驗。較小的分母fe值會對總卡方值造成較大印象。避免的方法是使用較大的樣本。3.卡方檢驗的特殊應用卡方檢驗是一種非參數檢驗。