讓我們以狗熊會精心整理的脫單情況問卷中「社交小團體和自己單身情況之間的關係」為例,來演示一下吧!
整體思路:首先將要分析的兩個變量用列聯表整合;其次對其進行卡方檢驗,得到檢驗結果顯著後,再對各單元格的狀況進行殘差分析,最後得出結論。
列聯表就是兩個分類變量的頻數分布表。計算出列聯表後,觀察各個單元格的頻數。根據單元格的頻數,選擇正確的檢驗方法和函數參數設置。
當樣本容量n> 40且理論頻數 < 5時,要使用Yates校正的卡方檢驗。R代碼:chisq.test(x, correct = T))。
當n < 40 或理論頻數<1的時候,使用fisher精準檢驗更加穩妥一些。R代碼:fisher.test())。
棘狀圖可以由vcd包的spine()函數或者基礎自帶的spineplot()函數繪製。通過棘狀圖可以直觀的觀察到兩個變量間的差異。
R語言中的卡方檢驗十分便利,只需要一個函數即可計算出卡方檢驗需要的參數值。
由卡方檢驗的結果可知:卡方值=5.8026,自由度=1,p值=0.016<0.05
因此我們可以得出結論:個體單身情況與其所在社交小團體單身情況顯著相關。
在得出卡方檢驗結果顯著後,進行殘差分析可以檢驗各單元格的狀況。
這裡的殘差是Pearson殘差。它等於(觀測值-期望值)/期望值的平方根。在殘差分析表格中,單元格的值為正表示觀測值高於期望值,為負表示觀測者低於期望值。
由殘差分析可知:社交小團體脫單率越高,個體的脫單率也就越高。也就是說混跡在非單身的社交小團體的人更容易脫單,單身狗抱團取暖往往形成了單身聯盟,想要脫單更加不易。當然這也只是脫單原因的其中一個因素,大家不要因為自己脫不了單而責怪單身朋友啊。
這樣一個小小案例分析結束後,有沒有對卡方檢驗簡單掌握了呢?當然了,想要更加熟練的運用卡方檢驗,還需要更多研究和練習。趕快去拿自己以往的調查問卷數據練練手吧!