當數據存在
嵌套結構,或者多個水平如學校-班級-個人;企業-團隊-個體;個體-多個時間點。通常的single level 分析,因違反觀察及誤差的獨立性假定,更容易犯一類錯誤。我們需要multilevel。拿一個網上的段子來說,同樣是九年義務教育,憑什麼別人就那麼優秀?以優秀程度來做結果變量,這種差異顯然每個人和每個人是不一樣(低水平),也可能一部分是不同班級之間有差異,不同學校之間有差異。所以,多水平模型的一個基本假定是,
高水平差異能夠解釋結果變量的一部分。這時候就有一個指標ICC,來衡量:
Intraclass correlation(ICC)
所以通常都會先計算ICC,高水平變異/(高水平變異+低水平變異)。如果能確實顯著解釋部分變異,就有必要運用多水平模型。根據Hox, Moerbeek, & Van de Schoot, 2018對於多水平分析方法的介紹,通常有兩種分析策略:一種是top-down (一次放入所有變量,然後逐步刪減,費時費力不推薦),
另一種是Bottom-up (先從簡單模型到複雜)。這裡介紹bottom-up 方法。
Step 1:構建intercept only model常數項模型Step 5:加入cross-level interactionOk,理論知識就到這裡,如果想要深入了解推薦下面這本書。
Hox, J. J.,Moerbeek, M., & Van de Schoot, R. (2017). Multilevel analysis:Techniques and applications. Routledge.谷歌引用過萬,18年出到了第三版。
下文將介紹如何用R (詳細,從代碼到做圖,結果解讀),Mplus (簡介), HLM(簡介)。均提供代碼和數據,獲得方式見文末。
數據說明:100個班級,2000名兒童。變量包括:低水平:兒童的受歡迎程度(popular),性別(sex),兒童的外向性(extrav);高水平:教師的教育經歷(texp)。
Step 1:安裝程序包及導入數據Step2 : analyzing data安裝好程序包,導入數據,在正式分析之前,我們可以做圖直觀的看看不同班級的兒童外向性與受歡迎程度的關係。
顯然,不同班級兒童的外向性跟受歡迎程度關係是不同的,但整體顯示出正相關趨勢。
Plot with different gender
可以看出,男女之間是存在差異的,但是斜率slopes並沒有顯著差異。下面正式進行多水平回歸分析。根據上文所述的bottom-up逐漸構建模型,首先從基礎模型開始。
2.1.1 Intercept only model
可以看出,高水平變異為0.7021, 低水平的變異為1.2218.
我們可以計算ICC = 0.7021/0.7021+1.2218=0.7021/1.9239= 0.364935
或者在R裡,可以直接引用一個包計算ICC
結論:班級水平的變異顯著大於0,因此我們需要進行multilevel分析。
2.1.2 Add level 1 predictors model第二步,我們把性別和外向性納入,作為低水平的預測變量。
常數項:對於男孩來說,當外向性為0,時候,其受歡迎程度為2.14。性別:0 = Boys,1 = girls; 女孩子的受歡迎程度通常要比男孩高1.253,差異顯著。外向性:外向性和受歡迎程度顯著的相關,當外向性增加1個unit, 受歡迎程度分數增加0.416。
2.1.3 Level 1& level 2 predictors
教師經驗和學生受歡迎程度顯著正相關:教師經驗增加一個unit, 學生的受歡迎程度增加0.088
性別random effect不顯著,對於受歡迎程度的影響並不存在顯著的班級差異。而外向性顯著,說明不同班級之間,學生的外向程度對於受歡迎程度的影響存在顯著差異。既然性別不顯著,我們刪去其ramdom effect
2.1.5 two level predictros & slopes & crosslevel interaction納入跨水平交互作用。因為在上面發現不同班級之間,學生的外向程度對於受歡迎程度的影響存在顯著差異。二者可能存在交互作用。
Plot the interaction effect
結果解讀:
外向性程度增加,學生的受歡迎程度也直接,而這一關係在經驗豐富的教師的班級裡更為顯著。
最後一步,檢驗模型分析的一些基本假定,比如方差齊性、正態性檢驗。R裡面也是很容易實現。
2.2 Residualtests:方差齊性
還是同樣的模型,不過Mplus要寫5-6個不同的mplus 文件。
這裡簡單介紹一下。只用了一個模型intercept only model; MPLUS 不同模型需要單獨寫代碼,其它都還是比較友好的,結果解讀也都大同小異。而且Mplus 可以直接得出ICC。
Mplus其它模型代碼,見文末的數據代碼文件。HLM是專門為多水平開發的,已經有幾十年了,不需要自己寫代碼,類似於SPSS完全就是滑鼠點點點,另外,公式也比較直觀易懂。這是其優勢。不好的地方同樣在於點點點比較麻煩,相比較R。
同樣,回復文末關鍵詞,附有一個超詳細HLM的教程。總之,這三個軟體至少對於多水平回歸分析,結果差不多。至於選擇哪種,看個人偏好。但是對於一些複雜的多水平結構方程模型,及利用貝葉斯,HLM是無法實現的。Hox, Moerbeek,& Van de Schoot, 2018). 第二作者也是Utrecht summerschool multilevel 的授課教師,包括intro+advanced (450+600歐)。內容基本上都是圍繞這本書籍。所有的數據都在網站上可以下載。就是只公開的是只有基礎水平的部分。關於多水平數據的回歸分析的介紹就到這裡,我們下期再見~
PS:後臺回復關鍵詞「
多水平數據分析」,即可獲得所述的文字版介紹及相關資料啦!
轉載自公眾號:OpenScience
作者:李培凱
排版:陳陽、Shirly
開學購書福利 |18本心理統計學習手冊
看視頻還能讀論文?JoVE實驗視頻期刊介紹
想要數據分析更快?超良心的筆記本/桌上型電腦推薦!
Mixed-Effects Models 詳解:以反應時數據分析為例