多水平數據分析:R、Mplus和 HLM 應用對比

2021-02-21 行上行下

當數據存在嵌套結構,或者多個水平如學校-班級-個人;企業-團隊-個體;個體-多個時間點。通常的single level 分析,因違反觀察及誤差的獨立性假定,更容易犯一類錯誤。我們需要multilevel。拿一個網上的段子來說,同樣是九年義務教育,憑什麼別人就那麼優秀?以優秀程度來做結果變量,這種差異顯然每個人和每個人是不一樣(低水平),也可能一部分是不同班級之間有差異,不同學校之間有差異。所以,多水平模型的一個基本假定是,高水平差異能夠解釋結果變量的一部分。這時候就有一個指標ICC,來衡量:Intraclass  correlation(ICC)


所以通常都會先計算ICC,高水平變異/(高水平變異+低水平變異)。如果能確實顯著解釋部分變異,就有必要運用多水平模型。根據Hox, Moerbeek, & Van de Schoot, 2018對於多水平分析方法的介紹,通常有兩種分析策略:一種是top-down (一次放入所有變量,然後逐步刪減,費時費力不推薦),另一種是Bottom-up (先從簡單模型到複雜)。這裡介紹bottom-up 方法。Step 1:構建intercept only model常數項模型Step 5:加入cross-level interactionOk,理論知識就到這裡,如果想要深入了解推薦下面這本書。Hox, J. J.,Moerbeek, M., & Van de Schoot, R. (2017). Multilevel analysis:Techniques and applications. Routledge.谷歌引用過萬,18年出到了第三版。下文將介紹如何用R (詳細,從代碼到做圖,結果解讀),Mplus (簡介), HLM(簡介)。均提供代碼和數據,獲得方式見文末。數據說明:100個班級,2000名兒童。變量包括:低水平:兒童的受歡迎程度(popular),性別(sex),兒童的外向性(extrav);高水平:教師的教育經歷(texp)。Step 1:安裝程序包及導入數據Step2 : analyzing data
安裝好程序包,導入數據,在正式分析之前,我們可以做圖直觀的看看不同班級的兒童外向性與受歡迎程度的關係。


顯然,不同班級兒童的外向性跟受歡迎程度關係是不同的,但整體顯示出正相關趨勢。Plot with different gender


可以看出,男女之間是存在差異的,但是斜率slopes並沒有顯著差異。下面正式進行多水平回歸分析。根據上文所述的bottom-up逐漸構建模型,首先從基礎模型開始。2.1.1  Intercept only model

 

可以看出,高水平變異為0.7021, 低水平的變異為1.2218.

我們可以計算ICC = 0.7021/0.7021+1.2218=0.7021/1.9239= 0.364935

或者在R裡,可以直接引用一個包計算ICC

結論:班級水平的變異顯著大於0,因此我們需要進行multilevel分析。2.1.2  Add level 1 predictors model第二步,我們把性別和外向性納入,作為低水平的預測變量。

常數項:對於男孩來說,當外向性為0,時候,其受歡迎程度為2.14。性別:0 = Boys,1 = girls; 女孩子的受歡迎程度通常要比男孩高1.253,差異顯著。外向性:外向性和受歡迎程度顯著的相關,當外向性增加1個unit, 受歡迎程度分數增加0.416。2.1.3  Level 1& level 2 predictors


教師經驗和學生受歡迎程度顯著正相關:教師經驗增加一個unit, 學生的受歡迎程度增加0.088


性別random effect不顯著,對於受歡迎程度的影響並不存在顯著的班級差異。而外向性顯著,說明不同班級之間,學生的外向程度對於受歡迎程度的影響存在顯著差異。既然性別不顯著,我們刪去其ramdom effect



2.1.5  two level predictros & slopes & crosslevel interaction納入跨水平交互作用。因為在上面發現不同班級之間,學生的外向程度對於受歡迎程度的影響存在顯著差異。二者可能存在交互作用。

 

Plot the interaction effect

 

結果解讀:

外向性程度增加,學生的受歡迎程度也直接,而這一關係在經驗豐富的教師的班級裡更為顯著。

最後一步,檢驗模型分析的一些基本假定,比如方差齊性、正態性檢驗。R裡面也是很容易實現。

 

2.2 Residualtests:方差齊性

 

還是同樣的模型,不過Mplus要寫5-6個不同的mplus 文件。

這裡簡單介紹一下。只用了一個模型intercept only model; MPLUS 不同模型需要單獨寫代碼,其它都還是比較友好的,結果解讀也都大同小異。而且Mplus 可以直接得出ICC。Mplus其它模型代碼,見文末的數據代碼文件。HLM是專門為多水平開發的,已經有幾十年了,不需要自己寫代碼,類似於SPSS完全就是滑鼠點點點,另外,公式也比較直觀易懂。這是其優勢。不好的地方同樣在於點點點比較麻煩,相比較R。同樣,回復文末關鍵詞,附有一個超詳細HLM的教程。總之,這三個軟體至少對於多水平回歸分析,結果差不多。至於選擇哪種,看個人偏好。但是對於一些複雜的多水平結構方程模型,及利用貝葉斯,HLM是無法實現的。Hox, Moerbeek,& Van de Schoot, 2018). 第二作者也是Utrecht summerschool multilevel 的授課教師,包括intro+advanced (450+600歐)。內容基本上都是圍繞這本書籍。所有的數據都在網站上可以下載。就是只公開的是只有基礎水平的部分。關於多水平數據的回歸分析的介紹就到這裡,我們下期再見~PS:後臺回復關鍵詞「多水平數據分析」,即可獲得所述的文字版介紹及相關資料啦!

轉載自公眾號:OpenScience

作者:李培凱

排版:陳陽、Shirly

開學購書福利 |18本心理統計學習手冊

看視頻還能讀論文?JoVE實驗視頻期刊介紹

想要數據分析更快?超良心的筆記本/桌上型電腦推薦!

Mixed-Effects Models 詳解:以反應時數據分析為例

相關焦點

  • Mplus基礎系列教程(三)
    CFA和EFA同為處理觀測變量和潛變量的方法,兩者最顯而易見的區別是:外顯變量與潛在因子之間的關係是事先確定的還是事後推定的。EFA一般在分析之前並不明確各觀測指標(量表條目)與潛在結構即因子之間的具體隸屬關係,其關係是在分析之後確定的,所以EFA分析具有數據導向的特點,因此被稱為數據驅動型分析。
  • 1500r和1800r曲率對比分析 淺談曲率的變化
    1500r和1800r曲率對比分析 淺談曲率的變化 工程師譚軍 發表於 2018-09-05 09:18:41   本文主要是關於1500r和1800r曲率的相關介紹
  • R vs. Python,數據分析中誰與爭鋒?
    作者丨Sunil Kappal譯者丨安翔R和Python兩者誰更適合數據分析領域?在某些特定情況下誰會更有優勢?還是一個天生在各方面都比另一個更好?當我們想要選擇一種程式語言進行數據分析時,相信大多數人都會想到R和Python——但是從這兩個非常強大、靈活的數據分析語言中二選一是非常困難的。
  • 3款移動應用數據統計分析平臺對比
    此外,一些應用市場,也有專門的統計分析工具,為其開發者平臺上的應用開發者提供數據服務。我們將重點放在Flurry、友盟,以及TalkingData,這三款移動應用數據統計分析平臺上來,做一個簡單的對比體驗。
  • Python vs R : 在機器學習和數據分析領域中的對比
    為了鼓勵新工具的出現,機器學習和數據分析領域似乎已經成了 「開源」 的天下。Python 和 R 語言都具有健全的生態系統,其中包括了很多開源工具和資源庫,從而能夠幫助任何水平層級的數據科學家展示其分析工作。
  • 對比R語言和Python,教你實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • MPlus 基礎篇: CFA,EFA,中介,調節調節模型
    4 如何報告數據結果5 代碼獲取方法 -內容摘要----     本篇內容包括Mplus SEM基礎模型, 含(連續及類別數據)EFA/CFA及不同CFA模型的比較,測驗等值檢驗, 不同數據類型潛變量之中介(Bootstrap), 調節, 調節的中介,及簡單效應分析及做圖。
  • 數據分析基礎思維之:對比思維
    對比是最基本的數據分析方法,要講數據分析思維,這個最基礎的方法是肯定繞不開的。不過現在的文章提到對比思維,很多都是淺嘗輒止,很少看到有人把對比思維講的更加深入,導致很多數據分析初學者對於對比思維的理解非常片面。本篇文章作者通過對穆勒五法的詳細闡述,帶大家深入了解了對比思維,一起來看看!
  • 頂級英文期刊文章的潛在剖面分析如何用Mplus 來實現
    【核心內容】Mplus潛在剖面/群組分析 (LPA/LCA)如何探索剖面數如何加入預測及結果變量Mplus R3STEP &DCON以往我們所看到的多數研究,使用一種variable-centered approach, 近些年看到比較多的person-centered
  • 深入對比數據科學工具箱:Python和R之爭
    從工具上來看,按由業務到工程的順序,這個兩條是:EXCEL >> R >> Python >> Scala在實際工作中,對於小數據集的簡單分析來說,使用EXCEL絕對是最佳選擇。當我們需要更多複雜的統計分析和數據處理時,我們就需要轉移到 Python 和 R 上。
  • 深度對比:Python和R之爭
    從工具上來看,按由業務到工程的順序,這個兩條是:EXCEL >> R >> Python >> Scala在實際工作中,對於小數據集的簡單分析來說,使用EXCEL絕對是最佳選擇。當我們需要更多複雜的統計分析和數據處理時,我們就需要轉移到 Python 和 R 上。
  • Python數據分析應用案例分享
    用Python進行數據分析的好處是,它的數據分析庫目前已經很全面了,有NumPy、pandas、SciPy、scikit-learn
  • Polarr 想用免費專業圖片處理工具,在數據的幫助下幫助專家和小白...
    根據 Pollar 團隊展示的數據:在美國,Instagram、Photor、Afterlight 等工具類應用的用戶有 4500 萬人,而 Lightroom、DXO Optics Pro 的用戶僅有 500 萬。在整個圖片處理應用市場中,每年又有 200 萬新人加入。
  • 數據分析究竟在分析什麼?
    就像數據分析一樣,現在被炒的很熱,但是數據分析究竟在分析些什麼呢?很多新人可能被唬住了,其實這些在我們以前的統計學中都學過。不管是用Python還是R,其實和用Excel一樣,只不過現在之所以用Python、R是因為大數據時代麼,數據太多,Excel的處理能力跟不上,但是這些都只是一個工具而已,核心還是圍繞統計學不變的。今天就來聊聊我們該從哪些方向去分析(描述)數據。
  • R vs Python:硬碰硬的數據分析
    愛數據(lovedata.cn)是最大、最專業的大數據在線學習社區,專注大數據、數據分析、數據挖掘、數據應用案例和數據可視化等領域
  • 基於R語言的主成分和因子分析
    ,即從原始變量中導出少數幾個主成分,使它們儘可能多地保留原始變量的信息,且彼此間互不相關。主成分分析過程1)數據預處理,可以直接使用原始數據也可以使用相關係數矩陣;2)選擇主成分的個數(可有三種方法參考,1:保留特徵值大於1的主成分;2:碎石圖,在圖形變化最大處之上的主成分均可保留;3:平行分析,將真實數據的特徵值與模擬數據的特徵值進行比較,保留真實數據的特徵值大於模擬數據的特徵值的主成分
  • 教育大數據:考核評價數據分析、挖掘與應用
    考核評價作為加強和改進教育教學過程、促進人才培養質量提升的重要途徑,其數據挖掘、分析與應用尤為重要。然而現行教育考試制度的關注重點往往集中在考試方法創新、考試題型變革、考試成績評定等方面,對考試數據的分析和利用不夠深入,一定程度上造成了教育信息和資源的浪費。
  • R語言和Python實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • 淺談QAR大數據分析與應用
    民航資源網2019年9月16日消息:QAR數據分析指的是用適當的統計分析方法對收集來的QAR數據進行分析,提取有用信息和形成結論而對QAR數據加以詳細研究和概括總結的過程。目前航空公司在QAR數據分析與應用上主要有兩類問題。  一是典型超限事件的數據分析不夠深入。
  • 帶你和Python與R一起玩轉數據科學: 探索性數據分析(附代碼)
    本文先來看一看數據分析過程中的關鍵步驟 – 探索性數據分析(Exploratory Data Analysis,EDA)。探索性數據分析發生在數據收集和數據清理之後,而在數據建模和分析結果可視化展現之前。然而,這是一個可反覆的過程。做完某種EDA後,我們可以嘗試建立一些數據模型或者生成一些可視化結果。同時,根據最新的分析結果我們又可以進行進一步的EDA,等等。