重複測量數據分析系列:廣義線性混合模型(GLMM)

2021-12-29 一統漿糊

收錄於話題 #重複測量數據分析 7個

重複測量數據有幾個明顯的特徵，一是個體內數據是反覆收集的，同一對象的多次觀測結果往往不獨立（存在相關性），二是變異來源上看有個體內變異和個體間變異，三是數據可能存在缺失值。

有多個統計模型可以實現重複測量數據的分析：

【1】一般線性模型中的重複測量方差分析，可以採用一元方差分析和多元方差分析。重複測量方差分析要求還是比較苛刻的，要求多元正態性、組間方差-協方差矩陣相等（Box』M檢驗），數據上也不能有缺失值。一元差分析雖然考慮了個體隨機效應，但要求方差協方差結構滿足複合對稱或者球性假設。複合對稱結構假定不同時間點上的殘差方差相等且協方差為常數，球形結構假設比複合對稱結構假設要寬鬆一些，僅要求任意兩時間點之差的方差相等。但真正滿足這樣的結構還是比較困難的，為了除去這種假設的不合理的影響，當數據不滿足球性結構時就需要對結果進行校正，如Greenhouse-Geisser校正、Huynh-Feldt校正、Lower-bound校正。多元方差分析不對個體內的方差協方差結構做限定，只允許殘差具有非結構方差協方差結構。【2】廣義估計方程（GEE）。廣義線性模型（GLM）是對一般線性模型的擴展，可以擴展到非正態數據，包括分類、計數資料等，廣義方程估計在此基礎上進一步擴展到可以處理非獨立數據；【3】線性混合模型（LMM）。混合線性模型實際上是對方差分析模型的擴展，使其能夠處理非獨立數據；【4】廣義線性混合模型（GLMM）。廣義線性混合模型可以看做是廣義線性模型和線性混合模型的融合，可以處理不呈正態也不獨立的數據。

示例：某溶栓藥物治療20名急性腦梗死患者的療效，採用隨機、雙盲、安慰劑平行對照設計，每組各10例，分別於治療前及治療後8周每周進行隨訪觀測，觀測指標為神經系統體徵評分（MDNS）。示例來源：楊珉.李曉松等.醫學和公共衛生研究常用多水平統計模型.北京:北京大學醫學出版社,2007.5.

此案例我們在上次的stata筆記中用於建立演示多層線性混合效應模型的操作，筆記按部就班地從最簡單地截距模型開始一直到最終模型的確立，但更多的只是演示步驟和結果解讀，並不是對案例的完整分析，比如交互作用有意義之後的分層分析，連續變量的中心化處理等都未考慮。

本示例依舊未對數據進行中心化處理，只是演示廣義線性混合效應模型在重複測量數據上的操作步驟，而且是一開始便建立完整的「全模型」，殘差方差協方差結構則設定為不同時間點的縱向資料分析常見的一階自回歸，然後逐漸去除掉沒有意義的因素。交互作用引起的共線問題以及數據中心化處理以後單獨一文吧。用廣義線性混合模型來分析這個連續型數據的重複測量的示例，本質上就是用廣義線性混合模型（GLMM）來實現多層線性混合模型（LMM）而已。為了更好地理解模型參數代表的意義，我們先重新溫習一下多層線性混合模型，本例全模型如下：

加入背景協變量age後，結果會有校正。在組合模型裡面，截距γ00是Trtgj=0、ageij=0、timeij=0時結局測量MDNS的平均得分值。

這裡要特別強調一下「變量取值=0」：在向模型中添加變量時，我們往往把分類變量作為因子(Factor)納入，而連續變量作為協變量(Covariate)納入。如果把分類變量作為協變量納入，則會按連續變量處理，取值為分類變量各水平的賦值，同樣如果把連續變量作為因子進行分析，則會把連續變量的取值作為其各個水平的賦值。對於按協變量納入模型的變量而言，變量取值為0和賦值為0是一致的，如本例中的age和time，age=0表示年齡為0歲，time=0表示治療前。但是對按因子納入模型的而言，這裡的「初始水平」或者說「取值=0的變量水平」指的是變量被設為參照的那個水平，STATA默認低水平為參照水平而且可以指定任意水平為參照，而SPSS一般默認高水平為參照水平，在廣義模型裡可以通過順序排序進行調整，如本例的Trtg，在[構建選項]選項卡中分類預測因子默認是按升序排列的，其取值為0的水平表示Trtg=1（治療組），γ00就是年齡為0歲(age=0)的治療組(Trtg=1)的研究對象在治療前(time=0)的MDNS均值，本例改為按降序排列，其取值為0的水平便表示Trtg=0（對照組），截距γ00是Trtgj=0、ageij=0、timeij=0時結局測量MDNS的平均得分值即年齡為0歲的對照組的研究對象在治療前的MDNS均值，相應的γ01則是治療組(Trtgj=1)與對照組（Trtgj=0）的年齡為0的研究對象在治療前(time=0)MDNS的平均差異。在當前模型中我們假定變量age對結局測量MDNS的影響不隨時間變化而變化，即對截距可能產生影響而對time的斜率無影響，γ10是對照組(Trtgj=0)研究對象的MDNS平均變化率，γ11則是治療組(Trtgj=1)與對照組(Trtgj=0)的MDNS的平均變化率差異。

還有一個問題需要注意，對當前模型而言，連續變量age採用的是原始值，age=0是不存在的，所以截距並沒有實際意義，因此一般來說連續型變量需要進行中心化處理，中心化處理之後截距γ00代表的就是age取均值時對照組的研究對象在治療前的MDNS均值，限於篇幅本示例僅演示廣義線性混合模型的操作，並沒有age中心化的處理。

對於治療主效應（模型係數），也需要特別說明一下，這關係到結果的正確解讀。在臨床研究中，多數研究會採用各種方法（如隨機化）讓基線值無統計學差異，而且基線值常常是在幹預之前，此時幹預組和對照組都都沒有被施加幹預因此兩組常常無差異。而模型中幹預因素係數實際上是初始水平(time=0)的組間差異，個人理解就是用time=0時的單獨效應（上圖中的γ01：治療組(Trtgj=1)與對照組（Trtgj=0）的研究對象在治療前(time=0)MDNS的平均差異），用其來代表幹預因素除去交互作用後的效應。所以如果發現固定效應的檢測結果治療因素無統計學意義不要失望，而是應該欣喜。既然基線差異並不能代表幹預的效果，我們可以將治療終點設為參照水平，用治療結束時治療組和對照組之間的差異來代表治療效應，或許這就是為何SPSS默認高水平為參照水平的原因了。當然這個參照水平我們可以修改，一是利用廣義混合線性模型[模型選項]中改變顯示估計均值的連續變量值，二是直接修改時間的取值，對時間尺度進行重新編碼。當然如果時間是按分類變量納入，默認的就是高水平為參照水平，這個也可以通過廣義線性混合模型[構建選項]裡面的順序排序來修改。

【1】數據錄入：具體略。

【2】廣義混合線性模型：分析>>混合模型>>廣義線性…

①數據結構：將變量id拖到[主體Subjects]上，將變量time拖到[重複測量]；點擊更多，重複協方差類型選擇一階自回歸。

②欄位和效應

目標：選擇因變量MDNS。線性模型的目標分布與關係部分（圖中紅框部分）可以選擇不同的數據類型，可以擴展到正態分布以外的數據類型。

固定效應：將變量age、Trtg、time拖到[主(效應)]上，同時選中變量Trtg和time，拖到[雙向]上;

隨機效應：點擊[添加塊]打開隨機效應塊對話框；將變量time拖到[主要]列表框上，此步是建立變量time的隨機斜率，即每個個體的MDNS隨時間的變化率不同；選中複選框[包含截距]，主體組合選入變量id，隨機效應協方差類型使用默認的方差成分，此步是將變量id設為隨機變異的來源，即設定截距在不同的個體間是不同的。同時設定隨機截距和隨機斜率的協方差結構。

③構建選項：分類變量預測因子按降序排列。本例之所以如此，是因為SPSS默認自變量高水平為參照水平，本例安慰劑和治療組分別賦值0和1，結果是與治療組相比，安慰劑如何如何。從邏輯上我們想知道，治療組比安慰劑組有沒有改善，即以安慰劑為參照水平，按降序排列後會達到這個效果。另外自由度的估算方法、固定效應及係數檢驗方法不同，結果可能會有些微的差別。

④模型選項：可以對分類變量進行邊際均數比較。本例Trtg選中成對比較，比較治療結束時(time=8)採用age均值進行校正的結果，多重比較採用默認的LSD法。

如此處設置age=0，time=0，則會得到固定效應係數檢驗完全一致的結果。如想更好地理解，可參見前面對多層線性混合模型的釋義。

【3】結果解讀：結果顯示基本的個案處理信息和結果縮略圖，可以雙擊縮略圖進入模型瀏覽器查看詳細內容。

①模型概要：輸出因變量，概率分布，連結函數及信息準則。在納入不同數量的自變量或選擇不同的方差-協方差結構時，可通過信息準則來判定更優的模型。

②數據結構：列出模型的層次結構。本例高層級有20個水平，每個水平重複觀測9次。

③預測值和實測值的散點圖：可見預測值和實測值存在較好的正向相關，模型擬合良好。

④固定效應檢驗：默認以圖形樣式給出各因素的參數關聯強度，粗線表示有統計學意義（P<0.05）的變量，可通過左下角的展示樣式下拉框將圖形樣式切換為表格樣式，表格樣式中有統計學意義的P值帶有黃色背景。可以通過橫條上的P值來顯示相應條件的自變量。

結果顯示：

i）模型有統計學意義（F=115.256，P=0.666>0.05），至少有一個變量的係數不為0。

ii）年齡age的主效應無統計學意義（F=2.684，P=0.103>0.05），對整個模型的不產生影響。iii）變量Trtg主效應無統計學意義（F=0.187，P<0.001）。再次提示此處檢測的是治療前（time=0）治療組和對照組在治療前的差值是否等於0，即治療組和對照組在治療前有無統計學意義，一般研究都儘量讓組間基線無差異，因此其並不能代表治療組的治療作用，可以通過改變time編碼賦值或者在[模型選項]中的[估計均值]中進行設置需要比較的時間點。iv）time主效應有統計學意義（F=340.918，P<0.001），隨著時間的改變，MDNS的改變不為0。是遞增還是遞減呢？可以進一步查看後面固定效應的係數。v）Trtg與time的交互項有統計學意義（F=108.024,P<0.001），隨著時間的延長，治療組和對照組MDNS的改變幅度是不一樣的。本例Trtg與time的交互作用有統計學意義，單獨分析Trtg與time的主要效應已無多大的實際意義，而是需要進一步分析單獨效應（按某個因素不同水平下另外一個因素的效應），而且無論Trtg與time有無統計學意義都應該納入到模型中。⑤固定效應的係數估計和檢驗結果：同固定效應的估計結果視圖，可通過左小角的樣式下拉框來選圖標和表格顯示樣式，也可以通過橫條上的P值來顯示相應條件的自變量。

i）截距=98.348(P<0.001)，截距在當前模型中的含義是年齡為0歲的對照組的研究對象在治療前的MDNS均值，因未進行年齡的中心化處理，其實際意義不大。如將年齡數據進行中心化處理（年齡與平均年齡差值代替原來的年齡值）後，截距的就變得很有意義。

ii）年齡越大，初始值MDNS也會越大，平均每增加1歲MDNS會增加0.239分，但沒有統計學差異（P=0.103）。iii）Trtg的係數值=-1.145（P=0.666>0.05），表明治療組的MDNS比對照組低1.145，且效應無統計學意義。正如前面模型係數釋義部分所言，該差值是治療前治療組和對照組的差值，僅能說明基線無差異。用基線的平均差值並不能很好地代表治療效果，本例在[模型選項]中將治療終點設為參照水平，交互作用之外的治療效應可在估計均值的比較結果中進行查看。iv）Time係數值=1.227（P<0.001）,表明對照組MDNS隨時間變化具有統計學意義，每增加1個時間單位，對照組MDNS增加1.227分。v）交互作用Trtg*time係數=3.161>0，表示時間每增加一個單位，相比對照組，治療組中研究對象的MDNS將會有更多的增長（多增長3.161分），且這額外的增長具有統計學意義（P<0.001）。每增加1個時間單位，治療組MDNS增加(1.227+3.161)分。另外，本例採用默認的自由度計算方法、固定效應及係數檢驗方法，最終的結果P值結果會與使用線性混合模型的結果略有差異。以Trtg為例，當前模型（t=-0.432，P=0.666）,而採用線性混合模型的結果會是（t=-0.432，P=0.671），原因就是在步驟③構建選項我們採用了默認的自由度的估算方法和固定效應及係數檢驗方法，改變自由度的估計方法，會得到完全一致的結果。⑥協方差矩陣：顯示當前模型高水平方差協方差矩陣，即G矩陣。當前模型採用的方差成分結構。

⑦協方差參數估計值：顯示隨機效應的統計結果。

結果默認顯示的是殘差【AR1結構】的方差和相鄰觀察間的相關係數。方差為9.099，相鄰觀察間相關係數為0.317，兩者均有統計學意義。點擊左下角效果選擇框，選擇Block1展示隨機效應的結果，截距因人而異，截距方差為21.801，且有統計學意義（Z=2.472，P=0.013<0.05），表明截距是隨機的，但斜率在不同個體間的變異無統計學意義（Z=0.125，P>0.05），即當前模型按隨機截距處理就可以了，並不需要設為隨機斜率。

⑧估計顯著效應的均值：顯示固定效應檢驗中有統計學意義的因素的不同取值水平下因變量均值的點估計和可信區間。本例因子Trtg無統計學意義，因此未計算估計均值。

⑨估計的總均數

⑩估計的均數：默認顯示協變量在均值時因子變量的估計均數。本例在[模型選項]設置顯示連續變量time=8，age=均值時的Trtg估計均數，且進行成對比較。結果顯示在治療結束時，治療組比對照組的MDNS高24.146分，有明顯的的統計學差異（P<0.001）。

⑪擬合模型的設定概要：顯示當前模型參數設置情況。

當前模型雖然低層級的斜率隨組變化，但是這種變化完全由高層級的變量Trtg來解釋（斜率變異無統計學意義），背景協變量age對模型無明顯影響，可將模型簡化為：

操作步驟基本相同，不同的地方如下:

[欄位和效應]的固定效應部分，去掉age；

[欄位和效應]的隨機效應：點擊編輯[塊]，進入隨機效應構建器，刪除time後確定。

最後還是要再次說明一下，本次筆記重點演示的是廣義線性混合模型的操作及模型參數的解讀，並不是一個完整的案例分析，比如多次提及的連續變量數據的中心化，以及模型方差協方差結構的比較、交互作用之後的分層分析等都未進行。

END

重複測量數據分析系列:廣義線性混合模型(GLMM)

相關焦點

GLMM:廣義線性混合模型(遺傳參數評估)

生態學模擬對廣義線性混合模型GLMM進行功率(功效、效能、效力)分析power analysis環境監測數據

一般線性模型與廣義線性模型

重複測量數據分析及結果詳解(之一)

R數據分析:廣義估計方程式GEE的做法和解釋

模型評價續篇:Cox回歸與廣義線性模型

重複測量分析在土壤監測和試驗中的應用

重複測量數據的方差分析在SPSS中的應用——【杏花開醫學統計】

如何用潛類別混合效應模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年齡數據

廣義線性回歸分析模型Logistic,一文讀懂它!

深入廣義線性模型:分類和回歸

SPSS學習筆記:重複測量的多因素方差分析

重複測量資料的方差分析在SPSS軟體中的實現

利用廣義線性模型實現的分類——Logistic回歸

如何定義重複測量方差分析中的「主體內因子」和「測量名稱」?

最重要的算法和統計模型,數據專家指南

線性混合模型系列二:模型假定

一文帶你輕鬆掌握，重複測量方差分析

廣義線性模型到底是個什麼鬼?| 協和八

SPSS: 方差成分分析/方差分量分析