重複測量數據有幾個明顯的特徵,一是個體內數據是反覆收集的,同一對象的多次觀測結果往往不獨立(存在相關性),二是變異來源上看有個體內變異和個體間變異,三是數據可能存在缺失值。
有多個統計模型可以實現重複測量數據的分析:
【1】一般線性模型中的重複測量方差分析,可以採用一元方差分析和多元方差分析。重複測量方差分析要求還是比較苛刻的,要求多元正態性、組間方差-協方差矩陣相等(Box』M檢驗),數據上也不能有缺失值。一元差分析雖然考慮了個體隨機效應,但要求方差協方差結構滿足複合對稱或者球性假設。複合對稱結構假定不同時間點上的殘差方差相等且協方差為常數,球形結構假設比複合對稱結構假設要寬鬆一些,僅要求任意兩時間點之差的方差相等。但真正滿足這樣的結構還是比較困難的,為了除去這種假設的不合理的影響,當數據不滿足球性結構時就需要對結果進行校正,如Greenhouse-Geisser校正、Huynh-Feldt校正、Lower-bound校正。多元方差分析不對個體內的方差協方差結構做限定,只允許殘差具有非結構方差協方差結構。【2】廣義估計方程(GEE)。廣義線性模型(GLM)是對一般線性模型的擴展,可以擴展到非正態數據,包括分類、計數資料等,廣義方程估計在此基礎上進一步擴展到可以處理非獨立數據;【3】線性混合模型(LMM)。混合線性模型實際上是對方差分析模型的擴展,使其能夠處理非獨立數據;【4】廣義線性混合模型(GLMM)。廣義線性混合模型可以看做是廣義線性模型和線性混合模型的融合,可以處理不呈正態也不獨立的數據。
示例:某溶栓藥物治療20名急性腦梗死患者的療效,採用隨機、雙盲、安慰劑平行對照設計,每組各10例,分別於治療前及治療後8周每周進行隨訪觀測,觀測指標為神經系統體徵評分(MDNS)。示例來源:楊珉.李曉松等.醫學和公共衛生研究常用多水平統計模型.北京:北京大學醫學出版社,2007.5.
此案例我們在上次的stata筆記中用於建立演示多層線性混合效應模型的操作,筆記按部就班地從最簡單地截距模型開始一直到最終模型的確立,但更多的只是演示步驟和結果解讀,並不是對案例的完整分析,比如交互作用有意義之後的分層分析,連續變量的中心化處理等都未考慮。加入背景協變量age後,結果會有校正。在組合模型裡面,截距γ00是Trtgj=0、ageij=0、timeij=0時結局測量MDNS的平均得分值。
這裡要特別強調一下「變量取值=0」:在向模型中添加變量時,我們往往把分類變量作為因子(Factor)納入,而連續變量作為協變量(Covariate)納入。如果把分類變量作為協變量納入,則會按連續變量處理,取值為分類變量各水平的賦值,同樣如果把連續變量作為因子進行分析,則會把連續變量的取值作為其各個水平的賦值。對於按協變量納入模型的變量而言,變量取值為0和賦值為0是一致的,如本例中的age和time,age=0表示年齡為0歲,time=0表示治療前。但是對按因子納入模型的而言,這裡的「初始水平」或者說「取值=0的變量水平」指的是變量被設為參照的那個水平,STATA默認低水平為參照水平而且可以指定任意水平為參照,而SPSS一般默認高水平為參照水平,在廣義模型裡可以通過順序排序進行調整,如本例的Trtg,在[構建選項]選項卡中分類預測因子默認是按升序排列的,其取值為0的水平表示Trtg=1(治療組),γ00就是年齡為0歲(age=0)的治療組(Trtg=1)的研究對象在治療前(time=0)的MDNS均值,本例改為按降序排列,其取值為0的水平便表示Trtg=0(對照組),截距γ00是Trtgj=0、ageij=0、timeij=0時結局測量MDNS的平均得分值即年齡為0歲的對照組的研究對象在治療前的MDNS均值,相應的γ01則是治療組(Trtgj=1)與對照組(Trtgj=0)的年齡為0的研究對象在治療前(time=0)MDNS的平均差異。在當前模型中我們假定變量age對結局測量MDNS的影響不隨時間變化而變化,即對截距可能產生影響而對time的斜率無影響,γ10是對照組(Trtgj=0)研究對象的MDNS平均變化率,γ11則是治療組(Trtgj=1)與對照組(Trtgj=0)的MDNS的平均變化率差異。
對於治療主效應(模型係數),也需要特別說明一下,這關係到結果的正確解讀。在臨床研究中,多數研究會採用各種方法(如隨機化)讓基線值無統計學差異,而且基線值常常是在幹預之前,此時幹預組和對照組都都沒有被施加幹預因此兩組常常無差異。而模型中幹預因素係數實際上是初始水平(time=0)的組間差異,個人理解就是用time=0時的單獨效應(上圖中的γ01:治療組(Trtgj=1)與對照組(Trtgj=0)的研究對象在治療前(time=0)MDNS的平均差異),用其來代表幹預因素除去交互作用後的效應。所以如果發現固定效應的檢測結果治療因素無統計學意義不要失望,而是應該欣喜。既然基線差異並不能代表幹預的效果,我們可以將治療終點設為參照水平,用治療結束時治療組和對照組之間的差異來代表治療效應,或許這就是為何SPSS默認高水平為參照水平的原因了。當然這個參照水平我們可以修改,一是利用廣義混合線性模型[模型選項]中改變顯示估計均值的連續變量值,二是直接修改時間的取值,對時間尺度進行重新編碼。當然如果時間是按分類變量納入,默認的就是高水平為參照水平,這個也可以通過廣義線性混合模型[構建選項]裡面的順序排序來修改。
【1】數據錄入:具體略。
【2】廣義混合線性模型:分析>>混合模型>>廣義線性…
①數據結構:將變量id拖到[主體Subjects]上,將變量time拖到[重複測量];點擊更多,重複協方差類型選擇一階自回歸。
②欄位和效應
目標:選擇因變量MDNS。線性模型的目標分布與關係部分(圖中紅框部分)可以選擇不同的數據類型,可以擴展到正態分布以外的數據類型。
固定效應:將變量age、Trtg、time拖到[主(效應)]上,同時選中變量Trtg和time,拖到[雙向]上;
隨機效應:點擊[添加塊]打開隨機效應塊對話框;將變量time拖到[主要]列表框上,此步是建立變量time的隨機斜率,即每個個體的MDNS隨時間的變化率不同;選中複選框[包含截距],主體組合選入變量id,隨機效應協方差類型使用默認的方差成分,此步是將變量id設為隨機變異的來源,即設定截距在不同的個體間是不同的。同時設定隨機截距和隨機斜率的協方差結構。
③構建選項:分類變量預測因子按降序排列。本例之所以如此,是因為SPSS默認自變量高水平為參照水平,本例安慰劑和治療組分別賦值0和1,結果是與治療組相比,安慰劑如何如何。從邏輯上我們想知道,治療組比安慰劑組有沒有改善,即以安慰劑為參照水平,按降序排列後會達到這個效果。另外自由度的估算方法、固定效應及係數檢驗方法不同,結果可能會有些微的差別。
④模型選項:可以對分類變量進行邊際均數比較。本例Trtg選中成對比較,比較治療結束時(time=8)採用age均值進行校正的結果,多重比較採用默認的LSD法。
如此處設置age=0,time=0,則會得到固定效應係數檢驗完全一致的結果。如想更好地理解,可參見前面對多層線性混合模型的釋義。
【3】結果解讀:結果顯示基本的個案處理信息和結果縮略圖,可以雙擊縮略圖進入模型瀏覽器查看詳細內容。①模型概要:輸出因變量,概率分布,連結函數及信息準則。在納入不同數量的自變量或選擇不同的方差-協方差結構時,可通過信息準則來判定更優的模型。
②數據結構:列出模型的層次結構。本例高層級有20個水平,每個水平重複觀測9次。
③預測值和實測值的散點圖:可見預測值和實測值存在較好的正向相關,模型擬合良好。
④固定效應檢驗:默認以圖形樣式給出各因素的參數關聯強度,粗線表示有統計學意義(P<0.05)的變量,可通過左下角的展示樣式下拉框將圖形樣式切換為表格樣式,表格樣式中有統計學意義的P值帶有黃色背景。可以通過橫條上的P值來顯示相應條件的自變量。
結果顯示:
i)模型有統計學意義(F=115.256,P=0.666>0.05),至少有一個變量的係數不為0。
ii)年齡age的主效應無統計學意義(F=2.684,P=0.103>0.05),對整個模型的不產生影響。iii)變量Trtg主效應無統計學意義(F=0.187,P<0.001)。再次提示此處檢測的是治療前(time=0)治療組和對照組在治療前的差值是否等於0,即治療組和對照組在治療前有無統計學意義,一般研究都儘量讓組間基線無差異,因此其並不能代表治療組的治療作用,可以通過改變time編碼賦值或者在[模型選項]中的[估計均值]中進行設置需要比較的時間點。iv)time主效應有統計學意義(F=340.918,P<0.001),隨著時間的改變,MDNS的改變不為0。是遞增還是遞減呢?可以進一步查看後面固定效應的係數。v)Trtg與time的交互項有統計學意義(F=108.024,P<0.001),隨著時間的延長,治療組和對照組MDNS的改變幅度是不一樣的。本例Trtg與time的交互作用有統計學意義,單獨分析Trtg與time的主要效應已無多大的實際意義,而是需要進一步分析單獨效應(按某個因素不同水平下另外一個因素的效應),而且無論Trtg與time有無統計學意義都應該納入到模型中。⑤固定效應的係數估計和檢驗結果:同固定效應的估計結果視圖,可通過左小角的樣式下拉框來選圖標和表格顯示樣式,也可以通過橫條上的P值來顯示相應條件的自變量。i)截距=98.348(P<0.001),截距在當前模型中的含義是年齡為0歲的對照組的研究對象在治療前的MDNS均值,因未進行年齡的中心化處理,其實際意義不大。如將年齡數據進行中心化處理(年齡與平均年齡差值代替原來的年齡值)後,截距的就變得很有意義。
⑦協方差參數估計值:顯示隨機效應的統計結果。
結果默認顯示的是殘差【AR1結構】的方差和相鄰觀察間的相關係數。方差為9.099,相鄰觀察間相關係數為0.317,兩者均有統計學意義。點擊左下角效果選擇框,選擇Block1展示隨機效應的結果,截距因人而異,截距方差為21.801,且有統計學意義(Z=2.472,P=0.013<0.05),表明截距是隨機的,但斜率在不同個體間的變異無統計學意義(Z=0.125,P>0.05),即當前模型按隨機截距處理就可以了,並不需要設為隨機斜率。
⑧估計顯著效應的均值:顯示固定效應檢驗中有統計學意義的因素的不同取值水平下因變量均值的點估計和可信區間。本例因子Trtg無統計學意義,因此未計算估計均值。
⑨估計的總均數
⑩估計的均數:默認顯示協變量在均值時因子變量的估計均數。本例在[模型選項]設置顯示連續變量time=8,age=均值時的Trtg估計均數,且進行成對比較。結果顯示在治療結束時,治療組比對照組的MDNS高24.146分,有明顯的的統計學差異(P<0.001)。
⑪擬合模型的設定概要:顯示當前模型參數設置情況。
當前模型雖然低層級的斜率隨組變化,但是這種變化完全由高層級的變量Trtg來解釋(斜率變異無統計學意義),背景協變量age對模型無明顯影響,可將模型簡化為:操作步驟基本相同,不同的地方如下:
[欄位和效應]的固定效應部分,去掉age;
[欄位和效應]的隨機效應:點擊編輯[塊],進入隨機效應構建器,刪除time後確定。
最後還是要再次說明一下,本次筆記重點演示的是廣義線性混合模型的操作及模型參數的解讀,並不是一個完整的案例分析,比如多次提及的連續變量數據的中心化,以及模型方差協方差結構的比較、交互作用之後的分層分析等都未進行。
END