重複測量數據分析系列:廣義線性混合模型(GLMM)

2021-12-29 一統漿糊

收錄於話題 #重複測量數據分析 7個

重複測量數據有幾個明顯的特徵,一是個體內數據是反覆收集的,同一對象的多次觀測結果往往不獨立(存在相關性),二是變異來源上看有個體內變異和個體間變異,三是數據可能存在缺失值。

有多個統計模型可以實現重複測量數據的分析:

【1】一般線性模型中的重複測量方差分析,可以採用一元方差分析和多元方差分析。重複測量方差分析要求還是比較苛刻的,要求多元正態性、組間方差-協方差矩陣相等(Box』M檢驗),數據上也不能有缺失值。一元差分析雖然考慮了個體隨機效應,但要求方差協方差結構滿足複合對稱或者球性假設。複合對稱結構假定不同時間點上的殘差方差相等且協方差為常數,球形結構假設比複合對稱結構假設要寬鬆一些,僅要求任意兩時間點之差的方差相等。但真正滿足這樣的結構還是比較困難的,為了除去這種假設的不合理的影響,當數據不滿足球性結構時就需要對結果進行校正,如Greenhouse-Geisser校正、Huynh-Feldt校正、Lower-bound校正。多元方差分析不對個體內的方差協方差結構做限定,只允許殘差具有非結構方差協方差結構。【2】廣義估計方程(GEE)。廣義線性模型(GLM)是對一般線性模型的擴展,可以擴展到非正態數據,包括分類、計數資料等,廣義方程估計在此基礎上進一步擴展到可以處理非獨立數據;【3】線性混合模型(LMM)。混合線性模型實際上是對方差分析模型的擴展,使其能夠處理非獨立數據;【4】廣義線性混合模型(GLMM)。廣義線性混合模型可以看做是廣義線性模型和線性混合模型的融合,可以處理不呈正態也不獨立的數據。

示例:某溶栓藥物治療20名急性腦梗死患者的療效,採用隨機、雙盲、安慰劑平行對照設計,每組各10例,分別於治療前及治療後8周每周進行隨訪觀測,觀測指標為神經系統體徵評分(MDNS)。示例來源:楊珉.李曉松等.醫學和公共衛生研究常用多水平統計模型.北京:北京大學醫學出版社,2007.5.

此案例我們在上次的stata筆記中用於建立演示多層線性混合效應模型的操作,筆記按部就班地從最簡單地截距模型開始一直到最終模型的確立,但更多的只是演示步驟和結果解讀,並不是對案例的完整分析,比如交互作用有意義之後的分層分析,連續變量的中心化處理等都未考慮。

本示例依舊未對數據進行中心化處理,只是演示廣義線性混合效應模型在重複測量數據上的操作步驟,而且是一開始便建立完整的「全模型」,殘差方差協方差結構則設定為不同時間點的縱向資料分析常見的一階自回歸,然後逐漸去除掉沒有意義的因素。交互作用引起的共線問題以及數據中心化處理以後單獨一文吧。用廣義線性混合模型來分析這個連續型數據的重複測量的示例,本質上就是用廣義線性混合模型(GLMM)來實現多層線性混合模型(LMM)而已。為了更好地理解模型參數代表的意義,我們先重新溫習一下多層線性混合模型,本例全模型如下:

加入背景協變量age後,結果會有校正。在組合模型裡面,截距γ00Trtgj=0ageij=0timeij=0時結局測量MDNS的平均得分值。

這裡要特別強調一下「變量取值=0」:在向模型中添加變量時,我們往往把分類變量作為因子(Factor)納入,而連續變量作為協變量(Covariate)納入。如果把分類變量作為協變量納入,則會按連續變量處理,取值為分類變量各水平的賦值,同樣如果把連續變量作為因子進行分析,則會把連續變量的取值作為其各個水平的賦值。對於按協變量納入模型的變量而言,變量取值為0和賦值為0是一致的,如本例中的age和time,age=0表示年齡為0歲,time=0表示治療前。但是對按因子納入模型的而言,這裡的「初始水平」或者說「取值=0的變量水平」指的是變量被設為參照的那個水平,STATA默認低水平為參照水平而且可以指定任意水平為參照,而SPSS一般默認高水平為參照水平,在廣義模型裡可以通過順序排序進行調整,如本例的Trtg,在[構建選項]選項卡中分類預測因子默認是按升序排列的,其取值為0的水平表示Trtg=1(治療組),γ00就是年齡為0歲(age=0)的治療組(Trtg=1)的研究對象在治療前(time=0)的MDNS均值本例改為按降序排列,其取值為0的水平便表示Trtg=0(對照組),截距γ00Trtgj=0ageij=0timeij=0時結局測量MDNS的平均得分值即年齡為0歲的對照組的研究對象在治療前的MDNS均值,相應的γ01則是治療組(Trtgj=1)與對照組(Trtgj=0)的年齡為0的研究對象在治療前(time=0)MDNS的平均差異。在當前模型中我們假定變量age對結局測量MDNS的影響不隨時間變化而變化,即對截距可能產生影響而對time的斜率無影響,γ10是對照組(Trtgj=0)研究對象的MDNS平均變化率,γ11則是治療組(Trtgj=1)與對照組(Trtgj=0)的MDNS的平均變化率差異

還有一個問題需要注意,對當前模型而言,連續變量age採用的是原始值,age=0是不存在的,所以截距並沒有實際意義,因此一般來說連續型變量需要進行中心化處理,中心化處理之後截距γ00代表的就是age取均值時對照組的研究對象在治療前的MDNS均值,限於篇幅本示例僅演示廣義線性混合模型的操作,並沒有age中心化的處理。

對於治療主效應(模型係數),也需要特別說明一下,這關係到結果的正確解讀。在臨床研究中,多數研究會採用各種方法(如隨機化)讓基線值無統計學差異,而且基線值常常是在幹預之前,此時幹預組和對照組都都沒有被施加幹預因此兩組常常無差異。而模型中幹預因素係數實際上是初始水平(time=0)的組間差異,個人理解就是用time=0時的單獨效應(上圖中的γ01:治療組(Trtgj=1)與對照組(Trtgj=0)的研究對象在治療前(time=0)MDNS的平均差異),用其來代表幹預因素除去交互作用後的效應。所以如果發現固定效應的檢測結果治療因素無統計學意義不要失望,而是應該欣喜。既然基線差異並不能代表幹預的效果,我們可以將治療終點設為參照水平,用治療結束時治療組和對照組之間的差異來代表治療效應,或許這就是為何SPSS默認高水平為參照水平的原因了。當然這個參照水平我們可以修改,一是利用廣義混合線性模型[模型選項]中改變顯示估計均值的連續變量值,二是直接修改時間的取值,對時間尺度進行重新編碼。當然如果時間是按分類變量納入,默認的就是高水平為參照水平,這個也可以通過廣義線性混合模型[構建選項]裡面的順序排序來修改。

【1】數據錄入:具體略。

【2】廣義混合線性模型:分析>>混合模型>>廣義線性…

①數據結構:將變量id拖到[主體Subjects]上,將變量time拖到[重複測量];點擊更多,重複協方差類型選擇一階自回歸。

②欄位和效應

目標:選擇因變量MDNS。線性模型的目標分布與關係部分(圖中紅框部分)可以選擇不同的數據類型,可以擴展到正態分布以外的數據類型。

固定效應:將變量age、Trtg、time拖到[主(效應)]上,同時選中變量Trtg和time,拖到[雙向]上;

隨機效應:點擊[添加塊]打開隨機效應塊對話框;將變量time拖到[主要]列表框上,此步是建立變量time的隨機斜率,即每個個體的MDNS隨時間的變化率不同;選中複選框[包含截距],主體組合選入變量id,隨機效應協方差類型使用默認的方差成分,此步是將變量id設為隨機變異的來源,即設定截距在不同的個體間是不同的。同時設定隨機截距和隨機斜率的協方差結構。

③構建選項:分類變量預測因子按降序排列。本例之所以如此,是因為SPSS默認自變量高水平為參照水平,本例安慰劑和治療組分別賦值0和1,結果是與治療組相比,安慰劑如何如何。從邏輯上我們想知道,治療組比安慰劑組有沒有改善,即以安慰劑為參照水平,按降序排列後會達到這個效果。另外自由度的估算方法、固定效應及係數檢驗方法不同,結果可能會有些微的差別。

④模型選項:可以對分類變量進行邊際均數比較。本例Trtg選中成對比較,比較治療結束時(time=8)採用age均值進行校正的結果,多重比較採用默認的LSD法。

如此處設置age=0,time=0,則會得到固定效應係數檢驗完全一致的結果。如想更好地理解,可參見前面對多層線性混合模型的釋義。

【3】結果解讀:結果顯示基本的個案處理信息和結果縮略圖,可以雙擊縮略圖進入模型瀏覽器查看詳細內容。

①模型概要:輸出因變量,概率分布,連結函數及信息準則。在納入不同數量的自變量或選擇不同的方差-協方差結構時,可通過信息準則來判定更優的模型。

②數據結構:列出模型的層次結構。本例高層級有20個水平,每個水平重複觀測9次。

③預測值和實測值的散點圖:可見預測值和實測值存在較好的正向相關,模型擬合良好。

④固定效應檢驗:默認以圖形樣式給出各因素的參數關聯強度,粗線表示有統計學意義(P<0.05)的變量,可通過左下角的展示樣式下拉框將圖形樣式切換為表格樣式,表格樣式中有統計學意義的P值帶有黃色背景。可以通過橫條上的P值來顯示相應條件的自變量。

結果顯示:

i)模型有統計學意義(F=115.256,P=0.666>0.05),至少有一個變量的係數不為0。

ii)年齡age的主效應無統計學意義(F=2.684,P=0.103>0.05),對整個模型的不產生影響。iii)變量Trtg主效應無統計學意義(F=0.187,P<0.001)。再次提示此處檢測的是治療前(time=0)治療組和對照組在治療前的差值是否等於0,即治療組和對照組在治療前有無統計學意義,一般研究都儘量讓組間基線無差異,因此其並不能代表治療組的治療作用,可以通過改變time編碼賦值或者在[模型選項]中的[估計均值]中進行設置需要比較的時間點。iv)time主效應有統計學意義(F=340.918,P<0.001),隨著時間的改變,MDNS的改變不為0。是遞增還是遞減呢?可以進一步查看後面固定效應的係數。v)Trtg與time的交互項有統計學意義(F=108.024,P<0.001),隨著時間的延長,治療組和對照組MDNS的改變幅度是不一樣的。本例Trtg與time的交互作用有統計學意義,單獨分析Trtg與time的主要效應已無多大的實際意義,而是需要進一步分析單獨效應(按某個因素不同水平下另外一個因素的效應),而且無論Trtg與time有無統計學意義都應該納入到模型中。⑤固定效應的係數估計和檢驗結:同固定效應的估計結果視圖,可通過左小角的樣式下拉框來選圖標和表格顯示樣式,也可以通過橫條上的P值來顯示相應條件的自變量。

i)截距=98.348(P<0.001),截距在當前模型中的含義是年齡為0歲的對照組的研究對象在治療前的MDNS均值,因未進行年齡的中心化處理,其實際意義不大。如將年齡數據進行中心化處理(年齡與平均年齡差值代替原來的年齡值)後,截距的就變得很有意義。

ii)年齡越大,初始值MDNS也會越大,平均每增加1歲MDNS會增加0.239分,但沒有統計學差異(P=0.103)。iii)Trtg的係數值=-1.145(P=0.666>0.05),表明治療組的MDNS比對照組低1.145,且效應無統計學意義。正如前面模型係數釋義部分所言,該差值是治療前治療組和對照組的差值,僅能說明基線無差異。用基線的平均差值並不能很好地代表治療效果,本例在[模型選項]中將治療終點設為參照水平,交互作用之外的治療效應可在估計均值的比較結果中進行查看。iv)Time係數值=1.227(P<0.001),表明對照組MDNS隨時間變化具有統計學意義,每增加1個時間單位,對照組MDNS增加1.227分。v)交互作用Trtg*time係數=3.161>0,表示時間每增加一個單位,相比對照組,治療組中研究對象的MDNS將會有更多的增長(多增長3.161分),且這額外的增長具有統計學意義(P<0.001)。每增加1個時間單位,治療組MDNS增加(1.227+3.161)分。另外,本例採用默認的自由度計算方法、固定效應及係數檢驗方法,最終的結果P值結果會與使用線性混合模型的結果略有差異。以Trtg為例,當前模型(t=-0.432,P=0.666),而採用線性混合模型的結果會是(t=-0.432,P=0.671),原因就是在步驟③構建選項我們採用了默認的自由度的估算方法和固定效應及係數檢驗方法,改變自由度的估計方法,會得到完全一致的結果。⑥協方差矩陣:顯示當前模型高水平方差協方差矩陣,即G矩陣。當前模型採用的方差成分結構。

⑦協方差參數估計值:顯示隨機效應的統計結果。

結果默認顯示的是殘差【AR1結構】的方差和相鄰觀察間的相關係數。方差為9.099,相鄰觀察間相關係數為0.317,兩者均有統計學意義。點擊左下角效果選擇框,選擇Block1展示隨機效應的結果,截距因人而異,截距方差為21.801,且有統計學意義(Z=2.472,P=0.013<0.05),表明截距是隨機的,但斜率在不同個體間的變異無統計學意義(Z=0.125,P>0.05),即當前模型按隨機截距處理就可以了,並不需要設為隨機斜率。

⑧估計顯著效應的均值:顯示固定效應檢驗中有統計學意義的因素的不同取值水平下因變量均值的點估計和可信區間。本例因子Trtg無統計學意義,因此未計算估計均值。

⑨估計的總均數

⑩估計的均數:默認顯示協變量在均值時因子變量的估計均數。本例在[模型選項]設置顯示連續變量time=8,age=均值時的Trtg估計均數,且進行成對比較。結果顯示在治療結束時,治療組比對照組的MDNS高24.146分,有明顯的的統計學差異(P<0.001)。

⑪擬合模型的設定概要:顯示當前模型參數設置情況。

當前模型雖然低層級的斜率隨組變化,但是這種變化完全由高層級的變量Trtg來解釋(斜率變異無統計學意義),背景協變量age對模型無明顯影響,可將模型簡化為:

操作步驟基本相同,不同的地方如下:

[欄位和效應]的固定效應部分,去掉age;

[欄位和效應]的隨機效應:點擊編輯[塊],進入隨機效應構建器,刪除time後確定。

最後還是要再次說明一下,本次筆記重點演示的是廣義線性混合模型的操作及模型參數的解讀,並不是一個完整的案例分析,比如多次提及的連續變量數據的中心化,以及模型方差協方差結構的比較、交互作用之後的分層分析等都未進行。

END

相關焦點

  • GLMM:廣義線性混合模型(遺傳參數評估)
    摘要「要點:」LMM模型可以結合遺傳(G矩陣)和空間分析(誤差R矩陣),估算BLUP值SAS中的GLIMMIX可以處理GLMM模型,但是門檻較高❝線性混合模型(LMMs)結合了遺傳和空間協方差結構,在動植物育種中用於估計遺傳參數和預測育種值。
  • 生態學模擬對廣義線性混合模型GLMM進行功率(功效、效能、效力)分析power analysis環境監測數據
    原文連結:http://tecdat.cn/?
  • 一般線性模型與廣義線性模型
    主題:快速了解數據類型、數據分布類型等基礎知識;從一般線性模型與廣義線性模型角度串聯講解醫學統計學這個看似高深實則有章可循的領域。
  • 重複測量數據分析及結果詳解(之一)
    重複測量數據是指對同一個體在不同時間點的測量,這種數據在醫學研究中較為常見,比較典型的數據形式如:對一組人群分別在幹預前後不同的時間點觀察其結局情況。這種研究通常是為了比較不同時間點的差異情況,或者分析時間變化趨勢。或將一組人群分配至不同組別,對每組人群分別在幹預前後不同的時間點觀察其結局。這種研究通常要比較不同組的差異,有的再深入點,可能還要分析幾個組的變化趨勢是否有差異。
  • R數據分析:廣義估計方程式GEE的做法和解釋
    上面的英文解釋告訴我們,當我們想用廣義線性模型的時候,突然發現我們的結局變量恐怕是有某種相關性的(比如重複測量,比如嵌套),我們就可以考慮廣義估計方程了。之前有給大家寫很多混合模型的文章,回憶一下混合模型是如何控制組間相關性的,是通過估計隨機效應實現的:混合模型的模型表達是這樣:
  • 模型評價續篇:Cox回歸與廣義線性模型
    上期我們介紹了多重線性回歸和Logistic回歸的模型評價,這期繼續學習另外兩個常見模型:廣義線性模型和cox回歸的模型評價,同樣以R語言代碼實現其計算。Cox回歸模型,又稱比例風險回歸模型(proportional hazards model),以生存結局和生存時間為因變量,可以分析多個因素對生存時間的影響。
  • 重複測量分析在土壤監測和試驗中的應用
    在給予一種或多種處理後,分別在不同的時間點上通過重複測量同一個受試對象獲得的指標的觀察值,或者是通過重複測量同一個個體的不同部位(或組織)獲得的指標的觀察值。重複測量數據在科學研究中十分常見。分析前要對重複測量數據之間是否存在相關性進行球形檢驗。
  • 重複測量數據的方差分析在SPSS中的應用——【杏花開醫學統計】
    關 注 重複測量數據的方差分析 在SPSS中的應用 關鍵詞:spss、重複測量方差 導 讀 在醫學研究中,很多實驗都涉及到重複測量的數據資料
  • 如何用潛類別混合效應模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年齡數據
    它基於類成員概率的後驗計算,用於表徵對象的分類以及評估模型的擬合優度(Proust-Lima et al. 2014  ).使用貝葉斯定理計算後類成員概率作為給定收集信息的潛在類的概率。在縱向模型中,它們為主題 ii 和潛在類別 g 定義為:
  • 廣義線性回歸分析模型Logistic,一文讀懂它!
    讀過我們前面「線性回歸」系列文章的同學,肯定已經知道,採用線性回歸的第一準則:因變量Y需要是「定量變量」。例如得分、收入等連續型的,可以計算均數和標準差的變量。而Logistic回歸最大的不同在於:Y是分類變量。
  • 深入廣義線性模型:分類和回歸
    Generalized Linear Models 今天的主題是廣義線性模型(GeneralizedLinear Models),一組用於監督學習問題(回歸和分類,我們將以一種更好的形式(概率的角度)來分析這個問題。
  • SPSS學習筆記:重複測量的多因素方差分析
    from http://blog.sina.com.cn/s/blog_44befaf601015mp5.html重複測量數據的方差分析是對同一因變量進行重複測量的一種試驗設計技術。在給予一種或多種處理後,分別在不同的時間點上通過重複測量同一個受試對象獲得的指標的觀察值,或者是通過重複測量同一個個體的不同部位(或組織)獲得的指標的觀察值。
  • 重複測量資料的方差分析在SPSS軟體中的實現
    繼上期講解了「隨機區組方差分析在 SPSS 軟體中的實現」之後,筆者一氣呵成,繼續為你剖析重複測量資料的方差分析在 SPSS 軟體中的實現,一起學起來吧!一、重複測量的概念重複測量是指同一受試對象的同一觀察指標在不同的時間點或者不同的狀態下進行多次測量所獲得的資料,重複測量資料的典型特點是同一個研究對象被多次測量。
  • 利用廣義線性模型實現的分類——Logistic回歸
    本文作者:王   歌文字編輯:孫曉玲技術總編:張   邯我們前面在《基於廣義線性模型的機器學習算法——線性回歸》和《線性回歸的正則化
  • 如何定義重複測量方差分析中的「主體內因子」和「測量名稱」?
    SPSS中,點擊分析一般線性模型重複測量,會出現下面的「重複測量定義因子」對話框。其中的「主體內因子」和「測量名稱」使重測測量方差分析具有多種形式。
  • 最重要的算法和統計模型,數據專家指南
    我為一些有追求的數據專家整理了一個簡短的指南,特別是關注統計模型和機器學習模型(有監督學習和無監督學習);這些主題包括教科書、畢業生水平的統計學課程、數據科學訓練營和其它培訓資源。(其中有些包含在文章的參考部分)。
  • 線性混合模型系列二:模型假定
    這裡b為固定因子的效應值,加入固定因子有多個,場,年,季,性別等等,那麼b 可以分解為:[b1, b2, b3,...]X為固定因子對應的矩陣,X也可以分解為:[X1,X2,X3...]3.2 R語言實現直和與直積函數構建這裡直積我們用R的默認函數kronecker,為了方便操作,我們賦予它另一個名稱:direct_product。
  • 一文帶你輕鬆掌握,重複測量方差分析
    在某些實驗研究中,常常需要考慮時間因素對實驗的影響,當需要對同一觀察單位在不同時間重複進行多次測量,每個樣本的測量數據之間存在相關性,因而不能簡單的使用方差分析進行研究,而需要使用重複測量方差分析。數據格式常見的重複測量數據格式,一般記錄成下圖格式:常見格式在上傳SPSSAU分析時,需要先進行整理。
  • 廣義線性模型到底是個什麼鬼?| 協和八
    畢竟光是理解線性模型的各種用法就已經夠頭疼的了,再加個廣義更繞不清楚了。普通線性模型對數據有著諸多限制,真實數據並不總能滿足。而廣義線性模型正是克服了很多普通線性模型的限制。統計模型的威力就在於幫助我們從混合著噪音的數據中找出規律。假設這個世界還沒有人知道物體受的合力大小與加速度成正比,為了驗證這一假說, 你仔細測了小滑塊 在不同受力條件下的加速度,但由於手抖眼花尺子爛等等理由,哪怕是同樣的受力,多次測量得到的加速度也會不一樣,具有一定的隨機性。
  • SPSS: 方差成分分析/方差分量分析
    10.6  方差成分分析方差成分分析(Variance Components Analysis)可用於固定效應模型,可估計每個隨機效應的分布對因變量方差的影響,特別適用於混合模型分析,如裂區設計、單變量重複測量分析及隨機區組設計。