作者:李侗桐;審稿:張耀文
1、是否分析不同組之間的差異?
差異分析主要用於:(1)判斷因變量在兩組或多組之間的統計學差異,各組之間可以是獨立的,也可以是非獨立的;(2)如果多組之間存在差異,進一步開展兩兩比較,分析差異來源。
比如,分析不同醫療機構醫生收入水平的差異。收入水平是因變量,醫療機構是自變量,自變量可以分為互相獨立的3組:基層醫院、二級醫院和三級醫院。再如,判斷受試者在運動幹預前後的心率是否存在差異。心率是因變量,自變量是時間,可分為幹預前和幹預後非獨立的兩組,示例如下:
2、 判斷研究設計類型
差異分析的研究設計類型主要分為三種:組間設計、組內設計和混合設計,具體如下:
2.1 組間設計
組間設計是指研究中的各組相互獨立,組別互斥,即研究對象只能存在於一組,不能分屬於不同組別。
比如,研究不同性別受試者的BMI差異,BMI是因變量,性別是自變量,包含兩個相互獨立的組別:組1男性和組2女性。在該研究中,組1和組2是互斥的,即某一位受試者只能是男性(組1),或只能是女性(組2),不能既是男性又是女性。
再比如,研究酗酒者和非酗酒者的谷丙轉氨酶差異,谷丙轉氨酶是因變量,是否酗酒為自變量,包含兩個相互獨立的組別:組1酗酒和組2不酗酒。同樣的道理,受試者只能是酗酒者(組1)或非酗酒者(組2),不能既是酗酒者又不是酗酒者,即組1和組2互斥,相互獨立。
組間設計示例如下:
2.2 組內設計
組內設計,又稱重複測量設計,是指研究中的各組相互關聯,所有研究對象均可分屬於不同組別。簡單來說,組內設計就是對研究對象進行重複多次測量,或對同一研究對象開展多種幹預(常見於交叉設計)。
比如,分析運動前後,受試者心率的變化。心率是因變量,時間是自變量,包含兩個相互關聯的組別:時間點1(運動前)和時間點2(運動後)。在該研究中,時間點1和時間點2並不互斥,即運動後的研究對象與運動前一樣,是同一群受試者接受了兩次心率檢測,任一位受試者既屬於時間點1,又屬於時間點2。如果我們針對同一群受試者增加重複測量次數,那麼該研究仍是組內設計,研究類型不變。
再比如,研究績效方案對醫護人員工作效率的影響,工作效率是因變量,績效方案是自變量,包含兩個相互關聯的組別:幹預1(無績效方案)和幹預2(有績效方案)。在該研究中,幹預1和幹預2也不互斥,是針對同一群醫護人員分析有無績效方案的差異,任一位受試者既屬於幹預1,又屬於幹預2。
此外,匹配設計也屬於組內設計。比如上述例子中,如果有無績效方案的醫護人員並不是同一群人,但兩組受試者在與工作效率相關的因素上存在匹配,我們就認為他們是一樣的,符合組內設計的要求。但是在將匹配設計視為組內設計時我們需要十分謹慎,保證匹配後的研究對象一致。
組內設計示例如下:
2.3 混合設計
混合設計兼容了組間設計和組內設計的特點,至少包含1個組間因素和1個組內因素。比如,擬研究鍛鍊強度對C反應蛋白濃度的影響,將受試者隨機分為對照、中強度體育鍛鍊幹預和高強度體育鍛鍊幹預三組,並在幹預前、幹預1周後和幹預2周後重複測量3次所有受試者的C反應蛋白濃度。
在該研究中,C反應蛋白濃度是因變量,幹預和時間是自變量。其中,幹預是組間因素,各組別相互獨立;時間是組內因素,各組別之間並不互斥,示例如下:
3、判斷自變量數量
包含一個或多個自變量時,差異分析所採取的統計方法是不同的。那麼,怎麼判斷自變量的數量呢?我們分別就包含一個自變量和多個自變量的研究進行了舉例,幫助大家理解。
4、判斷自變量組數
當只有一個自變量時,我們還需要進一步區分自變量的組數來選擇合適的檢驗方法,一般分為2組或3組及以上,示例如下:
5、判斷協變量
在差異分析中,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮其它因素對其差異的影響,這就需要納入協變量。納入協變量是為了去除該類因素對主要觀察變量差異的影響。調整該類因素後,可以減少其對研究結果的幹擾,更加準確地分析兩個主要觀察變量之間的差異,保證結果的真實可靠性。示例如下:
6、判斷因變量的數量
醫學領域多關注一個因變量與一個或多個自變量之間的分析,很少聯合多個因變量開展統計檢驗。但其實,很多研究同時包含多個連續型因變量。
比如,分析幹預一段時間後酗酒者和非酗酒者的身體水平差異,往往會收集一系列健康相關指標,如谷丙轉氨酶、血壓、血糖、甘油三脂等。針對該研究,有2種統計分析方法:(1)分別對每一個因變量進行分析,開展多項統計檢驗;(2)聯合多個因變量,在一項檢驗中分析所有數據。第1種方法是醫學領域常用的處理方式,本文只介紹分別對每個因變量進行分析的情況。
7、檢驗方法選擇
7.1 組間設計
7.1.1 只有一個自變量
7.1.1.1 自變量有2組
(1)因變量為連續變量
獨立樣本t檢驗。該檢驗適用於分析連續型因變量在2個獨立分組之間的均值差異。
(2)因變量為有序分類變量
Mann-Whitney U檢驗。該檢驗又稱Wilcoxon-Mann-Whitney檢驗,適用於分析連續型或有序分類型因變量在2組之間差異的非參數檢驗方法。
(3)因變量為二分類變量
卡方檢驗
比較二分類變量在2組之間的差異,實際上就是在分析比例差異。如果滿足最小樣本量的要求,可以通過卡方檢驗比較比例差異。
相對風險(RR值)
相對風險是前瞻性隊列研究或RCT中的常用指標,可以在一定條件下比較兩個比例之間的關係,但其提示的結果是比值而不是差異。
比值比(OR值)
比值比可以計算多類研究的差異,也是很多統計檢驗(如二分類logistic回歸)的常用指標。在相對風險指標不適用的病例對照研究中,比值比仍可以很好地反映結果。
Fisher精確檢驗
Fisher精確檢驗可以用於檢驗兩個比例之間的統計學差異。
(4)因變量為無序分類變量
卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,不區分自變量和因變量,因變量和自變量互換統計結果不變。
7.1.1.2 自變量包含3個及以上組別
(1)因變量為連續變量
單因素方差分析。該檢驗適用於分析連續型因變量在2個或多個獨立分組之間的均值差異。包含3個及以上組別時,可以開展兩兩比較分析差異來源。
(2)因變量為有序分類變量
Kruskal-Wallis H檢驗。該檢驗是非參數檢驗方法,適用於分析連續型或有序分類型因變量在2組或多組之間的差異。
(3)因變量為二分類變量或無序分類變量
卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,也可以用於分析二分類變量(比例)在3個及以上組別之間的差異。如果存在差異,可以進行兩兩比較分析差異來源。
7.1.2 包含2個及以上自變量
包含兩個及以上自變量時,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮另外1個因素對其差異的影響,可以使用單因素協方差分析。除此之外,一般採用回歸分析的方法。
由醫咖會與心聯喬治心臟健康研究中心(HHRC)聯合建立的心血管研究協作網絡及數據共享平臺(CDS)已經上線!
目前開放共享的數據為「中國房顫註冊研究」,共有2.5萬多房顫數據,歡迎來申請使用數據,發表SCI論文!
平臺網址:
https://cds.mediecogroup.com/