要分析組間的差異,該如何選擇正確的統計方法?

2020-12-08 騰訊網

作者:李侗桐;審稿:張耀文

1、是否分析不同組之間的差異?

差異分析主要用於:(1)判斷因變量在兩組或多組之間的統計學差異,各組之間可以是獨立的,也可以是非獨立的;(2)如果多組之間存在差異,進一步開展兩兩比較,分析差異來源。

比如,分析不同醫療機構醫生收入水平的差異。收入水平是因變量,醫療機構是自變量,自變量可以分為互相獨立的3組:基層醫院、二級醫院和三級醫院。再如,判斷受試者在運動幹預前後的心率是否存在差異。心率是因變量,自變量是時間,可分為幹預前和幹預後非獨立的兩組,示例如下:

2、 判斷研究設計類型

差異分析的研究設計類型主要分為三種:組間設計、組內設計和混合設計,具體如下:

2.1 組間設計

組間設計是研究中的各組相互獨立,組別互斥,即研究對象只能存在於一組,不能分屬於不同組別。

比如,研究不同性別受試者的BMI差異,BMI是因變量,性別是自變量,包含兩個相互獨立的組別:組1男性和組2女性。在該研究中,組1和組2是互斥的,即某一位受試者只能是男性(組1),或只能是女性(組2),不能既是男性又是女性。

再比如,研究酗酒者和非酗酒者的谷丙轉氨酶差異,谷丙轉氨酶是因變量,是否酗酒為自變量,包含兩個相互獨立的組別:組1酗酒和組2不酗酒。同樣的道理,受試者只能是酗酒者(組1)或非酗酒者(組2),不能既是酗酒者又不是酗酒者,即組1和組2互斥,相互獨立。

組間設計示例如下:

2.2 組內設計

組內設計,又稱重複測量設計,是指研究中的各組相互關聯,所有研究對象均可分屬於不同組別。簡單來說,組內設計就是對研究對象進行重複多次測量,或對同一研究對象開展多種幹預(常見於交叉設計)。

比如,分析運動前後,受試者心率的變化。心率是因變量,時間是自變量,包含兩個相互關聯的組別:時間點1(運動前)和時間點2(運動後)。在該研究中,時間點1和時間點2並不互斥,即運動後的研究對象與運動前一樣,是同一群受試者接受了兩次心率檢測,任一位受試者既屬於時間點1,又屬於時間點2。如果我們針對同一群受試者增加重複測量次數,那麼該研究仍是組內設計,研究類型不變。

再比如,研究績效方案對醫護人員工作效率的影響,工作效率是因變量,績效方案是自變量,包含兩個相互關聯的組別:幹預1(無績效方案)和幹預2(有績效方案)。在該研究中,幹預1和幹預2也不互斥,是針對同一群醫護人員分析有無績效方案的差異,任一位受試者既屬於幹預1,又屬於幹預2。

此外,匹配設計也屬於組內設計。比如上述例子中,如果有無績效方案的醫護人員並不是同一群人,但兩組受試者在與工作效率相關的因素上存在匹配,我們就認為他們是一樣的,符合組內設計的要求。但是在將匹配設計視為組內設計時我們需要十分謹慎,保證匹配後的研究對象一致。

組內設計示例如下:

2.3 混合設計

混合設計兼容了組間設計和組內設計的特點,至少包含1個組間因素和1個組內因素。比如,擬研究鍛鍊強度對C反應蛋白濃度的影響,將受試者隨機分為對照、中強度體育鍛鍊幹預和高強度體育鍛鍊幹預三組,並在幹預前、幹預1周後和幹預2周後重複測量3次所有受試者的C反應蛋白濃度。

在該研究中,C反應蛋白濃度是因變量,幹預和時間是自變量。其中,幹預是組間因素,各組別相互獨立;時間是組內因素,各組別之間並不互斥,示例如下:

3、判斷自變量數量

包含一個或多個自變量時,差異分析所採取的統計方法是不同的。那麼,怎麼判斷自變量的數量呢?我們分別就包含一個自變量和多個自變量的研究進行了舉例,幫助大家理解。

4、判斷自變量組數

當只有一個自變量時,我們還需要進一步區分自變量的組數來選擇合適的檢驗方法,一般分為2組或3組及以上,示例如下:

5、判斷協變量

在差異分析中,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮其它因素對其差異的影響,這就需要納入協變量。納入協變量是為了去除該類因素對主要觀察變量差異的影響。調整該類因素後,可以減少其對研究結果的幹擾,更加準確地分析兩個主要觀察變量之間的差異,保證結果的真實可靠性。示例如下:

6、判斷因變量的數量

醫學領域多關注一個因變量與一個或多個自變量之間的分析,很少聯合多個因變量開展統計檢驗。但其實,很多研究同時包含多個連續型因變量

比如,分析幹預一段時間後酗酒者和非酗酒者的身體水平差異,往往會收集一系列健康相關指標,如谷丙轉氨酶、血壓、血糖、甘油三脂等。針對該研究,有2種統計分析方法:(1)分別對每一個因變量進行分析,開展多項統計檢驗;(2)聯合多個因變量,在一項檢驗中分析所有數據。第1種方法是醫學領域常用的處理方式,本文只介紹分別對每個因變量進行分析的情況。

7、檢驗方法選擇

7.1 組間設計

7.1.1 只有一個自變量

7.1.1.1 自變量有2組

(1)因變量為連續變量

獨立樣本t檢驗。該檢驗適用於分析連續型因變量在2個獨立分組之間的均值差異。

(2)因變量為有序分類變量

Mann-Whitney U檢驗。該檢驗又稱Wilcoxon-Mann-Whitney檢驗,適用於分析連續型或有序分類型因變量在2組之間差異的非參數檢驗方法。

(3)因變量為二分類變量

卡方檢驗

比較二分類變量在2組之間的差異,實際上就是在分析比例差異。如果滿足最小樣本量的要求,可以通過卡方檢驗比較比例差異。

相對風險(RR值)

相對風險是前瞻性隊列研究或RCT中的常用指標,可以在一定條件下比較兩個比例之間的關係,但其提示的結果是比值而不是差異。

比值比(OR值)

比值比可以計算多類研究的差異,也是很多統計檢驗(如二分類logistic回歸)的常用指標。在相對風險指標不適用的病例對照研究中,比值比仍可以很好地反映結果。

Fisher精確檢驗

Fisher精確檢驗可以用於檢驗兩個比例之間的統計學差異。

(4)因變量為無序分類變量

卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,不區分自變量和因變量,因變量和自變量互換統計結果不變。

7.1.1.2 自變量包含3個及以上組別

(1)因變量為連續變量

單因素方差分析。該檢驗適用於分析連續型因變量在2個或多個獨立分組之間的均值差異。包含3個及以上組別時,可以開展兩兩比較分析差異來源。

(2)因變量為有序分類變量

Kruskal-Wallis H檢驗。該檢驗是非參數檢驗方法,適用於分析連續型或有序分類型因變量在2組或多組之間的差異。

(3)因變量為二分類變量或無序分類變量

卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,也可以用於分析二分類變量(比例)在3個及以上組別之間的差異。如果存在差異,可以進行兩兩比較分析差異來源。

7.1.2 包含2個及以上自變量

包含兩個及以上自變量時,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮另外1個因素對其差異的影響,可以使用單因素協方差分析。除此之外,一般採用回歸分析的方法。

由醫咖會與心聯喬治心臟健康研究中心(HHRC)聯合建立的心血管研究協作網絡及數據共享平臺(CDS)已經上線!

目前開放共享的數據為「中國房顫註冊研究」,共有2.5萬多房顫數據,歡迎來申請使用數據,發表SCI論文!

平臺網址:

https://cds.mediecogroup.com/

相關焦點

  • 如何選擇統計方法,有這個合集就夠了!
    統計方法選擇一直是很多小夥伴留言的重要問題之一,為此2019年醫咖會推出了「統計方法選擇」系列文章,下面我們對這個系列作一個系統性的回顧
  • 指南|醫學統計方法如何選擇
    不同研究目的採用的統計方法不同,常見的研究目的主要有三類:一是差異性研究,即比較組間均數、率等的差異,可用的方法有t檢驗、方差分析、χ2檢驗、非參數檢驗等。二是相關性分析,即分析兩個或多個變量之間的關係,可用的方法有相關分析。三是影響性分析,即分析某一結局發生的影響因素,可用的方法有線性回歸、logistic回歸、Cox回歸等。
  • 總結|臨床研究常見統計方法與統計問題
    在優效、等效和非劣的實驗設計中,單個樣本的二項比例的可信區間的計算直接關係到結果,需要正確選擇方法[17]。成組設計的定性資料中若響應變量是二分類,則構成常見的四格表。在橫斷面研究中根據不同的條件選擇卡方檢驗或Fisher精確檢驗,評價組間構成比的差異。
  • 微生物組間差異分析之LEfSe分析
    LEfSe分析,可以分析組間菌群差異,找出各組間差異的微生物種類,有助於開發biomaker等研究,因此LEfSe分析在微生物相關文章中經常出現
  • 微生物群落差異分析方法大揭秘
    當組間樣本數不同,方差也不對齊的時候,Welch’s t檢驗是很好的選擇。Wilcoxon秩和檢驗又叫Mann-Whitney U 檢驗,是基於變量排名的一種統計方法,不需要樣本符合正態分布,也不需要樣本方差對齊,是更為廣泛的檢驗方法,但同時也由於檢驗太寬鬆,容易帶來很多假陽性。
  • peak差異分析的工具那麼多,如何選擇?
    眾所周知,基因表達調控是一個動態變化的過程,不同生長階段,不同實驗條件的樣本間,其調控元件是會存在差異的,而研究這個動態過程,其意義更加重大,對應到數據上,peak caling之後,我們要做的就是peak 的差異分析。peak差異分析的工具很多,不同軟體的結果不盡相同,如何選擇是一個難題。
  • 如何選出正確分析方法?正確姿勢在這裡
    對於初學者而言,選擇正確的統計方式可能是一項非常艱巨的任務。雖然現在有很多統計軟體可以非常方便的計算出結果,但是統計軟體仍然不能完全代替研究人員操作分析,尤其是軟體沒有匹配正確的統計檢驗方法的能力。如果盲目地靠軟體執行操作,很難得到有實際意義的結果。
  • 【案例】SPSS統計分析:多因素方差分析
    多因素方差分析,用於研究一個因變量是否受到多個自變量(也稱為因素)的影響,它檢驗多個因素取值水平的不同組合之間,因變量的均值之間是否存在顯著的差異。多因素方差分析既可以分析單個因素的作用(主效應),也可以分析因素之間的交互作用(交互效應),還可以進行協方差分析,以及各個因素變量與協變量的交互作用。
  • SPSS統計分析:多因素方差分析及案例
    一元多因素方差分析:只有一個因變量,考察多個自變量對該因變量的影響。例如:分析不同品種、不同施肥量對農作物產量的影響時,可將農作物產量作為觀測變量,品種和施肥量作為控制變量。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農作物產量的,並進一步研究哪種品種與哪種水平的施肥量是提高農作物產量的最優組合。
  • 原創乾貨丨採用LefSe解析組間微生物構成差異
    該算法強調的是統計意義和生物相關性。具體來說,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數因子克魯斯卡爾—沃利斯和秩驗檢)檢測具有顯著豐度差異特徵,並找到與豐度有顯著性差異的類群。最後,LEfSe採用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小。
  • 統計基礎概念及數據分析方法
    描述性統計:分析數據集中度和分散度推斷統計:通過樣本對整體情況作出推斷數據分析方法:聚類、回歸、分類及組件差異。描述數據的兩個關鍵點:數據的中心度,數據集中在哪個區域。常用全距、四分位數、方差、標準差全距:數據中最大值和最小值的差異,直觀反映數據的變化範圍,缺點是提供的信息比較粗略。四分位數:對全距的信息增益改進,不僅有最大值最小值,加入了組間間隔。方差:描述數據中的每個點和平均值偏離的距離。標準差:方差開方的結果。
  • 這是一種cheap 又好用的統計方法,你卻視若無物?
    在這種情況下,本例在統計策略上,可以考慮差值法和協方差分析法若採用差值法,則計算每名患者治療前後的差異,並開展差值的統計分析,結果如下:試驗組和對照組,幹預前後差值差異具有統計學意義(差值8.2,95%CI 2.82--13.56,P=0.004)
  • 【商醫科教論壇】醫學論文描述統計方法和研究結果方法
    指針對研究結局的統計分析,是研究論文的核心證據。因此,醫學論文應詳細描述主要分析的實施過程和適用性。在試驗性研究中,應明確統計分析數據集、試驗效應指標、相對或絕對風險及其置信區間的計算方法、以及假設檢驗的方法。
  • 讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾
    (25)多重比較的方法很多,可否各種方法都用一用,哪個方法給出的P值好,就報告哪個方法的結果?多重比較的方法很多,多重比較時甚至會出現某些方法間(如Bonferroni法與LSD法)統計結果不一致現象,這實際上涉及多樣本均數兩兩比較方法選擇的問題。要根據研究的目的選擇兩兩比較的方法。
  • OmicShare差異分析工具上線了!
    萬眾期待的差異分析工具終於上線OmicShare Tools了!從此以後,不需要寫代碼就可以隨心所欲分析自己的數據了!想怎麼比較就怎麼比較!炒雞凍的是不是?那麼趕緊跟著小師妹學習一下如何使用這個差異分析工具吧!
  • Alpha多樣性指數的計算和差異分析(差異檢驗結果可視化)
    ,關於alpha多樣性指數的介紹和計算在網上有茫茫多的資料,本文將不會花費大量篇幅介紹這些基礎知識,而是重點帶來對alpha多樣性進行統計學分析並直接生成圖像的方法。Alpha多樣性差異檢驗在微生物群落的alpha多樣性指數分析中,最常用的就是利用統計學分析檢驗不同組樣本間微生物群落alpha多樣性指數的差異顯著性。兩組樣本分析當研究的樣本只有兩組時,一般使用t-test檢驗組間差異。
  • 統計與數據科學方差分析簡介(以疫情為例)
    注意:要理解這個主題,您必須了解統計的基本知識。對.的認識T檢驗和假設檢驗將是一個額外的好處。什麼是ANOVA測試?要執行任何測試,我們首先需要定義NULL和備用假設:零假設-各組間沒有顯著性差異。交替假設-各組間存在顯著差異。
  • 品頭論足-distcomp:組間分布差異檢驗
    如果僅僅對於使得兩累積分布函數相等的數集中的任意值,多重錯誤拒絕率小於給定水平,那麼僅僅達到弱控制)解決了 KS 檢驗在分布尾端缺乏靈敏度的問題,使統計功效 (power) 在分布中更均勻存在在本推文中,筆者主要介紹 distcomp 指令的應用範例。關於該檢驗方法的統計性質等技術細節,請參閱相關文獻。2.
  • 常用的數據分析方法及案例講解
    常用的數據分析方法有描述統計、信度分析、相關分析、回歸分析、聚類分析等。本文將結合實際案例,為大家一一講解這些數據分析的方法。如果你想了解如何做數據分析,就接著看下去吧~企業會在性格測試題裡面放入兩道及以上相同或相似的問題,這兩道題問的內容一樣,但是具體表達描述不一樣,通過計算求職人員是否在答題時選擇結果一致的答案來分析該求職人員的可靠性。下面舉個常見的案例,比如:華為在考察應聘人員的自主創新能力時,以下相同意思的說法會出現在多個不同的題目中供你選擇:我喜歡創新;做事時我喜歡有新方法,新點子;我能想出很多主意;我喜歡提出很多主意。
  • Meta分析方法的正確應用
    1991年, 由Fleiss和Gross給Meta分析作的定義恰如其分地概括了Meta分析的特點:「Meta分析是一類統計方法,用來比較和綜合針對同一科學問題所取得的研究結果,比較和綜合的結論是否有意義,取決於這些研究是否滿足特定的條件」。有關 Meta 分析的統計分析方法 、應用、一些存在的爭議和待解決的問題國內外均有報導。本文主要就Meta分析的優點以及正確應用的注意事項作一介紹。