要分析組間的差異,該如何選擇正確的統計方法?

2020-12-12 騰訊網

作者:李侗桐;審稿:張耀文

1、是否分析不同組之間的差異?

差異分析主要用於:(1)判斷因變量在兩組或多組之間的統計學差異,各組之間可以是獨立的,也可以是非獨立的;(2)如果多組之間存在差異,進一步開展兩兩比較,分析差異來源。

比如,分析不同醫療機構醫生收入水平的差異。收入水平是因變量,醫療機構是自變量,自變量可以分為互相獨立的3組:基層醫院、二級醫院和三級醫院。再如,判斷受試者在運動幹預前後的心率是否存在差異。心率是因變量,自變量是時間,可分為幹預前和幹預後非獨立的兩組,示例如下:

2、 判斷研究設計類型

差異分析的研究設計類型主要分為三種:組間設計、組內設計和混合設計,具體如下:

2.1 組間設計

組間設計是研究中的各組相互獨立,組別互斥,即研究對象只能存在於一組,不能分屬於不同組別。

比如,研究不同性別受試者的BMI差異,BMI是因變量,性別是自變量,包含兩個相互獨立的組別:組1男性和組2女性。在該研究中,組1和組2是互斥的,即某一位受試者只能是男性(組1),或只能是女性(組2),不能既是男性又是女性。

再比如,研究酗酒者和非酗酒者的谷丙轉氨酶差異,谷丙轉氨酶是因變量,是否酗酒為自變量,包含兩個相互獨立的組別:組1酗酒和組2不酗酒。同樣的道理,受試者只能是酗酒者(組1)或非酗酒者(組2),不能既是酗酒者又不是酗酒者,即組1和組2互斥,相互獨立。

組間設計示例如下:

2.2 組內設計

組內設計,又稱重複測量設計,是指研究中的各組相互關聯,所有研究對象均可分屬於不同組別。簡單來說,組內設計就是對研究對象進行重複多次測量,或對同一研究對象開展多種幹預(常見於交叉設計)。

比如,分析運動前後,受試者心率的變化。心率是因變量,時間是自變量,包含兩個相互關聯的組別:時間點1(運動前)和時間點2(運動後)。在該研究中,時間點1和時間點2並不互斥,即運動後的研究對象與運動前一樣,是同一群受試者接受了兩次心率檢測,任一位受試者既屬於時間點1,又屬於時間點2。如果我們針對同一群受試者增加重複測量次數,那麼該研究仍是組內設計,研究類型不變。

再比如,研究績效方案對醫護人員工作效率的影響,工作效率是因變量,績效方案是自變量,包含兩個相互關聯的組別:幹預1(無績效方案)和幹預2(有績效方案)。在該研究中,幹預1和幹預2也不互斥,是針對同一群醫護人員分析有無績效方案的差異,任一位受試者既屬於幹預1,又屬於幹預2。

此外,匹配設計也屬於組內設計。比如上述例子中,如果有無績效方案的醫護人員並不是同一群人,但兩組受試者在與工作效率相關的因素上存在匹配,我們就認為他們是一樣的,符合組內設計的要求。但是在將匹配設計視為組內設計時我們需要十分謹慎,保證匹配後的研究對象一致。

組內設計示例如下:

2.3 混合設計

混合設計兼容了組間設計和組內設計的特點,至少包含1個組間因素和1個組內因素。比如,擬研究鍛鍊強度對C反應蛋白濃度的影響,將受試者隨機分為對照、中強度體育鍛鍊幹預和高強度體育鍛鍊幹預三組,並在幹預前、幹預1周後和幹預2周後重複測量3次所有受試者的C反應蛋白濃度。

在該研究中,C反應蛋白濃度是因變量,幹預和時間是自變量。其中,幹預是組間因素,各組別相互獨立;時間是組內因素,各組別之間並不互斥,示例如下:

3、判斷自變量數量

包含一個或多個自變量時,差異分析所採取的統計方法是不同的。那麼,怎麼判斷自變量的數量呢?我們分別就包含一個自變量和多個自變量的研究進行了舉例,幫助大家理解。

4、判斷自變量組數

當只有一個自變量時,我們還需要進一步區分自變量的組數來選擇合適的檢驗方法,一般分為2組或3組及以上,示例如下:

5、判斷協變量

在差異分析中,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮其它因素對其差異的影響,這就需要納入協變量。納入協變量是為了去除該類因素對主要觀察變量差異的影響。調整該類因素後,可以減少其對研究結果的幹擾,更加準確地分析兩個主要觀察變量之間的差異,保證結果的真實可靠性。示例如下:

6、判斷因變量的數量

醫學領域多關注一個因變量與一個或多個自變量之間的分析,很少聯合多個因變量開展統計檢驗。但其實,很多研究同時包含多個連續型因變量

比如,分析幹預一段時間後酗酒者和非酗酒者的身體水平差異,往往會收集一系列健康相關指標,如谷丙轉氨酶、血壓、血糖、甘油三脂等。針對該研究,有2種統計分析方法:(1)分別對每一個因變量進行分析,開展多項統計檢驗;(2)聯合多個因變量,在一項檢驗中分析所有數據。第1種方法是醫學領域常用的處理方式,本文只介紹分別對每個因變量進行分析的情況。

7、檢驗方法選擇

7.1 組間設計

7.1.1 只有一個自變量

7.1.1.1 自變量有2組

(1)因變量為連續變量

獨立樣本t檢驗。該檢驗適用於分析連續型因變量在2個獨立分組之間的均值差異。

(2)因變量為有序分類變量

Mann-Whitney U檢驗。該檢驗又稱Wilcoxon-Mann-Whitney檢驗,適用於分析連續型或有序分類型因變量在2組之間差異的非參數檢驗方法。

(3)因變量為二分類變量

卡方檢驗

比較二分類變量在2組之間的差異,實際上就是在分析比例差異。如果滿足最小樣本量的要求,可以通過卡方檢驗比較比例差異。

相對風險(RR值)

相對風險是前瞻性隊列研究或RCT中的常用指標,可以在一定條件下比較兩個比例之間的關係,但其提示的結果是比值而不是差異。

比值比(OR值)

比值比可以計算多類研究的差異,也是很多統計檢驗(如二分類logistic回歸)的常用指標。在相對風險指標不適用的病例對照研究中,比值比仍可以很好地反映結果。

Fisher精確檢驗

Fisher精確檢驗可以用於檢驗兩個比例之間的統計學差異。

(4)因變量為無序分類變量

卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,不區分自變量和因變量,因變量和自變量互換統計結果不變。

7.1.1.2 自變量包含3個及以上組別

(1)因變量為連續變量

單因素方差分析。該檢驗適用於分析連續型因變量在2個或多個獨立分組之間的均值差異。包含3個及以上組別時,可以開展兩兩比較分析差異來源。

(2)因變量為有序分類變量

Kruskal-Wallis H檢驗。該檢驗是非參數檢驗方法,適用於分析連續型或有序分類型因變量在2組或多組之間的差異。

(3)因變量為二分類變量或無序分類變量

卡方檢驗。該檢驗常用於分析無序分類變量之間的關係,也可以用於分析二分類變量(比例)在3個及以上組別之間的差異。如果存在差異,可以進行兩兩比較分析差異來源。

7.1.2 包含2個及以上自變量

包含兩個及以上自變量時,如果關注因變量和一個分類型主要自變量之間的關係,同時需要考慮另外1個因素對其差異的影響,可以使用單因素協方差分析。除此之外,一般採用回歸分析的方法。

由醫咖會與心聯喬治心臟健康研究中心(HHRC)聯合建立的心血管研究協作網絡及數據共享平臺(CDS)已經上線!

目前開放共享的數據為「中國房顫註冊研究」,共有2.5萬多房顫數據,歡迎來申請使用數據,發表SCI論文!

平臺網址:

https://cds.mediecogroup.com/

相關焦點

  • 方差分析中兩兩多重比較方法的含義及如何正確選擇
    以SPSS方差分析為例,十多種多重比較方法可選,上圖為英文視圖,下圖為中文翻譯視圖,請對照學習。簡單介紹一下常用的方法它們的含義,以及如何正確恰當選擇使用這些方法。檢驗後將沒有顯著差異的組別放在一個子集,有顯著差異的組別分在不同子集,控制了犯I類錯誤的概率。TUKEY:即 Tukey's honestly significant difference 法(Tukey’s HSD),採用 Student-Range 統計量進行所有組間的兩兩比較。
  • 組間差異的多重比較
    前面我們一起學習了如何進行多組獨立樣本的差異比較,包括參數和非參數的檢驗方法。但備擇假設為組間的差異不全相等,如拒絕原假設的話,通常需要進行組間差異多重比較,即兩兩比較。針對不同的設計和數據特徵,我們可以選擇合適的方法,如圖1所示。圖1 多重比較的方法以下,我們將接著方差分析和非參數檢驗的例子進一步介紹在R中實現組間差異的多重比較。
  • 要做相關性分析,該如何選擇正確的統計方法?
    那麼,什麼樣的研究可以進行相關性分析呢?我們在這裡列舉了幾個相關性研究的例子供大家參考:確定要進行相關性分析後,對兩個變量或多個變量進行相關性分析所採取的統計方法是不同的。那麼,怎麼判斷研究變量的數量呢?
  • Stata: 如何檢驗分組回歸後的組間係數差異?
    連玉君, 2017, 如何檢驗分組回歸後的組間係數差異?, 鄭州航空工業管理學院學報 35, 97-109. PDF 原文下載問題背景從統計意義上來看,答案顯然沒有那麼明確(小學五年級的小朋友會覺得這根本不是個問題!)。對而言,若把注意力放在 married 這個變量上,或許更容易判斷二者的差異是否顯著。
  • 微生物組間差異分析之LEfSe分析
    LEfSe分析,可以分析組間菌群差異,找出各組間差異的微生物種類,有助於開發biomaker等研究,因此LEfSe分析在微生物相關文章中經常出現
  • 【106】SPSS | 如何選擇正確的統計方法? (1)
    這可以讓你知道變量之間關係的方向(正或負)和強度。Partial correlation 是Pearson correlation的延伸--它允許你控制另一個混雜變量(confounding variable)的可能影響。Partial correlation "消除 "了混雜變量的影響,使你能夠更準確地了解感興趣的兩個變量之間的關係。
  • Excel的統計分析功能
    理論上,只要知道統計方法的檢驗統計量是如何計算得來的,就可以使用excel來完成統計學的檢驗。實際上,有很多的「表」哥已經這麼做了。>https://share.weiyun.com/56lRGbB(密碼:Memocl)今天我們要談的是excel內置的數據分析工具,可以快速實現統計描述、t檢驗、Z檢驗、方差分析、回歸、協方差、相關係數、雙樣本方差分析等眾多功能。
  • 擴增子圖表解讀2散點圖:組間整體差異分析(Beta多樣性)
    將來在大家可以很好理解相關文章圖表的基礎上,希望對分析、統計和繪圖相關技術有進一步學習的小夥伴請積極回復並留言吧。如果本系統文章閱讀過萬,想學分析的留言過百。我還將詳細講解擴增子分析、統計和繪圖各步驟的分析實例和原始碼,希望大家多多鼓勵和支持。聲明:文章的解讀僅代表個人理解和觀點,有不足處,請讀者積極留言批評指正,互相學習,共同進步。
  • 分類資料的差異比較常用統計方法選擇及SPSS實現
    χ2檢驗(McNemar Test),此類設計的分析的目的往往還要看兩種診斷方法的一致程度(吻合程度)如何,這時就需要Kappa一致性檢驗。【一般根據經驗,kappa≥0.75表明一致性較好,0.4≤kappa<0.75一致性一般,kappa<0.4一致性較差】【註:本例統計學結論「結果有差異,存在一致性」貌似相矛盾,但要仔細區別差異比較和吻合程度檢驗的不同】
  • 文章中統計方法如何表述(乾貨收藏,附graphpad 8.0下載)
    寫在前面本公眾號長期更新統計與R語言相關內容,不定期提供統計相關軟體的下載。本次提供的是Graphpad8.0的下載,Graphpad是作圖神器,尤其是對於不擅長編程的小夥伴。關注後,回復graphpad8,獲取下載連結,僅供個人學習使用。
  • qRT-PCR差異分析及P值計算
    ,他的計算方法有很多,常用的相對定量數據分析方法是KJ Livak(Applied Biosystems)等人在2001年提出的「比較Ct法相對定量」,即:利用ΔCt值差異來推算基因表達差異(Ct目的基因 – Ct內參基因 = ΔCt),該方法的具體計算方法請參見文章:qRT-PCR相對定量計算詳解。
  • 變異分解——架起各種統計方法之間的鵲橋(寫在七夕)
    但是其實關於變異的理解,很多人仍然只是停留在膚淺的表面,事實上,變異不僅僅是個名詞,更是連接各種統計方法的橋梁。你可能知道,方差分析用的是變異分解思想,也有人曾注意到,線性回歸的統計軟體分析結果中,也會出現方差分析的結果。曾有學生問過我,為什麼到處出現方差分析?方差分析不就是用於多組均值的比較嗎?
  • 生物統計(4)-單因素方差分析
    方差分析的基本思想在進行科學研究時,有時要按實驗設計將所研究的對象分為多個處理組進行不同的處理,其中處理因素(treatment)至少有兩個水平(level)。這類科研資料的統計分析,是通過所獲得的樣本信息來推斷各處理組均數間的差別是否有統計學意義,即處理是否有影響。
  • SPSS統計:單因素方差分析與單變量方差分析
    這兩種方法既有區別又有聯繫,在統計學中,這兩種分析方法統稱為方差分析,在spss中由於線性模型的引入,才有所區分,那麼這兩種分析方法在具體應用中有什麼樣的區別和聯繫?二者的適用情況是什麼?分析結果有何異同?下面將進行詳細介紹。
  • 一張圖搞明白分類資料的組間比較方法
    對於分類資料的組間比較,可以通過下面這樣一張圖來選擇方法:從這個圖不難看出,分類資料的組間比較只需要注意三點就可以:(1)設計類型。這個你自己是很清楚的。大多數情況下,可能我們做的都是基於完全隨機設計的。
  • 醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析
    通過比較不同變異來源的均方,藉助F分布做出統計推斷,從而推論各種處理因素對研究結果有無影響(很深奧哈,此為理論,實在不懂可放過)。對樣本均數進行比較的方差分析方法與研究設計類型有關。方差分析中分析的數據是按照特定研究設計進行試驗所得的數據,不同的研究設計其總變異的分解有所不同。
  • 統計|臨床試驗數據分析要點
    1.3不同的分析(受試者)組的作用在驗證性試驗中,通常進行全樣本和"有效受試者"兩種分析。這樣可以對兩者之間的任何差別進行明白的討論和解釋。有時候可能需要計劃進一步探究結論對於選擇分析受試者組的敏感程度。兩種分析得到基本一致的結論時,治療結果的可信度增加。但是要記住,需要?
  • 統計基礎概念及數據分析方法
    描述性統計:分析數據集中度和分散度推斷統計:通過樣本對整體情況作出推斷數據分析方法:聚類、回歸、分類及組件差異。常用全距、四分位數、方差、標準差全距:數據中最大值和最小值的差異,直觀反映數據的變化範圍,缺點是提供的信息比較粗略。四分位數:對全距的信息增益改進,不僅有最大值最小值,加入了組間間隔。
  • 菌群數據的統計和可視化方法
    然而微生物組數據分析過程複雜,分析工具眾多,也限制了研究者對該領域的探索。微生物組研究主要分為三步走,之前已經給大家講解了實驗設計與生信分析的方法(從樣本測序數據到生成物種和功能組成表),那麼接下來為大家介紹菌群測序數據下遊分析的統計和可視化方法,包括多樣性分析、物種組成分析、微生物差異分析、相關性分析、網絡分析、機器學習(構建疾病預測模型)、進化分析、來源分析以及常用可視化方法。
  • 論文分析,如何快速選出正確分析方法?
    最近有很多新關注我們的小夥伴,紛紛向我們諮詢,在論文分析中遇到的問題。其中,最常被提問的就是:在論文分析時,如何選擇適合的分析方法是一件比較頭疼的事。尤其是,第一次做分析沒有經驗,往往要花很久的時間,才能搞清不同方法之間的區別。