醫學科研課堂丨統計說說(八)—基本統計學方法之等級資料的非參數檢驗

2021-02-19 現代醫藥衛生

這是2020年最後1個月,這期也是統計說說今年的最後一期。請各位學員認真學習,總結之前的知識,為今年的醫學科研學習劃上圓滿的句號。

上兩講我們說到「χ2檢驗是反應變量和分組變量都為二分類變量或多分類(無序)變量時,兩變量間關係的分析方法。」而對於多分類(有序)變量(即等級資料)的統計學方法又該怎麼做呢???

 

所謂等級資料是將觀察單位按某個指標量的大小分成等級或按某種屬性的不同程度分成等級後分組計數,分類匯總各組觀察單位數後而得到的資料。其變量值具有半定量性質,表現為等級大小或屬性程度(圖1紅框)。

圖1  統計資料的類型

例1:某防疫站為了解不同季節居民體內核黃素營養狀況,於某年夏、冬季分別對成年居民口服5mg核黃素後收集4小時的負荷尿,測定核黃素含量,結果見表1所示。試比較兩個季度間核黃素營養狀況差異有無統計學意義?(核黃素營養狀況評價標準:缺乏為<400μg,不足為400~1000μg,適宜為>1000μg)。

案例分析思考:

1.研究目的:分析不同季節(夏季、冬季)的核黃素營養狀況有無差異;2.研究設計類型:獨立樣本兩組比較(夏季、冬季),樣本量不等; 3.反應變量:結果變量核黃素營養狀況屬於等級資料(三分類有程度上差別:缺乏、不足、適宜);分組變量屬於計數資料(二分類:夏季、冬季)(無序,即沒有程度上差別),形成的交叉表也稱2*3表(表1紅框)(R=2,C=3);4.反應變量是等級資料,採用非參數檢驗(秩和檢驗)。

具體操作:

1數據格式  6行3列(頻數變量:居民人數;分組變量:季節1=夏季,2=冬季;反應變量:核黃素1=缺乏,2=不足,3=適宜)(圖2)

由於本例是列聯表資料,所以要先對變量「居民人數」進行頻數變量定義。分析(A)非參數檢驗(N)舊對話框(L) →2個獨立樣本

►檢驗變量列表(T):選入反應變量,本例為「核黃素營養狀況」。

   þ 曼-惠特尼U(M):與威爾科克森秩和檢驗等價(系統默認)。本例選此項。

點擊「定義組(D)」按鈕,彈出「雙獨立樣本:定義組」對話框(圖4)。

4  雙獨立樣本:定義組對話框

(1)例1的獨立樣本等級頻數表資料的秩基本統計量表(表2)

表2給出了例1的秩基本統計量:夏季的樣本量為20,秩和為514.00及秩平均值為25.70;冬季的樣本量為22,秩和為389.00及秩平均值為17.68。

表3給出了例1的秩和檢驗結果。結論:曼-惠特尼U =136.000,威爾科克森 W =389.000,Z=-2.260,P=0.024,差異有統計學意義,可以認為夏季的核黃素營養狀況高於冬季。


夏、冬兩季的核黃素營養狀況(缺乏/不足/適宜)分別為5/7/8和11/9/2,兩組比較採用秩和檢驗,差異有統計學意義(Z=-2.260,P=0.024),即可以認為夏季的核黃素營養狀況高於冬季。例2:某醫院用3種療法治療慢性喉炎患者,結果如表4所示。試比較其療效。

1.研究目的:分析不同治療方法(1.綜合治療、2.電子治療儀、3.清音丸)的療效有無差異;

2.研究設計類型:獨立樣本三組比較(1.綜合治療、2.電子治療儀、3.清音丸),樣本量不等; 

3.反應變量:結果變量療效等級屬於等級資料(四分類有程度上差別:治癒、顯效、好轉、無效);分組變量屬於計數資料(三分類:1.綜合治療、2.電子治療儀、3.清音丸)(無序,即沒有程度上差別),形成的交叉表也稱3*4表(表4紅框)(R=3,C=4);

4.反應變量是等級資料,採用非參數檢驗(秩和檢驗)。

 

1數據格式  12行3列(頻數變量:治療例數;檢驗變量:療效等級 1=治癒,2=顯效,3=好轉,4=無效;分組變量:治療方法1=綜合治療,2=電子儀,3=清音丸)(圖5)。

分析(A)非參數檢驗(N)舊對話框(L) →K個獨立樣本

►檢驗變量列表(T):選入反應變量,本例為「療效等級」。►分組變量(G):選入分組變量,本例為「治療方法」。þ 克魯斯卡爾-沃利斯H(K):多組秩和檢驗。系統默認。本例選此項。點擊「定義範圍(D)」按鈕,彈出「多個獨立樣本:定義範圍」對話框(圖7)。

7  多個獨立樣本:定義範圍對話框

3主要輸出結果及分析

(1)例2的多個獨立樣本克魯斯卡爾-沃利斯檢驗的秩基本統計量表(表5)

表5給出了例2的秩基本統計量:綜合治療的樣本量為308,秩平均值為208.93;電子治療儀的樣本量為92,秩平均值為282.59;清音丸的樣本量為78,秩平均值為309.40。

 表6給出了例2的克魯斯卡爾-沃利斯秩和檢驗結果, H統計量服從χ2分布,故以χ2值表示檢驗統計量。結論:卡方=51.388,P=0.000,故可認為3種療法差異有統計學意義。可以進一步兩兩比較,方法如下。(1)定義變量類型:點擊數據錄入窗口左下角的「變量視圖」,在單元格第二列「類型」中,單擊「分組*類型」單元格,單擊「…」 按鈕,彈出「變量類型」對話框(圖8)。將分組變量的變量類型顯示的「數字(N)」改成「字符串(R)」。

8  變量類型對話框

彈出「非參數檢驗:兩個或兩個以上的獨立樣本」對話框(圖9)。

9  非參數檢驗:兩個或兩個以上的獨立樣本對話框

►檢驗欄位(T):選入反應變量,本例為「療效等級」。(1)例2的多個獨立樣本克魯斯卡爾-沃利斯假設檢驗摘要(圖10)

10  假設檢驗摘要

圖10給出了例2的假設檢驗結果。結論:P=0.000,差異有統計學意義,此結果與表6的結論一致。(2)兩兩比較:雙擊結果查看器中圖10的「假設檢驗摘要」(圖11)。

11  獨立樣本克魯斯卡爾-沃利斯檢驗

★查看(V):獨立樣本檢驗視圖(成對比較)(圖12)。

12   兩兩比較結果圖

圖12給出了例2的兩兩比較的結果。結論:綜合治療(1.00)與電子治療儀(2.00)比較,調整後的P=0.000,差異有統計學意義;綜合治療(1.00)與清音丸(3.00)比較,調整後的P=0.000,差異有統計學意義;電子治療儀(2.00)與清音丸(3.00)比較,調整後的P=0.519,差異無統計學意義。綜合治療、電子治療儀和清音丸治療慢性喉炎的療效(治癒/顯效/好轉/無效)分別為186/72/26/24、32/24/16/20和22/14/22/20,三組比較採用克魯斯卡爾-沃利斯秩和檢驗,差異有統計學意義(c2=51.388,P=0.000),故可認為3種療法差異有統計學意義。進一步兩兩比較:綜合治療的療效優於電子治療儀和清音丸(P=0.000,P=0.000),差異有統計學意義;而電子治療儀與清音丸的療效差異無統計學意義(P=0.519)。


1. 對於採用非參數檢驗的列聯表R*C表的形式:主要是反應變量是多項有序分類變量(即等級資料),而分組變量為無序分類變量(表7),此處一定注意的是:行變量為分組變量或自變量,列變量為反應變量或因變量。在呈現數據時行列可交換,但表達的意思是不變的)

(點擊看大圖)

2.不是所有的列聯表資料都能做卡方檢驗,當反應變量為等級資料時,比較各處理組的效應有無差別應該採用秩和檢驗(圖13藍框),不宜採用c2檢驗。而c2檢驗與分類變量的各分類順序無關。

13   R*C表統計分析方法選擇

3.列聯表表資料是由行變量的個分類與列變量的個分類交叉組合後清點計數得到的頻數,無論行變量還是列變量,各個分類是彼此互斥、相互獨立的。

4.多個獨立樣本等級頻數表資料比較的秩和檢驗,若在整體上P>0.05,即差異無統計學意義,就無需兩兩比較了;若整體上的P<0.05,即差異有統計學意義,則需進一步兩兩比較。

★下面給個思考題,大家練一練:

大家做完習題後有什麼疑問可以留言提出來,我們會請劉嶺教授解答,並在下期公布。



陸軍軍醫大學衛生統計學教研室副教授,主要從事衛生統計學教學、科研工作。擔任中華衛生信息學會第八屆統計理論與方法專業委員會委員,重慶市預防醫學衛生統計專業委員會副主任委員,並擔任《第三軍醫大學學報》等多家雜誌的編委、統計審稿專家。



撰稿:劉嶺

約稿編輯:劉芹

排版:畢麗

審核:王東

在此,本刊編輯部向劉嶺教授表示誠摯的感謝!!!

醫護職稱制度變化有多大?詳解《關於深化衛生專業技術人員職稱制度改革的指導意見(徵求意見稿)》

醫學科研課堂丨統計說說(七):基於分類變量的卡方檢驗(二)

營養與康復專題丨沈生榮—腫瘤與營養

營養與康復專題丨陳文雯—糖尿病的醫學營養治療

OSID丨李雯—阻塞性睡眠呼吸暫停低通氣症候群合併擴張性心肌病1例報導

OSID丨蔣丹—二甲雙胍治療妊娠期糖尿病可行性的meta分析

醫學科研課堂丨統計說說(六):基於分類變量的卡方檢驗(一)

醫學科研課堂丨統計說說(五):常用基本統計學方法之選擇

上面精彩內容不過癮?

歡迎掃碼關注「現代醫藥衛生」微信公眾號,獲取更多精彩內容





相關焦點

  • 醫學科研課堂丨統計說說(五):常用基本統計學方法之選擇
    秋風送爽,也給我們送來了劉嶺教授的統計說說第五期。這一期的統計學方法之選擇大家一定要認真學起來,說不定馬上你就會用到了。正態分布檢驗請大家複習:醫學科研課堂丨統計說說(三):你所應該了解的正態、方差齊性檢驗表2 計量資料常用統計指標的特點及其應用場合
  • 醫學科研課堂丨統計說說(四):統計學方法之靈魂—方差分析
    因此在應用方差分析時,要結合具體的研究設計方法來選擇相應的方差分析方法。常用的設計有:隨機單位組設計/拉丁方設計/交叉設計/析因設計/正交設計/嵌套設計/裂區設計/重複測量數據/協方差分析等進行方差分析時同樣要求資料滿足正態分布且方差相等兩個基本假設(與獨立樣本t檢驗的條件一樣一樣滴)。即:1. 各樣本組內觀察值相互獨立,且服從正態分布;2.
  • 醫學科研課堂丨統計說說(六):基於分類變量的卡方檢驗(一)
    給我的科研朋友們來杯mojito——冬天的第一堂統計課今天給大家帶來第六期劉嶺教授的統計說說
  • 醫學科研論文中常見的統計學問題
    為能有效促進統計學方法的正確使用,保證科研的科學性、可靠性,提高醫學科研論文質量,賽恩斯編譯對醫學科研論文中常見的統計學問題進行梳理和總結如下:一、實驗組與對照組沒有可比性。實驗組與對照組必須遵循均衡化的原則,即實驗組與對照組除處理因素不同外,其他可控制的非處理因素要儘可能保持一致,從而儘量排除非處理因素對結果的影響。各組間均衡程度越高,可比性越強。
  • 非參數檢驗—兩相關樣本資料
    上面三個研究皆為配對設計,指標為分類資料,表1、表2會考慮使用McNemar檢驗,表3考慮使用McNemar-Bowker檢驗或Marginal Homogeneity檢驗,在卡方檢驗學習過卡方檢驗—配對設計列聯表資料,其實McNemar檢驗屬於非參數檢驗,今天再深入學習該檢驗方法,同時學習Marginal Homogeneity
  • 30天學習醫學統計與SPSS(Day 12):等級資料的比較,秩和還是卡方?
    作為高校老師,你們能夠學會醫學統計學,我將視為這是一種成就。Day 12:等級資料的比較,秩和還是卡方?兩個案例在本質上無太大區別,因此統計分析方法相似。本文以案例1為例介紹其統計分析策略。案例1的數據,實際上是2組等級數據的比較,由於是隨機對照試驗,一般可以應用基本統計學方法的t、F、卡方、秩和檢驗中某一合適的方法進行分析。假設檢驗方法不僅可論證兩組的差異性,且可以直接探討分組變量與結局變量的因果關係。
  • 【精選課件】醫學科研中常用統計方法及錯誤解析
    科室的發展,人員的發展都離不開科研,而科研的骨架正是醫學統計學,正確的設計,統計推斷,分析和科學總結。南京醫科大學第二附屬醫院感染管理科李連紅博士在這裡給大家一起分享她和檢驗科一起交流的課件——醫學科研中常用統計方法及錯誤解析。
  • 第二節醫學統計學的基本知識
    一、醫學統計學的主要內容:1、統計設計:統計設計包括調查設計和實驗設計。統計設計是保證統計描述和推斷正確的基礎。2、統計描述:對原始數據進行歸納整理,用相應的統計指標,如率、均數等,表示出研究對象最鮮明的數量特徵,必要時選擇統計表或統計圖。
  • 小結|醫學統計學各種資料比較選擇方法
    如果方差分析的統計檢驗為有統計學意義,則進一步作統計分析:選擇合適的方法(如:LSD檢驗,Bonferroni檢驗等)進行兩兩比較。2)如果小樣本的偏態分布資料或方差不齊,則作Kruskal Wallis的統計檢驗。
  • 醫學統計學考前複習提綱
    2、Statistics統計學:收集、分析、解釋與呈現數據資料同時處理數據中變異的一門學科。3、Medical statistics醫學統計學:運用概率論和數理統計學的原理和方法,研究醫學數據的收集、整理、分析和推斷,從而發現醫學現象的內在規律,用以指導醫學理論和實踐的學科。
  • 中山大學《醫學統計學》中英文雙語公開課
    模塊一 《衛生統計學》理論課(中文授課)第1講緒論第2講定量變量的統計描述第3講定性變量的統計描述第4講常用概率分布第5講參數估計基礎第6講假設檢驗基礎第7講方差分析基礎第8講卡方檢驗第9講基於秩次的非參數檢驗第10講兩變量關聯性分析
  • 使用非參數統計檢驗進行分析的指南
    問題是沒有人告訴你如何進行像假設檢驗這樣的分析。統計檢驗用於制定決策。為了使用中位數進行分析,我們需要使用非參數檢驗。非參數測試是分布獨立的檢驗,而參數檢驗假設數據是正態分布的。說參數檢驗比非參數檢驗更加的臭名昭著是沒有錯的,但是前者沒有考慮中位數,而後者則使用中位數來進行分析。接下來我們就進入非參數檢驗的內容。
  • 讀書摘要《生物醫學研究的統計方法》知識小結—方積乾
    (2) 根據結果(效應)變量的類型、分析目的和資料具備的前提條件等,選擇不同的統計學分析方法。變量可分為定量變量與定性變量兩大類。定性變量也叫分類變量,根據類別之間有無大小順序,可將定性變量分為有序(等級)分類變量和無序(名義)分類變量。定量變量有離散和連續之分,定性變量只能是離散變量。
  • 讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾
    生物醫學研究的統計方法本書是生物醫學研究生使用的經典統計教材,內容易懂經典,無需多少數學基礎都能看懂。本書每個章節後面都有常見疑問,現匯總以供大家學習。因為列聯表χ2檢驗的χ2統計量只能處理頻數分布的差異性檢驗,沒有處理有序信息的能力,不能利用數據所提供的有序信息進行分析。因此,若使用無序多分類資料分析方法進行有序多分類資料的差異性檢驗,將會降低統計檢驗效能。(29) 是否所有資料皆可作相關分析?
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    一般而言,為了確定從樣本(sample)統計結果推論至總體時所犯錯的概率,我們會利用統計學家所開發的一些統計方法,進行統計檢定。F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • 分類資料的差異比較常用統計方法選擇及SPSS實現
    ,要分析這種等級效應差別Pearson χ2 分析是做不到的,可以使用非參數檢驗。非參數檢驗的介紹可參見下章筆記,本文只做操作演示:①變量設置及數據錄入:變量Group表示治療方法,Values值1=slit+drug,2=drug only;Effect表示治療效果,Values值1=無效,2=改善,3=明顯改善;發生頻數用變量Fre表示。
  • 【統計方法與案例點評】常見統計資料類型及其錯誤理解分析
    ,是選擇統計方法的第一步。幾乎所有統計學方法都跟資料的類型有關,不同的數據類型需要採用不同的方法。多數統計學教材都會在第一章就介紹資料的類型,然後才介紹針對不同資料類型所採用的統計方法。資料類型似乎很容易辨識,但現實中也存在不少錯誤的理解和應用。本文對統計學中常見的資料類型進行簡要介紹,並對文章中常見的一些錯誤理解進行解釋。
  • 第一章 緒論--第一節 醫學統計學及其主要內容
    第一章 緒論 第一節 醫學統計學及其主要內容   醫學統計學是運用概率論與數理統計的原理及方法,結合醫學實際,研究數字資料的搜集、整理分析與推斷的一門學科。   醫學研究的對象主要是人體以及與人的健康有關的各種因素。
  • 一篇基於橫斷面研究數據統計分析論文的完全解析和統計方法解讀 | 瘋狂統計學2.0
    去年盛夏, 26位科研大神作者以「局解」的方式回顧自身SCI論文發表經歷,或介紹如何巧用公共資料庫,或側重某一種統計方法的應用。《瘋狂統計學》一書由此橫空出世,好評如潮。然而,高階的統計學方法和資料庫的利用需要因地制宜,廣大科研初學者的迷思更多在於「科研思路從何而來」「如何推進一項SCI論文研究」。
  • 助力科研|統計學(十一):隨機區組設計資料的方差分析
    隨機區組設計資料的方差分析是較常用的一種統計方式,在SPSS中如何操作?案例採用人民衛生出版社《醫學統計學》第四版,第53頁,例4-4例4-4某研究者採用隨機區組設計進行實驗,比較三種抗癌藥物對小白鼠肉瘤的抑瘤效果,先將15隻染有肉瘤小白鼠按體重大小配成5個區組,每個區組內3隻小白鼠隨機接受三種抗癌藥物(具體分配方法見例4-3),以肉瘤的重量為指標,實驗結果見表4-9。問三種不同藥物的抑瘤效果有無差別?