不符合正態分布 - CSDN

2021-01-15 CSDN技術社區

點擊上方藍字,輕鬆關注我們

以下內容轉載自「醫咖會」微信公眾號(medieco-ykh),作者袁園。

上一期我們討論了Mann-Whitney U檢驗的SPSS操作。本期「科研加油站」欄目,我們討論一下不符合正態分布兩組數據的非參數檢驗。

問題與數據

一家藥品公司推出了一款藥物廣告,這家公司想了解男性患者和女性患者對該廣告的接受程度,於是該公司向20名男性患者和20名女性患者播放該廣告,播放結束後要求他們填寫一份調查問卷,從該調查問卷中計算出每個調查對象對這款藥物廣告接受程度的評分。以此判斷在對於藥品廣告的接受程度上是否存在性別差異

該公司所收集的數據包括:接受程度評分engagement(因變量)和性別分組gender(自變量),部分數據如下圖所示:

對問題的分析

本問題是探討男性患者組和女性患者組之間的接受度評分是否相同,因為此數據不符合正態分布,不能採用獨立樣本t檢驗方法,因此選用Mann-Whitney U檢驗

Mann-Whitney U檢驗有4條基本假設:

假設1:數據中有一個因變量,且因變量為連續變量或等級變量。

例如:連續變量——智力得分、考試分數、體重;等級變量——滿意程度(包括非常不滿意、不滿意、滿意、非常滿意)。

假設2:數據中有一個自變量,且自變量為二分類的獨立變量。

例如:性別分組——男性組、女性組;生活習慣——吸菸組、非吸菸組。

假設3:觀察值之間相互獨立,即自變量的兩個分組中的研究個體不能相關。

例如:對比兩個班級的學生的考試分數;對比患者與健康者的血生化指標。

如果:研究數據不符合此項條件,例如測量同一組患者治療前與治療後的血生化指標,這樣數據屬於配對樣本數據,應選用Wilcoxon符號秩和檢驗。

假設4:Mann-Whitney U檢驗假設——自變量中兩組樣本的分布一致。

例如:男性組和女性組的接受度評分的分布可能有以下3種情況(圖A與圖B符合假設4,圖C不符合):

(圖A.數據分布完全一致;圖B.數據分布形狀一致,但均值不同)

(圖C.數據分布形狀不一致)

驗證假設

假設1:數據中有一個因變量,且因變量為連續變量或等級變量。

通過數據特點判斷,本例中因變量為對廣告的接受度評分,為連續變量。

假設2:數據中有一個自變量,且自變量為二分類的獨立變量。

通過數據特點判斷,本例中自變量為性別分組,男性組和女性組,為二分類的獨立變量。

假設3:觀察值之間相互獨立,即自變量的兩個分組中的研究個體不能相關。

通過數據特點判斷,本例中自變量為性別,一個研究對象只能在其中的一個分組,不會存在一個研究對象即在男性組又在女性組的情況。

假設4:Mann-Whitney U檢驗假設——自變量中兩組樣本的分布一致。

通過SPSS軟體畫圖判斷。如果Mann-Whitney U檢驗選用舊對話框進行SPSS操作,這裡需要通過Graphs——Chart Builder模塊進行畫圖,具體操作步驟如下:

1. 點擊主菜單上的Graphs——Chart Builder。

2. 在跳出的對話框中選擇「Histogram」模式,雙擊該模式下的「Population Pyramid」圖形。

3. 在顯示的界面中需要設置分布變量「Distribution Variable」及拆分變量「Split Variable」,將性別變量「gender」放入拆分變量「Split Variable」,將接受度評分「engagement」放入分布變量「Distribution Variable」,點擊「OK」按鈕。

4. 圖形解讀,SPSS軟體輸出如下圖形:

如果數據的分布一致,則可以使用Mann-Whitney U檢驗來判斷兩組數據的中位數大小,以此來判斷男性組與女性組的接受度評分是否相同。

在本例中,兩組的數據分布相似,因此可以比較兩組數據的中位數。然而,如果兩組數據的分布不同,仍然可以使用Mann-Whitney U檢驗,此時兩組比較的不是數據的中位數,而是數據的平均秩次

Mann-Whitney U檢驗的SPSS操作

1. 在SPSS 18及之後版本中,可以點擊Analyze — Nonparametric Tests — Legacy Dialogs(舊對話框) — 2 Independent Samples(如下圖所示),本文按照此操作步驟為例來展示。[版本18之前的軟體點擊Analyze——Nonparametric Tests——2 Independent Samples]

出現如下對話框,勾選檢驗類型「Test Type」中的「Mann-Whitney U」選項:

2. 將因變量「engagement」放入「Test Variable List」,將自變量「gender」放入「Grouping Variable」

註:如果有多個需要分析的因變量,可以一齊放入「Test Variable List」,在報告結果時可以同時顯示多個因變量與性別之間的關係。例如,加入自變量「happiness」 (如下圖所示):

3. 點擊分組變量中的分組定義「Define Groups」,將性別分組中男性組的賦值1填寫至「Group 1」,將女性組的賦值2填寫至「Group 2」,點擊下方的「Continue」。

4. 返回至主對話框後點擊「Option」按鈕,如果在處理的數據中有缺失值,在「Missing Values」中選擇「Exclude cases test-by-test」,在進行Mann-Whitney U檢驗時可以自動排除缺失數據。

註:如果選擇了多個因變量進入此項分析,例如數據中有兩個因變量:

「engagement」與「happiness」,這兩個因變量中均有缺失值,第8名調查者的「engagement」數據缺失,第11名調查者的「happiness」數據缺失,處理缺失數據時選擇「Exclude cases test-by-test」或者「Exclude cases listwise」是有區別的:

① 選擇「Exclude cases test-by-test」

選擇「Exclude cases test-by-test」後,只排除缺失的數據,其餘數據均保留。如分析「engagement」時,只排除第8名調查者的缺失數據,而第11名調查者的數據保留,而分析「happiness」時只排除第11名調查者的缺失數據,而第8名調查者的數據保留。

【選擇「Exclude cases test-by-test」模式,分析幸福值的性別差異時將包括第8名調查者的「happiness」變量值(5.66);選擇「Exclude cases test-by-test」模式,分析接受程度評分的性別差異時將包括第11名調查者的「engagement」變量值(5.83)】

② 選擇「Exclude cases listwise」

選擇「Exclude cases listwise」意味著,任何一個因變量中有數據缺失,那麼該調查者的全部數據都被剔除,例如第8名調查者中「engagement」中數據缺失,第11名調查者「happiness」數據缺失,那麼在在進行Mann-Whitney U檢驗時將第8名與第11名調查者的數據同時剔除。

【選擇「Exclude cases listwise」模式,分析幸福值的性別差異時將不包括第8名調查者的「happiness」變量值(5.66);選擇「Exclude cases listwise」模式,分析接受程度評分的性別差異時將不包括第11名調查者的「engagement」變量值(5.83)】

5. 選擇對話框中Statistics中的Descriptive與Quartiles選項後選擇Continue。

提示:選擇Statistics中的Descriptive與Quartiles選項後,報告出的結果並不一定是有用的,例如我們希望分別得到男性和女性組中廣告接受程度的中位數,而結果只會報告廣告接受程度及性別變量的中位數。因此,下一步我們介紹兩組的中位數如何計算。

6. 最後回到Two-Independent-Sample Tests對話框,點擊OK,得到輸出結果。

計算各分組的中位數

在SPSS軟體中進行Mann-Whitney U檢驗,無法報告各分組的中位數,而中位數是兩組比較時的重要參數。因此,我們可以通過以下6步完成中位數的計算。

(1) 點擊菜單中Analyze>Compare Means>Means…

出現中位數計算的對話框,如下圖所示:

2. 將engagement放入因變量列表中,將gender放入自變量中。

3. 選擇Options按鈕,選擇需要計算的參數:

4. 選擇Median,取消預先選擇的Mean、Number of Cases、Standard Deviation。

5. 點擊Continue,返回Means對話框。

6. 點擊OK,得到結果。

結果解讀

1. Mann-Whitney U檢驗結果

本例中男性組和女性組的數據分布相似,因為我們先解讀數據分布相似時的結果,使用舊對話框得出的結果如下圖所示:

Test Statistics表格中Mann-Whitney U代表檢驗的U統計量值為145;Z代表Z值;Asymp.Sig(2-tailed)代表漸進P值;Exact Sig[2*(1-tailed Sig.)]代表精確P值。

樣本量越大,漸進P值就越接近真實P值。當每個分組的樣本量小於20時,SPSS軟體會自動計算精確P值,此時選擇精確P值來判斷檢驗假設。當樣本量大於20時,漸進P值可以很好地代表真正的P值,因此選擇漸進P值來判斷檢驗假設。

本例中每組的樣本量為20個,結果報告了精確P值為0.142,本例選用精確P值判斷檢驗假設,P值大於界值0.05,因此不能拒絕原假設,即不能認為男性組和女性組的廣告接受程度有統計學差異。

提示:如果在SPSS報告的結果中發現漸進P值與精確P值顯示為「0.000」,這意味著P值小於0.0005,並不是真的為0。

2. 計算中位數輸入結果

在本文的第六步中可以計算出各組的中位數值如下圖:

 【Median:中位數;gender:性別;engagement:接受度評分;Male:男性;Female:女性;Total:全部;】

3. 計算結果的表達

 數據分布相同的結果表達——中位數

中文表述:使用Mann-Whitney U檢驗判斷男性與女性對於此藥品廣告的接受程度是否有差異。通過柱形圖可以判斷兩組接受程度評分的數據分布相似。男性組中接受度評分的中位數為5.58,女性組中接受度評分的中位數為5.38。Mann-Whitney U檢驗結果顯示男性組與女性組的接受度評分差異沒有統計學意義,U=145,Z=-1.488,P=0.142。

英文表述:A Mann-Whitney U test was run to determine if there were differences in engagement score between males and females. Distributions of the engagement scores for males and females were similar, as assessed by visual inspection. Median engagement score for males (5.58) and females (5.38) was not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).

 數據分布不同的結果表達——平均秩次

如果在實際的數據計算中發現各分組中數據的分布形狀不同,則不能用中位數進行比較,需要對各組的數據進行編秩,算出平均秩次。

中文表述:使用Mann-Whitney U檢驗判斷男性與女性對於此藥品廣告的接受程度是否有差異。通過柱形圖可以判斷兩組接受程度評分的數據分布不同。Mann-Whitney U檢驗結果顯示男性組(平均秩次為23.25)與女性組(平均秩次為17.75)對於此藥品廣告的接受度評分差異沒有統計學意義,U=145,Z=-1.488,P=0.142。

英文表述:A Mann-Whitney U test was run to determine if there were differences in engagement score between males and females. Distributions of the engagement scores for males and females were not similar, as assessed by visual inspection. Engagement scores for males (mean rank = 23.25) and females (mean rank = 17.75) were not statistically significantly different, U = 145, z = -1.488, p = .142, using an exact sampling distribution for U (Dineen & Blakesley, 1973).

覺得好看,請點這裡 ?

相關焦點

  • 多個變量結果的正態分布 - CSDN
    多元正態分布轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:多元正態分布檢驗的R實現方法。多元正態分布也稱多元高斯分布。如同正態分布在單變量分析中的地位類似,在對多個因變量(多元)同時進行分析時,常常假設因變量組合成的向量服從一個多元正態分布。
  • 因不符合正態分布,教務處要求改低學生分數!中南大學吳老師怒了
    因不符合正態分布,教務處要求改低學生分數!中南大學吳老師怒了。吳老師自述了事情的經過。小編大概整理了一下事情的原委。中南大學教務處工作人員找到吳老師,要求吳老師對18級軟體專業的學生分數進行修改,既然要求修改,肯定有原因,教務處給出的原因是:學生分數不符合「正態函數分布」!正態函數,大家看一下,下面的圖,這個就是正態函數分布。
  • 神奇的正態分布
    、泊松分布,有連續型的均勻分布、指數分布、t分布、卡方分布、F分布、正態分布等等,其中正態分布無疑最為常見、應用也最為廣泛。正態分布的基本特徵是「中間大、兩頭小」,即中心數值出現的頻率最高,兩邊數值的頻率漸次下降,也形同一座山峰。在現實中,或許完全符合正態分布的現象並不存在,但接近或形同正態分布的現象卻比比皆是。例如,人的身高分布、體重分布、壽命分布,大量的生物醫學指標分布,歷史氣溫分布、降雨量分布,地塊產量分布,居民收入(財產)分布等等,都是「中間大、兩頭小」的分布。
  • 專家:符合正態分布理論
    他們在接受記者採訪時談到:所謂的「低口碑高票房」現象,其實完全符合正態分布理論,尤其是越來越多電影公司上市,越來越多電影人成為上市公司股東之後。文化領域裡的很多現象,其實都是經濟現象。他們直言,在此基礎上討論問題,才更有現實意義。  誰在定義口碑?誰在貢獻票房?
  • 淺談生活中的正態分布和二八法則
    在幾百年的統計研究中,發現關於生活中各類「值」的分布有很多種,但影響最大最普遍的是兩種分布,一個是正態分布,一個是冪次分布,也就是二八法則。 正態分布是最早進入研究人員視野的,拉普拉斯、奎特雷、巴卡爾等人發現人的身高、體重,壽命,胸圍等等都符合正態分布的規律,一度試圖用「平均人」的概念來解釋整個社會,雖然沒有完全成功,但深遠的影響了很多後來學者,例如達爾文等。
  • 光明時評:要求學生考試分數正態分布的管理不在正態
    概括來看,涉事教師反對該做法的理由,一是教師有對學生的學業評價權,管理部門應尊重過而不應幹預、侵擾教師的評價權;二是對學生的評價應基於事實,而不是憑主觀想像,不能任意加減分,否則涉嫌侵害學生權利。 正態分布原本就是一個理想的數學模型,只能基於事實生成,而不能用它來要求事實改變之後符合正態分布。
  • 大自然遵循正態分布 隨機佛系存在規律
    如下圖所示:神奇的地方在於,不管是人的身高,手臂長度,肺活量,還是他們的考試成績,甚至是王者榮耀的段位,都符合正態分布一個彈珠一路滾下來會多次選擇方向,最終的分布會接近正態分布。正態分布的本質就是獨立性 ( independence ),大量同質獨立事件將導致正態分布,由大數定律保證。隨機,事件存在很多不確定因素,但不幹涉選擇的整體結果,正態分布是對隨機規律或自然規律的總結。
  • 最接近神的數學公式—正態分布
    首先,要注意的最重要的一點是,正態分布也被稱為高斯分布。2. 它是以天才卡爾·弗裡德裡希·高斯(Carl Friedrich Gauss)的名字命名的。3. 最後需要注意的是,簡單的預測模型一般都是最常用的模型,因為它們易於解釋,也易於理解。現在補充一點:正態分布因為簡單而流行。因此,正態概率分布很值得我們去花時間了解。
  • 高中就開始學的正態分布,原來如此重要
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    原標題: 為什麼數據科學家都鍾情於最常見的正態分布?—George Box   正在擴散的粒子的位置可以用正態分布來描述   正態分布有極其廣泛的實際背景,生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。
  • 中南大學回應「成績正態分布」:分數無誤 溝通有誤
    紅網時刻長沙1月15日訊(記者 賀衛玲)1月13日,中南大學吳嘉老師提交《軟體需求工程》課程成績給學院審核,在審核過程中,學院發現成績分布異常,提醒吳老師對成績進行覆核確認。之後,吳嘉老師在朋友圈發布「答卷很好,我不可能給低分」有關信息,引起網友關注和討論。
  • 智商有正態分布效應很正常,不正常的是學習成績也有正態分布效應
    智商有正態分布效應,這很正常,但不正常的是學習成績也有正態分布效應。所謂的正態分布,意思就是普通人佔據了絕大多數,傻子和天才都是極少數。作為天生的因素,正態分布是可以理解的,但是後天的教育導致的成績,仍然呈正態分布,這就讓人無法容忍了。我個人親身的體會,在當時我們縣有兩所中學A和B,A的分數線高出了B很多,基本只收中考前500名的學生,B只收剩下的。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    可能5次正面5次反面最符合我們的預期,當然實際上不可能會這麼巧合,剛好是5正5反。但是這個結果表達了我們對於這個概率事件的期待值,於是這裡的出現正面的數學期望就是5次了。在他看來這些都還是一些不太成熟的小技巧,雖然在實際上有很大用途,但是發表一個不成熟的結論是不太配得上自己身位的,於是高斯的方法被當做秘技一樣不傳。直到8年之後的1809年,高斯認為此項研究已經成熟,於是公布了他的方法,這個分析工具就是最小二乘法。最小二乘法的誕生契機是儘量減小測量數據的累積誤差,並且有一套規則。
  • 數據不滿足正態分布——如何計算中位數(四分位數間距)
    大家對於四分位數間距可能會比較陌生,一般遇到數據不符合正態分布時,手足無措。今天,我們一起來看看。1四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。
  • 數據不滿足正態分布--如何計算中位數(四分位數間距)
    大家對於四分位數間距可能會比較陌生,一般遇到數據不符合正態分布時,手足無措。今天,我們一起來看看。四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。
  • 2014考研數學:認識正態分布標準化的重要性
    2014考研數學:認識正態分布標準化的重要性 http://kaoyan.eol.cn      2013-05-28  大 中 小   考研數學指導:認識正態分布標準化的重要性
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。