數據不滿足正態分布——如何計算中位數(四分位數間距)

2021-01-08 言爸說育兒

我們一般會在文獻的統計方法部分看到這樣的描述:

對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。

大家對於四分位數間距可能會比較陌生,一般遇到數據不符合正態分布時,手足無措。

今天,我們一起來看看。

1

四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

第三四分位數與第一四分位數的差值稱為四分位數間距(InterQuartile Range, IQR),簡稱四分位距。

四分位距(interquartile range, IQR)是描述統計學中的一種方法,但由於四分位距不受極大值或極小值的影響,常用於描述非正態分布資料的離散程度,其數值越大,變異度越大,反之,變異度越小。

2

1、複製數據:在Excel中,Ctrl+A全選數據集,Ctrl+C複製

2、數據導入到SPSS中

選中最左上角的單元格-右鍵-與變量名稱一起粘貼

3、變量設置

進行簡單的變量設置,分類變量group設為測量,小數位數為0,其他數值變量設置為標度。

4、計算中位數(四分位數間距)

分析-描述統計-探索

數值變量-選入因變量列表

分組變量-選入因子列表

進一步點擊-統計-勾選描述-勾選百分位數(P)-繼續(C)

5、查看統計結果

根據紅框中的內容,整理後的統計結果為:組1年齡的中位數(四分位數間距)為53.5(29.5),組2年齡的中位數(四分位數間距)為55.0(20.0)。

其實,統計結果表中也給出了均數(標準差)的數值。

思考題:

相信如何獲取中位數(四分位數間距),大家都學會了,那麼問題來了:如果有的雜誌要求寫成中位數(第三四分位數-第一四分位數)呢?

又該如何計算,請在留言處留言。

END

本文作者:劉老師,北大公衛碩士,就職於某醫學中心,發表SCI和北大核心期刊論文10餘篇,具有豐富的統計分析與文章投稿經驗。

如你有如下問題:數據清洗、數據整理、統計分析、樣本量計算、診斷試驗、ROC曲線、臨床預測模型、統計圖、R語言、研究設計等問題,均可向劉老師諮詢(需收取一定費用)。

以下是劉老師個人微信,添加時請註明:統計諮詢。

相關焦點

  • 數據不滿足正態分布--如何計算中位數(四分位數間距)
    t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。大家對於四分位數間距可能會比較陌生,一般遇到數據不符合正態分布時,手足無措。今天,我們一起來看看。四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。
  • 無論是均數±標準差,還是中位數(四分位數間距),還是頻數(百分比...
    我們標準的分析流程是這樣的:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性且兩組間方差相等,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數Wilcoxon秩和檢驗進行組間比較。
  • 箱線圖--四分位數
    定義:四分位數(Quartile)應用於統計學中的箱線圖繪製,是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 中位數:按從小到大排序,位置在中間的那個數。 幾何平均數:描述等比資料(後面取值是前面數據的倍數),變量值的乘積後,開n次方。 眾數:出現頻數最多的那個數。
  • 離散程度的度量:異眾比率、四分位差和標準差
    本期我們要講與之對應的三個數:異眾比率、四分位差、標準差。它們反映的是各變量值遠離其中心值的程度。或者說,反映出眾數、中位數、平均數能不能代表一組數據。數據的離散程度越大,集中數值對該組數據的代表性就越差;離散程度越小,其代表性就越好。
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    N個數據總值的均數· 中位數是有序數據的中間值。中間數優於均值,因為它不受離群數據的影響。· 眾數是數據中出現頻率最高的值。2.離散趨勢度量離散趨勢度量表現的是一組變量(數據項)的相似程度或多樣程度。度量方式包括極差、四分位數、四分位數間距、方差和標準差。
  • 不符合正態分布 - CSDN
    本期「科研加油站」欄目,我們討論一下不符合正態分布兩組數據的非參數檢驗。對問題的分析本問題是探討男性患者組和女性患者組之間的接受度評分是否相同,因為此數據不符合正態分布,不能採用獨立樣本t檢驗方法,因此選用Mann-Whitney
  • 高中就開始學的正態分布,原來如此重要
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。
  • R中計算樣本值分位數的方法
    統計上,分位數亦稱分位點,是指將一個隨機變量的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。在統計學中,p分位數的計算使用如下公式計算:p分位數R中使用quantile()計算分位數,其形式如下:quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識;對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等等專業書籍。統計學分為描述性統計學和推斷性統計學。
  • 最接近神的數學公式—正態分布
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。我會從最基礎的內容開始解釋,以便讀者們理解為什么正態分布如此重要。
  • 不懂統計和數據分析講的是什麼?看這篇就夠了,乾貨值得收藏
    分位數:1/4;中位數;3/4位數2.3 數據離中趨勢極值:d = max - min,可粗略檢查產品質量和穩定程度四分位點內距:IQR = Q_3 - Q_1,反映數據中間部分的差距直方圖:用於表示數據的分布情況盒式圖:顯示數據的離散情況,中位數、四分位數、上下邊緣、異常值(四分位與邊緣間為溫和異常值,上下邊緣以外為異常值)上下邊緣不是極大極小值,上邊緣 = Q3 + 1.5(Q3-Q1),下邊緣 = Q1 - 1.5(Q3-Q1)
  • 描述性統計分析,掌握常用指標,進入數據分析大門
    1.平均值平均值顧名思義就是計算數據的平均數是多少,可以讓我們了解到數據的平均水平是多少。公式:平均值μ=(數值X1+X2+X3……)/n(多少項,數值的數量)優點:計算簡單,可讓人了解到平均水平如何。缺點:當數據值差距很大的時候,呈現的平均水平結果就可能會出現不客觀的現象,出現平均數陷阱,讓人誤解。
  • 人人都需要掌握的 5 個基本統計概念 | 網際網路數據資訊網-199IT |...
    統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。通過統計,我們可以獲得更深入、更細緻入微的見解,能夠了解數據的確切結構,並在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。
  • Python數據清洗(三):異常值識別與處理
    箱線圖的形狀特徵如下圖所示:圖中的下四分位數指的是數據的25%分位點所對應的值(Q1);中位數即為數據的50%分位點所對應的值(Q2);上四分位數則為數據的75%分位點所對應的值(Q3);上須的計算公式為Q3+1.5(Q3-Q1);下須的計算公式為Q1-1.5(Q3-Q1)。其中,Q3-Q1表示四分位差。
  • Python數據分析中Pandas數據運算實踐
    本篇將介紹當我們處理完數據後,可以對數據進行的一些計算操作。本篇文章使用的數據為泰坦尼克的數據集,具體的數據集已經上傳至代碼倉庫,有需要的同學可以自行取用。統計分析前面我們使用 describe() 這個方法自動的獲取過當前數據集的一些統計數據,那麼我們如何手動的來獲取它呢?