數據不滿足正態分布--如何計算中位數(四分位數間距)

2021-03-02 劉老師醫學統計

我們一般會在文獻的統計方法部分看到這樣的描述:

對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。

大家對於四分位數間距可能會比較陌生,一般遇到數據不符合正態分布時,手足無措。

今天,我們一起來看看。

四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

第三四分位數與第一四分位數的差值稱為四分位數間距(InterQuartile Range, IQR),簡稱四分位距

四分位距(interquartile range, IQR)是描述統計學中的一種方法,但由於四分位距不受極大值或極小值的影響,常用於描述非正態分布資料的離散程度,其數值越大,變異度越大,反之,變異度越小。

1、複製數據:在Excel中,Ctrl+A全選數據集,Ctrl+C複製

2、數據導入到SPSS中

選中最左上角的單元格-右鍵-與變量名稱一起粘貼

3、變量設置

進行簡單的變量設置,分類變量group設置為名義,小數位數為0,其他數值變量設置為標度。

分析-描述統計-探索

進一步點擊-統計-勾選描述-勾選百分位數(P)-繼續(C)

5、查看統計結果

根據紅框中的內容,整理後的統計結果為:組1年齡的中位數(四分位數間距)為53.5(29.5),組2年齡的中位數(四分位數間距)為55.0(20.0)。

其實,統計結果表中也給出了均數(標準差)的數值。

思考題:

相信如何獲取中位數(四分位數間距),大家都學會了,那麼問題來了:如果有的雜誌要求寫成中位數(第三四分位數-第一四分位數)呢?

又該如何計算,請在留言處留言。

本文作者:劉老師,北大公衛碩士,就職於某醫學中心,發表SCI和北大核心期刊論文10餘篇,具有豐富的統計分析與文章投稿經驗。

如你有如下問題:數據清洗、數據整理、統計分析、樣本量計算、診斷試驗、ROC曲線、臨床預測模型、統計圖、R語言、研究設計等問題,均可向劉老師諮詢(需收取一定費用)。

以下是劉老師個人微信,添加時請註明:統計諮詢。

相關焦點

  • 數據不滿足正態分布——如何計算中位數(四分位數間距)
    我們一般會在文獻的統計方法部分看到這樣的描述:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。
  • 如何讓Stata按照四分位數間距分組某變量「技巧」
    如何讓Stata按照四分位數間距分組某變量【技巧】做數據分析的時候,有時我們需要把變量進行等分,如按中位數進行二等分,或根據四分位數進行四等分。我們一起看看通過stata如何實現四等分。首先,安裝astile命令:ssc install astileastile的完整命令為:astile newvar=exp [if] [in] [, nquantils(#) qc(string) by(varlist)]其中,nquantils(#)表示將變量取值由小到大分為#個組,如nq(2)表示按中位數進行二等分
  • 無論是均數±標準差,還是中位數(四分位數間距),還是頻數(百分比...
    我們標準的分析流程是這樣的:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性且兩組間方差相等,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數Wilcoxon秩和檢驗進行組間比較。
  • 數據分析|數據分布特徵的描述
    :',np.median(scores))print('眾數:',sts.mode(scores))print('上四分位數',sts.quantile(scores,p=0.75))print('下四分位數',sts.quantile(scores,p=0.25))求和:1137個數:40平均值: 28.425中位數: 25.5
  • Excel-箱線圖(數據分布)分析
    、第一四分位數、中位數、第三四分位數和最大值來反映數據分布的中心位置和散布範圍,可以粗略地看出數據是否具有對稱性。通過將多組數據的箱線圖畫在同一坐標上,則可以清晰地顯示各組數據的分布差異,為發現問題、改進流程提供線索。
  • 什麼是統計學中的四分位數?
    在統計學中,四分位就是將一組統計數據的數值按照從小到大的順序分成四個等分,區分四個部分的數據分割點就是四分位數,四分位數共有三個:
  • 審稿人說,你的數據是偏態分布的,統計方法不對?怎麼辦?
    鄭老師的第一反映是,你是不是又不分正態偏態,統統拿過來進行t檢驗了吧?這一點,確實該受到批評。這年頭,秩和檢驗方法又不是什麼難以通過SPSS實現的方法,你就不試試?一般出於兩點情況,第一,有些變量,理論上就是偏態分布的。第二,標準差特別大,在觀察值都是正值的情況下,標準差比均數還要大。比如,下面的例子,病程的標準差比均數還要大,那麼就可以懷疑是偏態分布。
  • 人為調整成績以滿足正態分布?真實的數據不需要滿足正態分布!
    近日,某大學吳姓教師在朋友圈吐槽:「教務辦要求自己將50名學生成績從90分改成80分,以符合成績『正態分布』,可他們確實都很優秀,這要怎麼改?」消息一出,引起網友熱議。
  • 學統計:掌握統計數據描述指標,構建數據分析的基礎
    統計學是通過數據去發現規律(數據具有同質性,即規律),在這裡,數據是指統計學上變量的數值體現。 中位數:按從小到大排序,位置在中間的那個數。 幾何平均數:描述等比資料(後面取值是前面數據的倍數),變量值的乘積後,開n次方。 眾數:出現頻數最多的那個數。
  • 30天學會醫學統計與SPSS公益課程(Day 2-2):定量數據統計描述
    不存在的。作為高校老師,你們能夠學會醫學統計學,我將視為這是一種成就。正態分布,包括近似正態分布,可以採用均數描述數據的平均值,採用標準差來描述離散程度。偏態分布,特別是嚴重偏態分布,可以採用中位數(M)描述數據的平均值,採用四分位數間距(IQR)描述離散程度。其中四分位數間距有兩種形式,第一種直接寫出25%的分位數和75%的分位數(P25, P75),第二種為P75-P25的差值。
  • 一篇文章帶你搞定GRE數學中的四分位數
    以下就是四分位數全部的考點大家要仔細看提到四分位數,就不得不提一下與之密切相關的中位數(Median)的概念。顧名思義,將一組數據由小到大進行排列,最中間的數字就是這組數據的中位數。比如:1,2,3,4,5中位數就是3;1,2,3,4,5,6中位數就是3和4的平均數3.5。中位數相當於是將一組數據平均分成了兩份,前50%和後50%。那麼所謂的四分位數,就是將一組數據大致平均分成四份。要想將一組數據平均分成四份,需要分3次,也就是說一組數據有3個四分位數。
  • 高中就開始學的正態分布,原來如此重要
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。
  • 【入門】數據分析必備——統計學入門基礎知識
    但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識,對於具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等專業書籍。定義:使用特定的數字或圖表來體現數據的集中程度和離散程度。
  • 數據分析中常犯的18個統計學錯誤,請務必跳過這些坑
    當樣本量從100減少到40後,相關係數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關係數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,只能反映兩者是否具備線性關係。
  • GRE數學難點突破——四分位數(Quartile)
    Q2:四分位數該怎麼計算?A2:我們先來看一個圖。上圖代表一個從小到大排序的數列,圖中表示了最大值G、最小值L、中位數M和四分位數(Q1,Q2,Q3)的位置。從圖上我們可以看出,Q2(也就是中位數M)把整個數列分成了兩部分,它的算法和中位數的算法一致(即假設數列中有 個數,若n為奇數,則Q2等於第(n+1)/2個數;若n為偶數,則Q2等於第n/2個數和第(n+1)/2個數的平均值)。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    N個數據總值的均數· 中位數是有序數據的中間值。中間數優於均值,因為它不受離群數據的影響。· 眾數是數據中出現頻率最高的值。2.離散趨勢度量離散趨勢度量表現的是一組變量(數據項)的相似程度或多樣程度。度量方式包括極差、四分位數、四分位數間距、方差和標準差。· 極差是一組數據中最大值與最小值之差。· 四分位數 是指將指定數據集等分四份後,處於分割點的數值。
  • 如何做好描述統計分析
    要把握數據的分布特徵,需要從3個方面進行描述:集中趨勢、離散程度和分布形狀。1、集中趨勢 集中趨勢就是指一組數據向某一中心靠攏的程度,通常有以下指標:眾數對分類數據來說,眾數是最適合描述其集中趨勢的值,它是指一組數據中出現次數最多的變量,眾數不受極端值的影響,但是可能不唯一,且當數據量較多時,才有意義。
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。原始數據原始數據源如下圖所示:操作步驟Step-01對原數據進行分組,計算頻數與正態分布。