R中計算樣本值分位數的方法

2020-12-06 翔宇亭IT樂園

統計上,分位數亦稱分位點,是指將一個隨機變量的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。

在統計學中,p分位數的計算使用如下公式計算:

p分位數

R中使用quantile()計算分位數,其形式如下:

quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE, type = 7, ...)

其中,參數x為數據對象;

probs給出相應的百分位數;

na.rm表示是否允許包含缺失值;

names為邏輯值,指示是否為結果給出命名屬性;

type為分為數的算法,取值1~9,默認為7。

除了該函數之外,還可以使用fivenum函數或summary函數來求分位數。

舉例說明

某班級20名學生的英語成績為88, 78, 67, 69, 62, 100, 73, 45, 70, 60, 93, 97, 84, 82, 81, 73, 68, 76, 77, 92。計算其5分位數。

編寫R程序如下:

x<-c(88, 78, 67, 69, 62, 100, 73, 45, 70, 60, 93, 97, 84, 82, 81, 73, 68, 76, 77, 92)quantile(x)quantile(x,names=FALSE) #去掉各值的名字fivenum(x) #使用此函數可以直接計算出五個數summary(x) #使用該函數可以計算出五數及均值

其運行結果如下圖所示:

計算分位數的結果

如果你喜歡本文章,請關注本百家號,我會定期更新有關R,Python,SPSS,Excel等方面的文章。

相關焦點

  • R中計算樣本均值的方法
    樣本均值的概念樣本均值是統計學中考量一組數據的集中趨勢的統計量之一。設X1, X2, ..., Xn是總體X中的一個樣本,則統計量樣本均值的計算方法如下:樣本均值計算公式R中計算樣本均值的函數在R中,mean()函數用於計算樣本的均值,其使用格式為:mean(x, trim=0, na.rm = FALSE, ...)
  • R語言:用R計算各種統計值
    tips: 控制輸出小數點位數使用3. 算術平均mean(faithful$eruptions)## [1] 3.4877834.幾何平均# 方法1exp(mean(log(faithful$eruptions)))## [1] 3.271313# 方法2psych::geometric.mean(faithful$eruptions)## [1] 3.2713135.
  • 數據不滿足正態分布——如何計算中位數(四分位數間距)
    我們一般會在文獻的統計方法部分看到這樣的描述:對於數值變量,首先進行正態性檢驗,如果各組均滿足正態性,採用均數(標準差)進行統計描述,採用t檢驗進行組間比較;否則採用中位數(四分位數間距)進行統計描述,採用非參數檢驗進行組間比較。
  • r 秩和檢驗 - CSDN
    本文介紹如何在ř中計算兩個樣本的秩檢驗。可視化數據並在R中計算的Wilcoxon測試ř函數用於計算的秩檢驗為了執行兩個樣本的Wilcoxon檢驗,比較兩個獨立樣本(x&y)的均值,R函數wilcox.test()可以如下使用:wilcox.test(x, y, alternative = "two.sided")
  • 數據不滿足正態分布--如何計算中位數(四分位數間距)
    四分位距(interquartile range, IQR)是描述統計學中的一種方法,但由於四分位距不受極大值或極小值的影響,常用於描述非正態分布資料的離散程度,其數值越大,變異度越大,反之,變異度越小。
  • 機器學習備忘錄 | AUC值的含義與計算方法
    筆者也曾遇到類似的問題,因此希望藉由本文來梳理下 AUC 值的意義與計算方法,通過實際的例子幫助讀者加深理解,同時給出了使用 scikit-learn 工具庫計算 AUC 值的方法,供各位參考。可以看出,使用 scikit-learn 工具提供的 roc_auc_score 函數計算 AUC 值相當簡單,只需要提供樣本的實際標籤和預測值這兩個變量即可,大大方便了我們的使用,真心感謝這些開源軟體的作者們!總的來說, AUC 值就是一個用來評價二分類模型優劣的常用指標, AUC 值越高通常表明模型的效果越好,在實際使用中我們可以藉助軟體包的相應函數進行快速計算。
  • R語言——交叉驗證法計算線性回歸模型擬合優度的第三種R方
    R方的缺點很明顯,當我們在回歸模型中加入更多的回歸自變量時,不管這個回歸自變量能否解釋因變量,R方都會增加。為了克服這個缺點,引入了調整R方。兩者的計算方法如下,其中分子為擬合值和實際值的差值的平方的和。大部分的初級和中級的計量課本都只會介紹這兩種R方,但實際上,還存在第三種R方。
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • 內孔R值的一般計算方法
    由於在數控編程中經常要涉及到倒角計算,本文以一個套類零件為例,介紹一下自己在內孔加工中如何對R角進行計算!如下圖所示!一般倒角都是為了減少應力集中,去除毛刺等,向倒直角採用C表示,表示倒角為45°,如C1;倒圓角可採用R進行表示,如圖中的R2或R1.5,一般都是四分之一圓弧,這樣在編程時比較好理解或計算!右端直徑為40內孔中有一個R2的倒圓角,也就是我們要找第一個基點坐標。
  • R語言從入門到精通:Day10-R語言統計入門代碼大全
    1、連續型變量的統計描述  生成描述性統計量的R函數中,連續型變量和類別型變量的統計方法有所不同,首先介紹連續型變量的統計函數(以R中自帶的mtcars數據集為例),summary()是R中基礎安裝的獲取描述性統計量的函數。函數summary()提供了最小值、最大值、四分位數和數值型變量的均值,以及因子向量和邏輯型向量的頻數統計。
  • r語言兩樣本檢驗 - CSDN
    戈塞特的所有重要發現中,有一篇論文令幾乎所有學科的科學家都獲益。那就是1908年發表於《生物統計》上的《The Probable Error of the Meam》。戈塞特先生的良師益友K·皮爾遜先生所有的工作都基於一個重要假設:樣本足夠大,以至於計算出來的參數幾乎不存在誤差。但戈塞特先生卻常常反問自己:如果樣本不足怎麼辦?如何處理計算中肯定會出現的隨機誤差?
  • 多分類 A P R F 值
    例如文本分類中,一個文本可以是宗教相關,也可以是新聞相關,所以它就可以有兩個標籤。        F值中的係數B是指在合併過程中,召回率的權重是精確率的幾倍。F1是精確率和召回率的調和平均數,取值範圍0到1,1代表模型的輸出最好,0代表模型的輸出最差。
  • r語言的p值檢驗 - CSDN
    輸入1: rdata = matrix(rnorm(1000* 6, 0, 3), 6) rvar = apply(rdata, 2, var) mean(rvar)結果1: 樣本量是自變量的10倍?醫學統計與R語言:Cleveland dot plot醫學統計與R語言:交互作用模型中分組效應及標準誤的計算醫學統計與R語言:多條ROC曲線的AUC多重比較醫學統計與R語言:來,今天學個散點圖!
  • f分布的檢驗 r語言 - CSDN
    統計學中的t檢驗法和F檢驗法的應用條件是樣本都來自正態總體或近似正態總體,只有符合這個條件,才能用它們來檢驗各樣本所屬的總體參數的差異顯著性。
  • R中計算變量全距的方法
    關於全距全距是統計學中離散指標的測度之一。全距就是變量的最大值(Xmax)與最小值(Xmin)之差,也叫極差,表明變量的最大變動範圍或絕對幅度。全距通常用R表示,即:R = Xmax - Xmin全距一般只根據未分組數據或單項式數列計算。全距是測定變量分布離中趨勢最簡單的方法,在實際中有較多的應用。
  • 在數據中查找異常值的5種方法總結及示例解釋
    相對於總體分布值的次要值,主要的異常值更極端,分析人員將這些分為輕度和極端的異常值。 IQR 是數據集的中間 50%。它是第三個四分位數和第一個四分位數(Q3 = Q1)之間的值的範圍。我們可以採用 IQR、Q1 和 Q3 值來計算數據集以下異常值範圍界限:下外層、下內層、上內層和上外層。用這四個點來確定數據點是異常值,以及它們是輕度的還是極端的。
  • beta 值和 M 值: 衡量樣本甲基化水平的金標準
    對於探針的甲基化水平,最常見的定量方式包括beta 值和M 值兩種。beta 值計算公式為M / (M + U + offset)U 代表非甲基化信號強度,M 代表甲基化的信號強度, offset 是偏移量。 offset 是為了防止分母為0的情況出現。beta值實際上是甲基化信號強度的百分比。
  • 第十三講 R-配對樣本Wilcoxon檢驗
    在第十二講 R-配對樣本t檢驗中,我們講到了配對樣本t檢驗的假設條件是兩組間差值分布需要符合正態性。但是,當樣本差值分布非正態,且經過一定的數值轉換嘗試後,仍然無法滿足正態性要求時,配對樣本的Wilcoxon符號秩檢驗成為備選方法,它將非正態樣本的差值的中位數與0進行比較。它是一種非參數樣本檢驗,基於樣本差值的秩次排列,而非平均值。
  • 使用R計算方差與標準差
    概述描述樣本值的離散程度,最常用的指標是方差和標準差,它們與前面所說的全距(極差)只使用了兩個極值情況不同,它們利用了樣本的全部信息去描述數據取值的分散性。計算方差的公式方差是各樣本相對均值的偏差平方和的平均。
  • 能力驗證中穩健Z比分數的計算方法
    對於不同類型的能力驗證方案,所採用的工作評價值計算模型也各不相同。在實際工作中,各實驗室的檢測比對試驗方案主要以求取穩健Z比分數,來評定結果的滿意程度;Z =(х—X)/IQR×0.7413式中х—參加實驗室結果值X—所有結果值的中位置IQR—上四分位值與下四分位值之間的差值判定準則:︱Z ︳≦2 滿意結果2﹤︱Z ︳﹤3 可疑結果︱Z ︳≧3 不滿意結果