R與生物專題 | 第六講 R-數據正態分布檢驗

2021-02-20 投必得學術

在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。以從淺入深,層層遞進的形式在投必得學術公眾號更新。

在上一講中,我們介紹了第五講 R-數據描述性統計分析作圖點我可跳轉這兩天天大家已經初步嘗試了R的統計學描述和R作圖,接下來我們要學習稍微難一點點的R統計學技能。

今天的更新,我們會帶您學習用R語言做數據正態分布檢驗。

在很多的數據統計方法中,對數據的分布情況都有一定的要求,比如相關性檢驗,t檢驗,方差分析, 要求數據遵循正態分布高斯分布。回歸分析也要求殘差滿足正態分布(方差齊性)。因此,在進行這些統計之前,需要對數據的正態性進行檢驗。


如果數據非正態性,不滿足條件的話,可能導致結果出現偏差,甚至錯誤。


如果數據為非正態分布,我們首先考慮的是數據能否進行對數或平方根轉換而變成正態分布,如果經過轉換以後,還是無法達到正態分布的要求,建議使用非參數檢驗。

我們通常使用圖形目視檢查和相應統計檢驗方法來檢查數據的正態性。

install.packages("dplyr")library(dplyr)install.packages("ggpubr")

if(!require(devtools)) install.packages("devtools")devtools::install_github("kassambara/ggpubr")

如果是Mac電腦的話,可能在安裝ggpubr的時候會報錯:xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools),missing xcrun at: /Library/Developer/CommandLineTools/usr/bin/xcrun在這種情況下,請進入Mac的Terminal軟體,輸入xcode-select –install或者sudo xcode-select --reset


在這裡,我們將使用名為iris的內置R數據集。

library(datasets)data(iris)my_data <- iris



你可以使用head()和tails()函數檢查數據,這將分別顯示數據的第一部分和最後一部分。

[1] 150   5

Sepal.Length Sepal.Width Petal.Length Petal.Width Species

1          5.1         3.5          1.4         0.2  setosa

2          4.9         3.0          1.4         0.2  setosa

3          4.7         3.2          1.3         0.2  setosa

4          4.6         3.1          1.5         0.2  setosa

5          5.0         3.6          1.4         0.2  setosa

6          5.4         3.9          1.7         0.4  setosa



我們要測試變量Sepal.Length是否正態分布。




密度圖能夠直觀看到有關分布,如果圖形呈對稱鐘形,我們可以初步判斷數據呈正態分布。

library("ggpubr")ggdensity(my_data$Sepal.Length,main = "Density plot of sepal length",xlab = "sepal length")


QQ圖(或分位數圖)繪製給定樣本與正態分布之間的相關性,並給出了45度參考線,即y=x。當所有點都大致落在該參考線時,我們可以假定數據為正態。

library(ggpubr)ggqqplot(my_data$Sepal.Length)



視覺方法往往只能看個數據分布的大概。顯著性檢驗可以從統計學意義上將樣本分布與正常分布進行比較,以確定數據是否顯示出與正態性的嚴重偏離。

進行正態性檢驗的方法有幾種,例如Kolmogorov-Smirnov(KS)正態性檢驗Shapiro-Wilk檢驗


這些檢驗的零假設是「樣本分布正常」。


如果檢驗有效(P<0.05),則分布為非正態分布。

目前廣泛使用的是Shapiro-Wilk方法進行正態性檢驗,它比KS效能更高。檢驗的原理是基於數據與相應正常分數之間的相關性。

正態性測試對樣本量敏感。小樣本最常通過正態性測試。因此,重要的是將外觀檢查和顯著性測試相結合以做出正確的決定。


R函數shapiro.test()可用於對一個變量(單變量)執行Shapiro-Wilk正態性檢驗:

shapiro.test(my_data$Sepal.Length)

Shapiro-Wilk normality test

data:  my_data$Sepal.Length

W = 0.97609, p-value = 0.01018

從輸出來看,p值<0.05,意味著數據的分布與正態分布存在顯著差異。但是如前所述,由於本數據含有150個樣本,超過30,且從前視覺判斷,數據不存在明顯的分布不均勻,所以即便P=0.01,我們在這裡也可以認為,數據不存在嚴重的非正態偏差,可以考慮不做數據轉換,直接使用。

好了,本期講解就先到這裡。

在之後的更新中,我們會進一步為您介紹R的入門,以及常用生物統計方法和R實現。歡迎關注,投必得醫學手把手帶您走入R和生物統計的世界。

提前打個預告,接下來我們要學習R語言的進階統計學技能啦,下一期將會更新「用R語言進行相關性分析及作圖」。喜歡的同學們快快關注起來吧。

第一講 R-基本介紹及安裝

第二講 R-編程基礎-運算、數據類型和向量等基本介紹

第三講 R編程基礎-矩陣和數據框

第四講 R-描述性統計分析

當然啦,R語言的掌握是在長期訓練中慢慢積累的。一個人學習太累,不妨加入「R與統計交流群」,和數百位碩博一起學習。

快掃二維碼撩客服,

帶你進入投必得醫學交流群,

讓我們共同進步!

↓↓

來源:投必得醫學R與生物統計

聲明:本文僅做學術分享,版權歸原作者所有,並不代表本平臺的觀點,如有侵權,請先聯繫topedit2021刪除,萬分感謝!

相關焦點

  • R與生物專題 | 第七講 R-相關性分析及作圖
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。以從淺入深,層層遞進的形式在投必得學術公眾號更新。在上一講中,我們介紹了第六講 R-數據正態分布檢驗(點我可跳轉)。這兩天大家學習積極性很高,在群裡紛紛交作業,群裡討論也很活躍,想入群的拉倒文末撩小編哦。
  • 第十三講 R-配對樣本Wilcoxon檢驗
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • R語言:t檢驗
    (不同自由度)了解r語言幾個函數:dt,pt,qt,rt分別與dnorm,rnorm,pnorm,qnorm和rnorm對應 > * dt() 的返回值是正態分布概率密度函數(density)> * pt()返回值是正態分布的分布函數(probability)> * 函數qt()的返回值是給定概率p後的下百分位數(quantitle)>
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • r語言卡方檢驗和似然比檢驗_r語言似然比檢驗代碼 - CSDN
    = 0.05), col = 「lightgrey」)  評估檢驗的假設條件: 單因素方差分析的假設條件:因變量服從正態分布;各組方差相等。#Q-Q圖檢驗正態性假設library(car)qqPlot(lm(response ~ trt, data = cholesterol), simulate = TRUE, labels = FALSE)#數據落在95%置信區間範圍內,說明滿足正態性假設#方差齊性檢驗(Bartlett檢驗)bartlett.test(response ~ trt, data = cholesterol
  • f分布的檢驗 r語言 - CSDN
    統計學中的t檢驗法和F檢驗法的應用條件是樣本都來自正態總體或近似正態總體,只有符合這個條件,才能用它們來檢驗各樣本所屬的總體參數的差異顯著性。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    本篇文章介紹基於R語言的相關性分析、相關係數的顯著性檢驗及可視化,該教程為個人筆記,大家也可參考學習,不足之處也歡迎大家批評指正!相關性分析用於評估兩個或多個變量之間的關聯,能通過定量指標描述變量之間的強弱、直接或間接聯繫。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    用推論統計方法進行數據處理,最後會得出類似這樣兒的結論: 「研究發現,大學畢業生組的成績顯著高於初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優於中學畢業生組。 」  正態性檢驗  很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    正態分布正態分布(Normal distribution),也稱「常態分布」,又名高斯分布,正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。
  • r語言的p值檢驗 - CSDN
    輸入1: rdata = matrix(rnorm(1000* 6, 0, 3), 6) rvar = apply(rdata, 2, var) mean(rvar)結果1: 前文連結:醫學統計與R語言:多列分組正態性檢驗醫學統計與R語言:標準Z值一定服從標準正態分布?
  • 白噪聲檢驗專題及常見問題 - CSDN
    我將解釋為什麼r_k是正態分布的隨機變量,以及r_k的此屬性如何用於檢測白噪聲。 通過利用統計的極限定理, 可以證明r_1是正態分布的隨機變量,並且r_1的分布以某個總體平均值為中心,我們將其稱為µ_1,將某些方差稱為σ²_1 。 實際上,觀察到的r_1的均值和方差將接近我們測量的r_1的5000個值的均值。
  • r語言一元回歸模型專題及常見問題 - CSDN
    6.1.1引例利用某網站歷次促銷活動中促銷讓利費用和銷售金額的數據(單位是十萬元),將使用該數據集來說明線性回歸分析的應用。(r<-cor(cost,sales))  #相關係數r(r2<-r^2)             #判定係數r2在lm函產生的結果中也包含了判定係數r的信息。
  • r語言兩樣本檢驗 - CSDN
    這一發現的偉大之處在於:你不必知道原始分布的4個參數(K·皮爾遜體系的四個參數分別是平均數、標準差、對稱性、峰度)的確切值,前兩個參數估計值的比率有一個可以制表的概率分布,不管標準差的真實值是多少,只要計算這兩個樣本估計值的比率,就可以得到一個已知的分布。這就是t檢驗的由來。戈塞特先生關於t檢驗的一個重要假設前提就是:原始測量值服從正態分布。
  • R語言統計篇:配對t檢驗
    單樣本t檢驗;2. 獨立樣本t檢驗;3. 配對t檢驗。往期文章介紹了單樣本t檢驗(R語言統計篇:單樣本t檢驗)以及獨立樣本t檢驗(R語言統計篇:獨立樣本t檢驗),今天介紹配對t檢驗(Paired t-test)。
  • 標準正態分布函數數值表怎麼查?
    最近在整理數據時,忽然想到數理統計的其中一種分布,相信作為質量人一定不陌生,我們常常提到數據的分布是否服從正態分布,這是對一組連續數據分布一種描述
  • 偏度與峰度的正態性分布判斷
  • 兩樣本t檢驗原理與R語言實現
    戈塞特先生關於t檢驗的一個重要假設前提就是:原始測量值服從正態分布。但隨著t檢驗的大量應用,科學家們越來越相信,這項假設是不必要的。不管測量值是否服從正態分布,student t都具有相同的分布。1967年,史丹福大學的布拉德利·埃夫隆證明了這一點。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    前言 數據分布是數據分析和機器學習的核心組成,可以幫助你更好的了解數據的分布形態,今天主要介紹一下我們在常見的數據分布。實際上,當時,二項分布就是伯努利分布,二項分布是顯著性差異的二項試驗的基礎2.Negative BinomialDistribution(負二項分布)負二項分布是統計學上一種離散概率分布。滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恆定的,實驗持續到r次成功,r為正整數。