R文科統計1 - test assumptions (驗證前提之數據分布)

2021-03-02 新文科編程

因為我都是看的英語的資料所以中文的術語肯定會有些問題,歡迎指正

以下來自維基

In the t-test comparing the means of two independent samples, the following assumptions should be met:

The means of the two populations being compared should follow normal distributions. Under weak assumptions, this follows in large samples from the central limit theorem, even when the distribution of observations in each group is non-normal.[18]

If using Student's original definition of the t-test, the two populations being compared should have the same variance (testable using <a href="wikiwand.com/en/F-test_">F-test, Levene's test, Bartlett's test, or the Brown–Forsythe test; or assessable graphically using a Q–Q plot). If the sample sizes in the two groups being compared are equal, Student's original t-test is highly robust to the presence of unequal variances.[19]Welch's t-test is insensitive to equality of the variances regardless of whether the sample sizes are similar.

The data used to carry out the test should either be sampled independently from the two populations being compared or be fully paired. This is in general not testable from the data, but if the data are known to be dependent (e.g. paired by test design), a dependent test has to be applied. For partially paired data, the classical independent t-tests may give invalid results as the test statistic might not follow a t distribution, while the dependent t-test is sub-optimal as it discards the unpaired data.[20]

意思就是做t test之前一般要確保數據分布滿足normal distribution和same variance (Homoscedasticity),當然了也有Heteroscedastic t-tests,按下不表

那麼如何看數據分布是否是normal distribution

library("tidyverse")
library("ggpubr")
library("readr")
library("rstatix")

看density plot

ggdensity(ToothGrowth$len, fill = "lightgray")

看qqplot

ggqqplot(ToothGrowth$len)

ToothGrowth %>% shapiro_test(len)

        <chr> <dbl> <dbl>

           1 len 0.967 0.109

三項測試都顯示數據分布接近正態

iris %>% shapiro_test(Sepal.Length, Petal.Width)

            variable statistic p

            <chr> <dbl> <dbl>

            1 Petal.Width 0.902 0.0000000168

            2 Sepal.Length 0.976 0.0102

ToothGrowth %>% group_by(dose) %>% shapiro_test(len)

  dose variable statistic p

            <dbl> <chr> <dbl> <dbl>

            1 0.5 len 0.941 0.247

            2 1 len 0.931 0.164

            3 2 len 0.978 0.902

有用的R包

install.packages('tidyverse')
install.packages('broom')
install.packages('gridExtra')
install.packages('car')
install.packages('MASS')
install.packages('pscl')
install.packages('effsize')
install.packages('lme4')
install.packages('afex')
install.packages('brms')
install.packages('MuMIn')
install.packages('swirl')
install.packages('languageR')
install.packages('emmeans')
install.packages("ggpubr")
install.packages("rstatix")
install.packages("datarium")

相關焦點

  • R 語言之數據分析「Resampling」
    在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。
  • Hotelling's t-squared test及在R語言中的計算
    此時可將T2與χ2分布表值進行比較,如果T2大於χ2統計量,則可以拒絕零假設。拒絕零假設意味著多元變量中的至少一個或多個變量的組合在組間表現出均值的顯著不同。 F統計量當nx、ny較小時,T2無法被準確估計,可將其轉化為F統計量:
  • 醫學統計與R語言:標準Z值一定服從標準正態分布?
    You can then make assumptions about the proportion of observations below or above specific Z-values.將原始分數轉換成對應的Z分數不會改變其分布狀況,也不會改變其相對位置,所改變的只是分數值。對於任何形狀分布都可以計算Z值,所得的Z分數將會呈現原始分數的形狀。若原始數據為非正態分布,標準正態分布表不再適用。
  • R-統計描述與假設檢驗
    一、統計描述1.1 統計描述代碼回顧:mean(x)均值median(x)中位數sd(x)標準差var(x)方差quantile(x, probs)分位數(probs∈[0, 1])range(x)值域sum(x)求和min(x)最小值max(x)最大值scale(x)中心化
  • R學習用R語言做分析(3)——統計分布
    這一篇的內容是數據描述,就從R中內嵌的一些簡單分布開始吧。        一、各種統計分布在R中的名稱       R給出了詳盡的統計表。這張表取自《An Introduction to R》中概率分布一章,基本涵蓋了R中所有的概率函數。
  • R與生物專題 | 第六講 R-數據正態分布檢驗
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • AB test | 數據分析師面試必知 !
    如果你心中的AB test幾乎都沒有用到中心極限定理、假設檢驗、z分布、t分布等知識,建議詳細閱讀本文。收集數據:以下B組數據為我們想驗證的新的策略結果數據,A組數據為舊的策略結果數據。均為偽造數據。分析結果(Python):利用 python 中的 scipy.stats.ttest_ind 做關於兩組數據的雙邊 t 檢驗,結果比較簡單。
  • R語言 | 推論性統計
    R: The R Project for Statistical Computinghttps://www.r-project.org/RStudio:https://rstudio.com/之前我們提到過,統計可以分為描述性統計和推論性統計(inferential statistics)。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • R語言的各種統計分布函數
    概率函數為f(k;r,p)=choose(k+r-1,r-1)*p^r*(1-p)^k, 當r=1時這個特例分布是幾何分布rnbinom(n,size,prob,mu) 其中n是需要產生的隨機數個數,size是概率函數中的r,即連續成功的次數,prob是單詞成功的概率,mu未知..
  • R 與 Python 雙語解讀統計分析基礎
    在進行數據集的實際統計建模和分析之前,使用概要統計信息以及繪製數據的統計圖形進行一些簡單的探索通常會很有用。本篇概要如下,基本概要統計函數Q-Q Plot 的原理與手動實現由於 R 語言為統計而生,所以我們把它放在前面,而 Python 放在後面壓軸。R 語言有很多包可繪製統計信息,但這裡主要採用 R 語言內置函數,偶然使用其他更酷的庫如 ggplot2 等。
  • R函數了解一下?
    數學統計相關函數數據統計是數據分析的基礎,包括了sum、mean、方差var、標準差sd、對數log、指數exp、絕對值abs等如果再結合apply家族函數,就能對矩陣、數據框的行/列進行統計概率分布概率分布這些概率分布前面加上d、p、q、r就構成了函數其中,d表示密度,p表示分布(你會想:分布不是distribution
  • A、B、test是什麼
    常用AB test場景1、體驗優化很多的產品會根據AB測試,來決定自己的UI設計、產品界面即功能,最終選定結果最好的版本。A/Btest常用流程1、確定優化目標:確定目標,就是可以衡量原始功能的指標。2、創建變體:對想要改變的部分施加影響。
  • 醫學統計與R語言:Welch's ANOVA and Games-Howell post-hoc test
    Although rather similar to Tukey’s test in its formulation, the Games-Howell test does not assume equal variances and sample sizes.
  • Python+統計學 | 探索常用的數據分析統計分布
    本文用Python統計模擬的方法,介紹四種常用的統計分布,包括離散分布:二項分布和泊松分布,以及連續分布,指數分布和正態分布,最後查看人群的身高和體重數據所符合的分布。在NumPy中,不僅可以生成上述簡單的隨機數,還可以按照一定的統計分布生成相應的隨機數。這裡列舉了二項分布、泊松分布、指數分布和正態分布各自對應的隨機數生成函數,接下來我們分別研究這四種類型的統計分布。
  • R語言實戰(7)——基本統計分析
    然後,我們簡單學習了數據可視化的基本方法。在完成前面2步後,我們下一步通常就是使用數值描述每個變量的分布,接下來則是兩兩探索變量之間的關係。本章,我們將學習用於生成基本的描述性統計量和推斷統計量的R函數。首先,我們初步學習定量變量的位置和尺度的衡量方式。然後我們進一步學習生成類別型變量的頻數表和列聯表的方法(以及連帶的卡方檢驗)。接下來,我們將考察連續型和有序型變量相關係數的多種形式。
  • 「R」統計檢驗函數匯總
    資料來源:《R 語言核心技術手冊》和 R 文檔數據基本來自胡編亂造 和 R 文檔本文基本囊括了常用的統計檢驗在 R 中的實現函數和使用方法。連續型數據基於正態分布的檢驗均值檢驗t.test(1:10, 10:20)#>#> Welch Two Sample t-test#>#> data: 1:10 and 10:20#> t = -7, df = 19, p-value = 2e-06#>
  • 醫學統計與R語言:隨機森林與Logistic預測(randomForest vs Logistic regression)
    數據統計服務,請添加微信Code:install.packages("rio")library(rio)logran <- import("logran.sav")head(logran)     Gender Race Age Income Cigarettes Smoking_status
  • 從 0 梳理 1 場「數據挖掘」賽事!
    通過數據的統計信息,可以對於數據中的特徵的變化情況有一個整體的了解。通過對於訓練集和測試集的時間特徵可視化,我們可以發現其分布是近似的,所以時間方面不會造成切換數據所導致的分布不一致的問題,進一步的,這裡對於數據特徵和標籤繪製箱型圖來判斷標籤關於特徵的分布差異性。
  • 數據科學探索(python 與 R 的比較)
    目 錄1  數據科學探索(python 與 R 的比較)1.1  數據讀取1.1.1  Python1.1.2  R1.2  數據描述1.2.1  python1.2.2  R1.3  數據處理1.3.1  python1.3.2  R