使用R計算方差與標準差

2020-12-25 翔宇亭IT樂園

概述

描述樣本值的離散程度,最常用的指標是方差和標準差,它們與前面所說的全距(極差)只使用了兩個極值情況不同,它們利用了樣本的全部信息去描述數據取值的分散性。

計算方差的公式

方差是各樣本相對均值的偏差平方和的平均。使用s2來表示,其公式如下:

計算方差的公式

當數據分布比較分散(即數據在平均數附近波動較大)時,各個數據與平均數的差的平方和較大,方差就較大;當數據分布比較集中時,各個數據與平均數的差的平方和較小。因此方差越大,數據的波動越大;方差越小,數據的波動就越小。

計算標準差的公式

樣本方差的開方稱為樣本標準差,記為s,其計算公式如下:

計算標準差的公式

標準差越大,數據的離散程度越大,反之越小。但標準差與方差不同的地方是,標準差是有量綱的,它與變量值的計量單位相同,因此具有較強的實際意義,在實際應用較廣泛。

R中計算方差與標準差

在R中使用var函數和sd函數分別計算方差和標準差。

var函數的語法形式如下:

var(x, y = NULL, na.rm = FALSE, use)

參數x是一個數值型向量,矩陣或數據框;

參數y是與x維度相容的一個向量、矩陣或數據框,默認為NULL值;

na.rm為邏輯值,指示是否移除缺失值,默認為FALSE;

use是一個可選參數,是一個字符型字符串。用於指明在有缺失值時計算協方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs"中值之一。

sd函數的語法形式如下:

sd(x, na.rm = FALSE)

各參數的含義與var函數對應的參數相同,但是x是一個數值型向量。

下面使用一個例子來說明具體使用方法。

設從某班某門課程中隨機抽取了20個學生的成績,具體如下:

51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.

計算其方差和標準差。

編寫R程序如下:

grade <- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)ss <- var(grade)s <- sd(grade)print(ss)print(s)

計算結果如下圖所示:

R中計算方差與標準差的結果

即方差為:222.87,標準差為:14.93

如果你喜歡這篇文章,請關注我。我會定期更新有關R語言、Python、SPSS、Excel等數據分析方面的文章。讓我們共同學習和進步。

相關焦點

  • 直觀、形象、動態,一文了解無處不在的標準差
    統計學中最核心的概念之一是:標準差及其與其他統計量(如方差和均值)之間的關係。入門課程中老師常告訴學生「記住公式就行」,但這並非解釋概念的最佳方式。本文將對標準差這一概念提供直觀的視覺解釋。重點在於,你想計算所有小方框的均方值。這就是「方差」,即平均變異,或者差異平方的平均值(mean squared difference)。標準差我們為什麼不用方差來表示分數的差異呢?唯一的問題是,我們無法對比方差和原始分數,因為方差是「平方」值,即它是面積而非長度。
  • 方差分析F檢驗結果如何解讀?
    方差分析的思想 方差分析從名字上看強調「方差」,實際上它分析的是「均值」是否相等,而不是「方差」是否相等。它的思想是將Y的總變異分解為系統誤差和隨機誤差。所以方差分析是通過對數據誤差來源的分析從而判斷不同總體的均值是否相等。
  • 單因素方差分析超完整分析流程
    以上這些分析兩個及兩個數據之間的差異情況都可以使用同一種分析方法——方差分析。01. 概念方差分析用於定類數據(X)與定量數據(Y)之間的差異分析,例如研究三組學生(X)的智商平均值(Y)是否有顯著差異。其中X的組別數量至少為2,也可以分析三個或三個以上組別的數據。
  • 方差-協方差法VaR計量模型選擇
    VaR的計算方法主要有歷史模擬法、Monte Carlo模擬法、方差—協方差方法(分析方法),這三種方法基本思想不同,各有優缺點。本文所研究的是實踐中最常用的方差—協方差方法。     在方差—協方差方法中,RiskMetrics方法由於其推出時間較早且算法簡單而倍受業界推崇。但隨著現代金融市場的不斷發展,市場風險日益複雜化,從而需要一套更為精確的測量方法來監控投資風險。
  • 精益六西格瑪管理-假設檢驗-單因子方差分析
    單因子方差分析的模型假設在一個實驗中只考察一個因子A,它有r個水平,在每一水平下進行m次重複實驗,其結果用yi1, yi2,……yim(i=1,2,…..r)表示。記第i水平下的數據和為Ti,數據均值為y-bar(i),總的均值為y-bar。此時共有n=rxm個數據。常常把數據列成表格形式。
  • Excel標準差計算函數Stdev和StdevP的用法與區別,包含4個實例
    Excel標準差計算共有六個函數,它們分別用於計算樣本標準差和整體標準差,其中一些函數只能計算數值,另一些函數除能計算數值外還能計算文本和邏輯值。一、Excel標準差的計算方法(一)用Stdev函數計算樣本標準差假如要計算服裝每月銷量的標準差。
  • 分享丨如何正確區分誤差、不確定度、精密度、準確度、偏差、方差?
    測量不確定度越小,其測量結果的可疑程度越小,可信度越大,測量的質量就越高,測量數據的使用價值越高。在實際工作中,測量不確定度可能來源有很多,如定義不完整、取樣、基體效應、環境條件、質量和容量器皿的不確定、標準物質、測量方法和程序中的估計和假定以及隨機變化等。測量不確定度一般來源於隨機性和模糊性,這就使得測量不確定度一般有許多分量組成。
  • 教程| 從特徵分解到協方差矩陣:詳細剖析和實現PCA算法
    機器學習實踐上經常使用 PCA 對輸入神經網絡的數據進行預處理。通過聚集、旋轉和縮放數據,PCA 算法可以去除一些低方差的維度而達到降維的效果,這樣操作能提升神經網絡的收斂速度和整體效果。為了進一步了解 PCA 算法,我們還需要定義一些基本的統計學概念,即均值、標準差、方差和協方差。
  • 全流程總結方差分析,就靠它了!
    方差分析是一種分析調查或試驗結果是否有差異的統計分析方法,也就是檢驗各組別間是否有差異。本文我們就一起來梳理下方差分析的分析流程。在得到聚類類別之後,通過方差分析去對比不同類別的差異,如果全部呈現出顯著性差異,以及研究人員結合專業知識可以對類別進行命名時,則說明聚類效果較好。而雙因素和多因素方差分析只有在實驗研究中才會使用,一般的問卷數據很少使用。本文將主要針對單因素方差分析說明。
  • 單因素方差分析
    (一)單因素方差分析概念理解步驟  是用來研究一個控制變量的不同水平是否對觀測變量產生了顯著影響。這裡,由於僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。這些問題都可以通過單因素方差分析得到答案。  單因素方差分析的第一步是明確觀測變量和控制變量。例如,上述問題中的觀測變量分別是農作物產量、婦女生育率、工資收入;控制變量分別為施肥量、地區、學歷。  單因素方差分析的第二步是剖析觀測變量的方差。方差分析認為:觀測變量值得變動會受控制變量和隨機變量兩方面的影響。
  • 方差分析常見問題匯總,你想知道的都在這裡
    ②問題二:方差分析是否需要滿足正態性?方差檢驗一般需要進行正態性檢驗,但方差檢驗對數據的正態性的有一定的耐受能力,只要數據近似正態即可接受。如果數據嚴重不正態,則可使用非參數檢驗。當方差齊檢驗沒有呈現出顯著性(即P>0.05),可使用方差分析。當方差齊檢驗呈現出顯著性,即說明不同組別的數據波動不一致,方差不齊。此時可考慮使用Welch anova或Brown-Forsythe anova或非參數檢驗作為代替方法,進行分析。方差分析④問題四:方差分析需要的數據格式?
  • 基於複數浮點運算的協方差矩陣的FPGA實現
    引言本文引用地址:http://www.eepw.com.cn/article/201706/349296.htm  協方差矩陣的計算是信號處理領域的典型運算,是實現多級嵌套維納濾波器、空間譜估計、相干源個數估計以及仿射不變量模式識別的關鍵部分,廣泛應用於雷達
  • 2011年質量專業資格輔導:單因素方差分析
    (一)單因素方差分析概念理解步驟  是用來研究一個控制變量的不同水平是否對觀測變量產生了顯著影響。這裡,由於僅研究單個因素對觀測變量的影響,因此稱為單因素方差分析。這些問題都可以通過單因素方差分析得到答案。  單因素方差分析的第一步是明確觀測變量和控制變量。例如,上述問題中的觀測變量分別是農作物產量、婦女生育率、工資收入;控制變量分別為施肥量、地區、學歷。  單因素方差分析的第二步是剖析觀測變量的方差。方差分析認為:觀測變量值得變動會受控制變量和隨機變量兩方面的影響。
  • 兩因素方差分析怎麼理解?
    文章來源: 丁點幫你作者:丁點helper看完單因素方差分析,一般的統計學中並不會直接講two-way(雙因素)方差分析,而是講「隨機區組設計的方差分析」,那這兩者有什麼關係嗎?從統計方法的角度來看,隨機區組設計的方差分析其實就屬於兩因素(或多因素)方差分析,一種說法認為,為什麼不直接叫兩因素,是因為不把「區組因素」算作一類真正的「因素」,而重點研究隨機分組因素。我們認為,實際稱雙因素方差分析可能更好理解。不過這裡稱作「隨機區組設計」,也是有其他特別的考慮。
  • Stata第九章 多因素方差分析命令與輸出結果說明
    1.02 首先計算各組的均數和相應的標準差                                                  |                    6               6       |        12       ①為 該組的紅細胞增加數的平均數;②為該組的紅細胞增加數的標準差
  • 單因素完全隨機實驗設計方差分析
    單因素完全隨機設計中分配被試的圖解例子如下:計算舉例:一個研究要探討文章的生字密度對學生閱讀理解的影響。研究者的假設是:閱讀理解隨著文章中生字密度的增加而下降。(1)計算表(2)各種基本量的計算(3)平方和的分解與計算
  • 快速處理數據分析之協方差分析
    前兩篇文章,我們對雙因素方差分析以及事後比較做了較為詳細的說明。與一般的單因素方差分析相比,雙因素甚至多因素方差分析,更多的被用在實驗研究中。如果方差分析時需要考慮幹擾項,此時就稱之為協方差分析,而幹擾項也稱著「協變量」。前提條件(1) 協方差分析中,X是定類數據,Y是定量數據;協變量通常為定量數據;如果協變量是定類數據,可考慮將其納入X即自變量中,或者將協變量做虛擬變量處理。
  • 精益六西格瑪管理-假設檢驗-兩因子方差分析
    假定不同條件下墊片的斷裂強度分別服從等方差正態分布。問:不同生產線即不同文圖對墊片的斷裂強度均值有無顯著影響,如果有影響,那麼在什麼條件下墊片的斷裂強度達到最大?本頁種圖a標誌因子A與B不存在交互作用,這時不管因子B取什麼水平,因子A的效應(即A在高水平時,指標均值與A在低水平的指標均值的差)總為相同值h, 圖b種,當因子B取不同水平時,雖然因子A的高水平的指標均值總比低水平時的高,但高的程度有所不同,這表示因子A與因子B間有正向的交互作用。圖c中,當因子B取低水平時,因子A的高水平的指標均值比A的低水平的高。