方差與標準差:衡量數據的離散程度

2021-03-02 長尾夾筆記

方差和標準差是統計和概率中重要參數

科學家發現了現實中很多情況,如果只用平均值沒有任何參考意義,甚至會誤導決策的判斷,歷史上由羅納德·費雪首先提出了方差的概念來解決這個問題。

方差開平方根後得到標準差(又稱標準偏差、均方差),標準差和原始測量數據具有相同單位,方便分析比較。

統計學中的方差

在統計學中,在總體數量為N,個體數據為X,平均值為u,則方差E^2公式如下:

每個個體數據X與平均值u的差值的平方,再求和,再除以樣本數量N。

在實際中,接觸到更多的是樣本數據,樣本數量為N,樣本個體數據為X,樣本平均值為u,則樣本方差S^2公式如下:

樣本數量越多,樣本方差就越接近總體方差S^2≈E^2。

對於樣本方差公式中特別注意的是要除以N-1,最主要的原因就是樣本的平均值不等於總體的平均值,所以樣本中(X-u)^2的偏差和會小於(或等於)總體中的偏差和,最後需要除以N-1進行無偏修正,其實在實際應用中如果樣本數量足夠多,除以N或N-1基本一樣,對後面的分析計算沒有影響。

具體證明可在下方 點擊原文 查看知乎的講解(https://www.zhihu.com/question/20099757)

概率論中的方差

在概率中,方差的概念稍有不同。

概率論中,存在兩種隨機變量情況:離散型隨機事件連續型隨機事件。

離散型隨機事件:在一定區間內變量取值為有限個。最典型的例子是投色子,色子有6個面,是可以窮舉的。

連續型隨機事件:在一定區間內變量取值有無限個(數值無法一個一個列舉出來)。最典型的例子是某地區人們身高。

假設離散性事件中,隨機變量Xi的對應發生的概率為Pi,這個離散性事件中期望E為隨機變量的概率乘以其變量值的總和。可得離散事件的方差公式Dξ如下(兩等式均可以計算):

假設連續型隨機事件中,隨機變量X的對應發生的概率函數為F(X),且存在期望E(如果一個連續分布不存在期望值,則不存在方差,不予定義)。可得連續事件的方差公式Dξ如下:

統計學中的方差都很常見,就暫不舉例了。以下舉例一個方差在概率論中的應用:

在一個賭場中,有兩種賭博遊戲,已知不同收益對應的不同概率如下:

遊戲1:

收益Xi-10-9-8-61216.5概率Pi0.200.180.160.140.120.20

遊戲2:

收益Xi-9-8912概率Pi0.400.200.200.20

對於遊戲1:

期望E=(-10*0.2)+(-9*0.18)+(-8*0.16)+(-6*0.14)+(12*0.12)+(16.5*0.2)=-1

(用第一個等式計算)方差Dξ=0.2*(-10-(-1))^2+0.18*(-9-(-1))^2+0.16*(-8-(-1))^2+0.14*(-6-(-1))^2+0.12*(12-(-1))^2+0.2*(16.5-(-1))^2=120.59

對於遊戲2:

期望E=(-9*0.4)+(-8*0.2)+(9*0.2)+(12*0.2)=-1

(用第二個等式計算)方差Dξ=0.4*(-9)^2+0.2*(-8)^2+0.2*9^2+0.2*12^2-(-1)^2=78.5

以上兩個遊戲收入期望一樣(說明長期玩下去肯定賠錢),且遊戲1方差要大於遊戲2方差,說明遊戲1的遊戲過程可能更刺激。

相關焦點

  • 數據離散程度描述
    所謂離散,是個相對概念,需要用一個標準來衡量。因為均值是最重要也是最常用的指標,所以就成為衡量離散程度的一個常用標準。方法就是用各項數據與與均值相減,通常將這個差值稱為離差(Deviation)。方差克服了平均差絕對值的問題,成為描述離散程度的一個重要指標。但是,在方差數值含義的解釋上卻遇到困難。因為方差的單位是數據單位的平方,誇大了數據的離散程度,使人不易直觀理解數值意義。
  • 離散程度的度量:異眾比率、四分位差和標準差
    本期我們要講與之對應的三個數:異眾比率、四分位差、標準差。它們反映的是各變量值遠離其中心值的程度。或者說,反映出眾數、中位數、平均數能不能代表一組數據。數據的離散程度越大,集中數值對該組數據的代表性就越差;離散程度越小,其代表性就越好。
  • 002衡量系統偏離的算法:方差,標準差與變異係數
    在實際應用中,除了需要觀察一組數據平均值水平外,還需要了解觀察值之間的偏離情況或集中位置等。衡量算法有幾種:也叫全距,一組數據中的最大值與最小值的差值。優點是可以快速簡單的觀察數據的總體離散程度,但是,①粗略。一旦數據量變大,很難準確判斷中間數據的分布情況。②不穩定。如果把兩邊離散的數據去掉一定比例,則會趨於穩定。
  • 數據的離散程度描述
    限於篇幅,生活案例的具體分析過程可以本文截取的《人人都會數據分析》書籍獲取。方差和標準差平均偏差使用絕對值來消除負號的影響,另一種消除負號影響的方法是平方,對應的離散程度指標是方差和標準差。方差利用平方克服了離差和等於0的問題,與平均偏差的絕對值有異曲同工之妙。但是方差同樣有其局限性,因為方差的單位是數據單位的平方,誇大了數據集合的離散程度。
  • CG03-投資項目的風險及風險的衡量方法:預期值、標準差、方差、變異係數
    :單一變量衡量:期望值、方差、標準差、變異係數變量之間:協方差、相關係數、貝塔係數期望值 :反應預計收益的平均化,不能直接用來衡量風險。方差:衡量離散程度,當期望值相同時,方差越大,風險越大    ①先求差②再求方③最後算平均
  • 方差的計算公式 方差和標準差公式等
    方差的計算公式,方差和標準差公式,方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 統計學原理 離散程度的度量
    非眾數組的頻數佔總頻數的比例用于衡量眾數的代表性順序數據:四分位差四分位差 (quartile deviation)對順序數據離散程度的測度也稱為內距或四分間距上四分位數與下四分位數之差Qd = QU – QL反映了中間50%數據的離散程度不受極端值的影響用于衡量中位數的代表性
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式   方差和標準差公式 方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 使用R計算方差與標準差
    概述描述樣本值的離散程度,最常用的指標是方差和標準差,它們與前面所說的全距(極差)只使用了兩個極值情況不同,它們利用了樣本的全部信息去描述數據取值的分散性。計算方差的公式方差是各樣本相對均值的偏差平方和的平均。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 標準差與標準誤的區別
    對於標準差與標準誤的區別,很多書上這樣表達:標準差表示數據的離散程度,標準誤表示抽樣誤差的大小。這樣的解釋可能對於許多人來說等於沒有解釋。其實這兩者的區別可以採用數據分布表達方式描述如下:如果樣本服從均值為μ,標準差為δ的正態分布,即X~N(μ, δ2),那麼樣本均值服從均值為0,標準差為δ2/n的正態分布,即~ N(μ,δ2/n)。這裡δ為標準差,δ/n1/2為標準誤。明白了吧,用統計學的方法解釋起來就是這麼簡單。
  • 描述數據離散趨勢的特徵值
    (1)極差  極差是數據中最大值與最小值之差,是用數據變動的幅度來反映其分散狀況的特徵值。極差計算簡單、使用方便,但粗略,數值僅受兩個極端值的影響,損失的質量信息多,不能反映中間數據的分布和波動規律,僅適用於小樣本。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 什麼是標準偏差?| 數據百科 #007
    標準差(Standard Deviation)各數據偏離平均數的距離(離均差)的平均數,它是離差平方和平均後的方根。用σ表示。因此,標準差也是一種平均數。標準差是方差的算術平方根。  標準差能反映一個數據集的離散程度。平均數相同的,標準差未必相同。
  • 【乾貨】利用離散程度判斷正確的投注方向
    :離散程度,外文名Measures of Dispersion,是指通過隨機地觀測變量各個取值之間的差異程度,用來衡量風險大小的指標。離散程度的測度意義:1、通過對隨機變量取值之間離散程度的測定,可以反映各個觀測個體之間的差異大小,從而也就可以反映分布中心的指標對各個觀測變量值代表性的高低。2、通過對隨機變量取值之間離散程度的測定,可以反映隨機變量次數分布密度曲線的瘦俏或矮胖程度。
  • 數據分析應用(眾數中位數方差)
    這裡的內容在中考試題中有大概10分左右的題目內容下面我就來總結一下這裡的知識點及其一些題目的應用:1.理解平均數的意義,能計算中位數、眾數、加權平均數,了解它們是數據集中趨勢的描述。2.體會刻畫數據離散程度的意義,會計算簡單數據的方差。
  • 19考研管理類聯考初數:方差與標準差 數據的圖表表示
    今天我們就來介紹一下,在管綜數學的考試中數據分析中的一類題目:方差與標準差和數據的圖表表示。方差與標準差這部分每年大概都會考一道題,只要記住方差和標準差的公式,這部分題還是比較簡單的。那我們就一起來看一下方差與標準差:首先先來複習一個知識點平均值:我們在記住公式的同時,還要明白方差與標準差的意義,方差與標準差均能夠反映一組數據偏離平均值的程度,是反映一組數據整體波動的大小的特徵量。
  • 標準差的含義——離均值的平均距離
    方差我們還是來舉例說明什麼是方差。假設小明期末考試考了6門課,他的成績分別是60,78,77,90,92,83。那麼小明成績的方差該怎麼算呢?我們需要先算出小明的平均成績:(60+78+77+90+92+83)/6=80。然後,分別用小明每一門課的成績減去平均成績,求出差的平方,再算出這些平方的平均值。
  • 方差及其性質(一)
    方差是在概率論和數理統計中衡量隨機變量或一組數據時離散程度的度量。
  • 期望、方差與協方差
    方差期望幫助我們得到了每一局能夠期望得到的平均收益,但是如果每一次都賠錢的話,那麼賭博的樂趣在哪兒?誰還願意去賭博?期望只是表示每一局都會賠錢但是並不是表示一丁點贏錢的機會都沒有。和均值一樣,期望也有它的局限性,並沒有全面體現每一局有可能存在的收益,這時候我們就需要用到方差。