方差和標準差是統計和概率中重要參數
科學家發現了現實中很多情況,如果只用平均值沒有任何參考意義,甚至會誤導決策的判斷,歷史上由羅納德·費雪首先提出了方差的概念來解決這個問題。
方差開平方根後得到標準差(又稱標準偏差、均方差),標準差和原始測量數據具有相同單位,方便分析比較。
統計學中的方差
在統計學中,在總體數量為N,個體數據為X,平均值為u,則方差E^2公式如下:
每個個體數據X與平均值u的差值的平方,再求和,再除以樣本數量N。
在實際中,接觸到更多的是樣本數據,樣本數量為N,樣本個體數據為X,樣本平均值為u,則樣本方差S^2公式如下:
樣本數量越多,樣本方差就越接近總體方差S^2≈E^2。
對於樣本方差公式中特別注意的是要除以N-1,最主要的原因就是樣本的平均值不等於總體的平均值,所以樣本中(X-u)^2的偏差和會小於(或等於)總體中的偏差和,最後需要除以N-1進行無偏修正,其實在實際應用中如果樣本數量足夠多,除以N或N-1基本一樣,對後面的分析計算沒有影響。
具體證明可在下方 點擊原文 查看知乎的講解(https://www.zhihu.com/question/20099757)
概率論中的方差
在概率中,方差的概念稍有不同。
概率論中,存在兩種隨機變量情況:離散型隨機事件和連續型隨機事件。
離散型隨機事件:在一定區間內變量取值為有限個。最典型的例子是投色子,色子有6個面,是可以窮舉的。
連續型隨機事件:在一定區間內變量取值有無限個(數值無法一個一個列舉出來)。最典型的例子是某地區人們身高。
假設離散性事件中,隨機變量Xi的對應發生的概率為Pi,這個離散性事件中期望E為隨機變量的概率乘以其變量值的總和。可得離散事件的方差公式Dξ如下(兩等式均可以計算):
假設連續型隨機事件中,隨機變量X的對應發生的概率函數為F(X),且存在期望E(如果一個連續分布不存在期望值,則不存在方差,不予定義)。可得連續事件的方差公式Dξ如下:
統計學中的方差都很常見,就暫不舉例了。以下舉例一個方差在概率論中的應用:
在一個賭場中,有兩種賭博遊戲,已知不同收益對應的不同概率如下:
遊戲1:
收益Xi-10-9-8-61216.5概率Pi0.200.180.160.140.120.20遊戲2:
收益Xi-9-8912概率Pi0.400.200.200.20對於遊戲1:
期望E=(-10*0.2)+(-9*0.18)+(-8*0.16)+(-6*0.14)+(12*0.12)+(16.5*0.2)=-1
(用第一個等式計算)方差Dξ=0.2*(-10-(-1))^2+0.18*(-9-(-1))^2+0.16*(-8-(-1))^2+0.14*(-6-(-1))^2+0.12*(12-(-1))^2+0.2*(16.5-(-1))^2=120.59
對於遊戲2:
期望E=(-9*0.4)+(-8*0.2)+(9*0.2)+(12*0.2)=-1
(用第二個等式計算)方差Dξ=0.4*(-9)^2+0.2*(-8)^2+0.2*9^2+0.2*12^2-(-1)^2=78.5
以上兩個遊戲收入期望一樣(說明長期玩下去肯定賠錢),且遊戲1方差要大於遊戲2方差,說明遊戲1的遊戲過程可能更刺激。