顧名思義,正態乃常態之意,正態分布是描述自然界中大多數事物整體分布存在普遍性的一種概率分布,現實生活的許多數據——比如智力、考試成績、工資收入、股價變動等等都服從正態分布,微小粒子的無規則運動也不例外。正態分布在統計學的許多方面有著重大的影響力,因而在數據分析界佔據著非常重要的地位。
正態分布又被稱為高斯分布。在那個年代,正態分布還不是叫「正態分布」。
約翰·卡爾·弗裡德裡希·高斯,是近代數學奠基者之一,和前篇出場過的歐拉、阿基米德以及仍在候場的牛頓並列為世界四大數學家。
1777年4月30日,高斯出生於德國一個貧窮的猶太人家庭,但出色的數學天賦使他年少成名,成就了這位「數學王子」碩果纍纍的一生,享年77歲,以「高斯」命名的成果達110個,涵蓋數學和物理學的多個分支。
1801年1月,一顆叫「穀神星」的小行星被觀測到,但很快就逃離了天文學家們的視線,年僅24歲的高斯憑藉少量的觀測數據便能準確地預測該行星再次出現的位置,震驚了整個歐洲。他在對觀測數據進行分析時,從最小二乘法的角度研究測量誤差,利用極大似然估計推導出該誤差服從的便是正態分布,從而解決了對誤差大小的統計度量問題,因此「高斯分布」得以冠名,也因此在前聯邦德國流通貨幣上還能看到高斯的大頭照和正態分布密度曲線。
雖然以「高斯分布」為名,但正態分布最早是由棣莫弗在求二項分布的漸近公式中發現,在拉普拉斯對此進行了一番擴展性的研究分析之後,它最終以二項分布的極限分布的形式被推導了出來(所以那個時候正態分布在法國曾被稱為「拉普拉斯分布」),也就是在高等數學中的棣莫弗-拉普拉斯中心極限定理。
中心極限定理描述的是在自然界與生產中,一些現象受到許多相互獨立的隨機因素的影響,當每個因素所產生的影響都很微小時,總的影響可以看作是服從正態分布的。這就是自然規律,萬物相互聯繫而且相互作用,正態分布所表達的就是這種相互影響的結果。
正態分布的密度函數看似複雜,實則不然,最重要的兩個數學常量π和e都包含在公式之中,另外兩個變量μ和δ分別代表了正態分布的期望和標準差,便足以描繪出大千世界之中事物相互作用而形成的最終形態,一目了然。其標準化後的公式更為簡潔漂亮。
其函數曲線呈鐘形形狀,左右對稱,十分美觀,從正中間的期望峰值根據誤差大小同時向左右兩端逐漸下降,誤差越小,峰值越高,下降速度越快,反映了向平均值中心靠攏的密集程度。
簡單來說,數據分析可以是對世界上所有事物身上的數字進行研究。所以在數據分析的領域裡,正態分布是許多統計方法的理論基礎,檢驗、方差分析、相關和回歸分析等均要求分析的指標服從正態分布,應用於頻數分布的估計、參考值範圍的確定和產品質量的控制等等。
儘管一些數據本身並不服從正態分布,但在做足夠大的樣本分析時更加要求相應的統計量近似正態分布,正是因為中心極限定理,當越多個因素影響疊加時,總的分布越接近正態分布。
注: 本文部分圖片來自網絡,若有侵權請聯繫刪除。
聲明: 龍數視界原創文章,轉載請註明出處。