正態分布為什麼常見

2021-01-14 深度學習初學者

作者:阮一峰

連結:

http://www.ruanyifeng.com/blog/2017/08/normal-distribution.html

編輯:石頭


統計學裡面,正態分布(normal distribution)最常見 。男女身高、壽命、血壓、考試成績、測量誤差等等,都屬於正態分布。


以前,我認為中間狀態是事物的常態,過高和過低都屬於少數,這導致了正態分布的普遍性。最近,讀到了 John D. Cook 的文章,才知道我的這種想法是錯的。


正態分布為什麼常見?真正原因是中心極限定理(central limit theorem)


"多個獨立統計量的和的平均值,符合正態分布。"



上圖中,隨著統計量個數的增加,它們和的平均值越來越符合正態分布。

根據中心極限定理,如果一個事物受到多種因素的影響,不管每個因素本身是什麼分布,它們加總後,結果的平均值就是正態分布。


舉例來說,人的身高既有先天因素(基因),也有後天因素(營養)。每一種因素對身高的影響都是一個統計量,不管這些統計量本身是什麼分布,它們和的平均值符合正態分布。(注意:男性身高和女性身高都是正態分布,但男女混合人群的身高不是正態分布。)


許多事物都受到多種因素的影響,這導致了正態分布的常見。


讀到這裡,讀者可能馬上就會提出一個問題:正態分布是對稱的(高個子與矮個子的比例相同),但是很多真實世界的分布是不對稱的 。



比如,財富的分布就是不對稱的,富人的有錢程度(可能比平均值高出上萬倍),遠遠超出窮人的貧窮程度(平均值的十分之一就是赤貧了),即財富分布曲線有右側的長尾。相比來說,身高的差異就小得多,最高和最矮的人與平均身高的差距,都在30%多。

這是為什麼呢,財富明明也受到多種因素的影響,怎麼就不是正態分布呢?


原來,正態分布只適合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強影響,那麼就不是正態分布了。一個人是否能夠掙大錢,由多種因素決定:


家庭

教育

運氣

工作

...


這些因素都不是獨立的,會彼此加強 。如果出生在上層家庭,那麼你就有更大的機會接受良好的教育、找到高薪的工作、遇見好機會,反之亦然。也就是說,這不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。

統計學家發現,如果各種因素對結果的影響不是相加,而是相乘,那麼最終結果不是正態分布,而是對數正態分布(log normal distribution),即 x 的對數值log(x)滿足正態分布 。



這就是說,財富的對數值滿足正態分布。如果平均財富是10,000元,那麼1000元~10,000元之間的窮人(比平均值低一個數量級,寬度為9000)與10,000元~100,000元之間的富人(比平均值高一個數量級,寬度為90,000)人數一樣多。因此,財富曲線左側的範圍比較窄,右側出現長尾。


參考連結

Why isn't everything normally distributed?, by John D. Cook

Achievement is not normal, by John D. Cook

相關焦點

  • 正態分布為什麼常見?
    本文轉自微信公眾號阮一峰的網絡日誌關注微信:哆嗒數學網 每天獲得更多數學趣文新浪微博:http://weibo.com/duodaa統計學裡面,正態分布(normal distribution)最常見。男女身高、壽命、血壓、考試成績、測量誤差等等,都屬於正態分布。
  • 生活中的「正態分布曲線」
    拿一般的大學來說,這個大學中的學生學習和不學習是最符合正態分布曲線圖的。再比如比這個大學稍微好一點的大學可能右邊的比例會稍微高一些,左邊的比例會相對較小,但是這種波動是在正態分布曲線波動範圍內的,以此類推稍微差一點的大學。一個大學中不可能都是愛學習的學生,這只是一個理想的期望。一個大學中也不可能也都是完全不愛學習的學生,這就到達了事物的最極端。
  • 為什么正態分布如此常見?
    可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。他發明了一個叫做高爾頓釘板的裝置,展示了正態分布的產生過程:我們來看看高爾頓釘板的細節,或許有助於我們理解正態分布為什麼常見。
  • 不知道正態分布與貝塔分布?一文都讓你GET
    本文通過案例介紹了正態分布正態分布正態分布,是一種非常常見的連續概率分布正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    原標題: 為什麼數據科學家都鍾情於最常見的正態分布?即使你沒有參與過任何人工智慧項目,也一定遇到過高斯模型,今天就讓我們來看看高斯過程為什麼這麼受歡迎。   高斯分布(Gaussian distribution),也稱正態分布,最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。
  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    高斯分布的定義   高斯分布怎麼來的,很簡單。   高斯分布為何在自然界如此常見高斯分布的信息熵最大。即,高斯分布是最混亂系統。   這裡有個前提條件是方差一定,這個條件在物理學家的眼中可以意味著漲落,可以是統計學上的能量的漲落(比如maxwell速度矢量分布的方差是確定的kt/m),或者是不確定關係下的漲落。   自然會趨向於最熵增和低能量態。這是熱力學的最簡單運行軌跡。
  • 正態分布為何如此重要
    正態分布非常簡單,這就是它是如此的常用的原因。因此,理解正態分布非常有必要。什麼是概率分布?首先介紹一下相關概念。考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。本文的核心:我們從上文的分析得出,正態分布是許多隨機分布的總和。 如果我們繪製正態分布密度函數,那麼它的曲線將具有以下特徵:如上圖所示,該鐘形曲線有均值為 100,標準差為1:均值是曲線的中心。
  • 正態分布為何如此重要?
    正態分布非常簡單,這就是它是如此的常用的原因。因此,理解正態分布非常有必要。02 什麼是概率分布?首先介紹一下相關概念。考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。如果我們想精確預測一個變量的值,那麼我們首先要做的就是理解該變量的潛在特性。
  • 2016考研數學:概率論之常見隨機變量分布總結
    原標題:2016考研數學:概率論之常見隨機變量分布總結 提到考研數學,很多同學都能想到高數和線代。其實概率論與數理統計也是數學一和數學三中的考查重點,而且往往是難點。同學們在學習概率的時候覺得有難度。
  • 必考知識點,CFA一級數量分析-常見概率分布-下
    配圖 來源於網絡編碼:0008[Quantitative Methods][Common Probability distribution-2]因為篇幅的限制,我們上一篇文章只說了一半,在這一篇文章中,我們會繼續進行常見的概率分布內容的分享
  • 為什麼我被V社封號了?Dota2常見封號原因介紹
    為什麼我被V社封號了?Dota2常見封號原因介紹 DOTA2 貼吧 ▪ 2014-05-30 10:28:36
  • 曾經在稻田中常見的董雞,現在卻見不到了,這是為什麼?
    曾經在稻田中常見的董雞,現在卻見不到了,這是為什麼?說到雞,相信大家都不會陌生,尤其是在農村地區,即使是現在很多人都會在自己家裡散養幾隻雞,沒事下下蛋,有了什麼特殊的日子也可來殺來食用,養起來也很方便。
  • 小時候常見的曼陀羅花,為什麼現在很少看到它的身影?
    小時候有很多常見的植物,雖然不知道名字,但是感覺它們非常神奇,比如下面要說到的曼陀羅花,在常年沒有霜凍的偏南地區,曼陀羅花可以長成高大的灌木和喬木,花朵非常大,像是一個個彩色的喇叭。曼陀羅花友非常多的花色,包括常見的黃色、白色、粉色和紫色等花卉,盆栽養護要注意定期補充一些堆肥土和微酸性的糞肥,有利促進根莖生長健壯,孕育更多的花苞。