自然界中存在大量的正態分布,比如女性的身高:
圖片出自這裡。
正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?
每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
----加布裡埃爾·李普曼
弗朗西斯·高爾頓爵士(1822-1911),查爾斯·達爾文的表弟,英格蘭維多利亞時代的博學家、人類學家、優生學家、熱帶探險家、地理學家、發明家、氣象學家、統計學家、心理學家和遺傳學家。
他發明了一個叫做高爾頓釘板的裝置,展示了正態分布的產生過程:
我們來看看高爾頓釘板的細節,或許有助於我們理解正態分布為什麼常見。彈珠往下滾的時候,撞到釘子就會隨機選擇往左邊走,還是往右邊走:一顆彈珠一路滾下來會多次選擇方向,最終的分布會接近正態分布:自然界中為什麼會有那麼多正態分布?下面開始胡謅了。比如開頭提到的女性身高,受到多個因素的影響,比如:家裡面的飲食習慣,比如吃素還是吃葷,吃牛肉還是吃豬肉要不對身高產生正面影響,要不對身高產生負面影響,最終讓整體女性的身高接近正態分布。中心極限定理說了,在適當的條件下,大量相互獨立隨機變量的均值經適當標準化後依分布收斂於正態分布,其中有三個要素:每次採樣受到各種隨機性的影響,就好像釘板中的釘子,對採樣結果進行或者正面、或者負面的影響,最終讓結果形成了正態分布。頂上只有一處開口:這是要求彈珠的起始狀態一致。類比女性身高的例子,就是要求至少物種一致,總不能豬和人一起比較。換成數學用語就是要求同分布開口位於頂部中央:這倒無所謂,開在別的位置,分布形態不變,只是平移在醫學研究中很多分布就不是正態分布,對實施了前列腺癌症治療的病人進行前列腺特異性抗原(Prostate specific antigen)的檢測,檢測結果的分布不是正態分布:首先,樣本取自實施了前列腺癌症治療的病人,這些病人往往有各種各樣的疾病,並不是全體人類樣本,也就是說不夠隨機,所以結果很可能會偏向某一邊。因此我們對之前的數據取自然對數,結果就接近於正態分布了(這就是對數正態分布):看上去還有點偏向左邊,或許是因為採樣不是取自全體人類,導致隨機性不夠。以上數據及圖片來自於《What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics》。財富分布也是有乘法效應在裡面,這就是所謂的「馬太效應」:多說幾句自己的感想吧,對於財富分布,我們大家肯定都希望自己往橫坐標的右側靠近。
那麼在每次碰到釘板中的釘子時,都需要做出往左走還是往右走的選擇,所以我們需要努力提高自己,使自己的選擇比扔硬幣的正確率高,減少隨機性,這樣才能儘量往右走。