為什么正態分布如此常見?

2021-01-19 量化研究方法

自然界中存在大量的正態分布,比如女性的身高:


圖片出自這裡。


正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?


每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。

----加布裡埃爾·李普曼




弗朗西斯·高爾頓爵士(1822-1911),查爾斯·達爾文的表弟,英格蘭維多利亞時代的博學家、人類學家、優生學家、熱帶探險家、地理學家、發明家、氣象學家、統計學家、心理學家和遺傳學家。


他發明了一個叫做高爾頓釘板的裝置,展示了正態分布的產生過程:





我們來看看高爾頓釘板的細節,或許有助於我們理解正態分布為什麼常見。彈珠往下滾的時候,撞到釘子就會隨機選擇往左邊走,還是往右邊走:一顆彈珠一路滾下來會多次選擇方向,最終的分布會接近正態分布:自然界中為什麼會有那麼多正態分布?下面開始胡謅了。比如開頭提到的女性身高,受到多個因素的影響,比如:家裡面的飲食習慣,比如吃素還是吃葷,吃牛肉還是吃豬肉要不對身高產生正面影響,要不對身高產生負面影響,最終讓整體女性的身高接近正態分布。中心極限定理說了,在適當的條件下,大量相互獨立隨機變量的均值經適當標準化後依分布收斂於正態分布,其中有三個要素:每次採樣受到各種隨機性的影響,就好像釘板中的釘子,對採樣結果進行或者正面、或者負面的影響,最終讓結果形成了正態分布。頂上只有一處開口:這是要求彈珠的起始狀態一致。類比女性身高的例子,就是要求至少物種一致,總不能豬和人一起比較。換成數學用語就是要求同分布開口位於頂部中央:這倒無所謂,開在別的位置,分布形態不變,只是平移在醫學研究中很多分布就不是正態分布,對實施了前列腺癌症治療的病人進行前列腺特異性抗原(Prostate specific antigen)的檢測,檢測結果的分布不是正態分布:首先,樣本取自實施了前列腺癌症治療的病人,這些病人往往有各種各樣的疾病,並不是全體人類樣本,也就是說不夠隨機,所以結果很可能會偏向某一邊。因此我們對之前的數據取自然對數,結果就接近於正態分布了(這就是對數正態分布):看上去還有點偏向左邊,或許是因為採樣不是取自全體人類,導致隨機性不夠。以上數據及圖片來自於《What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics》。財富分布也是有乘法效應在裡面,這就是所謂的「馬太效應」:多說幾句自己的感想吧,對於財富分布,我們大家肯定都希望自己往橫坐標的右側靠近。
那麼在每次碰到釘板中的釘子時,都需要做出往左走還是往右走的選擇,所以我們需要努力提高自己,使自己的選擇比扔硬幣的正確率高,減少隨機性,這樣才能儘量往右走。

相關焦點

  • 思維模型17 - Normal distribution | 正態分布
    在不確定的世界裡尋找確定性除了大數定律之外,另一個重要的思維模型就是正態分布。生活中影響事物的因素可能太多太多,儘管這些事物的根本原因可能是未知的,但很多事物都近似的服從正態分布。正態分布正態分布又稱高斯分布,是一個常見的連續概率分布,它的樣子類似於寺廟裡的大鐘,因此人們又經常稱之為鐘形曲線。正態分布曲線的樣子就像下圖,說名字可能不清楚,但很多同學一看到圖就恍然大悟,原來這就是正態分布啊。
  • 關於正態分布和貝塔分布的案例介紹
    打開APP 關於正態分布和貝塔分布的案例介紹 賈恩東 發表於 2020-10-12 11:25:57 正態分布 正態分布,是一種非常常見的連續概率分布,其也叫做常態分布(normal distribution),或者根據其前期的研究貢獻者之一高斯的名字來稱呼,高斯分布(Gaussian distribution)。正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 怎樣用通俗易懂的文字解釋正態分布及其意義?
    0.0 神說,要有正態分布,於是就有了正態分布。*0.1 神看正態分布是好的,就讓隨機誤差都隨了正態分布。平均分數分布情況大概是什麼樣呢?畫個圖感受一下:正態分布二、為什么正態分布這麼常見呢?學過基礎統計學的同學大都對正態分布非常熟悉,但是很難用通俗的語言解釋什麼是正態分布,主要原因是正態分布需要有一個前置知識【中心極限定理】。如果誤差可以看成許多微小量的疊加,則根據中心極限定理[1],隨機誤差理所當然是正態分布[2]。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 一文搞懂「正態分布」所有重要知識點
    從名字說起為什麼叫「正態分布」,也有地方叫「常態分布」,這兩個名字都不太直觀,但如果我們各取一字變為「正常分布」,就很白話了,而這正是「正態分布」的本質含義,Normal Distribution。它太常見了,基本上能描述所有常見的事物和現象:正常人群的身高、體重、考試成績、家庭收入等等。這裡的描述是什麼意思呢?
  • 如何使用標準正態分布表?
    正態分布這個概念在統計學中很常見,在做與正態分布有關計算的時候經常會用到標準正態分布表。
  • 正態分布及其應用
    ,最終趨向於圖3「中間高,兩邊低」的「鍾型」曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。圖 4圖5中兩條正態曲線的平均值相同,但是形狀不同,實線的正態曲線更加「矮胖」,而虛線的正態曲線更加
  • 測量值不服從正態分布該怎麼辦?
    在統計過程控制中,為什麼數值不服從正態分布,如果不服從正態分析,我們又該怎麼處理?問:在統計過程控制的活動中,計量型特徵值不服從正態分布是怎麼回事?答:正態分布是我們基於樣本信息,對其背後虛構的總體中數值的分布情況進行描述用的,當樣本數據證明背後的總體不服從正態分布時,我們應該先考慮數據的來源。1、在統計過程控制中,為什麼特徵值不服從正態分布?
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 智商有正態分布效應很正常,不正常的是學習成績也有正態分布效應
    智商有正態分布效應,這很正常,但不正常的是學習成績也有正態分布效應。所謂的正態分布,意思就是普通人佔據了絕大多數,傻子和天才都是極少數。作為天生的因素,正態分布是可以理解的,但是後天的教育導致的成績,仍然呈正態分布,這就讓人無法容忍了。我個人親身的體會,在當時我們縣有兩所中學A和B,A的分數線高出了B很多,基本只收中考前500名的學生,B只收剩下的。
  • [道贏·科技] | 鋰電生產製程數據不服從正態分布,正常嗎?
    在日常工作中,正態分布是我們最為常見的數據分布類型。但很多時候,我們會發現自己的數據分布樣式 」千奇百怪「 ,與正態分布相比相去甚遠。那麼,一組數據不服從正態分布,正常嗎?如果不服從正態分布的數據暗示著某些異常的話,發生的又是什麼問題呢?為了回答這些問題,先要從正態分布的產生原理說起......正態分布是如何產生的?
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 徹底理解正態分布——強大的數學分析工具
    每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。什麼是正態分布?
  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 教學研討|2.4 正態分布
    ▍來源:網絡 研討素材一一、教學目標1、了解正態分布的意義2、掌握正態分布曲線的主要性質及正態分布的簡單應用3、利用正態分布的性質、特點解決高考中關於正態分布的問題二、學情分析學生整體基礎薄弱,不過全班大部分學生能跟上現有進度,上課發言積極,個別同學表現的比較出色三、重點難點重點:1.正態分布曲線的特點;2.正態分布曲線所表示的意義
  • 偏度與峰度的正態性分布判斷
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。
  • 正態分布基本概念及Excel實現
    正態分布在統計中至關重要,主要有以下三個原因:正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。
  • 正態分布圖形的編輯
    分布密度=正態分布概率函數,分布密度=正態分布函數,最後一個參數給到0,=NORM.DIST(A7,$B$1,$B$2,FALSE)選擇0通俗的含義是,我們給到圖形中的高度.這個時候,你可以選擇分布密度的整個系列,插入一個堆積面積圖,則會得到:然後我們需要在這個面積圖的基礎之上,再給它一個面積堆積,達到自由切換的效果,而上圖藍色的部分則是基於我們的基本數據給出來的底層正態模型,自己切換或者變化的面積也必須要在這個藍色的面積範圍以內.