什麼是正態分布?正態分布(Normal Distribution),也被稱為高斯分布,代表著概率的分布情況,是統計學中的一個重要概念。
在科學理論不甚發達的過去,早期科學家們往往先從觀察事物現象開始,發現、記錄並試圖歸納、總結,最後抽象出背後的規律。
當一組觀察數據或樣本涉及到「平均」和「偏差」時,它們出現的頻率往往會被描繪成下面這條曲線:
圖自百度百科
圖中橫軸代表著樣本數值,縱軸則是某一樣本數值對應的出現概率,其中這條曲線即正態分布曲線。
觀察這個圖形,正態曲線呈現出「鍾」形,以 x=μ (均數所在的位置)為中心左右對稱。曲線與橫軸無窮接近,合成的面積為 1,代表所有樣本出現的概率之和為 100%。
以數學的語言描繪這條曲線,
公式中包含兩個參數,期望(均數)μ 和標準差 σ。
我們也常用更簡化的形式描述什麼是正態分布:N(μ,σ^2);μ 代表著分布的集中趨勢,橫軸上離 μ 越接近的值,出現的概率越大; σ^2 (方差)代表數據分布的離散程度,σ 越大,數據分布越分散,曲線越「矮胖」。
事實上,很多變量(包括生成製造、科學實驗、一部分自然界現象)的分布都接近正態分布,比如一群人的身高或腳的大小,我每天上班所需要的時間,一個班級裡所有學生的語文成績。
之所以會出現這種規律,是由於上述樣本基於大量隨機變量上重複「實驗」,就像我每天都上班 = 重複(唉),而地鐵有沒有擠到兩趟都上不去、我有沒有因為玩手機而坐過站、步行的兩個路口遇到了紅燈還是綠燈等這些變量 = 隨機。
其背後的理論支撐叫做中心極限定理(對數學史感興趣的朋友可以點擊n重伯努利試驗進一步了解)。
了解了什麼是正態分布,對我們有什麼用呢?
你可以試著找到現實生活中類似「上班時長」的重複隨機事件,記錄不同的情況出現的次數,統計頻率並描繪成圖(Excel 就可以輕鬆實現),檢查下它的形狀,是否接近正態分布。
當你積累足夠多的數據,出現某種「神秘」的規律特徵後,未發生的事件會大概率落在一個可信的區間內。
相信讀到這裡,你已經大致了解了什麼是正態分布,並可以在生活中發現它的存在,並利用它來「預測未來」。