什麼是正態分布?知道它有什麼用?

2020-12-05 星球日報

什麼是正態分布?正態分布(Normal Distribution),也被稱為高斯分布,代表著概率的分布情況,是統計學中的一個重要概念。

在科學理論不甚發達的過去,早期科學家們往往先從觀察事物現象開始,發現、記錄並試圖歸納、總結,最後抽象出背後的規律。

當一組觀察數據或樣本涉及到「平均」和「偏差」時,它們出現的頻率往往會被描繪成下面這條曲線:

圖自百度百科

圖中橫軸代表著樣本數值,縱軸則是某一樣本數值對應的出現概率,其中這條曲線即正態分布曲線。

觀察這個圖形,正態曲線呈現出「鍾」形,以 x=μ (均數所在的位置)為中心左右對稱。曲線與橫軸無窮接近,合成的面積為 1,代表所有樣本出現的概率之和為 100%。

以數學的語言描繪這條曲線,

公式中包含兩個參數,期望(均數)μ 和標準差 σ。

我們也常用更簡化的形式描述什麼是正態分布:N(μ,σ^2);μ 代表著分布的集中趨勢,橫軸上離 μ 越接近的值,出現的概率越大; σ^2 (方差)代表數據分布的離散程度,σ 越大,數據分布越分散,曲線越「矮胖」。

事實上,很多變量(包括生成製造、科學實驗、一部分自然界現象)的分布都接近正態分布,比如一群人的身高或腳的大小,我每天上班所需要的時間,一個班級裡所有學生的語文成績。

之所以會出現這種規律,是由於上述樣本基於大量隨機變量上重複「實驗」,就像我每天都上班 = 重複(唉),而地鐵有沒有擠到兩趟都上不去、我有沒有因為玩手機而坐過站、步行的兩個路口遇到了紅燈還是綠燈等這些變量 = 隨機。

其背後的理論支撐叫做中心極限定理(對數學史感興趣的朋友可以點擊n重伯努利試驗進一步了解)。

了解了什麼是正態分布,對我們有什麼用呢?

你可以試著找到現實生活中類似「上班時長」的重複隨機事件,記錄不同的情況出現的次數,統計頻率並描繪成圖(Excel 就可以輕鬆實現),檢查下它的形狀,是否接近正態分布。

當你積累足夠多的數據,出現某種「神秘」的規律特徵後,未發生的事件會大概率落在一個可信的區間內。

相信讀到這裡,你已經大致了解了什麼是正態分布,並可以在生活中發現它的存在,並利用它來「預測未來」。

相關焦點

  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    因為無論是正態分布的性質還是表達式都非常的簡潔:它的均值(mean)、中值(median)和眾數(mode)都相同只需要用兩個參數就可以確定整個分布所以問題在哪呢?這看起來都挺棒的啊,有什麼問題嗎?問題是通常是,你可能會找到特定的數據集分布,這些分布可能不滿足正態性,即正態分布的性質。但由於過度依賴於常態假設,大多數業務分析框架都是為處理正態分布數據集而量身定做的。假設你被要求檢測來自某個流程(工程或業務)的一批新數據是否有意義。所謂「有意義」是指新的數據是否屬於它的「預期範圍」,或者在它的「預期範圍」之內。
  • 思維模型17 - Normal distribution | 正態分布
    正態分布正態分布又稱高斯分布,是一個常見的連續概率分布,它的樣子類似於寺廟裡的大鐘,因此人們又經常稱之為鐘形曲線。正態分布曲線的樣子就像下圖,說名字可能不清楚,但很多同學一看到圖就恍然大悟,原來這就是正態分布啊。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 怎樣用通俗易懂的文字解釋正態分布及其意義?
    0.0 神說,要有正態分布,於是就有了正態分布。*0.1 神看正態分布是好的,就讓隨機誤差都隨了正態分布。學過基礎統計學的同學大都對正態分布非常熟悉,但是很難用通俗的語言解釋什麼是正態分布,主要原因是正態分布需要有一個前置知識【中心極限定理】。如果誤差可以看成許多微小量的疊加,則根據中心極限定理[1],隨機誤差理所當然是正態分布[2]。
  • 正態分布及其應用
    之後,如果我們想要知道男生身高數據的分布情況,比如1.7米至1.75米之間,有多少人,佔所有男生的比例是多少,我們應該怎麼做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區間等分成若干組,統計每一組男生的人數和頻率。然後,在平面直角坐標系中,用橫坐標代表身高,縱坐標是每個小組的頻率除以相應的組距,並繪製出相應的矩形,每個矩形的面積就是該小組的頻率。
  • 關於正態分布和貝塔分布的案例介紹
    正態分布 正態分布,是一種非常常見的連續概率分布,其也叫做常態分布(normal distribution),或者根據其前期的研究貢獻者之一高斯的名字來稱呼,高斯分布(Gaussian distribution)。正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 徹底理解正態分布——強大的數學分析工具
    每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。什麼是正態分布?
  • 一文搞懂「正態分布」所有重要知識點
    從名字說起為什麼叫「正態分布」,也有地方叫「常態分布」,這兩個名字都不太直觀,但如果我們各取一字變為「正常分布」,就很白話了,而這正是「正態分布」的本質含義,Normal Distribution。它太常見了,基本上能描述所有常見的事物和現象:正常人群的身高、體重、考試成績、家庭收入等等。這裡的描述是什麼意思呢?
  • 正態分布的常用數據 - CSDN
    常用的正態分布檢驗方法有以下幾種:1.基於偏度和峰度的假設檢驗基於偏度-峰度的檢驗是利用了正態分布偏度(3階矩)和峰度(4階矩)都為0的特點。如果樣本數據能滿足偏度和峰度均為0的假設,則可以認為總體服從正態分布。由於該檢驗是基於偏度檢驗和峰度檢驗的,樣本數量需要8個以上。以下normaltest函數就使用該原理進行正態分布檢驗。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    可能有的老師上課的時候會跟學生們強調這個概率分布很重要,但是沒有形象的案例來做支撐,總是讓人覺得莫名其妙。棣莫弗得出的這個分布函數也是正態分布第一次出現在人類的數學成果裡。雖然棣莫弗第一個得出了這個密度分布函數,但是他並沒有對這個分布再進行深入研究,棣莫弗本質上並不是一個數理統計學家,他認為這只是一種看起來優美的概率分布曲線。他完全沒有想到這個分布與誤差分析有什麼關係。
  • 什麼是正態分布圖?
    【正態分布圖】正態分布,也稱「常態分布」或「高斯分布」,是連續隨機變量概率分布的一種,常常應用於質量管理控制:為了控制實驗中的測量或實際誤差,常以作為上、下警戒值,以作為上、下控制值,這樣做的依據是:正常情況下測量或實驗誤差服從正態分布。
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 如何使用標準正態分布表?
    正態分布這個概念在統計學中很常見,在做與正態分布有關計算的時候經常會用到標準正態分布表。
  • 為什么正態分布如此常見?
    正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 正態分布基本概念及Excel實現
    正態分布在統計中至關重要,主要有以下三個原因:正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。
  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 偏度與峰度的正態性分布判斷
  • 高中數學中二項分布與正態分布知道是什麼嗎?會計算相關問題嗎?
    >一、條件概率的計算解決條件概率問題的步驟:①判斷是否為條件概率,若題目中出現已知,在……前提下等字眼,一般為條件概率,題目中若沒有出現上述字眼,但已知事件的出現影響所求時間的概率時,也需注意是否為條件概率,若為條件概率,則進行下一步;②計算概率,這裡有兩種思路