徹底理解正態分布——強大的數學分析工具

2020-12-05 老胡說科學

每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。

什麼是正態分布?

正態分布也被稱為高斯分布或鐘形曲線(因為它看起來像一個鍾),這是統計學中最重要的概率分布,就像我們在大自然中經常看到的那樣,它有點神奇。例如,身高、體重、血壓、測量誤差、智商得分等都服從正態分布。

還有一個跟它相關的,並且非常重要的概念,叫中心極限定理,這將在以後的文章中討論。

現在,參考上面的圖像,並了解一個正常變量的值是如何分布的。這是一個對稱分布,其中大多數觀測值聚集在具有最高發生概率的中心峰(均值/平均值)附近,並且當我們在兩個方向上都偏離中心峰時,我們看到曲線尾部出現值的可能性越來越小。此圖描繪了一個群體的智商水平,可以理解,智商水平非常低或智商水平很高的人很少見,並且大多數人都處於平均智商得分範圍內。

我們周圍的很多很多變量都可以用這個正態分布來描述。想想所有同事到達辦公室所需要的時間,只有少數人會住在5分鐘或2個多小時的距離內(尾部)。大多數人將在20分鐘-70分鐘的距離(即峰值附近的區域)。當你研究越來越多的正態分布的變量時,你會發現它無處不在。

正態分布的參數

正態分布總是以平均值為中心,而曲線的寬度則由標準差(SD)決定。

這是兩個正態分布,x軸上的高度單位是英寸,y軸上是特定高度對應的人數。

嬰兒的平均身高為20英寸(50cm),標準差為0.6英寸(1.5cm)。成年人的平均分布為70英寸(175cm),標準差為4英寸(10cm)了解正態分布標準差的意義在於,它遵循一個經驗法則,即大約95%的測量值落在均值附近的+/- 2倍個標準差之間。

推論:95%的人口落在平均值+/- 2*SD之間

95%的嬰兒身高在20 +/- 1.2英寸之間95%的成年人身高測量值在70 +/- 8英寸之間正態分布的第一個參數是均值

均值或平均值是正態分布的集中趨勢,它決定了曲線峰值的位置。平均值的變化導致曲線沿x軸水平移動。

正態分布的第二個參數是標準差SD

標準差是正態分布變異性的量度,它決定了曲線的寬度。SD值的變化導致曲線變得更窄或更寬,並對曲線的高度產生反比例的影響。

更緊的曲線(較小的寬度)->更高的高度更寬的曲線(更高的寬度)->更短的高度現在,你已經了解了正態分布曲線的所有基礎知識。讓我們繼續學習與之相關的其他重要信息。

所有正態分布的共同特徵

它們都是對稱的。平均值=中位數根據經驗法則,我們可以確定正態分布曲線離均值標準差範圍內的數據百分比。通過一個示例,這一點將變得更加清楚。

讓我們來看一個披薩外賣的例子。假設一家披薩餐廳的平均配送時間為30分鐘,標準偏差為5分鐘。根據經驗法則,我們可以確定68%的交付時間在25-35分鐘(30 +/- 5)之間,95%在20-40分鐘(30 +/- 2*5)之間,99.7%在15-45分鐘(30 +/-3*5)之間。

當我們知道如何將統計應用於現實生活中的問題時,看到事情變得多麼直觀了嗎?我的統計學家、數據科學家/工程師、ML/AI愛好者或正在閱讀這篇文章的那些好奇的傢伙們,繼續前進吧!

在這篇文章的最後一部分,我們將學習正態分布的一個特例

標準正態分布:正態分布的特例

如前所述,正態分布根據參數值(平均值和標準差)有許多不同的形狀。標準正態分布是正態分布的一個特例,均值為0,標準差為1。這個分布也稱為Z分布。

標準正態分布上的值稱為標準分數或Z分數。標準分數表示某一特定觀測值高於或低於平均值的SD數。

例如,標準得分為1.5表示觀察到的結果比平均值高1.5個標準差。另一方面,負分數表示低於平均值的值。平均值的Z分數為0。

相關焦點

  • 教學研討|2.4 正態分布
    難點:利用正態分布解決實際問題 四、教學過程研討素材二1.教學目標(1)知識與技能目標:理解並掌握(標準)正態分布和正態曲線的概念、意義及性質,並 能簡單應用。(2) 過程與方法目標:能用正態分布、正態曲線研究有關隨機變量分布的規律,引導學生 通過觀察並探究 律,提高分析問題,解決問題的能力;培養學生數形結合,函數與方程等數學思想方法。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    18,19世紀以來,天文學伴隨著人們數學工具的支撐,也獲得了空前的發展,特別是牛頓萬有引力定律確定之後,人們第一次可以用數學來精準地描述地球外面的世界。這裡對於行星軌道的確定尤其如此。直到8年之後的1809年,高斯認為此項研究已經成熟,於是公布了他的方法,這個分析工具就是最小二乘法。最小二乘法的誕生契機是儘量減小測量數據的累積誤差,並且有一套規則。
  • 為什么正態分布如此常見?
    正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
  • 一文搞懂「正態分布」所有重要知識點
    作者:丁點helper來源:丁點幫你正態分布,這個我們從中學就學過的內容,真有這麼重要嗎?我想,真正學懂統計的人對這一點是不會質疑的,且不談特別高深的統計理論,徹底弄懂正態分布是靈活運用統計學中各種假設檢驗方法、看懂p值,理解均數置信區間的前提。
  • 徹底理解中心極限定理——最重要的統計定理之一
    在閱讀任何其他正態分布之前,必須了解一個先決條件概念,請閱讀我關於正態分布的文章徹底理解正態分布——強大的數學分析工具,它是中心極限定理的完美前傳。計算100這樣的樣本的均值並將其畫在直方圖上,這樣的分布對我們來說並不陌生。樣本均值是正態分布!推論:我們從指數數據分布開始,但從中抽取樣本的均值得到正態分布。我們從指數數據分布開始,但是從中抽取的樣本均值得到正態分布。
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 測量值不服從正態分布該怎麼辦?
    在統計過程控制中,為什麼數值不服從正態分布,如果不服從正態分析,我們又該怎麼處理?問:在統計過程控制的活動中,計量型特徵值不服從正態分布是怎麼回事?答:正態分布是我們基於樣本信息,對其背後虛構的總體中數值的分布情況進行描述用的,當樣本數據證明背後的總體不服從正態分布時,我們應該先考慮數據的來源。1、在統計過程控制中,為什麼特徵值不服從正態分布?
  • 高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!
    高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!正態分布的應用,如隨機變量在某一區間取值的概率,一般以解答題的形式出現.解題時注意對相關概念的理解和相關公式的應用.1.正態曲線及其特點我們把函數x∈(-∞,+∞)(其中μ是樣本均值,σ是樣本標準差)的圖象稱為正態分布密度曲線,簡稱正態曲線.
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    問題是通常是,你可能會找到特定的數據集分布,這些分布可能不滿足正態性,即正態分布的性質。但由於過度依賴於常態假設,大多數業務分析框架都是為處理正態分布數據集而量身定做的。假設你被要求檢測來自某個流程(工程或業務)的一批新數據是否有意義。所謂「有意義」是指新的數據是否屬於它的「預期範圍」,或者在它的「預期範圍」之內。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    幾個非常常見的統計學概念,簡單粗暴的基礎概念,初步理解。方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 標準正態分布函數數值表怎麼查?
    最近在整理數據時,忽然想到數理統計的其中一種分布,相信作為質量人一定不陌生,我們常常提到數據的分布是否服從正態分布,這是對一組連續數據分布一種描述
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    ),若隨機變量X服從一個數學期望為μ、方差為σ^2的高斯分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 從微積分角度證明「正態分布密度函數」
    沒錯如下和正態分布中概率密度函數很像。但我們僅從積分學的角度來分析正面它。·證明它靈活的數學技巧,你準備好了嗎?時,e^>1+x,將x換成x^2或者-x^2可得,可得所以很快得到一個等式,那麼對於任意的自然數n,我們有分別加上積分符號,得到:所以根據廣義積分的收斂你可以輕易得到:為了讓大家更好理解
  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 正態分布及其應用
    ,最終趨向於圖3「中間高,兩邊低」的「鍾型」曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。圖 4圖5中兩條正態曲線的平均值相同,但是形狀不同,實線的正態曲線更加「矮胖」,而虛線的正態曲線更加
  • 偏度與峰度的正態性分布判斷
  • 正態分布基本概念及Excel實現
    正態分布在統計中至關重要,主要有以下三個原因:正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    」  正態性檢驗  很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。  常用方法: 非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。  二、假設檢驗  參數檢驗  參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關係數等)進行的檢驗。