最接近神的數學公式—正態分布

2021-01-19 數學與人工智慧


我們從高中就開始學正態分布,現在做數據分析、機器學習還是離不開它,那你有沒有想過正態分布有什麼特別之處?為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。我會從最基礎的內容開始解釋,以便讀者們理解為什么正態分布如此重要。


Unsplash,由 timJ 發布。


1. 首先,要注意的最重要的一點是,正態分布也被稱為高斯分布。

2. 它是以天才卡爾·弗裡德裡希·高斯(Carl Friedrich Gauss)的名字命名的。

3. 最後需要注意的是,簡單的預測模型一般都是最常用的模型,因為它們易於解釋,也易於理解。現在補充一點:正態分布因為簡單而流行。


因此,正態概率分布很值得我們去花時間了解。


什麼是概率分布?


想像我們正在自己的數據科學項目中構建感興趣的預測模型:


如果我們想準確地預測變量,那麼首先我們要了解目標變量的基本行為。

我們先要確定目標變量可能輸出的結果,以及這個可能的輸出結果是離散值(孤立值)還是連續值(無限值)。簡單點解釋就是,如果我們要評估骰子的行為,那麼第一步是要知道它可以取 1 到 6 之間的任一整數值(離散值)。

然後下一步是開始為事件(值)分配概率。因此,如果一個值不會出現,則概率為 0%。


概率越高,事件發生的可能性就越大。


Unsplash,Brett Jordan 發布


舉個例子,我們可以大量重複一個實驗,並記錄我們檢索到的變量值,這樣概率分布就會慢慢展現在我們的面前。

每次實驗產生一個值,這些值可以分配到類別/桶中了。對每個桶來說,我們可以記錄變量值出現在桶裡的次數。例如,我們可以扔 10,000 次骰子,每次骰子會產生 6 個可能的值,我們可以創建 6 個桶。並記錄每個值出現的次數。

我們可以根據這些值作圖。所作曲線就是概率分布曲線,目標變量得到一個值的概率就是該變量的概率分布。

理解了值的分布方式後,就可以開始估計事件的概率了,甚至可以使用公式(概率分布函數)。因此,我們可以更好地理解它的行為。概率分布依賴於樣本的矩,比如平均值、標準差、偏度及峰度。如果對所有概率求和,總和為 100%。

現實世界中存在很多概率分布,最常用的是「正態分布」。


什麼是正態概率分布


如果對概率分布作圖,得到一條倒鐘形曲線,樣本的平均值、眾數以及中位數是相等的,那麼該變量就是正態分布的。


這是正態分布鐘形曲線的示例:



上面是一個變量的高斯分布圖形,像神經網絡那樣上百萬的參數量,每個參數都有自己獨立的分布形狀,還有極其恐怖的聯合分布形狀。這種高維聯合分布就主導了不同任務的表現,因此理解和估計目標變量的概率分布是很重要的。


以下變量非常接近正態分布:


1. 人群的身高

2. 成年人的血壓

3. 擴散後的粒子的位置

4. 測量誤差

5. 人群的鞋碼

6. 員工回家所需時間


此外,我們周圍的大部分變量都呈置信度為 x% 的正態分布(x<100)。所以說,生活中經常出現的各種變量,差不多都能用高斯分布描述。


好理解的正態分布


正態分布是只依賴數據集中兩個參數的分布,這兩個參數分別是:樣本的平均值和標準差。


平均值——樣本中所有點的平均值。

標準差——表示數據集與樣本均值的偏離程度。


分布的這一特性讓統計人員省事不少,因此預測任何呈正態分布的變量準確率通常都很高。值得注意的是,一旦你研究過自然界中大多數變量的概率分布,你會發現它們都大致遵循正態分布。


正態分布很好解釋。因為:


1. 分布的均值、眾數和中位數是相等的;

2. 我們只要用平均值和標準差就可以解釋整個分布。


為什麼這麼多變量近似正態分布?


為什麼樣本一多,那麼總會有一堆樣本都非常普通?這個想法背後有這樣一個定理:你在大量隨機變量上多次重複一個實驗時,它們的分布總和將非常接近正態性(normality)。


人的身高是一個基於其他隨機變量(比如一個人所消耗的營養量、他們居住的環境以及他們的基因等)的隨機變量,這些隨機變量的分布總和最終是非常接近正態的。這就是中心極限定理。


我們從前文了解到,正態分布是許多隨機分布的和。如果我們對正態分布密度函數作圖,那所作曲線有如下特性:



這個鐘形曲線平均值為 100,標準差為 1。




上圖介紹了非常出名的 3σ原則,即:


約有 68.2% 的點落在 ±1 個標準差的範圍內

約有 95.5% 的點落在 ±2 個標準差的範圍內

約有 99.7% 的點落在 ±3 個標準差的範圍內。


這樣我們就可以輕鬆地估計出變量的波動性,還可以給出一個置信水平,估計它可能取的值是多少。例如,在上面的灰色鍾型曲線中,變量值出現在 101~99 之間的概率約為 68.2%。想像一下,當你根據這樣的信息做決定時,你的信心有多充足。


概率分布函數


正態分布的概率密度函數是:



概率密度函數本質上是連續隨機變量取某些值的概率。例如想知道變量出現在 0 到 1 之間,它的概率就能通過概率密度函數求出。


如果你用計算好的概率密度函數繪製概率分布曲線,那麼給定範圍的曲線下的面積就描述了目標變量在該範圍內的概率。

概率分布函數是根據多個參數(如變量的平均值或標準差)計算得到的。

我們可以用概率分布函數求出隨機變量在一個範圍內取值的相對概率。舉個例子,我們可以記錄股票的日收益,把它們分到合適的桶中,然後找出未來收益概率在 20~40% 的股票。

標準差越大,樣本波動越大。


如何用 Python 找出特徵分布?


我用過的最簡單的方法是在 Pandas 的 DataFrame 中加載所有特徵,然後直接調用它的方法找出特徵的概率分布:



這裡的 bins 表示分布的柱狀數量。當然上面並不是一個正態分布,那麼當變量滿足正態分布時,它意味著什麼?


這意味著,如果你把大量分布不同的隨機變量加在一起,你的新變量最終也服從正態分布,這就是中心極限定理的魅力。此外,服從正態分布的變量會一直服從正態分布。舉個例子,如果 A 和 B 是兩個服從正態分布的變量,那麼:



變量還是乖乖地變成正態分布吧


如果樣本滿足某個未知的分布,那麼通過一系列操作,它總是能變成正態分布。相反,標準正態分布的疊加與轉換,也一定能變化為任意未知分布。從標準正態轉換到未知分布,就是很多機器學習模型希望做到的,不論是視覺中的 VAE 或 GAN,還是其它領域的模型。


但對於傳統統計學,我們更希望將特徵的分布轉換成正態分布,因為正態分布簡單又好算呀。下面展示了幾種轉換為標準正態的方法,像相信變換什麼的,在高中都有學過。


1. 線性變換


我們收集到作為變量的樣本後,就可以用下面的公式對樣本做線性變換,從而計算出 



用下式根據每一個值 x 計算出 Z



以前 x 可能服從某個未知分布,但是歸一化後的 Z 是服從正態分布的。嗯,這就是做批量歸一化或其它歸一化的好處吧。


2.Box-cox 變換


你可以用 Python 的 SciPy 包將數據轉換成正態分布:


scipy.stats.boxcox(x, lmbda=None, alpha=None)



3.YEO-JOHBSON 變換


此外,也可以用強大的 yeo-johnson 變換。Python 的 sci-kit learn 提供了合適的函數:


sklearn.preprocessing.PowerTransformer(method=』yeo-johnson』, standardize=True, copy=True)


最後,非常重要的一點是,在沒有做任何分析的情況下假設變量服從正態分布是很不明智的。


以遵循泊松分布(Poisson distribution)、t 分布(student-t 分布)或二項分布(Binomial distribution)的樣本為例,如果錯誤地假設變量服從正態分布可能會得到錯誤的結果。


相關焦點

  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    ,雖然中學時期的所有數學教材裡都會提到正太公式,考試上也是熱門,但是對於這個公式的來源以及重大意義卻從來不提。並且我們也會得出一個經驗方法, 那就是測量的數據越多,求出來的算術平均值就越接近真實值。因此,正態分布跟最小二乘法的關係實在非比尋常!由於高斯的傑出工作,正態分布又叫高斯分布。高斯基於正態分布給出的最小二乘法,大大拓寬了正態分布的應用,這個密度函數在整個數理統計領域遠遠要超過其他任何分布。實際上正態分布也是存在最廣泛的分布,甚至可以沒有之一!
  • 神奇的正態分布
    正態分布不但其曲線優雅,而且其密度函數也很有數學美感,特別是其標準化後的概率密度函數非常簡潔漂亮。更令人驚訝的是,兩個最重要的數學常量π,e都出現在了公式之中,使得其具有一些神秘色彩。生物統計學家高爾頓對正態分布推崇備至:「我幾乎不曾見過像誤差呈正態分布這麼激發人們無窮想像的宇宙秩序」。 正態分布因其分布形狀似同古代鑄鐘,故也稱為鍾型分布。
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    原標題: 為什麼數據科學家都鍾情於最常見的正態分布?   高斯分布(Gaussian distribution),也稱正態分布,最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。
  • 2014考研數學:認識正態分布標準化的重要性
    2014考研數學:認識正態分布標準化的重要性 http://kaoyan.eol.cn      2013-05-28  大 中 小   考研數學指導:認識正態分布標準化的重要性
  • 高中就開始學的正態分布,原來如此重要
    其它分布變一變也能近似正態分布Unsplash,由 timJ 發布。先讓我們來看一點背景知識:1. 首先,要注意的最重要的一點是,正態分布也被稱為高斯分布。2.最後需要注意的是,簡單的預測模型一般都是最常用的模型,因為它們易於解釋,也易於理解。現在補充一點:正態分布因為簡單而流行。因此,正態概率分布很值得我們去花時間了解。什麼是概率分布?
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。
  • 重回數學:統計與分布之伯努利分布與二項分布
    前文列表重回數學:統計分布之泊松分布重回數學:統計與分布之高斯分布重回數學:排列與組合
  • 高斯函數---最接近上帝的函數
    而且,我將高斯函數稱為最接近上帝的函數。−b)22c2)高斯函數的確有很多特別之處,雖然我並不能夠真正完全洞悉它的內在,但我依然認為它是最接近上帝的函數用數學的語言來說,就是高斯函數是Fourier變換的特徵函數。由此可見,高斯函數在函數群體裡,的確屬於法力很高的一個,因此我將其稱為最接近上帝的函數(如果你喜歡,你也可以稱其為最接近如來佛的函數)。如果你覺得上面的這個說法太過於「神化」,那我們就來個科學的。熱力學定律被認為是宇宙的基本法則,包含了能量守恆,熵等等。當然,扯上了「熵」就會有「時間之箭」之類的。此非我專長,就此打住。
  • 高斯函數 ——最接近上帝的函數
    在所有函數裡面,如果讓我選擇一個最特別的函數,我會選擇高斯函數
  • 怎樣用通俗易懂的文字解釋正態分布及其意義?
    0.0 神說,要有正態分布,於是就有了正態分布。*0.1 神看正態分布是好的,就讓隨機誤差都隨了正態分布。家裡面的飲食習慣,每天吃素還是吃葷(當然喜歡吃肉),每天吃牛肉還是吃豬肉(都喜歡)每天是否運動(當然),每天做了什麼運動(遊泳)等等等的每一個因素,每天的行為,就像剛才拋硬幣一樣,這些因素要不對身高產生正面影響,要不對身高產生負面影響,最終讓整體身高接近正態分布
  • 伯努利分布、二項分布與負二項分布
    相比於正態分布,伯努利分布、二項分布與負二項分布均屬於離散型概率分布。用來表徵,隨機變量取值的概率分布規律。
  • 搞不定Alevel正態分布?一招教你拿下!
    我們就正態分布(Normal distribution)這一個知識點,對其中常考題型跟大家分析。首先我們要明確的一點是正態分布應用的前提是我們在分析連續的數據,比如人的身高,時間等。解決這部分概率題我們要會看表,以下為總結的公式可以供大家參考。
  • 多個變量結果的正態分布 - CSDN
    多元正態分布轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:多元正態分布檢驗的R實現方法。多元正態分布也稱多元高斯分布。如同正態分布在單變量分析中的地位類似,在對多個因變量(多元)同時進行分析時,常常假設因變量組合成的向量服從一個多元正態分布。
  • 大自然遵循正態分布 隨機佛系存在規律
    正態分布的英文是 Normal Distribution,英文原意取 Normal 意思就是正常的,自然的分布。正態分布也稱常態分布,由於高斯對正態分布的貢獻及影響極大,正態分布又名高斯分布。的確有可能會出現10次都是正面,但如果拋1000次甚至上萬次,那麼統計出來的正反面次數將會接近相同。因為概率上來說各佔50%的可能性。
  • 為什么正態分布如此常見?
    自然界中存在大量的正態分布
  • 教資乾貨|中學數學概率論考點分布梳理
    概率論部分是選擇題和簡答題常考題型,難度適中,這部分重要的還是區分事件類型,掌握對應的公式計算。下面羅列概率論相關重要考點分布梳理:抽獎分析也是依據的概率論喲~古典概型;(拋硬幣實驗)幾何概型;(平面內面積佔比)互斥事件:兩個事件不可能同時發生,但可以都不發生,重要公式:P(A + B) = P(A) + P(B);舉例:擲骰子,出現1和出現2數字朝上的事件
  • Excel | 製作學生成績正態分布圖
    第一步:分析成績  對成績進行分析,分析出最大值、最小值、極差(最大值—最小值)、成績分段數量、分段間距。  下圖是分析的結果及對應公式:  第一個分段點要小於等於最小成績,然後依次加上「分段間距」,直到最後一個數據大於等於最高成績為止。實際分段數量可能與計算的「分段數」稍有一點差別。如下圖:
  • 高中數學離散型分布列問題
    3.可能性,頻率,概率以買彩票為例,買彩票可能會中獎,也可能不中獎,這就是可能性,若不以嚴格的數學定義來區別,概率是可計算出來的,是接近確定的數值,頻率是統計出來的,兩者的關聯在於概率是頻率的穩定值,即進行n次扔硬幣的試驗,當每次的實驗次數達到一定數量時,n次試驗中正面朝上的頻率就接近於概率,頻率可以作為概率的估計
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 考研數學概率與統計公式大全之隨機變量及其分布
    泊松分布 設隨機變量 的分布律為 , ,  , 則稱隨機變量 服從參數為 的泊松分布,記為 或者P( )。 泊松分布為二項分布的極限分布(np=λ,n→∞)。