高中就開始學的正態分布,原來如此重要

2020-12-05 機器之心Pro

選自Medium

作者:Farhad Malik

機器之心編譯

參與:李詩萌、張倩

我們從高中就開始學正態分布,現在做數據分析、機器學習還是離不開它,那你有沒有想過正態分布有什麼特別之處?為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。

機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。

我會從最基礎的內容開始解釋,以便讀者們理解為什么正態分布如此重要。

文章結構如下:

什麼是概率分布?什麼是正態分布?為什麼變量如此青睞正態分布如何用 Python 查看查看特徵的分布?其它分布變一變也能近似正態分布

Unsplash,由 timJ 發布。

先讓我們來看一點背景知識:

1. 首先,要注意的最重要的一點是,正態分布也被稱為高斯分布。

2. 它是以天才卡爾·弗裡德裡希·高斯(Carl Friedrich Gauss)的名字命名的。

3. 最後需要注意的是,簡單的預測模型一般都是最常用的模型,因為它們易於解釋,也易於理解。現在補充一點:正態分布因為簡單而流行。

因此,正態概率分布很值得我們去花時間了解。

什麼是概率分布?

想像我們正在自己的數據科學項目中構建感興趣的預測模型:

如果我們想準確地預測變量,那麼首先我們要了解目標變量的基本行為。我們先要確定目標變量可能輸出的結果,以及這個可能的輸出結果是離散值(孤立值)還是連續值(無限值)。簡單點解釋就是,如果我們要評估骰子的行為,那麼第一步是要知道它可以取 1 到 6 之間的任一整數值(離散值)。然後下一步是開始為事件(值)分配概率。因此,如果一個值不會出現,則概率為 0%。

概率越高,事件發生的可能性就越大。

Unsplash,Brett Jordan 發布

舉個例子,我們可以大量重複一個實驗,並記錄我們檢索到的變量值,這樣概率分布就會慢慢展現在我們的面前。

每次實驗產生一個值,這些值可以分配到類別/桶中了。對每個桶來說,我們可以記錄變量值出現在桶裡的次數。例如,我們可以扔 10,000 次骰子,每次骰子會產生 6 個可能的值,我們可以創建 6 個桶。並記錄每個值出現的次數。

我們可以根據這些值作圖。所作曲線就是概率分布曲線,目標變量得到一個值的概率就是該變量的概率分布。

理解了值的分布方式後,就可以開始估計事件的概率了,甚至可以使用公式(概率分布函數)。因此,我們可以更好地理解它的行為。概率分布依賴於樣本的矩,比如平均值、標準差、偏度及峰度。如果對所有概率求和,總和為 100%。

現實世界中存在很多概率分布,最常用的是「正態分布」。

什麼是正態概率分布

如果對概率分布作圖,得到一條倒鐘形曲線,樣本的平均值、眾數以及中位數是相等的,那麼該變量就是正態分布的。

這是正態分布鐘形曲線的示例:

上面是一個變量的高斯分布圖形,像神經網絡那樣上百萬的參數量,每個參數都有自己獨立的分布形狀,還有極其恐怖的聯合分布形狀。這種高維聯合分布就主導了不同任務的表現,因此理解和估計目標變量的概率分布是很重要的。

以下變量非常接近正態分布:

1. 人群的身高

2. 成年人的血壓

3. 擴散後的粒子的位置

4. 測量誤差

5. 人群的鞋碼

6. 員工回家所需時間

此外,我們周圍的大部分變量都呈置信度為 x% 的正態分布(x<100)。所以說,生活中經常出現的各種變量,差不多都能用高斯分布描述。

好理解的正態分布

正態分布是只依賴數據集中兩個參數的分布,這兩個參數分別是:樣本的平均值和標準差。

平均值——樣本中所有點的平均值。標準差——表示數據集與樣本均值的偏離程度。

分布的這一特性讓統計人員省事不少,因此預測任何呈正態分布的變量準確率通常都很高。值得注意的是,一旦你研究過自然界中大多數變量的概率分布,你會發現它們都大致遵循正態分布。

正態分布很好解釋。因為:

1. 分布的均值、眾數和中位數是相等的;

2. 我們只要用平均值和標準差就可以解釋整個分布。

為什麼這麼多變量近似正態分布?

為什麼樣本一多,那麼總會有一堆樣本都非常普通?這個想法背後有這樣一個定理:你在大量隨機變量上多次重複一個實驗時,它們的分布總和將非常接近正態性(normality)。

人的身高是一個基於其他隨機變量(比如一個人所消耗的營養量、他們居住的環境以及他們的基因等)的隨機變量,這些隨機變量的分布總和最終是非常接近正態的。這就是中心極限定理。

我們從前文了解到,正態分布是許多隨機分布的和。如果我們對正態分布密度函數作圖,那所作曲線有如下特性:

這個鐘形曲線平均值為 100,標準差為 1。

平均值是曲線的中心。這是曲線的最高點,因為大多數點都在平均值附近;曲線兩側點的數量是相等的。曲線中心的點數量最多;曲線下的面積是變量能取的所有值的概率和;因此曲線下面的總面積為 100%。

上圖介紹了非常出名的 3σ原則,即:

約有 68.2% 的點落在 ±1 個標準差的範圍內約有 95.5% 的點落在 ±2 個標準差的範圍內約有 99.7% 的點落在 ±3 個標準差的範圍內。

這樣我們就可以輕鬆地估計出變量的波動性,還可以給出一個置信水平,估計它可能取的值是多少。例如,在上面的灰色鍾型曲線中,變量值出現在 101~99 之間的概率約為 68.2%。想像一下,當你根據這樣的信息做決定時,你的信心有多充足。

概率分布函數

正態分布的概率密度函數是:

概率密度函數本質上是連續隨機變量取某些值的概率。例如想知道變量出現在 0 到 1 之間,它的概率就能通過概率密度函數求出。

如果你用計算好的概率密度函數繪製概率分布曲線,那麼給定範圍的曲線下的面積就描述了目標變量在該範圍內的概率。概率分布函數是根據多個參數(如變量的平均值或標準差)計算得到的。我們可以用概率分布函數求出隨機變量在一個範圍內取值的相對概率。舉個例子,我們可以記錄股票的日收益,把它們分到合適的桶中,然後找出未來收益概率在 20~40% 的股票。標準差越大,樣本波動越大。

如何用 Python 找出特徵分布?

我用過的最簡單的方法是在 Pandas 的 DataFrame 中加載所有特徵,然後直接調用它的方法找出特徵的概率分布:

這裡的 bins 表示分布的柱狀數量。當然上面並不是一個正態分布,那麼當變量滿足正態分布時,它意味著什麼?

這意味著,如果你把大量分布不同的隨機變量加在一起,你的新變量最終也服從正態分布,這就是中心極限定理的魅力。此外,服從正態分布的變量會一直服從正態分布。舉個例子,如果 A 和 B 是兩個服從正態分布的變量,那麼:

AxB 服從正態分布;A+B 服從正態分布。

變量還是乖乖地變成正態分布吧

如果樣本滿足某個未知的分布,那麼通過一系列操作,它總是能變成正態分布。相反,標準正態分布的疊加與轉換,也一定能變化為任意未知分布。從標準正態轉換到未知分布,就是很多機器學習模型希望做到的,不論是視覺中的 VAE 或 GAN,還是其它領域的模型。

但對於傳統統計學,我們更希望將特徵的分布轉換成正態分布,因為正態分布簡單又好算呀。下面展示了幾種轉換為標準正態的方法,像相信變換什麼的,在高中都有學過。

1. 線性變換

我們收集到作為變量的樣本後,就可以用下面的公式對樣本做線性變換,從而計算出

Z 分數計算平均值計算標準差

用下式根據每一個值 x 計算出 Z

以前 x 可能服從某個未知分布,但是歸一化後的 Z 是服從正態分布的。嗯,這就是做批量歸一化或其它歸一化的好處吧。

2.Box-cox 變換

你可以用 Python 的 SciPy 包將數據轉換成正態分布:

scipy.stats.boxcox(x, lmbda=None, alpha=None)

3.YEO-JOHBSON 變換

此外,也可以用強大的 yeo-johnson 變換。Python 的 sci-kit learn 提供了合適的函數:

sklearn.preprocessing.PowerTransformer(method=』yeo-johnson』, standardize=True, copy=True)

最後,非常重要的一點是,在沒有做任何分析的情況下假設變量服從正態分布是很不明智的。

以遵循泊松分布(Poisson distribution)、t 分布(student-t 分布)或二項分布(Binomial distribution)的樣本為例,如果錯誤地假設變量服從正態分布可能會得到錯誤的結果。

原文連結:https://medium.com/fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3

相關焦點

  • 最接近神的數學公式—正態分布
    我們從高中就開始學正態分布,現在做數據分析、機器學習還是離不開它,那你有沒有想過正態分布有什麼特別之處?
  • 神奇的正態分布
    、泊松分布,有連續型的均勻分布、指數分布、t分布、卡方分布、F分布、正態分布等等,其中正態分布無疑最為常見、應用也最為廣泛。正態分布不但其曲線優雅,而且其密度函數也很有數學美感,特別是其標準化後的概率密度函數非常簡潔漂亮。更令人驚訝的是,兩個最重要的數學常量π,e都出現在了公式之中,使得其具有一些神秘色彩。生物統計學家高爾頓對正態分布推崇備至:「我幾乎不曾見過像誤差呈正態分布這麼激發人們無窮想像的宇宙秩序」。 正態分布因其分布形狀似同古代鑄鐘,故也稱為鍾型分布。
  • 為什麼說正態分布的標準化很重要
    為什麼說正態分布的標準化很重要 http://kaoyan.eol.cn  中國教育在線考研頻道    2006-10-31  大 中 小
  • 多個變量結果的正態分布 - CSDN
    多元正態分布轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:多元正態分布檢驗的R實現方法。多元正態分布也稱多元高斯分布。如同正態分布在單變量分析中的地位類似,在對多個因變量(多元)同時進行分析時,常常假設因變量組合成的向量服從一個多元正態分布。
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    高斯分布(Gaussian distribution),也稱正態分布,最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    可能有的老師上課的時候會跟學生們強調這個概率分布很重要,但是沒有形象的案例來做支撐,總是讓人覺得莫名其妙。棣莫弗得出的這個分布函數也是正態分布第一次出現在人類的數學成果裡。雖然棣莫弗第一個得出了這個密度分布函數,但是他並沒有對這個分布再進行深入研究,棣莫弗本質上並不是一個數理統計學家,他認為這只是一種看起來優美的概率分布曲線。他完全沒有想到這個分布與誤差分析有什麼關係。
  • 智商有正態分布效應很正常,不正常的是學習成績也有正態分布效應
    智商有正態分布效應,這很正常,但不正常的是學習成績也有正態分布效應。所謂的正態分布,意思就是普通人佔據了絕大多數,傻子和天才都是極少數。作為天生的因素,正態分布是可以理解的,但是後天的教育導致的成績,仍然呈正態分布,這就讓人無法容忍了。我個人親身的體會,在當時我們縣有兩所中學A和B,A的分數線高出了B很多,基本只收中考前500名的學生,B只收剩下的。
  • 內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布
    內容範圍:正態分布,泊松分布,多項分布,二項分布,伯努利分布簡述:正態分布是上述分布趨於極限的分布,屬於連續分布。其它屬於離散分布。伯努利分布(兩點分布/0-1分布):伯努利試驗指的是只有兩種可能結果的單次隨機試驗。如果對伯努利試驗獨立重複n次則為n重伯努利試驗。
  • 精品圖表|Excel繪製直方圖與正態分布曲線
    今日更新:Excel繪製直方圖與正態分布曲線老樣子,還是先上幾幅不同配色的圖來看一下:作圖思路先對原始的數據進行分割(組),計算每個分組的頻數與正態分布後。然後插入柱形圖與折線圖,調整柱形的分類間距與折線的平滑度即可。
  • 搞不定Alevel正態分布?一招教你拿下!
    我們就正態分布(Normal distribution)這一個知識點,對其中常考題型跟大家分析。首先我們要明確的一點是正態分布應用的前提是我們在分析連續的數據,比如人的身高,時間等。在之前學過的histogram中,我們知道area=k*frequency,如果讓k為n分之一,那麼area=frequency/n,也就是probability,如果我們把數據看作一個整體,我們會得到一個曲線,我們就稱這個曲線為概率密度函數(probability density function).
  • 淺談生活中的正態分布和二八法則
    在幾百年的統計研究中,發現關於生活中各類「值」的分布有很多種,但影響最大最普遍的是兩種分布,一個是正態分布,一個是冪次分布,也就是二八法則。 正態分布是最早進入研究人員視野的,拉普拉斯、奎特雷、巴卡爾等人發現人的身高、體重,壽命,胸圍等等都符合正態分布的規律,一度試圖用「平均人」的概念來解釋整個社會,雖然沒有完全成功,但深遠的影響了很多後來學者,例如達爾文等。
  • 大自然遵循正態分布 隨機佛系存在規律
    正態分布的英文是 Normal Distribution,英文原意取 Normal 意思就是正常的,自然的分布。正態分布也稱常態分布,由於高斯對正態分布的貢獻及影響極大,正態分布又名高斯分布。一個彈珠一路滾下來會多次選擇方向,最終的分布會接近正態分布。
  • 教學研討|2.4 正態分布
    (2) 過程與方法目標:能用正態分布、正態曲線研究有關隨機變量分布的規律,引導學生 通過觀察並探究 律,提高分析問題,解決問題的能力;培養學生數形結合,函數與方程等數學思想方法。2.學情分析(1)認知結構:在必修三的學習中,學生已經掌握了統計等知識,這為學生理解利用頻率分布直方圖來研究小球的分布規律奠定了基礎。但正態分布的密度函數表達式較為複雜抽象,學生理解比較困難。
  • 2014考研數學:認識正態分布標準化的重要性
    2014考研數學:認識正態分布標準化的重要性 http://kaoyan.eol.cn      2013-05-28  大 中 小   考研數學指導:認識正態分布標準化的重要性
  • 因不符合正態分布,教務處要求改低學生分數!中南大學吳老師怒了
    因不符合正態分布,教務處要求改低學生分數!中南大學吳老師怒了。吳老師自述了事情的經過。小編大概整理了一下事情的原委。中南大學教務處工作人員找到吳老師,要求吳老師對18級軟體專業的學生分數進行修改,既然要求修改,肯定有原因,教務處給出的原因是:學生分數不符合「正態函數分布」!正態函數,大家看一下,下面的圖,這個就是正態函數分布。
  • 不符合正態分布 - CSDN
    本期「科研加油站」欄目,我們討論一下不符合正態分布兩組數據的非參數檢驗。對問題的分析本問題是探討男性患者組和女性患者組之間的接受度評分是否相同,因為此數據不符合正態分布,不能採用獨立樣本t檢驗方法,因此選用Mann-Whitney
  • 專家:符合正態分布理論
    他們在接受記者採訪時談到:所謂的「低口碑高票房」現象,其實完全符合正態分布理論,尤其是越來越多電影公司上市,越來越多電影人成為上市公司股東之後。文化領域裡的很多現象,其實都是經濟現象。他們直言,在此基礎上討論問題,才更有現實意義。  誰在定義口碑?誰在貢獻票房?
  • 從零開始學統計(五)——泊松分布
    服從下面分布:。嗯,泊松分布既然是從二項分布推導出來的,那麼泊松分布的應用前提與二項分布一樣(回想一下!),外加一條:n很大且π很小,屬於稀有發生事件。泊松分布具有以下特性:1)總體的均數與方差相等,均為;2)具備「可加性」卻不具備「可乘性」;3)當
  • 中南大學回應「成績正態分布」:分數無誤 溝通有誤
    紅網時刻長沙1月15日訊(記者 賀衛玲)1月13日,中南大學吳嘉老師提交《軟體需求工程》課程成績給學院審核,在審核過程中,學院發現成績分布異常,提醒吳老師對成績進行覆核確認。之後,吳嘉老師在朋友圈發布「答卷很好,我不可能給低分」有關信息,引起網友關注和討論。
  • 光明時評:要求學生考試分數正態分布的管理不在正態
    作者:儲朝暉 日前,某大學特聘副教授怒懟教務辦要求「改低學生分數,成績分數服從正態分布」的消息引發關注。事實上,有這種要求的不只一兩所大學的教務辦,有關部門這樣做是基於不同教師對學生考核的打分標準不同,想在老師給出的分數過高或者過低的情況下增加一次調節。