正態分布為何如此重要?

2021-01-19 和樂數學

在機器學習的世界中,以概率分布為核心的研究大都聚焦於正態分布。本文將闡述正態分布的概率,並解釋它的應用為何如此的廣泛,尤其是在數據科學和機器學習領域,它幾乎無處不在。

我將會從基礎概念出發,解釋有關正態分布的一切,並揭示它為何如此重要。

▲1893 年人類身高分布圖,作者:Alphonse Bertillon

本文的主要內容如下:

概率分布是什麼

正態分布意味著什麼

正態分布的變量有哪些

如何使用 Python 來檢驗數據的分布

如何使用 Python 參數化生產一個正態分布

正態分布的問題

01 簡短的背景介紹

首先,正態分布又名高斯分布

它以數學天才 Carl Friedrich Gauss 命名

正態分布又名高斯分布

越簡單的模型越是常用,因為它們能夠被很好的解釋和理解。正態分布非常簡單,這就是它是如此的常用的原因。

因此,理解正態分布非常有必要。

02 什麼是概率分布?

首先介紹一下相關概念。

考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。

如果我們想精確預測一個變量的值,那麼我們首先要做的就是理解該變量的潛在特性。

首先我們要知道該變量的可能取值,還要知道這些值是連續的還是離散的。簡單來講,如果我們要預測一個骰子的取值,那麼第一步就是明白它的取值是 1 到 6(離散)。

第二步就是確定每個可能取值(事件)發生的概率。如果某個取值永遠都不會出現,那麼該值的概率就是 0 。

事件的概率越大,該事件越容易出現。

在實際操作中,我們可以大量重複進行某個實驗,並記錄該實驗對應的輸出變量的結果。

我們可以將這些取值分為不同的集合類,在每一類中,我們記錄屬於該類結果的次數。例如,我們可以投 10000 次骰子,每次都有 6 種可能的取值,我們可以將類別數設為 6,然後我們就可以開始對每一類出現的次數進行計數了。

我們可以畫出上述結果的曲線,該曲線就是概率分布曲線。目標變量每個取值的可能性就由其概率分布決定。

一旦我們知道了變量的概率分布,我們就可以開始估計事件出現的概率了,我們甚至可以使用一些概率公式。至此,我們就可更好的理解變量的特性了。概率分布取決於樣本的一些特徵,例如平均值,標準偏差,偏度和峰度。

如果將所有概率值求和,那麼求和結果將會是 100%

世界上存在著很多不同的概率分布,而最廣泛使用的就是正態分布了。

03 初遇正態分布

我們可以畫出正態分布的概率分布曲線,可以看到該曲線是一個鍾型的曲線。如果變量的均值,模和中值相等,那麼該變量就呈現正態分布。

如下圖所示,為正態分布的概率分布曲線:

理解和估計變量的概率分布非常重要。

下面列出的變量的分布都比較接近正態分布:

人群的身高

成年人的血壓

傳播中的粒子的位置

測量誤差

回歸中的殘差

人群的鞋碼

一天中僱員回家的總耗時

教育指標

此外,生活中有大量的變量都是具有 x % 置信度的正態變量,其中,x<100。

04 什麼是正態分布?

正態分布只依賴於數據集的兩個特徵:樣本的均值和方差。

均值——樣本所有取值的平均

方差——該指標衡量了樣本總體偏離均值的程度

正態分布的這種統計特性使得問題變得異常簡單,任何具有正態分布的變量,都可以進行高精度分預測。

值得注意的是,大自然中發現的變量,大多近似服從正態分布。

正態分布很容易解釋,這是因為:

正態分布的均值,模和中位數是相等的。

我們只需要用均值和標準差就能解釋整個分布。

正態分布是我們熟悉的正常行為。

05 為何如此多的變量都大致服從正態分布?

這個現象可以由如下定理解釋:當在大量隨機變量上重複很多次實驗時,它們的分布總和將非常接近正態分布。

由於人的身高是一個隨機變量,並且基於其他隨機變量,例如一個人消耗的營養量,他們所處的環境,他們的遺傳等等,這些變量的分布總和最終是非常接近正態的。

這就是中心極限定理

本文的核心:

我們從上文的分析得出,正態分布是許多隨機分布的總和。如果我們繪製正態分布密度函數,那麼它的曲線將具有以下特徵:

如上圖所示,該鐘形曲線有均值為 100,標準差為 1:

更進一步,如上圖所示:

約 68.2%的點在-1 到 1 個標準偏差範圍內。

約 95.5%的點在-2 到 2 個標準偏差範圍內。

約 99.7%的點在-3 至 3 個標準偏差範圍內。

這使我們可以輕鬆估計變量的變化性,並給出相應置信水平,它的可能取值是多少。例如,在上面的灰色鐘形曲線中,變量值在 99-101 之間的可能性為 68.2%。

06 正態概率分布函數

正態概率分布函數的形式如下:

概率密度函數基本上可以看作是連續隨機變量取值的概率。

正態分布是鐘形曲線,其中 mean = mode = median。

如果使用概率密度函數繪製變量的概率分布曲線,則給定範圍的曲線下的面積,表示目標變量在該範圍內取值的概率。

概率分布曲線基於概率分布函數,而概率分布函數本身是根據諸如平均值或標準差等多個參數計算的。

我們可以使用概率分布函數來查找隨機變量取值範圍內的值的相對概率。例如,我們可以記錄股票的每日收益,將它們分組到適當的集合類中,然後計算股票在未來獲得 20-40%收益的概率。

標準差越大,樣品中的變化性越大。

07 如何使用 Python 探索變量的概率分布

最簡單的方法是加載 data frame 中的所有特徵,然後運行以下腳本(使用 pandas 庫):

DataFrame.hist(bins=10)
#Make a histogram of the DataFrame.


該函數向我們展示了所有變量的概率分布。

08 變量服從正態分布意味著什麼?

如果我們將大量具有不同分布的隨機變量加起來,所得到的新變量將最終具有正態分布。這就是前文所述的中心極限定理。

服從正態分布的變量總是服從正態分布。例如,假設 A 和 B 是兩個具有正態分布的變量,那麼:

因此,使用正態分布,預測變量並在一定範圍內找到它的概率會變得非常簡單。

09 樣本不服從正態分布怎麼辦?

我們可以將變量的分布轉換為正態分布。

我們有多種方法將非正態分布轉化為正態分布:

1. 線性變換

一旦我們收集到變量的樣本數據,我們就可以對樣本進行線性變化,並計算 Z 得分:

計算平均值

計算標準偏差

對於每個 x,使用以下方法計算 Z:

2. 使用 Boxcox 變換

我們可以使用 SciPy 包將數據轉換為正態分布:

scipy.stats.boxcox(x, lmbda=None, alpha=None)


3. 使用 Yeo-Johnson 變換

另外,我們可以使用 yeo-johnson 變換。Python 的 sci-kit learn 庫提供了相應的功能:

sklearn.preprocessing.PowerTransformer(method=』yeojohnson』,standardize=True, copy=True)


10 正態分布的問題

由於正態分布簡單且易於理解,因此它也在預測研究中被過度使用。假設變量服從正態分布會有一些顯而易見的缺陷。例如,我們不能假設股票價格服從正態分布,因為價格不能為負。因此,我們可以假設股票價格服從對數正態分布,以確保它永遠不會低於零。

我們知道股票收益可能是負數,因此收益可以假設服從正態分布。

假設變量服從正態分布而不進行任何分析是愚蠢的。

變量可以服從 Poisson,Student-t 或 Binomial 分布,盲目地假設變量服從正態分布可能導致不準確的結果。

11 總結

本文闡述了正態分布的概念和性質,以及它如此重要的原因。

希望能幫助到你。

原文連結:http://bit.ly/2NyetFz

本文轉自公眾號大數據。


溫馨提示:快速看到我們的最新文章馬上把「和樂數學」公眾號設為星標吧。打開公眾號,點擊「設為星標」即可!

相關焦點

  • 正態分布為何如此重要
    本文將闡述正態分布的概率,並解釋它的應用為何如此的廣泛,尤其是在數據科學和機器學習領域,它幾乎無處不在。我將會從基礎概念出發,解釋有關正態分布的一切,並揭示它為何如此重要。正態分布非常簡單,這就是它是如此的常用的原因。因此,理解正態分布非常有必要。什麼是概率分布?首先介紹一下相關概念。考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。
  • 正態分布為什麼常見
    以前,我認為中間狀態是事物的常態,過高和過低都屬於少數,這導致了正態分布的普遍性。最近,讀到了 John D. Cook 的文章,才知道我的這種想法是錯的。正態分布為什麼常見?真正原因是中心極限定理(central limit theorem)。
  • 正態分布為什麼常見?
    以前,我認為中間狀態是事物的常態,過高和過低都屬於少數,這導致了正態分布的普遍性。最近,讀到了 John D. Cook 的文章,才知道我的這種想法是錯的。正態分布為什麼常見?真正原因是中心極限定理(central limit theorem)。"多個獨立統計量的和的平均值,符合正態分布。"
  • 生活中的「正態分布曲線」
    拿一般的大學來說,這個大學中的學生學習和不學習是最符合正態分布曲線圖的。再比如比這個大學稍微好一點的大學可能右邊的比例會稍微高一些,左邊的比例會相對較小,但是這種波動是在正態分布曲線波動範圍內的,以此類推稍微差一點的大學。一個大學中不可能都是愛學習的學生,這只是一個理想的期望。一個大學中也不可能也都是完全不愛學習的學生,這就到達了事物的最極端。
  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。   正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。   若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。
  • 不知道正態分布與貝塔分布?一文都讓你GET
    本文通過案例介紹了正態分布正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 為何對各國如此重要? 看完你就知道了
    為何對各國如此重要?看完你就知道了 石油這種資源相信大家如今已經非常了解了,不過大家以前對於石油的了解可能就是汽車需要用到的石油,如今大家的了解可能就是國際的石油貿易了,我們從這些事情當中也已經得知了石油對於每個國家都非常的重要,那麼不知道大家想過沒有,為何石油對於每個國家都如此的重要,其實這跟它的生成原因有關。
  • 為何如此重要?
    為何聚焦「從嚴治黨」 黨的十八大以來,習近平總書記對全面從嚴治黨作出許多部署。十八屆六中全會,將進一步全面推進這項工作。整體布局,步步推進,目的就是將治黨管黨一抓到底,標本兼治,保持長效。 那麼,十八屆六中全會為何專門研究從嚴治黨的問題呢?
  • 免疫力為何如此重要?看看張文宏怎麼說
    在公共衛生事件面前,免疫力為何如此重要?新發傳染病通常有一個特點,即身體沒有針對性的抗體。在這種情況下,英國有人提出了「群體免疫」策略。群體免疫是指某個人群集體對傳染病的抵抗力,但前提是此類人群先感染上病毒,這種做法的代價太高。人體免疫可分為非特異性免疫和特異性免疫。
  • 為何街亭戰略地位如此重要?
    根據史料,街亭戰敗後,蜀軍「士卒離散」,王平帶領上千將士鳴鼓自持。距離諸葛亮的祁山大本營不足百裡,這就是為何街亭戰敗後,王平、馬謖既能又快又安全退回大本營的原因。而街亭為何會如此的重要,以至於蜀漢、曹魏都拼命的爭奪它呢?
  • 佛教中的人,為何喜歡雙手合十?原來寓意如此重要!
    佛教中的人,為何喜歡雙手合十?原來寓意如此重要!杭州有個名叫葉洪五的孩童,九歲時突然遭噩夢侵襲,驚坐而起,吐血不止,病倒了。他一直未能痊癒,任家裡用了多少辦法,都治不好。金錢對於我們的生活來說,的確很重要,但我們必須清楚金錢並不是萬能的。掙錢的目的是讓自己的生活過得更好。但錢不是神,而是僕人,如果一個人被金錢奴役,反而成了金錢的奴隸。我們不能很好地去把握和控制金錢,那麼,錢越多,對於我們的害處則越大。要知道:金錢並不是生活的全部,生活中有比金錢更重要的東西。放下包袱,讓心靈輕裝前行。
  • 數學中的相鄰思想為何如此重要?
    相鄰思想在數學歸納法中的重要意義 數學歸納法是一種數學證明方法,通常被用於證明某個給定命題在整個(或者局部)自然數範圍內成立。除了自然數以外,廣義上的數學歸納法也可以用於證明一般良基結構。為何例外偶數同所有可表偶數是累積互素關係?
  • 為什麼海拉細胞如此特殊?這些癌細胞又為何如此重要?
    那麼為什麼海拉細胞如此特殊,它又是如何拯救這麼多人的呢?    正因為如此,瓊斯決定為拉克斯進行鐳治療,這項技術是當時治療這種可怕疾病的最佳方法,不過現在已經不再使用。  然而,醫生們在拉克斯不知情的情況下拿走了她的癌細胞樣本,命名為海拉細胞,並送到附近的喬治·蓋伊博士的組織實驗室。
  • 從古至今數學家一直在算,為何它如此重要?
    這也不禁讓我們好奇,圓周率的魅力為何如此之大?數學家們又是如何計算出圓周率的呢?早在古時候,人們發現了神奇的規律,隨便畫幾個圓,無論它們的大小如何變化,周長與直徑的比值總是不變的,而想要求出比值,就必須精確的算出圓的周長。公元前250年左右,古希臘數學家阿基米德提出,可以通過一點點逼近的方法求得圓的周長,進而求出圓周率的大小。
  • 為何此次發射對美國如此重要
    此次發射,對於NASA和SpaceX都有很重要的意義,這是美國自2011而美國總統川普也會親臨現場,要知道我們這位美國總統除了在推特上特別活躍外,本尊也並不十分關心美國的情況呢,那麼為何美國如此重視此次飛行呢?
  • 為何此次發射對美國如此重要?
    美國NASA國家航空航天局的太空人羅伯特·本肯和道格拉斯·赫利將在5月27日美國東部時間16:32從佛羅裡達39A發射場搭乘獵鷹九號Falcon 9火箭升空,在SpaceX的Crew Dragon載人龍飛船飛赴國際空間站ISS 此次發射,對於NASA和SpaceX都有很重要的意義
  • Rh陰性為何如此「稀有」?
    Rh陰性為何如此「稀有」?Rh陰性血也就是俗稱的「熊貓血」。Rh血型大家應該比較熟悉了,如果您還不清楚,請移步Rh血型科普三部曲:Rh血型分為Rh陽性和Rh陰性。在中國漢族人群中,Rh陰性僅佔3-4‰。
  • 有效率遠低於mRNA疫苗,但為何牛津的腺病毒載體疫苗如此重要
    但是有了輝瑞與Moderna有效性超90%的疫苗在前,牛津的腺病毒載體疫苗為何如此重要?以下兩點值得關注:一是,有效性真有這麼低嗎?問題在於「平均」兩個字上。
  • 中國新一代「人造太陽」受到全球矚目,「人造太陽」為何如此重要
    科幻片中的人造太陽能源的重要性及能源危機對現代人類本身而言,能源與生存息息相關。核裂變:效能極高、但有安全隱患(日本核洩漏)、最重要的是核汙染,尤其是核廢料中的鈽239,毒性極大,且半衰期為2.41萬年(看到這個數字就問你崩不崩潰)。
  • 為何胡夫可以建造如此巨大的金字塔?
    為何胡夫可以建造如此巨大的金字塔? 作為埃及法老王 為什麼佔用他人之物作為自己的陵墓 但是 如果不是胡夫的話 又會是誰呢 胡夫、卡夫拉和門卡烏拉之前的法老王 都不可能建造如此巨大的墳墓