為什麼數據科學家都喜歡高斯分布

2021-02-13 論智

編者按:數據科學家Abhishek Parbhakar簡潔明了地解釋了機器學習中高斯分布如此受歡迎的原因。

對深度學習和機器學習工程師而言,在世界上所有的概率模型中,高斯分布(Gaussian distribution)模型最為引人注目。即使你從來沒有進行過AI項目,有很大的機率你曾經遇到過高斯模型。

高斯分布,又稱為正態分布(Normal distribution),常常可以通過其標誌性的鐘形曲線識別出來。高斯分布如此流行,有三大原因。

高斯概率分布函數

所有的模型都是錯的,但有些模型有用!

—— George Box

擴散中的微粒的位置可以用高斯分布描述

自然科學和社會科學中有極其大量的過程天然遵循高斯分布。即使當它們並不遵循高斯分布的時候,高斯分布也往往提供最佳的逼近。一些例子:

二維平面隨機行走兩百萬步

中心極限定理表明,滿足一定條件時,大量相互獨立的隨機變量經適當標準化後,收斂於高斯分布。例如,隨機行走的總距離分趨向於高斯概率分布。

這一定理意味著專門為高斯模型開發的大量科學方法和統計學方法同樣適用於可能牽涉其他類型分布的廣闊領域內的問題。

可以認為,這一定理解釋了為什麼這麼多自然現象遵循高斯分布。

另外,高斯分布在一些轉換後仍然是高斯分布:

奧卡姆剃刀原則強調在其他條件相同時,最簡單的解是最佳解

對每個高斯模型逼近而言,可能存在一個提供更好的逼近的複雜多參數分布。然而,我們仍然選擇高斯模型,因為它大大簡化了數學!

均值、中位數、眾數均相等

整個分布僅需指定兩個參數——均值和方差

高斯分布得名於偉大的數學家和物理學家卡爾·弗裡德裡希·高斯(Carl Friedrich Gauss)。

原文地址:https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859

相關焦點

  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    打開APP 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布 發表於 2017-12-04 16:38:44 C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。   正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。   若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。
  • 高斯分布
    二維正態分布的等概率曲線是一個橢圓3.n維正態分布的邊緣分布和條件分布都是正態分布高斯分布是概率論和統計學最重要的分布,在機器學習各種模型的也是處處可見。因此,有必要對高斯分布做深一步的理解。這就是為什麼在統計學上,方差無偏估計的分母是(m-1)
  • 質量人必看:高斯,正態分布……
    「為什麼高斯以後再也沒有高斯這麼厲害的人物了?」「高斯如果穿越回現代,能否只用兩年的學習就又達到當代數學界老大的地位,碾壓所有數學界同行?」「高斯為什麼如此聰明?」在眾多學霸匯集的知乎,竟然有如此多對高斯膜拜式的問答,不禁讓人非常驚訝。
  • 透徹理解高斯分布
    正態分布是與中的定量現象的一個方便模型。各種各樣的心理學測試分數和現象比如計數都被發現近似地服從正態分布。概率分布函數與概率密度函數的關係:連續型隨機變量X的概率分布函數F(x),如果存在非負可積函數f(x),使得對任意實數x,有f(x)為X的概率密度高斯分布通過概率密度函數來定義高斯分布:
  • 高斯分布性質與繪圖
    本章定義了高斯分布,並探討了其性質。從實域高斯分布的定義開始。在研究高斯函數實域性質的過程中,引入了傅立葉變換和熱方程,推導了它們與高斯函數的關係。定義了多維空間中的高斯分布,以及該分布的剪切和摺疊。以高斯分布為例,具體介紹了概率統計中的均值、方差、邊緣化和概率密度等概念。
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    >正態分布(高斯分布)是最廣為人知的概率分布。在數據科學的圈裡,數據科學家非常喜歡這個分布。一方面是因為,符合這個分布的現象在自然界隨處可見。在概率統計方面,中心極限定理撐起了一片天,而中心極限定理的最重要的一個假設是數據的分布符合中心極限定理。
  • 單變量和多變量高斯分布:可視化理解
    因為很多自然現象,比如人口的身高,血壓,鞋子的尺碼,教育指標,考試成績,還有很多更重要的自然因素都遵循高斯分布。 我相信,你聽說過這個詞,在某種程度上也知道它。如果沒有,也不要擔心。這篇文章將會解釋清楚。我在Coursera的Andrew Ng教授的機器學習課程中發現了一些令人驚嘆的視覺效果。
  • 高斯分布應用在身邊
    關注 加油射頻工程師 ,關注一個普通工程師的經驗分享這是我在網易公開課上看到的一個視頻,可以看到,當數學家晃動完板子後,裡面的小球呈現了Gaussian分布我大學的時候,隨機過程和概率論學的都不是很好,其實早就把什麼是高斯分布忘掉了。這幾天,工作不忙,所以就看起了TI網上關於運放的視頻。上面也提到了高斯分布,並且指出運放的噪聲大部分遵循高斯分布。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    當時的觀測數據很有限,皮亞齊一共觀測了這顆星體24次,都難以確定其軌道。這是個困難的問題,以至於當時許多天文學家束手無策。於是,高斯開始了他的表演。最大的一顆小行星——穀神星高斯拿到皮亞齊的觀測數據,根據自己的創立的一種新型的數據分析方法,在一個小時之內就計算出了這個星體的軌道數據。
  • 小知識:高斯概率分布的數學解釋
    我們世界中的各種物理過程都表現出一定程度的隨機性,這種隨機性經常用在自然和社會科學中所代表的不明的隨機變量來表示。研究這樣一個非常常見的隨機變量的連續概率分布,稱為正態分布,又稱為高斯概率分布,高斯在研究測量誤差時從另一個角度導出了它,研究了它的性質,是一個在數學、物理及科技工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。正態曲線兩頭低、中間高,左右對稱因其曲線如鐘形,因此又經常稱之為鐘形曲線。
  • 達觀數據陳運文:一文詳解高斯混合模型原理
    學過大學高數的同學應該還記得,正態分布的一個背景知識點是,95%的數據分布在均值周圍2個標準差的範圍內。本例中大約20到30左右是標準差參數的取值,因為大多數數據都分布在120cm到240cm之間。上面的公式是概率密度函數,也就是在已知參數的情況下,輸入變量指x,可以獲得相對應的概率密度。
  • 高斯分布:大概率事件意味著什麼?
    我們假定事件A經過n次試驗後發生了k次,把k的概率分布圖畫一下,就得到了一個中間鼓起,像倒扣的鐘一樣的對稱圖形。這個圖形你一定很熟悉,18世紀,數學家棣莫弗和拉普拉斯把這種中間大,兩頭小的分布稱為正態分布。不過,高斯對正態分布的誤差(也就是標準差)作出了更嚴格的分析,於是正態分布今天就被命名為高斯分布。
  • 聊聊高斯概率分布的數學公式
    這個模擬世界中的各種物理過程都表現出一定程度的隨機性,例如,請想想噪聲。高斯概率分布(Gaussian probability distributions)描述了許多噪聲過程,我們應該看看它的數學公式。
  • 概率|無處不在的高斯分布(1)——標準正態分布
    一年前建立這個微信公眾號的初衷是向大眾介紹統計學的知識,減少大家對「大數據」、「統計學」、「數據科學」、「機器學習」相關行業的誤解。
  • 獨家 | 使用高斯混合模型,讓聚類更好更精確(附數據&代碼&學習資源)
    概述簡介我真的很喜歡研究無監督的學習問題,因為它們提供了一個完全不同於監督學習問題的挑戰:提供更大的空間來試驗我的數據。這也不難理解機器學習領域的大多數發展和突破都發生在無監督學習這一塊。讓我們以上面提及的收支數據為例,K-means算法似乎運行得很好,對吧?等等,如果你仔細觀察,將會發現所有創建的簇都是圓形的,這是因為分類的質心都是使用平均值迭代更新的。現在,考慮下面的例子,其中點的分布不是圓形的,如果我們對這些數據使用K-means聚類,您認為會發生什麼?它仍然試圖以循環方式對數據點進行分組,那不太好!K-means會無法識別正確的分簇:
  • 每個數據科學家都應該知道的5種概率分布
    作者 | By Luciano Strika 來源 | CDA數據分析研究院 5 Probability Distributions Every Data Scientist Should Know概率分布就像3D眼鏡。它們允許熟練的數據科學家識別其他完全隨機變量的模式。在某種程度上,大多數其他數據科學或機器學習技能都基於對數據概率分布的某些假設。
  • 近代數學王子高斯
    小時候高斯家裡很窮,且他父親不認為學問有何用,但高斯依舊喜歡看書,話說在小時候,冬天吃完飯後他父親就會要他上床睡覺,以節省燃油,但當他上床睡覺時,他會將蕪菁的內部挖空,裡面塞入棉布卷,當成燈來使用,以繼續讀書。天賦異稟當高斯12歲時,已經開始懷疑元素幾何學中的基礎證明。
  • 數據科學家們必須知道的5種聚類算法
    聚類是一種無監督學習方法,也是一種統計數據分析的常用技術,被廣泛應用於眾多領域。在數據科學中,我們可以通過聚類算法,查看數據點屬於哪些組,並且從這些數據中獲得一些有價值的信息。今天,我們一起來看看數據科學家需要了解的5種流行聚類算法以及它們的優缺點。
  • ML基礎:高斯混合模型是什麼?
    1.高斯混合模型概念高斯混合模型是一種概率模型,它假設所有數據點都是從有限數量的高斯分布的混合參數中生成的。實際上,可以將混合模型視為對 k-means聚類算法的擴展,它包含了數據的協方差結構以及隱高斯模型中心的信息。該方法使用了高斯分布作為參數模型,並使用了期望最大(Expectation Maximization,簡稱EM)算法進行訓練。
  • 成為偉大的數據科學家需要掌握的基本數學
    現代數據科學的幾乎所有技術,包括機器學習,都有深厚的數學基礎。毫無疑問,想要成為一個頂級的數據科學家,需要在各個方面都具有優勢如編程能力、一定的商業智慧、以及獨特的分析能力等。但了解「引擎蓋下的機械原理」總是有好處的。對算法背後的數學機制有一個深入的理解,將使你在同行中具有優勢。