神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然

2020-11-23 徐曉亞然

大部分數學理論的發現其實都是源自於生活,或者人們遇到的一個難題,有人根據這個難題並提煉出一個模型來,人們得以在純數學的領域進行研究,並最終誕生了許多偉大的成果。比如概率論,就是來自於賭徒們提出的尖酸問題。

賭桌上誕生的數學

一個賭徒獲勝的概率是p,另外一個賭徒獲勝概率是1-p,A,B 兩人在賭場裡賭博,A、B 各自的獲勝概率是p,q=1-p,兩人約定:若 A 贏的局數 X>np , 則A付給賭場 X-np 元;若X < np ,則B付給賭場np-X元。 問賭場掙錢的期望值是多少。

棣莫弗

這裡的數學期望這個概念很重要,也不是那麼難理解。舉個例子,我們都知道擲硬幣正面朝上的概率是1/2,那麼如果每次擲硬幣的都仿佛有個約定的規則在「制約」著出現的結果,假如我們擲10次之後呢?可能5次正面5次反面最符合我們的預期,當然實際上不可能會這麼巧合,剛好是5正5反。但是這個結果表達了我們對於這個概率事件的期待值,於是這裡的出現正面的數學期望就是5次了。

棣莫弗公式

賭徒把問了數學家棣莫弗,這個數學家雖然不是很有名,名字也有點刁鑽古怪.但是你應該用到過他的數學成果,複數和三角函數之間的橋梁——棣莫弗公式正是這位仁兄的代表作,同時他也是一位概率論方面的大師。我們現在很容易看出來,賭徒的問題是一個簡單的二項分布,這裡就不再做二項分布的科普了。簡單說下,就是一個概率事件中,只有兩種結果,並且結果互斥,我們分析的就是這兩種情況的期望值。棣莫弗很快求出來這個二項概率是:

賭徒問題答案

實際問題上,如果我們真的要去求期望,那麼n只能是個有限整數,儘管這個n可以變得很大。於是一個自然而然的問題就出現了,假如我們實驗無數次,這裡的概率又會是什麼樣子呢?棣莫弗再接再厲,並且結合了同時期數學家斯特林的成果,成功地求出來這個密度函數:

正態分布公式首次出現

這個式子就是大家熟悉的標準正態分布公式,雖然中學時期的所有數學教材裡都會提到正太公式,考試上也是熱門,但是對於這個公式的來源以及重大意義卻從來不提。可能有的老師上課的時候會跟學生們強調這個概率分布很重要,但是沒有形象的案例來做支撐,總是讓人覺得莫名其妙。棣莫弗得出的這個分布函數也是正態分布第一次出現在人類的數學成果裡。雖然棣莫弗第一個得出了這個密度分布函數,但是他並沒有對這個分布再進行深入研究,棣莫弗本質上並不是一個數理統計學家,他認為這只是一種看起來優美的概率分布曲線。他完全沒有想到這個分布與誤差分析有什麼關係。

德國馬克上的正態分布曲線

說到這裡,高斯的工作在哪裡呢?別急,先聽高斯同志的又一次神作。

18,19世紀以來,天文學伴隨著人們數學工具的支撐,也獲得了空前的發展,特別是牛頓萬有引力定律確定之後,人們第一次可以用數學來精準地描述地球外面的世界。這裡對於行星軌道的確定尤其如此。

遙望星空

1772年,人們根據萬有引力定律結合當時的觀測資料分析認為,在火星和木星軌道之間可能存在著一顆尚未被發現的行星。但是當時的觀測條件有限,並不能直接去觀測到。於是就需要間接計算,然後推測這個未知行星可能出現的位置,在那邊等它按時出現,這個發現行星的思路好像看似自然而然,其實難度很大。

行星軌道計算難度極大

1801年元旦,在西西里巴勒莫學院的天文學家朱塞普·皮亞齊,發現了穀神星,但是這個星體的軌道卻不像之前的那幾個傳統行星一樣確定。人們不知道這顆新星是彗星還是行星,這就需要更加精準的觀測手段了。然而這顆星體相比於火星來說實在太過矮小,以至於稍微靠近大星體立刻就會被湮沒,變得不可觀測。當時的觀測數據很有限,皮亞齊一共觀測了這顆星體24次,都難以確定其軌道。這是個困難的問題,以至於當時許多天文學家束手無策。於是,高斯開始了他的表演。

最大的一顆小行星——穀神星

高斯拿到皮亞齊的觀測數據,根據自己的創立的一種新型的數據分析方法,在一個小時之內就計算出了這個星體的軌道數據。當然為了結果的可靠,他還是等了檢查了幾個星期時間。1801年12月31日,人們在高斯預言的時間和軌道上果然發現了這顆星體。至此人們確定了這顆新星既不是彗星,也不是傳統行星,它是人類發現的第一顆也是最大的一個小行星,直徑大約950公裡。

此項成果一出,青年高斯的能力又一次讓眾人驚嘆。人們迫切地想要知道高斯如何處理數據的方法,但是高斯本人拒絕透露。在他看來這些都還是一些不太成熟的小技巧,雖然在實際上有很大用途,但是發表一個不成熟的結論是不太配得上自己身位的,於是高斯的方法被當做秘技一樣不傳。直到8年之後的1809年,高斯認為此項研究已經成熟,於是公布了他的方法,這個分析工具就是最小二乘法。

最小二乘法的誕生契機是儘量減小測量數據的累積誤差,並且有一套規則。

最小二乘法規則

這個規則是勒讓德提出來的,他在1805年第一個發布了最小二乘法的論文。

假設我們從來都沒有接觸過關於數理統計方面的知識,現在給我們一個測量的任務:讓你測量一間教室的長寬高,並且儘量給出誤差較小的結果。從經驗上看,正統的做法是,我們似乎應該要在房間的不同位置測量多組數據,然後來求平均值。這麼做,更保險,會過濾掉一些由於偶然誤差造成的嚴重失真項。並且我們也會得出一個經驗方法, 那就是測量的數據越多,求出來的算術平均值就越接近真實值。

高斯大神

這個方法幾乎是保險的且顯而易見。歷史上的許多測量學家們也都是這麼做的,好像最後的實踐表明這種方法的確可以有效地減少系統誤差。但是有個非常嚴重的問題,那就是人們從來都沒有在數學理論上證明求算術平均值可以顯著減少測量誤差。

高斯的目的就是為了求解一種方法使得,系統累積誤差最小,既然算術平均值在實踐中已經被證明是有效的,那麼我就從這裡出發來逆推:

最大似然估計

這裡的估計值稱作最大似然估計,高斯天才般地認為這裡的最大似然估計就可以取到算術平均值!

根據上面式子的分析結果,就可以求出來這個概率分布函數了。這個形式,我們再熟悉不過了。

一般正態分布

正態分布的密度函數N(0,σ2)就是上述的表現形式。那麼前面說的最小二乘法跟正態分布又有啥關係呢?

正態分布和最小二乘法的深刻關係

這裡我們很明顯就看出來,如果使得這個概率最大,那麼要讓所有的誤差項e2 最小,這剛好不就是最小二乘法的定義嘛。因此,正態分布跟最小二乘法的關係實在非比尋常!

由於高斯的傑出工作,正態分布又叫高斯分布。高斯基於正態分布給出的最小二乘法,大大拓寬了正態分布的應用,這個密度函數在整個數理統計領域遠遠要超過其他任何分布。實際上正態分布也是存在最廣泛的分布,甚至可以沒有之一!

人群中的身高分布,總是處在中間高度的人數最多,或高或矮都是極小的一部分人。學生的考試成績分布,醫學上關於質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似正態分布;

資訊理論創始人——香農

實際上,有很多人從不同的領域出發,都推導出了相同的正態分布密度函數。除了棣莫弗和高斯以外,赫歇爾在1850年,麥克斯韋在1860年基於誤差的旋轉對稱性推導出密度函數,他們的方法完全沒有用到任何概率論的知識,僅僅是根據空間不變性就得出來。1941年,電氣工程師蘭登基於噪聲穩定分布的思想也給出了正態分布密度函數。資訊理論創始人香農基於最大熵原理也推導出正態分布函數。

這些領域基本上毫不相干,甚至有些人用的方法跟概率論都沒有關係,但是最終卻得到了完全一致的結論。這也充分說明了,正態分布是一種廣泛且極其普遍的分布方式。難怪有人讚嘆道:

神說,要有正態分布,就有了正態分布。

神看正態分布是好的,就讓隨機誤差服從了正態分布。

高斯尊為「數學王子」這點毋庸置疑,名下的定理,規律不計其數,但是如果要來排出最有影響力的一項,很多人都認為首選正態分布。這個分布成為許多統計方法的理論基礎,人們在數據檢測,線性回歸,方差判斷,回歸分析中總是繞不去正態分布的影子。它就像是分析學裡的微積分一樣,給予著相關領域內所有成就不盡的源泉。

相關焦點

  • 神奇的正態分布
    正態分布最早由德國數學家、天文學家棣莫弗(De Moivre)發現,但卻以德國另一數學家高斯(Gauss)命名。德國的鋼鏰和10馬克的紙幣上都刻有或印有高斯的頭像和正態密度曲線,以主要紀念其在正態分布上的突出貢獻。 然而,正態分布看似簡單,但其被發現的過程卻不簡單。
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    正態分布:正態分布(Normal distribution)又名高斯分布(Gaussiandistribution
  • 怎樣用通俗易懂的文字解釋正態分布及其意義?
    0.0 神說,要有正態分布,於是就有了正態分布。*0.1 神看正態分布是好的,就讓隨機誤差都隨了正態分布。,要不對身高產生負面影響,最終讓整體身高接近正態分布。學過基礎統計學的同學大都對正態分布非常熟悉,但是很難用通俗的語言解釋什麼是正態分布,主要原因是正態分布需要有一個前置知識【中心極限定理】。如果誤差可以看成許多微小量的疊加,則根據中心極限定理[1],隨機誤差理所當然是正態分布[2]。
  • 高斯分布
    二維正態分布的等概率曲線是一個橢圓3.n維正態分布的邊緣分布和條件分布都是正態分布高斯分布是概率論和統計學最重要的分布,在機器學習各種模型的也是處處可見。因此,有必要對高斯分布做深一步的理解。本文從一維高斯分布的參數估計、二維高斯分布的幾何意義、以及n維高斯分布邊緣分布與條件分布進行介紹若隨便變量X服從正態分布,則
  • 最接近神的數學公式—正態分布
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。我會從最基礎的內容開始解釋,以便讀者們理解為什么正態分布如此重要。
  • 關於正態分布和貝塔分布的案例介紹
    打開APP 關於正態分布和貝塔分布的案例介紹 賈恩東 發表於 2020-10-12 11:25:57 正態分布 正態分布,是一種非常常見的連續概率分布,其也叫做常態分布(normal distribution),或者根據其前期的研究貢獻者之一高斯的名字來稱呼,高斯分布(Gaussian distribution)。正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 光明時評:要求學生考試分數正態分布的管理不在正態
    作者:儲朝暉 日前,某大學特聘副教授怒懟教務辦要求「改低學生分數,成績分數服從正態分布」的消息引發關注。事實上,有這種要求的不只一兩所大學的教務辦,有關部門這樣做是基於不同教師對學生考核的打分標準不同,想在老師給出的分數過高或者過低的情況下增加一次調節。
  • 機器學習 | 二:高斯分布
    指隨機過程中,任何時刻的取值都為隨機變量,如果這些隨機變量服從同一分布,並且互相獨立,那麼這些隨機變量是獨立同分布。
  • 智商有正態分布效應很正常,不正常的是學習成績也有正態分布效應
    智商有正態分布效應,這很正常,但不正常的是學習成績也有正態分布效應。所謂的正態分布,意思就是普通人佔據了絕大多數,傻子和天才都是極少數。作為天生的因素,正態分布是可以理解的,但是後天的教育導致的成績,仍然呈正態分布,這就讓人無法容忍了。我個人親身的體會,在當時我們縣有兩所中學A和B,A的分數線高出了B很多,基本只收中考前500名的學生,B只收剩下的。
  • 思維模型17 - Normal distribution | 正態分布
    正態分布正態分布又稱高斯分布,是一個常見的連續概率分布,它的樣子類似於寺廟裡的大鐘,因此人們又經常稱之為鐘形曲線。正態分布曲線的樣子就像下圖,說名字可能不清楚,但很多同學一看到圖就恍然大悟,原來這就是正態分布啊。
  • 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布
    打開APP 正態分布和高斯分布的作用_高斯分布的定義_誤差服從高斯分布 發表於 2017-12-04 16:38:44   正態分布
  • 大自然遵循正態分布 隨機佛系存在規律
    即然已經隨機佛系了,是不是就真的無規律可循了呢?No!藍三條曲線都屬於正態分布,紅色曲線為標準正態分布。正態分布的英文是 Normal Distribution,英文原意取 Normal 意思就是正常的,自然的分布。正態分布也稱常態分布,由於高斯對正態分布的貢獻及影響極大,正態分布又名高斯分布。
  • 高中就開始學的正態分布,原來如此重要
    為什麼那麼多關於數據科學和機器學習的文章都圍繞正態分布展開?本文作者專門寫了一篇文章,試著用易於理解的方式闡明正態分布的概念。機器學習的世界是以概率分布為中心的,而概率分布的核心是正態分布。本文說明了什麼是正態分布,以及為什么正態分布的使用如此廣泛,尤其是對數據科學家和機器學習專家來說。
  • 什麼是正態分布?知道它有什麼用?
    什麼是正態分布?正態分布(Normal Distribution),也被稱為高斯分布,代表著概率的分布情況,是統計學中的一個重要概念。我們也常用更簡化的形式描述什麼是正態分布:N(μ,σ^2);μ 代表著分布的集中趨勢,橫軸上離 μ 越接近的值,出現的概率越大; σ^2 (方差)代表數據分布的離散程度,σ 越大,數據分布越分散,曲線越「矮胖」。
  • 為什麼數據科學家都鍾情於最常見的正態分布?
    —George Box   正在擴散的粒子的位置可以用正態分布來描述   正態分布有極其廣泛的實際背景,生產與科學實驗中很多隨機變量的概率分布都可以近似地用正態分布來描述   一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那麼就可以認為這個量具有正態分布。從理論上看,正態分布具有很多良好的性質,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導出的,例如對數正態分布、t分布、F分布等。
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 多個變量結果的正態分布 - CSDN
    多元正態分布也稱多元高斯分布。如同正態分布在單變量分析中的地位類似,在對多個因變量(多元)同時進行分析時,常常假設因變量組合成的向量服從一個多元正態分布。比如重複測量數據將重複的測量結果(比如各個時間點上的測量結果)視為不同的因變量,可以採用多元方差分析,此時就要求各個因變量的組合向量服從多元正態分布。對多元正態分布的判斷通常採用的邊際分布來判斷,即每個因變量的分布呈正態或近似正態。
  • 透徹理解高斯分布
    正態分布是與中的定量現象的一個方便模型。各種各樣的心理學測試分數和現象比如計數都被發現近似地服從正態分布。概率分布函數與概率密度函數的關係:連續型隨機變量X的概率分布函數F(x),如果存在非負可積函數f(x),使得對任意實數x,有f(x)為X的概率密度高斯分布通過概率密度函數來定義高斯分布:
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    正態分布/超自然分布你覺得這是個玩笑?讓我告訴你,這不是笑料。這是嚇人的,真正的萬聖節精神!如果我們無法假設我們的大部分數據(商業、社會、經濟或科學根源) 至少近似「正態」(即它們是由一個高斯過程或多個這樣的過程的總和產生的),那麼我們就完蛋了!
  • 為什么正態分布如此常見?
    正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。