數據挖掘中所需的概率論與數理統計知識(一)

2021-02-14 算法與數學之美

作者：July_

來源：http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html

導言：本文從微積分相關概念，梳理到概率論與數理統計中的相關知識，關於第四節正態分布的部分可以參考小君之前推出的正態分布的前世今生系列文章（徹底顛覆以前讀書時大學課本灌輸給你的觀念，一探正態分布之神秘芳蹤，知曉其前後發明歷史由來）。相信，每一個學過概率論與數理統計的朋友都有必要了解數理統計學簡史，因為，只有了解各個定理.公式的發明歷史,演進歷程.相關聯繫，才能更好的理解你眼前所見到的知識，才能更好的運用之。

本文結合高等數學上下冊、微積分概念發展史，概率論與數理統計、數理統計學簡史等書，對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理。

本文篇幅會比較長，簡單來說：

第一節、介紹微積分中極限、導數，微分、積分等相關概念；

第二節、介紹隨機變量及其分布；

第三節、介紹數學期望.方差.協方差.相關係數.中心極限定理等概念；

第四節、依據數理統計學簡史介紹正態分布的前後由來；

第五節、論道正態，介紹正態分布的4大數學推導。

第一節、微積分的基本概念1.1、極限

極限又分為兩部分：數列的極限和函數的極限。

1.1.1、數列的極限

定義如果數列{xn}與常a 有下列關係:對於任意給定的正數e (不論它多麼小), 總存在正整數N , 使得對於n >N 時的一切xn, 不等式 |xn-a |<e都成立, 則稱常數a 是數列{xn}的極限, 或者稱數列{xn}收斂於a。

1.1.2、函數的極限

設函數f(x)在點x0的某一去心鄰域內有定義. 如果存在常數A, 對於任意給定的正數e (不論它多麼小), 總存在正數d, 使得當x滿足不等式0<|x-x0|<d 時, 對應的函數值f(x)都滿足不等式 |f(x)-A|<e , 那麼常數A就叫做函數f(x)時的極限, 記為

也就是說，

幾乎沒有一門新的數學分支是某個人單獨的成果，如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果，而是若干數學思潮在16世紀和17世紀匯合的產物，是由許許多多的學者共同努力而成。

甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉，數學史上出現了無窮小的概念，而後才發展到極限，到後來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分，但微積分的概念尚模糊不清，在牛頓和萊布尼茨之後，後續經過一個多世紀的發展，諸多學者的努力，才真正清晰了微積分的概念。

也就是說，從無窮小到極限，再到微積分定義的真正確立，經歷了幾代人幾個世紀的努力，而課本上所呈現的永遠只是冰山一角。

1.2、導數

設有定義域和取值都在實數域中的函數。若在點的某個鄰域內有定義，則當自變量在處取得增量（點仍在該鄰域內）時，相應地函數取得增量；如果與之比當時的極限存在，則稱函數在點處可導，並稱這個極限為函數在點處的導數，記為。

即：

也可記為：，或。

1.3、微分

設函數在某區間內有定義。對於內一點，當變動到附近的（也在此區間內）時。如果函數的增量可表示為（其中是不依賴於的常數），而是比高階的無窮小，那麼稱函數在點是可微的，且稱作函數在點相應於自變量增量的微分，記作，即，是的線性主部。通常把自變量的增量稱為自變量的微分，記作，即。

實際上，前面講了導數，而微積分則是在導數的基礎上加個後綴，即為：。

1.4、積分

積分是微積分學與數學分析裡的一個核心概念。通常分為定積分和不定積分兩種。

不定積分的定義

一個函數的不定積分，也稱為原函數或反導數，是一個導數等於的函數，即

不定積分的有換元積分法，分部積分法等求法。

定積分的定義

直觀地說，對於一個給定的正實值函數，在一個實數區間上的定積分：

定積分與不定積分區別在於不定積分便是不給定區間，也就是說，上式子中，積分符號沒有a、b。下面，介紹定積分中值定理。

如果函數f(x)在閉區間[a,b]上連續, 則在積分區間[a,b]上至少存在一個點,使下式成立：

這個公式便叫積分中值公式。

牛頓-萊布尼茨公式

接下來，咱們講介紹微積分學中最重要的一個公式：牛頓-萊布尼茨公式。

如果函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則

此公式稱為牛頓-萊布尼茨公式, 也稱為微積分基本公式。這個公式由此便打通了原函數與定積分之間的聯繫，它表明：一個連續函數在區間[a, b]上的定積分等於它的任一個原函數在區間[a, b]上的增量，如此，便給定積分提供了一個有效而極為簡單的計算方法，大大簡化了定積分的計算手續。

下面，舉個例子說明如何通過原函數求取定積分。

如要計算，由於是的一個原函數，所以。

1.5、偏導數

對於二元函數z = f(x，y) 如果只有自變量x 變化，而自變量y固定這時它就是x的一元函數，這函數對x的導數，就稱為二元函數z = f(x，y)對於x的偏導數。
定義設函數z = f(x，y)在點(x0，y0)的某一鄰域內有定義，當y固定在y0而x在x0處有增量時，相應地函數有增量，

如果極限

存在，則稱此極限為函數z = f(x，y)在點(x0，y0)處對 x 的偏導數，記作：

例如。類似的，二元函數對y求偏導，則把x當做常量。

第二節、離散.連續.多維隨機變量及其分布2.1、幾個基本概念點

(一)樣本空間

定義：隨機試驗E的所有結果構成的集合稱為E的樣本空間，記為S={e}，
稱S中的元素e為樣本點，一個元素的單點集稱為基本事件．

(二)條件概率

條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P（A|B），讀作「在B條件下A的概率」。

聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或者。

邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的：在聯合概率中，把最終結果中不需要的那些事件合併成其事件的全概率而消失（對離散隨機變量用求和得全概率，對連續隨機變量用積分得全概率）。這稱為邊緣化（marginalization）。A的邊緣概率表示為P（A），B的邊緣概率表示為P（B）。

在同一個樣本空間Ω中的事件或者子集A與B，如果隨機從Ω中選出的一個元素屬於B，那麼這個隨機選擇的元素還屬於A的概率就定義為在B的前提下A的條件概率。從這個定義中，我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

有時候也稱為後驗概率。

同時，P（A|B）與P（B|A）的關係如下所示：

。

(三)全概率公式和貝葉斯公式

1、全概率公式

假設{ Bn : n = 1, 2, 3, ... } 是一個概率空間的有限或者可數無限的分割，且每個集合Bn是一個可測集合，則對任意事件A有全概率公式：

又因為

所以，此處Pr(A | B)是B發生後A的條件概率，所以全概率公式又可寫作：

在離散情況下，上述公式等於下面這個公式：。但後者在連續情況下仍然成立：此處N是任意隨機變量。這個公式還可以表達為："A的先驗概率等於A的後驗概率的先驗期望值。

2、貝葉斯公式

貝葉斯定理（Bayes' theorem），是概率論中的一個結果，它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關於概率的解說中，貝葉斯定理（貝葉斯更新）能夠告知我們如何利用新證據修改已有的看法。
通常，事件A在事件B（發生）的條件下的概率，與事件B在事件A的條件下的概率是不一樣的；然而，這兩者是有確定的關係，貝葉斯定理就是這種關係的陳述。

貝葉斯定理實際上是關於隨機事件A和B的條件概率和邊緣概率的一則定理。

如上所示，其中P(A|B)是在B發生的情況下A發生的可能性。在貝葉斯定理中，每個名詞都有約定俗成的名稱：

P(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。

P(A|B)是已知B發生後A的條件概率（直白來講，就是先有B而後=>才有A），也由於得自B的取值而被稱作A的後驗概率。

P(B|A)是已知A發生後B的條件概率（直白來講，就是先有A而後=>才有B），也由於得自A的取值而被稱作B的後驗概率。

P(B)是B的先驗概率或邊緣概率，也作標準化常量（normalized constant）。

按這些術語，Bayes定理可表述為：後驗概率 = (相似度*先驗概率)/標準化常量，也就是說，後驗概率與先驗概率和相似度的乘積成正比。另外，比例P(B|A)/P(B)也有時被稱作標準相似度（standardised likelihood），Bayes定理可表述為：後驗概率 = 標準相似度*先驗概率。」

綜上，自此便有了一個問題，如何從從條件概率推導貝葉斯定理呢？

根據條件概率的定義，在事件B發生的條件下事件A發生的概率是

同樣地，在事件A發生的條件下事件B發生的概率

整理與合併這兩個方程式，我們可以找到

這個引理有時稱作概率乘法規則。上式兩邊同除以P(B)，若P(B)是非零的，我們可以得到貝葉斯定理：

2.2、隨機變量及其分布2.2.1、何謂隨機變量

何謂隨機變量？即給定樣本空間，其上的實值函數稱為(實值)隨機變量。

如果隨機變量的取值是有限的或者是可數無窮盡的值,則稱為離散隨機變量(用白話說，此類隨機變量是間斷的)。

如果由全部實數或者由一部分區間組成，則稱為連續隨機變量，連續隨機變量的值是不可數及無窮盡的(用白話說，此類隨機變量是連續的，不間斷的)：

也就是說，隨機變量分為離散型隨機變量，和連續型隨機變量，當要求隨機變量的概率分布的時候，要分別處理之，如：

再換言之，對離散隨機變量用求和得全概率，對連續隨機變量用積分得全概率。這點包括在第4節中相關期望.方差.協方差等概念會反覆用到，望讀者注意之。

2.2.2、離散型隨機變量的定義

定義：取值至多可數的隨機變量為離散型的隨機變量。概率分布(分布律)為

且

(一)（0-1）分布

若X的分布律為：

同時，p+q=1,p>0,q>0，則則稱X服從參數為p的0-1分布，或兩點分布。

此外，（0-1）分布的分布律還可表示為：

或

我們常說的拋硬幣實驗便符合此（0-1）分布。

(二)、二項分布

二項分布是n個獨立的是/非試驗中成功的次數的離散概率分布，其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。舉個例子就是，獨立重複地拋n次硬幣，每次只有兩個可能的結果：正面，反面，概率各佔1/2。

設A在n重貝努利試驗中發生X次，則

並稱X服從參數為p的二項分布，記為：

與此同時，

(三)、泊松分布(Poisson分布)

Poisson分布（法語：loi de Poisson，英語：Poisson distribution），即泊松分布，是一種統計與概率學裡常見到的離散概率分布，由法國數學家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年時發表。

若隨機變量X的概率分布律為

稱X服從參數為λ的泊松分布，記為：

有一點提前說一下，泊松分布中，其數學期望與方差相等，都為參數λ。

泊松分布的來源

在二項分布的伯努力試驗中，如果試驗次數n很大，二項分布的概率p很小，且乘積λ= n p比較適中，則事件出現的次數的概率可以用泊松分布來逼近。事實上，二項分布可以看作泊松分布在離散時間上的對應物。證明如下。

首先，回顧e的定義：

二項分布的定義：

如果令，趨於無窮時的極限：

上述過程表明：Poisson(λ) 分布可以看成是二項分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。

最大似然估計

給定n個樣本值ki，希望得到從中推測出總體的泊松分布參數λ的估計。為計算最大似然估計值, 列出對數似然函數：

對函數L取相對於λ的導數並令其等於零：

解得λ從而得到一個駐點（stationary point）：

檢查函數L的二階導數，發現對所有的λ 與ki大於零的情況二階導數都為負。因此求得的駐點是對數似然函數L的極大值點：

證畢。OK，上面內容都是針對的離散型隨機變量，那如何求連續型隨機變量的分布律呢？請接著看以下內容。

2.2.3、隨機變量分布函數定義的引出

實際中，如上2.2.2節所述，

故連續型隨機變量也就不能像離散型隨機變量那般可以用分布律來描述它，那怎麼辦呢(事實上，只有因為連續，所以才可導，所以才可積分，這些東西都是相通的。當然了，連續不一定可導，但可導一定連續)？

既然無法研究其全部，那麼我們可以轉而去研究連續型隨機變量所取的值在一個區間（x1，x2] 的概率：P{x1 < X <=x2 }，同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1}，故要求P{x1 < X <=x2 } ，我們只需求出P{X <=x2} 和 P{X <=x1} 即可。

針對隨機變量X，對應變量x，則P(X<=x) 應為x的函數。如此，便引出了分布函數的定義。

定義：隨機變量X，對任意實數x，稱函數F(x) = P(X <=x ) 為X 的概率分布函數，簡稱分布函數。

F(x)的幾何意義如下圖所示：

且對於任意實數x1，x2（x1<x2），有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。

同時，F(X)有以下幾點性質：

2.2.4、連續型隨機變量及其概率密度

定義：對於隨機變量X的分布函數F(x)，若存在非負的函數f(x)，使對於任意實數x，有：

則稱X為連續型隨機變量，其中f(x)稱為X的概率密度函數，簡稱概率密度。連續型隨機變量的概率密度f(x)有如下性質：

；

（針對上述第3點性質，重點說明下：

在上文第1.4節中，有此牛頓-萊布尼茨公式：如果函數F (x)是連續函數f(x)在區間[a, b]上的一個原函數, 則；

在上文2.2.3節，連續隨機變量X 而言，對於任意實數a，b（a<b），有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a)；

故結合上述兩點，便可得出上述性質3）

且如果概率密度函數在一點上連續，那麼累積分布函數可導，並且它的導數：。如下圖所示：

接下來，介紹三種連續型隨機變量的分布，由於均勻分布及指數分布比較簡單，所以，一圖以概之，正態分布可以查閱之前推出的文章。

(一)、均勻分布

若連續型隨機變量X具有概率密度

則稱X 在區間(a，b)上服從均勻分布，記為X~U（a，b）。

易知，f(x) >= 0，且其期望值為（a + b）/ 2。

(二)、指數分布

若連續型隨機變量X 的概率密度為

其中λ>0為常數，則稱X服從參數為λ的指數分布。記為

(三)、正態分布

在各種公式紛至沓來之前，我先說一句：正態分布沒有你想的那麼神秘，它無非是研究誤差分布的一個理論，因為實踐過程中，測量值和真實值總是存在一定的差異，這個不可避免的差異即誤差，而誤差的出現或者分布是有規律的，而正態分布不過就是研究誤差的分布規律的一個理論。

OK，若隨機變量服從一個位置參數為、尺度參數為的概率分布，記為：

則其概率密度函數為

我們便稱這樣的分布為正態分布或高斯分布，記為：

正態分布的數學期望值或期望值等於位置參數，決定了分布的位置；其方差的開平方，即標準差等於尺度參數，決定了分布的幅度。正態分布的概率密度函數曲線呈鐘形，因此人們又經常稱之為鐘形曲線。它有以下幾點性質，如下圖所示：

正態分布的概率密度曲線則如下圖所示：

當固定尺度參數，改變位置參數的大小時，f(x)圖形的形狀不變，只是沿著x軸作平移變換，如下圖所示：

而當固定位置參數，改變尺度參數的大小時，f(x)圖形的對稱軸不變，形狀在改變，越小，圖形越高越瘦，越大，圖形越矮越胖。如下圖所示：

故有咱們上面的結論，在正態分布中，稱μ為位置參數(決定對稱軸位置)，而 σ為尺度參數(決定曲線分散性)。同時，在自然現象和社會現象中，大量隨機變量服從或近似服從正態分布。

而我們通常所說的標準正態分布是位置參數, 尺度參數的正態分布，記為：

相關內容如下兩圖總結所示(來源：大嘴巴漫談數據挖掘)：

2.2.5、各種分布的比較

上文中，從離散型隨機變量的分布：（0-1）分布、泊松分布、二項分布，講到了連續型隨機變量的分布：均勻分布、指數分布、正態分布，那這麼多分布，其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢？雖說，還有不少分布上文尚未介紹，不過在此，提前總結下，如下兩圖所示(摘自盛驟版的概率論與數理統計一書後的附錄中)：

本文中，二維.多維隨機變量及其分布不再論述。

第三節、從數學期望、方差、協方差到中心極限定理3.1、數學期望、方差、協方差3.1.1、數學期望

如果X是在概率空間（Ω, P）中的一個隨機變量，那麼它的期望值E[X]的定義是：

並不是每一個隨機變量都有期望值的，因為有的時候這個積分不存在。如果兩個隨機變量的分布相同，則它們的期望值也相同。

在概率論和統計學中，數學期望分兩種(依照上文第二節相關內容也可以得出)，一種為離散型隨機變量的期望值，一種為連續型隨機變量的期望值。

例如，擲一枚六面骰子，得到每一面的概率都為1/6，故其的期望值是3.5，計算如下：

承上，如果X 是一個離散的隨機變量，輸出值為x1, x2, ...，和輸出值相應的概率為p1, p2, ...（概率和為1），若級數絕對收斂，那麼期望值E[X]是一個無限數列的和：

上面擲骰子的例子就是用這種方法求出期望值的。

實際上，此連續隨機型變量的期望值的求法與離散隨機變量的期望值的算法同出一轍，由於輸出值是連續的，只不過是把求和改成了積分。

3.1.2、方差與標準差

方差

在概率論和統計學中，一個隨機變量的方差（Variance）描述的是它的離散程度，也就是該變量離其期望值的距離。一個實隨機變量的方差也稱為它的二階矩或二階中心動差，恰巧也是它的二階累積量。方差的算術平方根稱為該隨機變量的標準差。

其定義為：如果是隨機變量X的期望值（平均數）設為服從分布的隨機變量，則稱為隨機變量或者分布的方差：

其中，μ為平均數，N為樣本總數。

分別針對離散型隨機變量和連續型隨機變量而言，方差的分布律和概率密度如下圖所示：

標準差

標準差（Standard Deviation），在概率統計中最常使用作為統計分布程度（statistical dispersion）上的測量。標準差定義為方差的算術平方根，反映組內個體間的離散程度。

簡單來說，標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差，代表大部分的數值和其平均值之間差異較大；一個較小的標準差，代表這些數值較接近平均值。例如，兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二個集合具有較小的標準差。

前面說過，方差的算術平方根稱為該隨機變量的標準差，故一隨機變量的標準差定義為：

須注意並非所有隨機變量都具有標準差，因為有些隨機變量不存在期望值。如果隨機變量為具有相同概率，則可用上述公式計算標準差。

上述方差.標準差等相關內容，可用下圖總結之：

樣本標準差

在真實世界中，除非在某些特殊情況下，找到一個總體的真實的標準差是不現實的。大多數情況下，總體標準差是通過隨機抽取一定量的樣本並計算樣本標準差估計的。說白了，就是數據海量，想計算總體海量數據的標準差無異於大海撈針，那咋辦呢？抽取其中一些樣本作為抽樣代表唄。

而從一大組數值當中取出一樣本數值組合，進而，我們可以定義其樣本標準差為：

樣本方差是對總體方差的無偏估計。中分母為 n-1 是因為的自由度為n-1(且慢，何謂自由度？簡單說來，即指樣本中的n個數都是相互獨立的，從其中抽出任何一個數都不影響其他數據，所以自由度就是估計總體參數時獨立數據的數目，而平均數是根據n個獨立數據來估計的，因此自由度為n)，這是由於存在約束條件。

3.1.3、協方差與相關係數

協方差

下圖即可說明何謂協方差，同時，引出相關係數的定義：

相關係數

相關係數 ( Correlation coefficient )的定義是：

(其中，E為數學期望或均值，D為方差，D開根號為標準差，E{ [X-E(X)] [Y-E(Y)]}稱為隨機變量X與Y的協方差，記為Cov(X,Y)，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而兩個變量之間的協方差和標準差的商則稱為隨機變量X與Y的相關係數，記為)
相關係數衡量隨機變量X與Y相關程度的一種方法，相關係數的取值範圍是[-1,1]。相關係數的絕對值越大，則表明X與Y相關度越高。當X與Y線性相關時，相關係數取值為1（正線性相關）或-1（負線性相關）。
具體的，如果有兩個變量：X、Y，最終計算出的相關係數的含義可以有如下理解：

當相關係數為0時，X和Y兩變量無關係。

當X的值增大（減小），Y值增大（減小），兩個變量為正相關，相關係數在0.00與1.00之間。

當X的值增大（減小），Y值減小（增大），兩個變量為負相關，相關係數在-1.00與0.00之間。

根據相關係數，相關距離可以定義為：

自此，已經介紹完期望方差協方差等基本概念，但一下子要讀者接受那麼多概念，怕是有難為讀者之嫌，不如再上幾幅圖鞏固下上述相關概念吧(來源：大嘴巴漫談數據挖掘)：

3.1.4、協方差矩陣與主成成分分析

協方差矩陣

由上，我們已經知道：協方差是衡量兩個隨機變量的相關程度。且隨機變量之間的協方差可以表示為

故根據已知的樣本值可以得到協方差的估計值如下：

可以進一步地簡化為：

如此，便引出了所謂的協方差矩陣：

主成成分分析

儘管從上面看來，協方差矩陣貌似很簡單，可它卻是很多領域裡的非常有力的工具。它能導出一個變換矩陣，這個矩陣能使數據完全去相關(decorrelation)。從不同的角度看，也就是說能夠找出一組最佳的基以緊湊的方式來表達數據。這個方法在統計學中被稱為主成分分析(principal components analysis，簡稱PCA)，在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。

根據wikipedia上的介紹，主成分分析PCA由卡爾·皮爾遜於1901年發明，用於分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解，以得出數據的主成分（即特徵矢量）與它們的權值（即特徵值）。PCA是最簡單的以特徵量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋：哪一個方向上的數據值對方差的影響最大。

然為何要使得變換後的數據有著最大的方差呢？我們知道，方差的大小描述的是一個變量的信息量，我們在講一個東西的穩定性的時候，往往說要減小方差，如果一個模型的方差很大，那就說明模型不穩定了。但是對於我們用於機器學習的數據（主要是訓練數據），方差大才有意義，不然輸入的數據都是同一個點，那方差就為0了，這樣輸入的多個數據就等同於一個數據了。

簡而言之，主成分分析PCA，留下主成分，剔除噪音，是一種降維方法，限高斯分布，n維眏射到k維，

減均值，

求特徵協方差矩陣，

求協方差的特徵值和特徵向量，

取最大的k個特徵值所對應的特徵向量組成特徵向量矩陣，

投影數據=原始樣本矩陣x特徵向量矩陣。其依據為最大方差，最小平方誤差或坐標軸相關度理論，及矩陣奇異值分解SVD（即SVD給PCA提供了另一種解釋）。

也就是說，高斯是0均值，其方差定義了信噪比，所以PCA是在對角化低維表示的協方差矩陣，故某一個角度而言，只需要理解方差、均值和協方差的物理意義，PCA就很清晰了。

再換言之，PCA提供了一種降低數據維度的有效辦法；如果分析者在原數據中除掉最小的特徵值所對應的成分，那麼所得的低維度數據必定是最優化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析複雜數據時尤為有用，比如人臉識別。

3.2、中心極限定理

本節先給出現在一般的概率論與數理統計教材上所介紹的2個定理，然後簡要介紹下中心極限定理的相關歷史。

3.2.1、獨立同分布的中心極限定理

獨立中心極限定理如下兩圖所示：

3.2.2、棣莫弗-拉普拉斯中心極限定理

此外，據wikipedia上的介紹，包括上面介紹的棣莫弗-拉普拉斯定理在內，歷史上前後發展了三個相關的中心極限定理，它們得出的結論及內容分別是：

其內容為：若是n次伯努利實驗中事件A出現的次數，，則對任意有限區間：
(i)當及時，一致地有

(ii)當時，一致地有，

，其中。

它指出，參數為n, p的二項分布以np為均值、np(1-p)為方差的正態分布為極限。

其內容為：設隨機變量獨立同分布，且具有有限的數學期望和方差，。

記，，則，其中是標準正態分布的分布函數。

它表明，獨立同分布、且數學期望和方差有限的隨機變量序列的標準化和以標準正態分布為極限。

其內容為：記隨機變量序列（獨立但不一定同分布，且有有限方差）部分和為

記

，

如果對每個，序列滿足

則稱它滿足林德伯格（Lindeberg）條件。
滿足此條件的序列趨向於正態分布，即

與之相關的是李雅普諾夫（Lyapunov）條件：

滿足李雅普諾夫條件的序列必滿足林德伯格條件。

它表明，滿足一定條件時，獨立，但不同分布的隨機變量序列的標準化和依然以標準正態分布為極限。

3.2.3、歷史

1776年，拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題，最終的問題涉及獨立隨機變量求和的概率計算，也就是計算如下的概率值
令 Sn=X1+X2+⋯+Xn, 那麼

在這個問題的處理上，拉普拉斯充分展示了其深厚的數學分析功底和高超的概率計算技巧，他首次引入了特徵函數(也就是對概率密度函數做傅立葉變換)來處理概率分布的神妙方法，而這一方法經過幾代概率學家的發展，在現代概率論裡面佔有極其重要的位置。基於這一分析方法，拉普拉斯通過近似計算，在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述：

[定理Laplace，1812]設 ei(i=1,⋯n)為獨立同分布的測量誤差，具有均值μ和方差σ2。如果λ1,⋯,λn為常數，a>0,則有

這已經是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個結論了，在現在大學本科的教材上，包括包括本文主要參考之一盛驟版的概率論與數理統計上，通常給出的是中心極限定理的一般形式：

[Lindeberg-Levy中心極限定理] 設X1,⋯,Xn獨立同分布，且具有有限的均值μ和方差σ2，則在n→∞時,有

多麼奇妙的性質，隨意的一個概率分布中生成的隨機變量，在序列和(或者等價的求算術平均)的操作之下，表現出如此一致的行為，統一的規約到正態分布。

概率學家們進一步的研究結果更加令人驚訝，序列求和最終要導出正態分布的條件並不需要這麼苛刻，即便X1,⋯,Xn並不獨立，也不具有相同的概率分布形式，很多時候他們求和的最終歸宿仍然是正態分布。

在正態分布、中心極限定理的確立之下，20世紀之後，統計學三大分布χ2分布、t分布、F分布也逐步登上歷史舞臺：

如上所述，中心極限定理的歷史可大致概括為：

中心極限定理理的第一版被法國數學家棣莫弗發現，他在1733年發表的卓越論文中使用正態分布去估計大量拋擲硬幣出現正面次數的分布；

1812年，法國數學家拉普拉斯在其巨著 Théorie Analytique des Probabilités中擴展了棣莫弗的理論，指出二項分布可用正態分布逼近；

1901年，俄國數學家李雅普諾夫用更普通的隨機變量定義中心極限定理並在數學上進行了精確的證明。

如今，中心極限定理被認為是(非正式地)概率論中的首席定理。

如果您從中感受到數學的魅力了，請支持一下小編！

歡迎分享或讚賞！

熱經典文章推薦：

矩陣的秩與行列式的幾何意義

微信紅包實現原理猜想

數據挖掘中所需的概率論與數理統計知識(一)

相關焦點

淺說數理統計與概率論

概率論與數理統計

數理統計與概率論及Python實現——概率論中基本概念

一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係

2015年考研專業介紹:概率論與數理統計

概率論與數理統計課件

2017考研數學概率論與數理統計考情分析

概率論與數理統計初步

概率論與數理統計複習攻略

概率論與數理統計的第一講

《概率論與數理統計》課後答案

2018年概率論與數理統計考研大綱解析

概率論與數理統計第四版

2014考研數學:概率論與數理統計必備考點

2021考研概率論與數理統計衝刺:數理統計的基本概念考試要求_北京...

中科院研究生院2012年《概率論與數理統計》考研大綱

2019中國科學院大學碩士研究生《概率論與數理統計》考試大綱

2013考研概率論與數理統計考查焦點總結

2021考研數學：概率與數理統計高分複習攻略

吉林大學概率論與數理統計專業碩士研究生培養方案