首先對看到這篇文章的同學們提一個問題:從小到大你們有沒有因為某幾次考試考得不好而懷疑自己不是學習的料?
今天我們來科普一下在概率論當中非常典型的三種概率分布:分別叫做伯努利分布、二項分布以及正態分布。通過這三種分布的關係來跟大家分析一下考試好壞到底何天賦有何關係。這三種分布同樣也會出現在AP統計的考試當中,但是作為科普文,今天只重點討論三種分布之間的關係,而不會涉及到過多的計算和證明。(此文章可放心食用)
伯努利分布
我們先來從伯努利實驗談起。如果一次實驗只有2種結果:成功或者失敗,每次實驗成功的概率都是p,且每次實驗的結果之間互相不影響,我們就稱作這種實驗為伯努利實驗。
舉個例子,一個什麼都不會的學生去做五選一的選擇題就屬於伯努利實驗。因為猜對答案就相當於成功,成功概率為1/5. 並且第一題是否蒙對和第二題是否蒙對互相不影響。
那麼什麼叫做分布呢?用大家熟知的直方圖來去表示一下。假設一道題目做對得1分,做錯得0分。就可以畫出一個這樣的直方圖,橫坐標為得分,縱坐標為得分對應的概率。這個就叫做分布
二項分布
剛才我們說到了伯努利實驗,那麼
二項分布其實就是重複多次伯努利實驗之後的結果分布了
。我們依舊以做單選題來去舉例子,假設一套卷子有100道題,那麼猜對100道題的概率就是
如果猜對2道題呢?是
顯然不是,因為100道題中我可以猜對第一題第二題或者第二題第四題。那麼到底有多少種100道題中猜對2道的情況呢?一共有
種(這個叫做binomial coefficient,今天的重點不是這個,因此我們不過多做討論)。
我們需要把剛才的
在乘以
種可能才可以得到答案。
所以二項分布的概率見下圖:
再給大家舉個例子。假設小明同學參加考試,10道題全都不會做。那麼他究竟能猜對幾道題在考試成績下來之前我們不得而知。因此統計學上把他能夠做對的題目數量也稱作隨機變量。通過我們剛才的概率計算下來,小明同學可能得到的分數已經對應的概率分布見下圖:
正態分布
正態分布(normal distribution),也稱作「常態分布」,是一種極為常見的連續性概率分布,也是一種極為常見常用的概率分布模型。如果隨機變量X服從正態分布均值為μ,標準差為σ,那麼隨機變量X的概率密度曲線將會呈現鐘形(中間高兩邊低),如下圖:
老師個人認為,正態與常態兩種稱呼都不太能夠直觀的顯示出這個分布的特點,不如從當中各取一個字稱作「正常分布」就很白話了,這正是正態分布的本質含義。
因為在生活當中,它太常見了。有非常多的數據分布形狀會接近正態分布的鐘形(即中間高,兩邊低的對稱形態)。比如:正常人群的身高、體重、考試成績等等。
到現在一定會有同學納悶:明明老師剛才說的成績分布服從二項分布,怎麼到了這一段就變成成績服從正態分布了?這要從一個裝置說起:
高爾頓釘版
18世紀英國著名科學家弗朗西斯·高爾頓發明了一個機械裝置,可以很好的展現正態分布產生的過程(如下圖):
當小球撞到柱子的時候,會隨機的選擇向左走還是向右走,碰到下一個柱子繼續隨機選擇左右。有多少層柱子就相當於多少小球隨機進行了多少次選擇,連續的執行了多次獨立重複的實驗。這就相當於重複多次伯努利實驗產生的二項分布了。
當小球的數量非常多的時候,人們驚奇的發現這個二項分布的形狀簡直跟正態分布一模一樣。
所以我們繼續以考試為例,如果都是選擇題,大家什麼都不會全靠蒙,那麼考試成績一定會呈現一種正態分布。然而一定有同學會問:大家考試畢竟是靠真本事答題的,肯定不可能全部都蒙。那麼這樣成績也會呈現正態分布嗎?而且小球隨機向左向右走的概率都是0.5,但是蒙五選一選擇題時,蒙對的概率是0.2、四選一的選擇題概率是0.25呀?
答案是:大致是這樣的。因為同一道題,有的同學覺得簡單,就一定會有同學覺得難。那放眼全部考生,就會涉及到一個概率問題了,比如說有60%的同學覺得簡單,40%的同學覺得難。
假設覺得簡單的同學一定能夠做對題,統計學上就會認為這道題的正確率大致為60%,也就相當於每次實驗成功(做對題)的概率為0.6,連續的執行了多次獨立重複的實驗(做了很多道題)。
但如果考生人數足夠多,最後的分布形狀也會近似於一個正態分布。因為統計學認為如果樣本量(考生人數)滿足一個叫做large count condition的條件的話,那麼樣本將會近似於一個正態分布。
large count condition是由前人的經驗得來的,不存在證明的過程。先來看一下這個定義:
這個定義說到:如果樣本量n非常大,那麼只要二項分布實驗成功的概率p滿足np與n(1-p)都大於等於10,這個二項分布的分布形狀就會近似於正態分布了。
當然,如果題目過於簡單,比如某題99.999%的考生都能夠做對的話,就會使得np或者n(1-p)中某一項不夠10。那這時候就需要一些人為的幹預手段(例如curve),來去進行調整了。
我們希望一場考試當中大部分人的成績都在平均成績附近,考超高分和超級低分的學生數量非常少。(考過SAT的同學應該知道數學部分的curve特別大,原因就在於此,因為本身知識點會比較簡單,只能通過curve的形式讓所有考生的成績大致服從這樣的分布。)
同樣對於特別難的考試,也會通過curve來去平衡分數,使得總體成績大致服從正態分布。這樣的話才不會出現所有人都考不上大學或者所有人都去上藤校的情況。
總結
看完了今天這篇科普文章,同學們一定了解了伯努利分布、二項分布以及正態分布的關係。簡單來講就是n次伯努利實驗的結果會呈現二項分布,當實驗次數n足夠大,二項分布會近似於正態分布。
世界上大多數的事情都會服從正態分布,如果情況太極端,也會通過人為的某些手段來平衡整體使之達到正態分布。
往大的方面講,社會的平衡也是如此。從我們身邊的小事上來說,比如考試,稍顯極端的情況可能是考試過於簡單,但考試的形式可能會有所不同(比如線上考試,答案提交不成功,你懂的)。
大多數的我們,都是平凡的一顆小星星,希望同學們不要因為一次考試的結果就妄自菲薄或者氣滿志驕,調整好心態不斷努力,才能夠在每次考試當中取得優於別人的優秀成績。
文章作者
TD福利&領取方式
最後,TD君為大家送福利啦!為幫助同學們更高效地備考,我們為大家準備了AP統計近10年FRQ真題,免費送給大家!歡迎大家後臺回復「概率」免費獲取,還能進入備考交流群與大家一起備考~