正態分布
概率學(Probabilistic)是一門研究隨機事件的科學技術,是研究隨機現象數量規律的數學分支。隨機現象,是相對於決定性現象而言的,所謂決定性現象,就是指在滿足一定條件時,必然會出現某一結果的現象。反之在一次實驗或觀察前,呈現出偶然性結果的現象,我們稱之為隨機現象。
例如概率學入門經典案例「拋硬幣」,滿足隨機投擲的硬幣落在平面靜止後既可能正面向上,也可能反面向上,另外還有極小的概率會立起來。硬幣質地均勻,拋擲不使用特殊技巧的情況下,出現正面或者反面的概率一定都趨近與50%,這個基本上是大家隨時隨地都可以做統計的概率實驗。起初拋10次你也許能拋出8次反面,2次正面這種看似不遵循概率論的現象,但當你的樣本量(Sample size)足夠大以後,兩種概率終將趨近於50%。
另一個你可能接觸到的常見隨機事件,是拋擲六面骰子。骰子如果質地均勻,拋擲不使用特殊技巧,基本上六面出現的概率是相等的,都為1/6。請思考一個問題,如果同時拋擲兩個骰子,點數之和為7概率是多少?給自己一些時間思考後再繼續閱讀。
如果你的答案是1/6,那麼恭喜你答對了,如果不是瞎矇的,說明你的概率學學習的不錯。兩顆骰子點數的隨機組合總共有6乘以6等於36種情況,其中只有6種組合情況點數之和為7,所以概率是6/36=1/6。並且不難算出,點數和為2的概率和點數和為12的概率相等,均是1/36,點數和為4的概率3/36=1/12。
骰子的全部組合
在筆者上學的時候,有過將概率學用在野路子的上的經歷。研究生英語考試時候,有一個得分率不高的完形填空題型,一共20道題,每一道題4個選項。為了節省時間並蒙中一定量的題目,我選擇20道題同時選擇選項C的蒙題策略,這裡告誡各位學弟學妹千萬不要效仿,因為當時的情況是認真做完形填空,即使花了時間,也很難拿到1/4的分數,所以才出此下策,目的是在節省時間的同時,保證穩定的正確率。
但是這一切成立的前提是,真題中20道題目的正確答案分布是平均的,即A、B、C、D選項出現的次數要相同。經過筆者的調查,在2019年的全國英語研究生考試中,完形填空題型的答案正符合這個條件,四個選項各出現了5次。同樣的規律也出現在各地的高考真題中,說明考試院的老師們是深知這一情況的,為了防止某些人全部填寫相同選項獲取高分,完形填空的答案有意均勻分布在四個選項上,全蒙相同選項獲取的分數,基本只有平均分的三分之一。最後再次提醒各位不要效仿,最後筆者也因為英語沒過線無緣碩士學位。
對於學霸來說,如果能把握這個規律,也許可以在有把握做對19題的前提下,通過分布規律預測自己沒把握那題的答案,當然只是理論上可行,實用性欠佳,因為沒有人能保證所有考試均符合「答案平均分布」的前提。
既然「全蒙」相同答案大概率只能拿1/4的分數,那如果所有答案都隨便選,是否能有更高的分數收益呢?為了驗證這個事情,我們使用一段JavaScript程序來模擬蒙題得分:
let ans = [3,3,2,4,1,2,4,3,1,4,1,2,4,3,2,4,1,1,2,3]
let p = 0
let max = -1;
let min = 9999;
for(let j = 0; j < 100; j ++) {
let score = 0
for (var i = ans.length - 1; i >= 0; i--) {
let p = Math.floor((Math.random()*4)+1);
// console.log(p,ans[i])
if(p == ans[i]) {
score ++
}
}
if(score > 10) console.log(score);
if(max < score) max = score
if(min > score) min = score
p = p + score
}
console.log([p,p/100,max,min].join(&34;));
代碼看不懂沒關係,下面是每次模擬100次蒙題的得分情況,我計算了每一次模擬的平均得分,並記錄了最高分和最低分。實際測試前十次的結果是分別是:
模擬結果
從結果來看,隨機蒙答案,雖然運氣好能超過拿到一半的分數,但也有相同的概率拿到超低分,這裡涉及到統計學概念「正態分布」,這裡不展開來講,只說結論:期望值是5分,離5分越遠,概率越低,理論上蒙對20題的概率是有的,但在實際操作中小到可以忽略。如果有人蒙對了全部20題,可以大概率認為他事先背過答案。我們實驗是每一次100輪,即實驗了一千次,出現的最佳成績僅為11,出現的概率也很低,極限值在每次實驗出現的頻次是1~2次。由於平均分毫無意外地在5分上下波動,考慮到樣本量有限(即每個人一生做完形填空的數量遠少於實驗量),最佳的蒙題策略應該採用同選項策略,雖然不會出高分,但最大概率能保證拿到1/4的分數。
另一個生活中常見的概率問題就是人類生理性別,中學生物告訴我們人類的性染色體有兩種常見形態,XX為生理女性,XY為生理男性。受精卵的形成過程中,男女雙方各出一條染色體,我們為每一條染色體編號,分別為媽媽的X1和X2,爸爸的X3和Y,則組合的情況則為4種:X1-X3,X2-X3,X1-Y,X2-Y。這四種情況出現的概率是相等的,所以孕育的小孩是男孩還是女孩,概率都是50%。
那麼問題來了,社會中很多宣揚能保證生男孩或者生女孩的個人和機構,是否真的可信?答案是否定的,這些人基本都是騙子,而且這是一群學過概率學的騙子。首先我們確認一下,是否有人為控制孩子性別的科學技術?答案是有,人工受精和試管嬰兒技術是支持選擇性別的,但允許選擇性別有一個前提,就是父母有性別選擇性的家族遺傳病史。如果不進行細胞級別的外部幹預,其他的各種偏方基本上都可以歸類到神棍範疇。
往往生活中還有不少人相信這些所謂「大師」的「神藥」等產品,願意花大價錢來搏一搏,這都是不懂概率學造成的後果。因為這一類的騙局是零成本的,比如「大師」宣揚說他有神藥,一個療程5,000塊人民幣,吃一個療程保證生男孩子,不靈全額退款。如果有10個人為此付了錢,「大師」即使給他們的都是純淨水喝,期望收益也有25,000元,因為每個孩子都有50%的概率是男孩:
期望收益 = 10 * 0.5 * 5000 = 25000
真的是無本萬利的買賣,無獨有偶,報導說國外有個機構,在某個歐洲足球聯賽中,大量發送電子郵件,欺騙消費者說自己的機構有內幕消息,能提前知道每一場比賽的勝負結果。他們用垃圾郵件批量發送軟體,一次性發送了32,000封郵件,其中一半預測A隊勝利,另一半預測B隊勝利。等比賽結束後,再向預測正確的1.6萬個用戶發送下一場比賽的預測結果,仍然是對半預測結果。這樣在連續預測八輪比賽後,他們仍然擁有125位全部預測正確的用戶。然後他們向這125位用戶售賣決賽的結果,其中有不少人真的會對這個機構感興趣,並想通過購買的結果在賭球中撈一筆。最終有12%的人支付了購買決賽結果的1,500元,一場騙局下來,機構淨掙22,500元。
當然,學習概率學,並不是為了讓我們去做騙子,而是為了更好地了解這個世界的真相。學習概率學並不能讓我們在博彩中掙錢,因為彩票的期望回報是負值,學習概率學只會讓我們理智的不購買彩票。要知道,國內雙色球的頭獎概率是1772萬分之一,遠低於考上清北的概率(大概萬分之五),所以有精力不如在學業上搏一搏。
2018年全國高考考生975萬,上清華北大的只有4799人