「學習應該應用於實踐,實踐讓你的迷惑茅塞頓開。」
文:藍兔子讀難NOTES
圖: 配圖 來源於網絡
編碼:0007
[Quantitative Methods]
[Common Probability distribution-1]
上一篇文章我們講了概率論基礎,什麼是隨機事件,什麼是隨機事件的結果,以及隨機事件之間的關係,是相互獨立的,還是相互排斥的。在弄清楚了概率論基本的概念之後,我們又進一步講解了概率的加法和乘法公式,並在乘法公式的基礎上,引出了貝葉斯公式。雖然貝葉斯當時在研究這個公式時,只是想要證明上帝的存在,但是他並沒能找到我們的造物主。反而是在當今,貝葉斯公式已經廣泛應用於數據科學中,無論是天氣預測還是醫藥測試都有貝葉斯公式的應用[1]。
如果你還是不明白貝葉斯公式的重要性,我這麼跟你說:因為蘑菇彈的存在世界的歷史被分成了兩半,而因為貝葉斯公式,統計學被分成了兩半,其中一半就叫做貝葉斯學派。在最新的發展中,貝葉斯公式已經在人工智慧領域大規模應用。也許多年以後,我們的人工智慧會通過貝葉斯公式找到他們的造物主。
在後面的內容中,我們又進一步解釋了期望和方差相關的概念。期望代表者預期會得到的結果(概率加權),通常用在金融工具的收益計算中,而方差代表著收益的不確定性,用來衡量資產的風險。對於一個資產組合來說,用協方差來衡量其不確定性。
在了解了概率的相關概念之後,我們這篇文章,將會來說說那些非常重要或者常見(很大程度上,因為常見所以重要)的概率分布,他們實際上代表了很多前輩為我們總結的客觀規律。有了前輩們的總結,我們想要造車,就不用去做炫酷的PPT了,哦不,是就不需要去重新造輪子了。那下面,我們就直接去把前輩們的輪子搬回自己家吧。
基本概念和術語
為了更好的學習這篇文章的內容,我們先複習一下上篇文章中的兩個概念:隨機事件和隨機變量。隨機事件,某件事情的結果具有不確定性,任何一個結果發生都是一個隨機事件發生,而發生的結果就是隨機變量的值。以拋骰子為例,隨機事件就是拋出骰子得到一個數,這個具體的數會是多少,是不確定的,叫做隨機變量。接下來,我們開始介紹概率分布相關的概念。
概率分布(probability distribution):某一個事情有多個可能的結果,每一個結果發生,都各自對應一個概率。發生的結果和其概率的函數關係就叫做概率分布。根據事情發生結果的不同,可以分為離散隨機變量和連續隨機變量,對應的就是離散概率分布和連續概率分布。離散概率分布(discrete distribution),最常見的就是丟硬幣和拋骰子了,每次事件的結果的可能性是有限的或者可以數出來的。丟硬幣無非正反兩個結果,拋骰子也就6個結果。因為離散的結果一般是有間距且有限的,可以用表格或者方圖來記錄。
連續概率分布(continuous distribution):與離散概率分布相對,其事件的結果具有無限多種且根本就不能數,比如量同學的身高。每一位同學的身高都有無限種可能,哪怕是在175mm和176mm之間,也能量出無限種可能。連續概率分布一般使用概率密度函數(probability density function | PDF)來描述。
正是因為連續概率隨機變量的結果可能為無數多個,我們可以近似認為某一確定的結果發生的可能性近乎為0,所以其有如下性質:
一般衡量事件出現在某個區間內的概率,如上圖的陰影區域就是結果在(a,b)的概率;認為某個點上的概率為0,即P(a)=P(b)=0,所以1中使用開區間還是比區間不影響;因為一個事件所有結果的概率和為1,所以上圖中曲線與x軸圍成的面積為1。累積分布函數(cumulative distribution function | CDF):在前面說統計相關內容時,當時也出現過累積相關的概念。所謂累積,就是在當前這個值之前的都算,以隨機事件x為例,PDF表示為P(x)=P(x),而CDF表示為F(x)=P([-∞,x]),一般CDF用F表示。
對於CDF來說,在上圖中,如果把結果在a到b之間的概率記為P([a,b]),則P([a,b])=F(b)-F(a)。
常見離散概率分布
這裡要說的離散概率分布一共有3個:離散的均勻分布(uniform distribution)、伯努利分布(Bernoulli distribution)和二項分布(binomial distribution)。下面,一個一個來看。
均勻分布,應該是最簡單的一個了。比如我們丟硬幣,結果就是5/5開,正反面都是50%;拋骰子雖然結果有6種,但是每一個面的概率也是一樣的。均勻分布指的就是,無論有多少種可能的結果,但出現每一種可能的結果的概率是相等的。
伯努利分布,也挺簡單的,最典型的例子還是丟硬幣,伯努利分布就是結果只有兩種的分布。要麼成功,要麼失敗,但是成功和失敗的概率無需對等。聯繫前面說過的賠率,如果進行單次比賽,這次比賽的結果就是伯努利分布,有可能輸有可能贏,且無需五五開。
二項分布,怎麼說呢,也許是覺得一個簡單的伯努利分布很難在數學史上名垂千古,伯努利想到了一個絕妙但卻「無聊」的辦法:把簡單的事情重複做。通過把硬幣一直丟這種方式,伯努利在伯努利分布的基礎上搞出了二項分布,教科書式的說法,把伯努利實驗重複n次就是二項分布。但是有兩個點要注意:
每次實驗是一樣的,成功為p,失敗為1-p;每次實驗是一樣的,不受上次影響,不影響下次,成功為p,失敗為1-p。n次實驗成功x次的概率,用大白話表示為:
從n次裡面取出x次來成功,沒有順序要求,nCr;x次成功,概率為p*p*p*~*p(x個),n-x次失敗,失敗的概率為((1-p)*(1-p)*~*(1-p)(n-x個))。這三個事情同時發生,就是n次實驗成功x次的概率:
最後,再記住這麼一個結論就好啦:
這個難記嗎?不難吧,看看這規律,二項分布他不就是n個伯努利嘛!
最後的最後,還有一個股價二叉樹(binomial tree)的問題。舉個例子,某隻股票每期要麼漲(up)要麼跌(down),問4期之後,股票價格為uudd的概率為多少。其實只要從四期裡面選兩期來d,剩下兩期來u就可以了,解法同上面的二項分布。
常見連續概率分布
模擬分析
由於前面的廢話說得有點多,顯然字數是要超標了,而後面又有非常重要的正態分布,所以連續概率分布和模擬的內容放到下篇文章中,請大家自行查閱。
部分資料來源:
[1] Quartz Daily Brief . The most important formula in data science was first used to prove the existence of God
兔紙的相關文章
美聯儲降息,多國下調利率,敢問利率為何物從餘額寶七日年化談今天的一百塊,明天值多少CFA一級數量分析-貨幣的時間價值CFA一級數量分析-數理統計基礎與收益CFA一級數量分析-概率論基礎