還記得前段時間看過一篇文章,就是調查大家疫情期間都幹了什麼,有一條是疫情期間終於弄清楚了PDF和CDF的區別。PDF、PMF、CDF這幾個概念確實很容易混淆。今天就來捋一捋這幾個概念。
1.基本概念PDF:是英文單詞 probability density function 的縮寫,翻譯過來是指概率密度函數,是用來描述連續型隨機變量的輸出值,在某個確定的取值點附近的可能性的大小的函數。
PMF : 是英文單詞 probability mass function 的縮寫, 翻譯過來是指概率質量函數,是用來描述離散型隨機變量在各特定取值上的概率。
CDF : 是英文單詞 cumulative distribution function 的縮寫,翻譯過來是指累積分布函數,又叫分布函數,是概率密度函數的積分,用來表示離散型隨機變量x的概率分布。
總結一下就是上面三者的橫軸都是隨機變量x的取值,PDF的縱軸表示連續型隨機變量x出現的可能性(非概率),PMF的縱軸表示離散型隨機變量x出現的概率,CDF的縱軸表示連續型隨機變量x的概率。
相信大家看完上面的概念以後對這幾個還是有點懵,接下來我們就仔細講講這些概念的來龍去脈。
2.頻率分布條形圖頻率分布條形圖主要用在離散數據中,橫軸為一個個具體的點(類別),縱軸為這些點對應的頻率。
當試驗次數足夠多時,我們可以用頻率來代替概率,也就是可以把頻率分布條形圖中的縱軸當作每個類別出現的概率值。此時的頻率分布條形圖就可以當作是PMF圖。
3.頻率分布直方圖在頻率分布直方圖中橫軸表示眾多個連續變量離散化以後的區間,這個區間的大小稱為組距,縱軸表示頻率/組距。
上圖中每個長方形的面積就是該區間的頻率,即概率。
當長方形的寬度無限小,即組距無限小的時候,頻率分布直方圖就無限接近於下方這樣的光滑曲線,我們把這條曲線叫做概率密度曲線,即PDF。
累計分布函數就是從上圖中的概率密度曲線的最左邊開始,然後逐漸往右求取曲線下方的面積,即概率。
以上就是關於PDF、PMF、CDF三者之間的異同情況,如果對公式推導方面感興趣的話可以直接上網搜索即可。