前面兩篇文章,我們講到了概論論中的基本概念和隨機變量的初步認識;
對隨機變量及其取值規律的研究是概率論的核心內容。在上一個小結中,總結了隨機變量的概念以及隨機變量與事件的聯繫。這個小結會更加深入的討論隨機變量。
可以先把文章看完:再回來理解這句話:隨機變量最主要的性質是其所有可能取到的這些值的取值規律,即取到的概率大小。
數理統計與概率論及Python實現(1)——概率論中基本概念
數理統計與概率論及Python實現(2)——隨機變量
隨機變量的本質是一種函數(映射關係),在古典概率模型中,「事件和事件的概率」是核心概念;但是在現代概率論中,「隨機變量及其取值規律」是核心概念。
隨機變量與事件的聯繫與區別
文章1和2中對這兩個概念的聯繫進行了非常詳細的描述。隨機變量實際上只是事件的另一種表達方式,這種表達方式更加形式化和符號化,也更加便於理解以及進行邏輯運算。不同的事件,其實就是隨機變量不同取值的組合。舉一個很好的例子來說明兩者之間的差別:
對於隨機試驗,我們所關心的往往是與所研究的特定問題有關的某個或某些量,而這些量就是隨機變量。當然,有時我們所關心的是某個或某些特定的隨機事件。例如,在特定一群人中,年收入在萬元以上的高收入者,以及年收入在3000元以下的低收入者,各自的比率如何?這看上去像是兩個孤立的事件。可是,若我們引入一個隨機變量
XX:X=隨機抽出一個人其年收入X=隨機抽出一個人其年收入
則X是我們關心的隨機變量。上述兩個事件可分別表示為
{X>10000}{X>10000}或 {X<3000}{X<3000}。這就看出:隨機事件這個概念實際上包容在隨機變量這個更廣的概念之內。也可以說,隨機事件是從靜態的觀點來研究隨機現象,而隨機變量則是一種動態的觀點,一如數學分析中的常量與變量的區分那樣,變量概念是高等數學有別於初等數學的基礎概念。同樣,概率論能從計算一些孤立事件的概率發展為一個更高的理論體系,其基本概念就是隨機變量。一下子引用了一大段話,這段話非常清楚的解釋了隨機變量與事件的區別:就像變量與常量之間的差別那樣,這樣的差別比起我自己看到的要大得多。做這樣的比較也有利於自己更好的理解「隨機變量」這個多少有點抽象的概念。
隨機變量的分類
隨機變量從其可能取的值全體的性質可以分為兩大類:離散型隨機變量和連續型隨機變量。
離散型隨機變量
離散型隨機變量的取值在整個實數軸上是間隔的,要麼只有有限個取值,要麼是無限可數的。
圖1:離散型隨機變量的概率質量分布函數
常見的離散型隨機變量包括以下幾種:
0-1分布(也叫兩點分布或伯努利分布)
二項分布
幾何分布
泊松分布
超幾何分布
連續型隨機變量
連續型隨機變量的取值要麼包括整個實數集
(−∞,+∞)(−∞,+∞),要麼在一個區間內連續,總之這類隨機變量的可能取值要比離散型隨機變量的取值多得多,它們的個數是無限不可數的。圖2:連續型隨機變量的概率密度分布函數
常見的連續型隨機變量包括以下幾種:
概率密度函數的性質
所有的概率密度函數
f(x)都滿足下面的兩條性質; 所有滿足下面兩條性質的一元函數也都可以作為概率密度函數。
f(x)≥0 ; 以及 ∫+∞−∞f(x)dx=1
隨機變量最主要的性質是其所有可能取到的這些值的取值規律,即取到的概率大小。
如果我們把一個隨機變量的所有可能的取值的規律都研究透徹了,那麼這個隨機變量也就研究透徹了。
隨機變量的性質主要有兩類:
一類是大而全的性質,這類性質可以詳細描述所有可能取值的概率,例如累積分布函數和概率密度函數;
另一類是找到該隨機變量的一些特徵或是代表值,例如隨機變量的方差或期望等數字特徵。常見的隨機變量的性質見下表:
縮寫中文名解釋CDF累計分布函數 連續型和離散型隨機變量都有,一般用 F(X)F(X)表示PDF概率密度分布函數連續型隨機變量在各點的取值規律,用 f(x)f(x)或 fX(x)fX(x)表示PMF概率質量分布函數離散隨機變量在各特定取值上的概率IQR四分位數間距25%分位數與75%分位數之差SD標準差用於描述隨機變量取值的集中程度概率質量函數 vs 概率密度函數
概率質量函數和概率密度函數不同之處在於:
概率質量函數是對離散隨機變量定義的,本身代表該值的概率;
概率密度函數是對連續隨機變量定義的,本身不是概率,只有對連續隨機變量的概率密度函數在某區間內進行積分後才是概率。
更多內容,歡迎相互學習
更有數據分析學習群