CDA數據分析師 出品
摘要
本文作為學習概率論的前導知識,主要是為了幫助大家了解以下知識點:
什麼是隨機事件和隨機變量?什麼是頻率和概率?事件之間有哪些基本關係?事件之間有哪些基本運算?
隨機現象
概率論是研究隨機現象的數量規律的數學分支,那麼什麼是隨機現象呢?
首先,我們需要知道的是在自然界和人類社會中,存在著兩種現象,一種是確定性現象,在一定條件下只有一種結果。比如,每天早晨太陽都是從東方升起。第二種是隨機現象,在一定條件下可能由多種結果。比如,拋一枚硬幣可能出現正反兩面。
因此,隨機現象滿足兩個特點:
結果不止一個;會出現哪一個結果,人們事先並不知道。隨機現象的存在,使得我們生活中充滿了不確定性的問題,因此,概率論和統計學就是幫我們解決不確定性問題的數學工具。
在上面中,我們了解到了隨機現象可能出現的結果不止一個,這些結果我們就稱之為隨機事件,因此,可以進一步理解概率論研究的問題:概率論是用數學的方法估算隨機現象中各隨機事件發生的概率。
那麼什麼是概率呢?我們用什麼來估算概率呢?下面我們來介紹一些頻率的穩定性。
頻率的穩定性
事物的偶然性必然受其背後的必然性規律所支配,因此,隨機現象產生的結果也必定有著某種客觀規律。而對於某些可以重複試驗的隨機現象,我們就可以利用不斷的重複試驗來觀察其中的規律,比如概率論中的經典問題:拋一枚硬幣,出現正面的概率是多少。為了估算正面出現的概率,我們可以通過在一定條件下重複試驗,統計正面和反面出現的次數,計算出現正面出現的頻率(正面出現的頻率 = 正面出現的次數/總次數),然後用這個頻率去估計概率。
因此,通過以上描述,我們可以總結出以下幾點:
大量試驗可以得到隨機現象的隨機事件發生的頻率;隨機現象在大量重複試驗後會呈現出明顯的規律性,這個規律性就是頻率的穩定性,即頻率穩定於概率。頻率是可以通過重複試驗計算出來的,而概率是客觀存在的,是一個理論值,只能通過頻率估計出來。( 作者註:這種用頻率估計概率的估計思維,將貫穿概率論與統計學的整個學習過程,是整個學科的思想精髓,希望讀者在之後的學習中慢慢體會它的妙處。)
隨機變量
數學是對客觀事物的抽象認知,概率論也不例外,因此,為了研究隨機現象的規律,我們得將問題抽象成數學符號來進行研究。
通常,我們用大寫字母$A$、$B$、$C$...來表示隨機事件。
在上文中,我們了解到了隨機現象的結果(即隨機事件)可能有很多種,因此,用來表示隨機現象結果的變量我們就稱之為隨機變量,常用大寫字母$X$、$Y$、$Z$ 表示。
下面,我們舉一個例子,來學會如何將現實中的問題抽象成數學的表達方式。比如,我們要研究拋一枚骰子數字1出現的概率。
那麼,在上面這個問題中,隨機現象是拋一枚骰子;隨機事件是拋一枚骰子出現數字1。用數學進行抽象表達就是:
設隨機事件(可簡稱事件)$A$ = 拋一枚骰子出現數字1,隨機變量$X$ 為拋一枚骰子得到的數字,研究事件A發生的概率,即$X = 1$的概率。
易知,隨機變量$X$ 的取值只有6種,分別是:$1,2,3,4,5,6$。$X$ 的所有取值就構成了樣本空間,我們用集合來表示就是:樣本空間 $\Omega$ = { $1, 2, 3, 4,5, 6 $ }。樣本空間中的基本元素就叫做樣本點,如該樣本空間中就有6個樣本點。
最後,留一個思考題給大家,如果想要研究:將一枚骰子拋兩次,兩次都大於3的概率。
在上述問題中,隨機現象、隨機事件、隨機變量、樣本空間、樣本點分別是什麼,如何將他們抽象成數學的表達方式?
事件間的關係和運算
在一個樣本空間中顯然可以定義不止一個事件,概率論的重要研究課題之一是希望從簡單事件的概率推算出複雜事件的概率。
事件間的關係,我們用以下概率論語言來表示:
包含關係:事件$A$包含事件$B$ $=> B\subset A$相等關係:事件$A$與事件$B$等價 $=> B\subset A$ 且 $A\subset B$互補相容:事件$A$與$B$不可能同時發生 $=> AB = \emptyset $事件間的運算,我們用以下概率論語言來表示:
事件$A$與$B$的並:事件$A、B$至少發生一個 $=> A\bigcup B$事件$A$與$B$的交:事件$A$、$B$同時發生 $=> A\bigcap B$ 或 $AB$事件$A$與$B$的差:事件$A$發生,但$B$不發生$=> A-B$A的對立事件(逆事件):$A$不發生 $=> \overline{A}$學會用概率論的語言表示事件是我們學習概率計算的第一步,若$A,B,C$ 是某個隨機現象的三個事件,大家可以嘗試用概率論的語言表示以下事件:
$A$ 與$B$ 發生,$C$ 不發生$A,B,C$ 中至少有一個發生$A,B,C$ 中至少有兩個發生$A,B,C$ 中恰好有兩個發生$A,B,C$ 同時發生$A,B,C$ 都不發生$A,B,C$ 不全發生