1. 概率的定義
概率是一個極其龐大的主題,在初級統計學中我們可以將概率問題理解成簡單的比例問題,用符號p表示。
我們知道推論統計的目的在於通過樣本數據回答關於總體的問題。樣本和總體之間的關係通常是根據概率來定義的。在總體已知的情況下,我們可以通過概率來描述可能獲得的樣本。例如一個盒子中有十顆白色石子,十顆黑色石子,從盒子中任意取出一顆石子,我們可以知道有50%的可能性抽到黑色,50%的可能性抽到白色。顛倒概率規則的順序,我們就可以從樣本反推出總體的情況。總體和樣本的關係是通過概率這個橋梁連接起來的。
2. 獲取概率的程序
為了使概率的定義更加精確,樣本的取得必須是從一個被稱為隨機取樣的程序中獲得的。隨機取樣的要求包括:
A. 總體中的每個個體都有相等的機會被選擇,即選擇的程序不存在偏差。例如研究者想研究北京地區高校學生,就不能忽略其他學校,僅僅在北大這一所學校抽取樣本。
B. 選擇不止一個個體,選擇這個個體的概率與選擇另一個個體的概率必須相同,這裡涉及到的是返還取樣的問題。例如從一副撲克牌裡抽取N=2張牌,第一次抽到紅桃K的概率的概率為p=1/52。如果我們保持持有抽取的第一張牌,並不返還,那麼第二次抽到紅桃K的概率就可能是1/52(第一張牌不是紅桃K)或0(第一張牌是紅桃K)。這就不符合概率相同的原則。
3. 概率與正態分布
正態分布是對稱的,在中間有一個眾數。頻率從分布的中間到兩端逐漸變小。
正態分布表則完整地列出了z分數以及相應的比例。
4. 概率與二項分布
當一個變量由只含有兩個類別的量表測量時,得到的數據叫做二項數據。例如人分為男性或女性。扔硬幣的結果只有正面和反面。在心理學測量中,研究者常常會使用二項數據,例如將人分為高攻擊性或低攻擊性,內向或外向。在二項分布中,兩個類別被記做A和B。對應的概率被記做
p=p(A)=A的概率
q=p(B)=B的概率
p+q=1.00
樣本個數記作n,變量X指類別A在樣本中出現的次數。
二項分布傾向於趨近正態分布,當n較大時,近似於正態分布。在這個分布中
5. 如何將概率用於推論統計中
概率允許我們將分布中的數據分成大概率和小概率。極端值的邊界位於5%,即z=+/-1.96的地方。這個點是決定樣本是否與原始的總體顯著不同的客觀標準。如果我們個體分數落在z=+/-1.96的邊界以外,我們可以得出以下結論:
A. 非常不可能從最初總體中抽取出z分數超過+/-1.96的個體
B. 因此接受處理的個體與最初總體的大部分個體間有顯著差異
C. 因此,處理是有效的。
參考書目:行為科學統計,現代心理與教育統計學