現在是上午十點鐘,王先生第10次走進衛生間洗手。在今晚睡覺之前,他的洗手次數會超過60次。這是正常的行為嗎?
心理學家們需要通過統計模型來區分正常和非正常行為。首先,他們需要取一個大樣本並記錄每個人在特定的一天中洗手的次數,結果如下圖:
要檢驗王先生的行為是否屬於極端的異常行為,我們需要用到統計中的兩個基本概念:集中趨勢(測量平均數)和變異性(偏離平均數值的測量)。如果王先生的分數處在平均的正常的行為這個區間中,那麼他的行為是正常的。說到這裡,也許你已經注意到了,集中趨勢和變異性是密切相關的。變異性是統計最基本的概念之一。它是對分布中的數據分散或聚集程度地數量的測量。一個好的變異性測量不僅能夠體現數據是集中還是分布在較大的區域還能夠讓我們了解到單個數據是否能很好的代表整個分布,即可以預期一個樣本代表總體時的誤差值。今天我們會介紹三種變異性的測量:全距,四分位距和標準差。
1. 全距和四分位距
全距是指一組數據最大的X值得上實限和最小的X值下實限之間的差值。也就是說僅僅由兩個極端值決定一組數據的全距。由於全距不考慮分布中的所有數據,它通常不能正確的描述整個分布。
為了避免極端值過度影響變異性的測量,我們會運用另一種方法:測量四分位距。它測量的是分布中間50%的數據的距離。即Q3-Q1。當用四分位距來描述變異性時,它常常會被轉換為半四分位距,即(Q3-Q1)/2。相比全距,半四分位距不易受極端值的影響。但是由於它不考慮單個數據之間的真實距離,不能給出數據是如何分散和聚集的全景,因此也被認為是簡略的變異性測量
2. 標準差和方差
為了克服全距與四分位距的不足,我們引入標準差這個概念。它是以平均數為參照點,考慮每個數據和平均數之間的距離來測量變異性。
2.1 測量標準差和方差的基本步驟
A. 找出離差,即數據到平均數的距離。
B. 確定總體方差,即離差的平方的平均數。
C. 確定標準差,即方差的平方根。用σ表示。
2.2 樣本的變異性與自由度
以上公式計算的是總體的標準差和方差,當我們選取一定數量的樣本進行計算時,我們會發現樣本方差給出的對總體方差的估計是有偏誤的,總是低估了總體值。因此我們需要考慮到樣本的變異性與自由度。一個有n個數據的樣本,最初的n-1個分數可以自由變化,但最後一個是被限制的。例如一個n=3,M=5的樣本,我們可以沒有限制的假設前兩個數的數值,比如X1=2,X2=9。在前兩個數確定的情況下,第三個數被限制了,只能是4。也就是說樣本自由度df為2(n-1)。自由度決定了樣本中獨立的和可以自由改變的數值的個數。因此樣本方差的計算公式如下:
3. 影響變異性的因素
A.極端值
全距受極端值影響最大,其次是標準差和方差,半四分位距影響最小。
B.樣本大小
全距受樣本大小影響,半四分位距與標準差不受影響
C.取樣的穩定性
標準差和方差在抽樣取樣時是穩定的,半四分位距也提供了合理的穩定測量,全距在取樣時被稱作是不穩定的。
D.開放性分布
唯一可求得的變異性測量是半四分位距
4. 對變異性測量的比較
4.1 標準差與描述性統計
標準差是一種描述性測量,它描述了分布中的數據如何變化如何散布。每個人都是不同的,當行為學家研究人的不同的行為時,需要計算這些變量的平均數,並通過測量個體分數與平均數的距離來描述變異性。如果大多數數據都集中在平均數周圍,我們認為這組數據變異性很小。如果數據以平均數為中心,分散在一個更寬的範圍內,我們認為這組數據變異性較大。
同時標準差也可以解釋單個數據。以智商為例,已知智商平均數為100,標準距離σ=15。那麼一個智商為110的人,他的分數高出平均分10分,在一個標準差以內,並不算特例。如果他的智商為135,高出平均分35分,在兩個標準差以外,那麼他可以稱為智商超高。
4.2 方差與推論性統計
推論統計的目的在於發現研究結果中存在的有意義的模式。研究者面臨的基本的問題在於樣本數據反映的到底是總體中存在的模式還是偶然產生的隨機變化?一般來說較小的變異性意味著現有的模式可以被清楚的看到,而較大的變異性會導致數據的模式難以被發現。方差就像是我們在接聽電話時的噪音幹擾。噪音越大,我們越難聽清對方所要傳達的信息。
至此我們介紹完了描述性統計的所有基礎概念。下一章開始,我們將進入推論性統計的學習。
參考書目:行為科學統計,現代心理與教育統計學