本文摘自電子工業出版社《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》。
SPSS中有多個模塊中的多個指標反映變量間相關或關聯程度,現簡單介紹如下:
一、相關分析有關統計量及意義
(一)兩個計量資料的相關分析
1、Pearson 相關係數
最常用的相關係數,又稱積差相關係數,該係數的計算和檢驗為參數方法。r介於-1與1之間,r的正負值表示兩變量之間線性關係的方向,即r>0為正相關、r<0為負相關、r=0為零相關。r的絕對值大小則表示兩變量之間線性相關的密切程度,|r|越接近0,說明密切程度越低。r=0時,也可能會存在非線性關係,可通過散點圖來確定。Pearson相關係數不適合描述兩變量的非線性關係。適用條件如下:
(1)兩變量呈直線相關關係,如果是曲線相關可能不準確。
(2)極端值會對結果造成較大的影響。
(3)兩變量符合雙變量聯合正態分布。
2、Spearman 等級相關係數
可用於描述兩個等級變量間關聯程度與方向,其相關係數用rs表示。這類方法對原變量的分布不作要求,屬於非參數統計方法,可用於不服從正態分布或不知道總體分布類型的連續性數據、結果不能用具體數字表示、半定量數據或等級資料的相關分析。檢驗效能較 Pearson 係數低。Spearman等級相關係數rs,rs介於-1與1之間,即rs>0為正相關、rs<0為負相關、rs=0為零相關。
4、偏相關
偏相關係數(partialcorrelation coefficient)在控制一個或多個附加變量的效應後,描述兩變量間線性關係(linear relationship)。
3、距離相關
測量兩個連續變量間的相似性(數值越大表示距離越近)或相異性(數值越大表示距離越遠)。
4、各種相關矩陣
在SPSS的多個模塊中都可以計算各種相關矩陣,如因子分析中,可計算相關矩陣行列式及逆矩陣、包含反影像的再生相關矩陣等。
(二)有序分類(雙向有序)資料的相關
兩個變量均為有序變量的情況,即雙向有序資料。有序分類變量的相關性又稱為一致性,即行變量等級高的列變量等級也高,如果行變量等級高而列變量等級低,則稱為不一致,均為非參數相關。
1、Kendall相關係數τb
係數符號表示關聯方向,絕對值表示關聯強度,絕對值越大則表示關聯程度越強。係數值介於-1至1之間,但係數值-1和1隻能在正方表(square table)中獲得。
1、Kendall相關係數τc
係數符號表示關聯方向,絕對值表示關聯強度,絕對值越大則表示關聯程度越強,係數值介於-1至1之間,但係數值-1和1隻能在正方表中獲得。
3、γ係數
γ法是兩個有序變量的相聯度量,γ係數G介於-1至1之間,G的絕對值越接近1時,表示兩個變量間的關聯程度越大,其絕對值越接近0,兩變量間的關聯程度越小。對於2維交叉表計算零階γ係數(zero-order Gamma),3維或高維交叉表則計算條件γ係數(conditional gamma)。
4、Somers d統計量
兩個有序變量間的相聯度量,介於-1至1之間,絕對值接近1時,表示兩個變量之間存在緊密的關係,接近0時表示關係很弱或沒有關係。
(三)名義(雙向無序)資料的相關
對於行變量和列變量均為名義數據(nominal data)(無內在順序,如工人、農民等)的情況,即雙向無序資料,
1、列聯繫數
屬於獨立性卡方檢驗,可用於描述兩個分類變量之間的關聯程度,係數值介於0至1之間,係數值越接近0,說明兩個分類變量幾乎沒有關係,越接近1,說明關係越密切。
2、Φ係數和Cramer V係數
Φ係數和Cramer V係數均屬於獨立性卡方檢驗,可用於描述兩個分類變量之間的關聯程度,係數值越接近0,說明兩個分類變量幾乎沒有關係,越接近1,說明關係越密切。Φ係數只適用於四格表資料,對於多行多列資料,只能採用Cramer V係數和列聯繫數。
3、Lambda(λ統計量)
反映用自變量值預測因變量值時誤差成比例降低程度的相聯度量,1表示自變量能完全地預測因變量,0表示自變量對於預測因變量沒有幫助。
4、不確定係數
表示用一個變量值預測其他變量值時,誤差成比例降低程度的相聯度量,可計算對稱或不對稱不確定係數。如不確定係數為0.83表示如果知道一個變量值,那麼在預測其他變量值時會將誤差降低83%。
5、優勢比和相對危險度
OR、RR 也是衡量兩變量之間的相關程度的指標。
(四)名義資料與計量資料(單向有序)的相關
1、η係數
介於0至1之間的相聯度量,0表示行變量(rowvariable)和列變量(columnvariable)間無關聯性,接近1表示高度關聯。係數適用於因變量為間隔尺度(interval scale)資料(等距資料),如收入等,自變量為有限數字的分類資料(如性別)。
(五)配對二分變量或等級資料的相關
1、Cohen κ係數
內部一致性係數,用於描述同一批研究對象兩次定性觀測結果的一致性,κ值考慮了機遇因素對一致性的影響。κ值僅可用正方表(m×m)資料,即兩個變量具有相同分類值及分類數。κ介於-1至+1之間,一般認為,κ≤0.4,一致性較差;0.4<κ<0.75,一致性較好;κ≥0.75,一致性好,係數值最好接近0.90;κ<0時,一致性比偶然預期的還要弱,不過這種情況很少發生。
2、McNemar檢驗
二值變量(binary variable)的配對卡方檢驗。可用於對照組和處理組或實驗幹預前後的頻數或比率是否有差異。配對資料變量的分類分為兩類,如「是」或「否」,「陽性」或「陰性」,「有反應」或「無反應」。對於大正方表(R×R表,R≥2)將進行對稱性McNemar-Bowker檢驗(McNemar-Bowker test of symmetry)。
(六)多個變量間的相關
1、Kendall W檢驗
該方法屬於協調分析,W統計量又稱協調係數(coefficientof concordance),表示多個指標間相互關聯的程度,常用於評價不同評分者評分的一致性程度。每個個案是一名裁判員或評分者,每個變量是被裁判的一個指標或一個人。Kendall W統計量的範圍介於0(完全不一致)到1(完全一致)之間。
2、Cochran Q檢驗
該方法與Friedman檢驗相同,是McNemar檢驗向多樣本情況的延伸,用於檢驗完全隨機區組設計的二分變量是否具有相同平均值的假設,Cochran's Q統計量是近似卡方分布的。
(七)兩組變量(多個變量與多個變量)間的典型相關
典型相關分析(CanonicalCorrelation Analysis)又稱正則相關分析或典則分析,是研究兩組指標(變量)間的一種多變量統計分析方法,其目的是尋找一組指標的線性組合與另一組指標的線性組合,使兩者之間的相關達到最大(即兩組典型變量的相關達最大值)。這兩組指標多半是相同研究對象有關係的兩組不同指標。這兩組典型變量彼此之間的最大相關就是第1個典型相關,而線性組合的係數稱為典型相關係數。接著典型相關分析將繼續尋找第2組典型變量(與第1組無關聯),以生成第2高的相關。典型相關分析會如此重複迭代尋找典型變量,直到配對的典型變量數等於兩組原始變量中個數較少的那一個數時才停止。
還有還有,就是時間序列分析中自相關和交叉相關,還有很多很多……,就不再贅述了。
二、SPSS常用操作
1、交叉表分析
2、雙變量相關
3、偏相關
4、距離相關
5、兩相關樣本非參數檢驗
6、多個相關樣本的非參數檢驗
7、典型相關分析
【「一起學SPSS」傾情整理統計學習資源包】
內含《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》配套免費電子書及數據文件;各種統計及數據管理免費軟體;「一起學SPSS」歷史文章打包下載;各種統計學習素材。(不定期更新)
註:資源包提供部分免費工具和試用版軟體下載,但不提供盜版軟體。見諒!
【資源包下載方法】
1、分享本文至朋友圈。
2、把分享截圖發給微信訂閱號「一起學SPSS」。
3、回復關鍵詞「SPSS」即可獲取下載地址。
回復「key」可獲取訂閱號文章目錄。
郵箱:mchgz@163.com
《SPSS常用統計分析教程(SPSS 22.0中英文版)(第4版)》介紹請點擊「閱讀原文」。
↓↓↓