在統計學中,常研究兩變量之間的關係,也會涉及到多個變量,例如:冠心病與吸菸、年齡、血壓、遺傳等均有關聯。當然,有關聯並不代表就一定是線性相關,也可能是曲線、性線性相關等。
本節主要討論線性相關,因為線性相關較其他相關簡單,也是多重線性回歸的基礎。
線性相關
兩隨機變量X、Y之間呈線性趨勢的關係。一般地,若兩變量X、Y 同時增大或減少,稱為正相關;若兩變量X、Y 呈反向變化,稱為負相關。
下圖的散點圖中,
(1)中的散點大致在一條直線上,即為正相關;
(2)中X,Y呈負相關;
(3)中各散點形成曲線,即曲線相關;
(4)散點雜亂無章,即無關聯。
【某基礎代謝與體重的散點圖】
從散點圖的情況來看,基礎代謝與體重存在線性相關,且為正相關。
散點圖能直觀地顯示兩變量或多變量之間的相關程度,但只是簡單且粗略的,定性而不定量。因此,要想更精確且定量地判斷兩變量之間的相關程度,需應用數理統計知識來解答。
【線性相關係數】
線性相關係數,又稱Pearson積矩相關係數,常定量地描述線性相關程度和方向的指標。(鑑於線性相關係數的計算公式,計算原理偏理論和複雜,本次就不介紹了)
【相關係數 r】
是一個無單位的值,|r|在0~1之間;
r>0為正相關,r<0為負相關;
|r|的值越接近於1,其相關性越好;
【Pearson積矩相關係數的適用條件】
①Pearson係數適用線性相關的情形。對於那些可能可以得出Pearson係數的變量,應先做散點圖,定性地了解其線性走向,以免盲目地做出無實際意義的結果。
②樣本中的各變量,可能會存在極端值。如果將其考慮在內,可能會影響整個結果,必要時要對其進行剔除或者對變量轉換。
③兩變量服從正態分布,即要求服從一個聯合的兩變量正態分布。
【案例剖析】
某地一項膳食調查中,調查對象為40~60歲的中年健康婦女,測得每人的基礎代謝(KJ/d)與體重(Kg)的數據。
(一)做散點圖,以觀察基礎代謝與體重的變化趨勢。
(大致清楚基礎代謝與體重呈正相關,而且沒有出現極端值,滿足條件①和②)
(二)檢驗基礎代謝與體重的正態性
(基礎代謝和體重均滿足正態性,滿足條件③)
(三)單擊「分析」,「相關」,「雙變量」
(四)將「基礎代謝」和「體重」放入右側的「變量」框內,Pearson默認勾選即可,再單擊「確定」。
【結果解讀】
基礎代謝與體重的Pearson相關性係數r=0.964,說明該地40~60歲中年健康婦女的基礎代謝與體重之間呈正相關,且相關程度較大。
如果您有任何問題,歡迎討論,共同進步!
參考資料
衛生統計學,方積乾主編
SPSS統計分析基礎教程,張文彤主編