「相關」這個詞很常用,或者說,很通俗,只要是想說明兩個或多個變量的關係,似乎就可以考慮相關分析。但是要注意,「相關分析」並不等於我們平時在文章中所說的Pearson相關。
通常,我們在文章中,都會說相關係數等於0.72之類的內容,這裡的相關係數絕大多數都是指Pearson相關。但事實上,還有很多其它相關,而且,有時你用的Pearson相關也未必正確。本文主要說一下相關分析中的一些注意事項。
問題1:相關與回歸,我該選擇哪個?
相關與回歸都是分析變量間關係的方法,但不少人搞不清楚,我到底什麼時候用相關,什麼時候用回歸。這個其實主要從研究目的來定,這兩種方法側重的研究目的不同。
相關(correlation)從字面意思就可以看出它描繪的是變量間的「相互」關係,即兩個或多個變量不區分主次關係,重在解釋變量間的關聯。
而回歸分析中的變量地位不同,有主次之分,注意力集中在其中的一個或幾個自變量對因變量的影響,而不是因變量對自變量的影響。
在有的結構很清楚的軟體中,如JMP軟體,是將相關置於「多元分析」的菜單下,為什麼呢?因為相關分析中,所有變量都是結果,沒有原因,就是看這些變量之間的相互關係。
而回歸分析則不是,只有一個結果,其它都是原因(注意這裡的原因不是從時間上或因果關係上所謂的那個原因,只是為了說明問題,不是很嚴謹)。比如分析高血壓的影響因素,高血壓可以看做結果,而性別、年齡等因素可以看做原因。因為你想看的是性別、年齡等對高血壓的影響,而不想反過來看高血壓對年齡的影響。這就是回歸分析。
問題2:沒有線性相關就說明沒有關係?
一般而言,我們所說的相關都是指線性相關,但這只是一般情況,而不是所有情況。比如,Pearson相關係數(主要用於正態分布數據之間的相關)和Spearman相關係數(主要用於非正態分布的數據之間的相關),這兩個相關係數主要是用於線性相關的關聯性度量,但是如果相關係數=0.1,並不代表說就沒有相關。此時結論只能說無「線性相關」,但不能說沒有「相關性」。
因為變量之間不僅是線性相關,也可能是曲線相關,變量之間的關係不一定是直線關係,更多的可能是曲線的關係。事實上,現實中有很多現象都不是線性的,而是非線性的。比如下圖就是非線性的相關:
對於非線性的相關,如果還用Pearson相關,肯定是得不出想要的結果的,此時需要考慮曲線相關。
如何看變量間到底是線性相關還是曲線相關,最簡單的方法就是通過繪製散點圖來看。如果散點圖大致呈直線,那就是線性相關,如果呈指數形狀、拋物線形狀等,則最好先將變量進行變換,如對數變換、指數變換、平方、平方根變換等。將變換後的數據再進行直線相關分析。
問題3:P值越小說明相關性越大?
我在不少文章中看過類似的結論,如某相關係數的P<0.05,就說相關性較強,某相關係數的P<0.01,就說相關性非常高。等等之類的話。
事實上,相關係數的大小跟P值沒什麼關係。如果用不是很嚴謹的話來說(但是通俗一點),P值反映的是「有沒有相關」,而相關係數反映的是「相關性有多大」。也就是說,P值告訴我們,你得到的相關係數(不管多大,可能是0.9有可能是0.1)到底是真實的還是抽樣誤差造成的?而相關係數才是告訴我們,變量之間的關係到底有多大。
問題4:兩個變量的相關性很強,可以說明它們具有很好的一致性嗎?
相關性和一致性這兩個詞聽起來很像,但並不是一回事。一致性主要用於兩種屬性同時作用於同一批數據,如兩位專家同時對同一個人打分,兩種方法同時對一批樣品檢測等。而關聯性所用的場合要寬泛一些,基本上可以用於任意兩個屬性之間的關聯性表示,包括一致性所用的情形。如某指標的陰性陽性與疾病發生與否的關係、兩種基因型的關係等。
一般來講,強的一致性會出現強的關聯性,而強的關聯性則不一定出現強的一致性。舉一個簡單的例子,兩名專家對同一批樣品結果進行評定打分。如果其中一名專家對樣品的檢測分值總是高於另一名專家,那這兩個專家評定結果的一致性很差,但是關聯性很強。
問題5:分類資料的相關性如何分析?
通常我們所說的Pearson相關主要用於連續資料的相關分析,對於分類資料,有其特有的相關係數,比較常見的有列聯繫數、kendall相關係數、gamma係數、lambda係數等。
為了給大家一個直觀印象,下圖是JMP軟體給出的各種相關係數的結果。