基礎準備
今天草堂君不介紹實驗設計的內容,插播一個系列的統計理論基礎文章,詳細介紹一下各種相關係數。提到相關係數,很多統計教科書、很多數據分析人員馬上想到的可能是皮爾森(Pearson)相關係數,更深入一些的,可能會想到斯皮爾曼(Spearman)相關係數和肯達爾(Kendall)相關係數,但是這些相關係數的應用範圍能夠覆蓋的應用場景有限,因此才會有今天這篇文章。如果大家需要回顧草堂君前面已經介紹過的以上三種相關係數,可以點擊下方文章連結回顧:
上面這篇文章是按照SPSS分析軟體的相關分析菜單進行介紹的,所以在相關係數的應用解釋上會有很多缺漏,為了將相關係數這部分內容將清楚,草堂君會在接下來一段時間,用幾篇文章來詳細介紹各種相關係數的理論基礎以及如何適用分析軟體進行計算。
相關係數定義
相關係數是統計學中一個非常重要的概念,是相關分析的結果。人們用相關係數來測定兩者之間的相關方向和相關程度,需要注意,相關分析(相關係數)是用來表示「兩者」之間的相關關係,這裡的「兩者」可以是兩個變量(簡單相關)、一個變量對一群變量(復相關)、一群變量對一群變量(典型相關)。相關係數能夠告訴分析者兩個信息:1、兩個變量的相關關係是否顯著(正向顯著相關、無顯著相關、負向顯著相關);2、兩個變量的相關強度如何。
今天草堂君著重介紹的是兩個變量之間的簡單相關係數,根據兩個變量的數據類型不同,使用相關係數也不同、因為每個相關係數都有其適用性,這需要從它們的公式入手來理解。關於數據分析中數據類型的介紹,大家可以回顧文章:熱炒的「數據」,你了解「它」嗎?
兩個變量的數據類型組合不同,適用的相關係數可以總結為下表所示內容,表中內容列出了目前統計分析中出現過的相關係數,因為統計分析理論在不斷發展,每個相關係數都有其運用局限性,所以適用於不同場景的相關係數還會不斷被創造出來。
Pearson相關係數
Pearson相關係數用於兩個變量都是連續型數據(定距數據)的情況,表示的是兩個變量之間是否存在顯著的線性相關關係,以及相關強度如何,計算公式如下:
需要注意相關分析的兩個變量,它們數值是一一對應的,例如,分析身高與體重的相關,採集100個人,那麼每個人都要採集身高與體重,也就是每個人身高數值都對應他的體重數值。從公式可以看出,皮爾森相關係數考量的是變量x和變量y相對於各自均值同步變化的程度,也就是線性相關關係。例如,每對(xi,yi),如果每個xi相對於其均值改變1,而yi相對於其均值改變k,那麼它們的Pearson相關係數就等於1,也就是它們是完全線性相關的。在散點圖上表現為一條直線,如下圖所示
Spearman相關係數
斯皮爾曼相關係數是一種等級相關係數,在SPSS中,也表示成Spearman Rho係數。適用於兩個定序型變量的相關分析,也可以用於連續型數據,至於區別在那裡,草堂君在下面會結合公式去幫助大家理解。下方是斯皮爾曼相關係數的計算公式:
大家可以發現,斯皮爾曼相關係數與皮爾森相關係數的計算公式是基本相同的,差異在於斯皮爾曼相關係數將皮爾森相關係數中的變量實際值換成了它們的秩(排名)。表示的是秩次(排名)的線性相關關係。
對於定序型數據來說,數據本身就是排名,例如,大一到大四分別用1-4表示,這裡的數據1-4本身就是四個年級的排序(秩次),所以對於定序型數據來說,皮爾森相關係數和斯皮爾曼相關係數的計算結果基本是一樣的。
對於定距型數據來說,它們的數據和它們的秩次(排名)是不同的,例如,現在有三個人的身高和體重數據,分別是(173cm,176cm,168cm),(60kg,72kg,65kg),那麼身高和體重變量的秩次就是(2,1,3)和(3,1,2),帶入斯皮爾曼相關係數計算公式,結果與皮爾森相關係數就不同了。如果斯皮爾曼相關係數很大,而皮爾森相關係數很小,那麼表示這兩個變量是相關的,而且是非線性相關(皮爾森相關係數小代表不是線性相關)。
Kendall相關係數
與斯皮爾曼相關係數類似,Kendall相關係數也用於兩個定序型變量的相關分析,不同之處在於算法有差異,Kendall相關係數是從兩個定序變量中,對應數值的秩次是否一致著手考察兩個變量之間的相關關係,秩次一致的數值越多,那麼相關性越強。
Kendall相關係數其實有三種(Kendall『s tau-a; Kendall’s tau-b; Kendall’s tau-c),在SPSS的兩變量相關分析菜單和大多數的統計書籍中,介紹的Kendall相關係數是Kendall tau-b相關係數。三種Kendall相關係數的計算公式如下:
以上三種Kendall相關係數,Kendall『s tau-a用得最少,因為它剔除排名相同(秩次相同)的數值對,導致分母偏大,所以Kendall’s tau-a相關係數會低估兩個定序變量之間的相關關係。Kendall『s tau-b在分母上減去了秩次相同的數值對,結果會比Kendall’s tau-a來的更為客觀準確。Kendall『s tau-b雖然減去了秩次相同數值對的影響,但是當兩個定序變量水平數不同時,又會高估兩個變量的相關關係,因此才有Kendall’s tau-c,Kendall『s tau-c在分母的位置矯正了兩個定序變量水平數不同的問題,只考慮水平數少的變量水平。
綜上所述,Kendall『s tau-a不常用;Kendall『s tau-b常用於兩個定序型變量水平數相同的情況;而Kendall’s tau-c適用於兩個定序型變量水平數不同的情況。在SPSS中,可以計算Kendall『s tau-b和Kendall’s tau-c。
Gamma相關係數
Gamma相關係數也被稱為Goodmanand Kruskal『s gamma相關係數。Gamma相關係數也是用於兩個定序型變量的相關性分析,它的計算公式如下:
從Gamma的公式可知,如果兩個定序型變量的所有數值對都是一致對,那麼Gamma的值為+1,反之則為-1。Gamma相關係數沒有考慮秩次相同的數值對。
Somers『d相關係數
針對上方Gamma相關係數沒有考慮秩次相同數值對的問題,統計學家又設計了Somers『d相關係數進行矯正。根據兩個定序型變量水平數不同的問題,Somers『d相關係數有以下兩種計算公式:
對於以上兩種Somer『s d相關係數,很明顯,第一個公式的分母加上了y變量的秩次相同的數值對,表示x變量對y變量的相關強度;而第二個公式的分母加上了x變量的秩次相同的數值對,表示y變量對x變量的相關強度。與其它相關係數不同,Somers』d相關係數有方向性,這是它與其它表示兩個定序型變量相關程度的相關係數的一個重要特點。
總結一下
今天草堂君介紹了兩種不同數據類型變量組合的相關係數,包括兩個都是定距型變量的相關係數,還有兩個都是定序型變量的相關係數。從上面的公式去理解,還是能夠看出不同相關係數在考量不同數據類型變量的相關關係時,採用了不同的分析邏輯,比如引入和秩次(排名)的概念和秩次數值對(一致對和非一致對)的概念,從而能夠表示不同數據類型變量之間的相關關係。下篇文章,草堂君將介紹其它幾種數據類型變量組合的相關係數。這些理論介紹完後,草堂君將用具體的生活和科研案例幫助大家更好的理解和掌握它們。
溫馨提示:
數據分析課程私人定製,一對一輔導,添加微信(possitive2)諮詢!
生活統計學QQ群:577312904或134373751,用於分享文章提到的各種案例資料、軟體、數據文件等。支持各種資料的直接下載和百度雲盤下載。
生活統計學微信交流群,用於各自行業的數據研究項目及其成果交流分享;由於人數大於100人,請添加微信possitive2,拉您入群。
數據分析諮詢,請點擊首頁下方「互動諮詢」板塊,獲取諮詢流程!
草堂君的統計基礎導航頁文章已經整理發表,可以前往任意電商網站購買