大數據專家傅一航
傅一航
大數據實戰專家 專注於大數據研究,大數據變革、系統建設解決、營銷、分析、挖掘等。
前幾篇文章,介紹了如何做簡單相關分析,重點介紹了兩個數值型變量的相關分析,採用的是Pearson相關係數。
比如,度量身高與體重、工齡與收入、價格與銷量等等之間的關係,就可以使用Pearson簡單相關係數。
01
Pearson相關係數的問題
雖然看起來,Pearson相關係數簡直是完美無瑕了!其實不然,Pearson相關係數也存在一些問題。
首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。
其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。如下圖所示的散點圖,除右上角一個離群值外,其餘數據點呈明顯的線性相關關係,但真實計算出來的Pearson相關係數r=-0.283,P=0.214,顯然Pearson相關係數無法正確衡量X和Y的線性相關性。
所以,為了解決這幾個問題,後來數據科學家們又定義了其它幾種相關係數公式。
02
相關係數種類
常用的相關係數主要有三種:Pearson相關係數、Spearman秩相關係數和Kendall τ相關係數。
03
Pearson相關係數
04
Spearman秩相關係數
Spearman Rank相關係數,即斯皮爾曼秩相關係數(Spearman Rank Order Correlation Coefficient,簡稱SROCC),是英國心理學家、統計學家斯皮爾曼根據積差相關的概念推導而來的。
在Peaarson相關係數中,所有的數據都要參與公式計算,特別是離群值的存在,導致相關係數的計算不準確。為了避免離群值的影響,在Spearman等級相關係數公式中,並不是採用原始的數據對(xi,yi)來計算,而是利用數據的秩對(Ui,Vi)來定義相關係數。將Pearson相關係數的計算公式中的x和y用相應的秩代替即可得到Spearman相關係數,其公式如下:
顯然,Spearman秩相關係數是利用兩變量的秩大小作線性相關分析,對原始變量的正態分布不作要求,屬於非參數統計方法;而且採用秩來計算,避免離群值對相關係數的影響,適用範圍要廣。
05
Kendall τ相關係數
Kendall Rank相關係數,即肯德爾秩相關係數(KROCC),常用希臘字母τ(tau)表示,也是用於度量定序型變量間的線性相關關係,與Spearman秩相關係數基本類似。
但與Spearman相關係數不同的是,Kendallτ相關係數使用秩的同序對(concordant pairs)數目U和異序對(discordant pairs)數目V來計算相關係數。
什麼叫做同序對?即兩個變量的秩同時增大的秩對。
如下所示,假定變量X和變量Y的秩如下,先將X秩按 升序排列,然後觀察Y秩,顯然變量Y的秩隨變量X的和失同步增大的Y的秩對有(2,3),(2,4),(2,5),(3,4),(3,5),(1,4),(1,5),(4,5),即同序對的數目U共有8對;而變量Y的秩未隨變量X的秩同步增大的Y的秩對有(2,1),(3,1),即異序對V共有2對。
Kendall 相關係數公式有三個,
τa公式適用於數據集中不存在相同數值的情況(即秩是唯一的)。
τb公式適用於數據集中存在相同數值的情況(即秩有重複的)。如果數據集中不存在相同的數值,則τb公式等同於τa公式。
τc公式沒有考慮相同數值帶來的影響,適用於用表格表示的兩變量間相關係數的計算。
Kendall檢驗是一個無參數假設檢驗,使用計算而得的相關係數去檢驗兩個變量的相關顯著性,其顯著性檢驗的統計量為Z統計量,其數學定義為:
在樣本容量n充分大時,Z統計量近似服從標準正態分布,即N(0,1)。
06
相關係數選擇
如上所述,這三種相關係數計算的公式和原理是不相同的。
Pearson相關係數,適用於連續型變量,且要求兩變量呈正態分布,或接近正態分布,至少是單峰的對稱分布。
Spearman秩相關係數,適用於定序型變量,或者不滿足正態分布的連續型變量。
Kendall τ相關係數,適用場景與Spearman秩相關係數相同。
所以,當變量服從正態分布時,使用Pearson相關係數比其它係數要準確些。
Spearman相關係數和Kendall相關係數,是在數據的相對大小(等價於秩的相對大小)的基礎上得到的,是一種更為一般性的非參數方法,對離群值更穩健(即受離群值影響較小),度量的主要是變量之間的同步增長變化關係。可以這麼理解,即使不是線性相關,只要是單調變化關係都可以用Spearman相關係數和Kendall相關係數計算。
Kendall τ相關係數,主要描述的是兩組數單調性特徵,它不依賴於線性假說,任何一種單調變化(線性或非線性)的關係都可以採用Kendall τ來描述。
所以,在某種程度上,Spearman相關係數和Kendall相關係數比起Pearson相關係數來說更具有通用性。
下面總結一下三個相關係數的差異:
相關係數
適用場景
(變量類型)
公式
作用
Pearson
數值型變量,正態分布
利用數據對計算,t分布檢驗
線性相關
Spearman
定序型變量,非正態分布
利用秩差計算,z分布檢驗
線性相關、單調相關
Kendall
定序型變量,非正態分布
利用同序對計算,z分布檢驗
線性相關、單調相關
上一篇:相關分析基本步驟
下一篇文章《Excel實現Pearson相關係數》。
相關性與影響因素分析
如何讓數據「說話」 數據解讀能力培養
大數據的核心價值是什麼?探索事物規律和特徵!
一切不以應用為導向的大數據都是在耍流氓
大數據建模五步法 選擇-訓練-評估-優化-應用
教你如何優化出好模型! 好模型是優化出來的!
大數據職位體系 兩大類別(系統類+應用類)。
大數據職位發展通道 大數據職位的發展通道。
大數據變革之工具變革 探索客觀事物的工具!
大數據變革之思維變革 認知事物的新思維!
大數據變革之文化變革 尊重事實的數據文化!