相關係數種類

2021-01-18 大數據專家傅一航


大數據專家傅一航

傅一航

大數據實戰專家 專注於大數據研究,大數據變革、系統建設解決、營銷、分析、挖掘等。



前幾篇文章,介紹了如何做簡單相關分析,重點介紹了兩個數值型變量的相關分析,採用的是Pearson相關係數。

比如,度量身高與體重、工齡與收入、價格與銷量等等之間的關係,就可以使用Pearson簡單相關係數。


 01 

Pearson相關係數的問題


雖然看起來,Pearson相關係數簡直是完美無瑕了!其實不然,Pearson相關係數也存在一些問題。

首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。

其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。如下圖所示的散點圖,除右上角一個離群值外,其餘數據點呈明顯的線性相關關係,但真實計算出來的Pearson相關係數r=-0.283,P=0.214,顯然Pearson相關係數無法正確衡量X和Y的線性相關性。

所以,為了解決這幾個問題,後來數據科學家們又定義了其它幾種相關係數公式。


 02 

相關係數種類


常用的相關係數主要有三種:Pearson相關係數、Spearman秩相關係數和Kendall τ相關係數。



 03 

Pearson相關係數




 04 

Spearman秩相關係數


Spearman Rank相關係數,即斯皮爾曼秩相關係數(Spearman Rank Order Correlation Coefficient,簡稱SROCC),是英國心理學家、統計學家斯皮爾曼根據積差相關的概念推導而來的。

在Peaarson相關係數中,所有的數據都要參與公式計算,特別是離群值的存在,導致相關係數的計算不準確。為了避免離群值的影響,在Spearman等級相關係數公式中,並不是採用原始的數據對(xi,yi)來計算,而是利用數據的秩對(Ui,Vi)來定義相關係數。將Pearson相關係數的計算公式中的x和y用相應的秩代替即可得到Spearman相關係數,其公式如下:

顯然,Spearman秩相關係數是利用兩變量的秩大小作線性相關分析,對原始變量的正態分布不作要求,屬於非參數統計方法;而且採用秩來計算,避免離群值對相關係數的影響,適用範圍要廣。



 05 

Kendall τ相關係數


Kendall Rank相關係數,即肯德爾秩相關係數(KROCC),常用希臘字母τ(tau)表示,也是用於度量定序型變量間的線性相關關係,與Spearman秩相關係數基本類似。

但與Spearman相關係數不同的是,Kendallτ相關係數使用秩的同序對(concordant pairs)數目U和異序對(discordant pairs)數目V來計算相關係數。

什麼叫做同序對?即兩個變量的秩同時增大的秩對。

如下所示,假定變量X和變量Y的秩如下,先將X秩按 升序排列,然後觀察Y秩,顯然變量Y的秩隨變量X的和失同步增大的Y的秩對有(2,3),(2,4),(2,5),(3,4),(3,5),(1,4),(1,5),(4,5),即同序對的數目U共有8對;而變量Y的秩未隨變量X的秩同步增大的Y的秩對有(2,1),(3,1),即異序對V共有2對。

Kendall 相關係數公式有三個,



τa公式適用於數據集中不存在相同數值的情況(即秩是唯一的)。

τb公式適用於數據集中存在相同數值的情況(即秩有重複的)。如果數據集中不存在相同的數值,則τb公式等同於τa公式。

τc公式沒有考慮相同數值帶來的影響,適用於用表格表示的兩變量間相關係數的計算。

Kendall檢驗是一個無參數假設檢驗,使用計算而得的相關係數去檢驗兩個變量的相關顯著性,其顯著性檢驗的統計量為Z統計量,其數學定義為:

在樣本容量n充分大時,Z統計量近似服從標準正態分布,即N(0,1)。



 06 

相關係數選擇


如上所述,這三種相關係數計算的公式和原理是不相同的。

Pearson相關係數,適用於連續型變量,且要求兩變量呈正態分布,或接近正態分布,至少是單峰的對稱分布。

Spearman秩相關係數,適用於定序型變量,或者不滿足正態分布的連續型變量。

Kendall τ相關係數,適用場景與Spearman秩相關係數相同。

 

所以,當變量服從正態分布時,使用Pearson相關係數比其它係數要準確些。

Spearman相關係數和Kendall相關係數,是在數據的相對大小(等價於秩的相對大小)的基礎上得到的,是一種更為一般性的非參數方法,對離群值更穩健(即受離群值影響較小),度量的主要是變量之間的同步增長變化關係。可以這麼理解,即使不是線性相關,只要是單調變化關係都可以用Spearman相關係數和Kendall相關係數計算。

Kendall τ相關係數,主要描述的是兩組數單調性特徵,它不依賴於線性假說,任何一種單調變化(線性或非線性)的關係都可以採用Kendall τ來描述。

所以,在某種程度上,Spearman相關係數和Kendall相關係數比起Pearson相關係數來說更具有通用性。

 

下面總結一下三個相關係數的差異:

相關係數

適用場景

(變量類型)

公式

作用

Pearson

數值型變量,正態分布

利用數據對計算,t分布檢驗

線性相關

Spearman

定序型變量,非正態分布

利用秩差計算,z分布檢驗

線性相關、單調相關

Kendall

定序型變量,非正態分布

利用同序對計算,z分布檢驗

線性相關、單調相關


上一篇:相關分析基本步驟

下一篇文章《Excel實現Pearson相關係數》。


相關性與影響因素分析

如何讓數據「說話」 數據解讀能力培養

大數據的核心價值是什麼?探索事物規律和特徵!

一切不以應用為導向的大數據都是在耍流氓 

大數據建模五步法 選擇-訓練-評估-優化-應用

教你如何優化出好模型! 好模型是優化出來的!

大數據職位體系 兩大類別(系統類+應用類)。

大數據職位發展通道 大數據職位的發展通道。

大數據變革之工具變革 探索客觀事物的工具!

大數據變革之思維變革 認知事物的新思維!

大數據變革之文化變革 尊重事實的數據文化!




相關焦點

  • 相關係數第二彈:斯皮爾曼相關
    Spearman 和Pearson相關係數在算法上完全相同. 只是Pearson相關係數是用原來的數值計算積差相關係數, 而Spearman是用原來數值的秩次計算積差相關係數。Pearson相關係數適用條件為兩個變量間有線性關係、變量是連續變量、變量均符合正態分布。
  • 相關係數,為何相關,如何相關?
    顯然我們需要尋求一個新的判斷方式——相關係數。然而,在人教A版教材中, 「線性回歸方程」是教材的正文,「相關係數」是作為介紹性材料給出的。教材沒有很好地揭示兩者的內在聯繫。導致教師和學生按部就班地計算判斷,不明原因,接下來,本文從幾個角度來揭示兩者之間的關係,以促進大家對這塊內容的理解。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • Pearson(皮爾遜)相關係數
    由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。
  • 相關係數之Pearson
    定義說到相關係數需要了解的 3 個概念:相關分析、數據期望、協方差。先分別說明這些概念。
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    2 pearson correlation coeffcient 和 sperman秩相關係數2.1pearson相關係數(注意:描述的是兩個樣本的線性相關性,服從正態分布的連續變量#計算pearson相關係數data = pd.DataFrame({'value1':data1.values,                     'value2':data2.values
  • 正確認識相關係數
    要看兩隻股票的相關性,請問應該用股價數據計算相關係數,還是用漲跌幅數據計算相關係數
  • SPSS之簡單相關係數
    簡單相關分析是對兩個變量之間的相關程度進行分析。單相關分析所用的指標稱為 單相關係數,又稱為 Pearson(皮爾森)相關係數或相關係數。通常用 ρ 表示總體的相 關係數,以 r 表示樣本的相關係數。 我們已經給出總體相關係數的定義式為
  • 皮爾森相關係數的計算
    在《變量關係大揭秘(一)》,我們提到了皮爾森相關係數r,它可是相關係數大家庭中的「1號人物」。
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。本章的主要內容如下。
  • 皮爾森和斯皮爾曼相關係數
    >之前我們介紹了如何使用相關係數來衡量變量之間的相關性大小,但其實統計學中有三大相關係數,它們的計算方式不盡相同,適用於不同的場景。之前介紹的相關係數其實是皮爾森簡單相關係數,用協方差除以標準差的方式來計算,它計算簡單,應用廣泛,適用于衡量變量之間的線性關係。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • pearson與spearman相關係數的比較
    一般我們常用的是皮爾森相關係數和斯皮爾曼相關係數。    皮爾森相關係數(pearson correlation coefficient, PCC)是衡量兩個連續型變量的線性相關關係。    斯皮爾曼相關係數(spearman's rank correlation coefficient, SCC)是衡量兩變量之間的單調關係,兩個變量同時變化,但是並非同樣速率變化,即並非一定是線性關係。
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些
  • 協方差(covariance)與相關係數(2)
    以上涉及的是直線相關,相關係數的取值為【-1,1】:散點完全在同一條直線上,預測的準確性最高,相關係數的正負號表示相關性的正負。若x與y是同向變化,相關係數等於1,為完全正相關;若x與y是反向變化,相關係數等於-1,為完全負相關。
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。
  • R相關性圖如何按比例顯示相關係數
    這張圖裡面不僅展示了相關係數,並且相關係數顯示的大小跟相關係數是成比例的。這樣做的好處是,讓那些最顯著相關的一目了然,而那些不怎麼相關的就不那麼顯眼。這個引起了小編的興趣,想自己也畫一張這樣的相關性圖。
  • 第270期|皮爾森相關係數簡述
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。      如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • 協方差與相關係數
    協方差協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。在此之前呢,我們來看一下方差。方差總該知道是啥吧?其實這個值大小沒啥含義,我們只需關心其正負性就好:1)當協方差Cov(X,Y)>0時,X與Y正相關2)當協方差Cov(X,Y)<0時,X與Y負相關3)當協方差Cov(X,Y)=0時,X與Y不相關209.4>0,因此我們就說身高和體重兩個隨機變量之間呈正相關性。