相關係數之Pearson

2021-01-14 Python面面觀
定義

說到相關係數需要了解的 3 個概念:相關分析、數據期望、協方差。先分別說明這些概念。

相關分析
相關分析是用來說明兩個變量之間的關係。這個關係包含:兩個變量的方向和強度。

按相關的程度不同分:完全相關、統計相關、完全無關。




數學期望
例子:某城市有 10 萬個家庭,沒有孩子的家庭有 1000 個,有一個孩子的家庭有 9 萬個,有兩個孩子的家庭有 6000 個,有 3 個孩子的家庭有 3000 個。則此城市中任一個家庭中孩子的數目是一個隨機變量,記為 X。它可取值 0,1,2,3。其中,X 取 0 的概率為 0.01,取 1 的概率為 0.9,取 2 的概率為 0.06,取 3 的概率為 0.03。則數學期望:

即此城市一個家庭平均有小孩  1.11 個,當然人不可能用 1.11 個來算,約等於 2 個。

協方差
協方差可以看這篇文章,已經說得比較清楚。《如何通俗地理解協方差與相關係數?》

相關係數

Pearson 相關係數:一般用來計算兩個連續型變量的相關係數。也是最常用的相關係數。公式這裡就不寫了,一些統計學的教程都有說明。當兩個變量的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:

兩個變量的觀測值是成對的,每對觀測值之間相互獨立。

Spearman 相關係數:兩個變量無論連續還是分類都可以使用。

kendall 相關係數:一個連續一個分類。最好是定序變量。


相關係數是公式的不同。主要的 Pearson 相關係數在上面那篇《如何通俗地理解協方差與相關係數?》也有說明,這裡不細說。

−1 ≤ 𝐶𝑜𝑟𝑌,𝑋 ≤ 1 代表的含義:


關於相關係數 r 的取值說明:

|r| 越接近 1,表明相關關係越密切;越接近於0,相關關係就越不密切。r = 0,兩變量無直線關係;

r = +1 或 r = -1,表明兩變量完全相關;

r > 0 現象呈正直線關係;r < 0 現象呈負相關;

在說明兩個變量之間線性關係的密切程度時,根據經驗可將相關程度分為以下幾種情況:當 |r|  ≥  0.8 時,視為高度相關;0.5 ≤ |r| < 0.8 時, 視為中度相關;0.3 ≤ |r| < 5時,視為低度相關;|r| < 0.3 時,說明兩個變量之間的相關程度極弱,可視為不相關。但這種說明必須建立在相關係數通過顯著性檢驗的基礎之上。


Python 實現
# 導入包
import seaborn as sns
from pandas import Series,DataFrame
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# 拿到titanic數據集
titanic = sns.load_dataset('titanic')

# 查看前5行數據
titanic.head()



參數說明:

method{『pearson』, 『kendall』, 『spearman』} ,默認 Pearson 相關係數;

min_periods:int類型可選值。觀察每對列所需的最小數,樣本最少的數據量。僅適用於 Pearson 和Spearman。

corr = titanic.corr()
corr




相關係數可視化

plt.figure(figsize=(14,10))
sns.heatmap(corr,linewidths=0.2, cmap="YlGnBu",annot=True)






相關焦點

  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • pearson與spearman相關係數的比較
    一般我們常用的是皮爾森相關係數和斯皮爾曼相關係數。    皮爾森相關係數(pearson correlation coefficient, PCC)是衡量兩個連續型變量的線性相關關係。    斯皮爾曼相關係數(spearman's rank correlation coefficient, SCC)是衡量兩變量之間的單調關係,兩個變量同時變化,但是並非同樣速率變化,即並非一定是線性關係。
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    2 pearson correlation coeffcient 和 sperman秩相關係數2.1pearson相關係數(注意:描述的是兩個樣本的線性相關性,服從正態分布的連續變量#計算pearson相關係數data = pd.DataFrame({'value1':data1.values,                     'value2':data2.values
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    本篇文章介紹基於R語言的相關性分析、相關係數的顯著性檢驗及可視化,該教程為個人筆記,大家也可參考學習,不足之處也歡迎大家批評指正!相關性分析用於評估兩個或多個變量之間的關聯,能通過定量指標描述變量之間的強弱、直接或間接聯繫。
  • 協方差(covariance)與相關係數(2)
    相關係數(pearson' correlation)同時測量5個細胞中gene x與gene y的轉錄水平,將其繪製如下。將配對的數據用藍色的小圓點表示,並使用直線展示gene x與gene y表達水平之間的相關趨勢。基於該趨勢,可以用gene x預測gene y的可能取值範圍,也可用gene y預測gene x的可能取值範圍。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • SPSS之簡單相關係數
    簡單相關分析是對兩個變量之間的相關程度進行分析。單相關分析所用的指標稱為 單相關係數,又稱為 Pearson(皮爾森)相關係數或相關係數。通常用 ρ 表示總體的相 關係數,以 r 表示樣本的相關係數。 我們已經給出總體相關係數的定義式為
  • 相關係數種類
    首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。
  • 10行代碼讓你的相關性圖貌美如花
    在相關性計算函數cor()中有三種算法來計算相關性,其中:Pearson相關係數:適用於連續型變量,且變量服從正態分布的情況,為參數性的相關係數。Spearman等級相關係數:適用於連續型及分類型變量,為非參數性的相關係數。Kendall秩相關係數:適用於定序變量或不滿足正態分布假設的等間隔數據。
  • 相關係數,為何相關,如何相關?
    顯然我們需要尋求一個新的判斷方式——相關係數。然而,在人教A版教材中, 「線性回歸方程」是教材的正文,「相關係數」是作為介紹性材料給出的。教材沒有很好地揭示兩者的內在聯繫。導致教師和學生按部就班地計算判斷,不明原因,接下來,本文從幾個角度來揭示兩者之間的關係,以促進大家對這塊內容的理解。
  • 回歸分析的基礎概念之2:相關性與相關關係,相關係數與判定係數
    大家好,歡迎來到許栩原創專欄《從入門到高手:線性回歸分析詳解》(本專欄總目錄見上圖),這是專欄的第二篇文章,確定關係與相關關係,相關係數與判定係數。本專欄第一篇文章,我講解了回歸分析第一個基礎概念,變量。這一章,將講解回歸分析另一個最重要的基礎概念,相關性。本章的主要內容如下。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • 相關係數第二彈:斯皮爾曼相關
    舉個例子,例如表3的數值,用斯皮爾曼等級相關計算相關係數,duang一下,將會呈現下面這種變化表3 基因A、C在8個樣本中的表達量值Spearman 和Pearson相關係數在算法上完全相同. 只是Pearson相關係數是用原來的數值計算積差相關係數, 而Spearman是用原來數值的秩次計算積差相關係數。Pearson相關係數適用條件為兩個變量間有線性關係、變量是連續變量、變量均符合正態分布。
  • 正確認識相關係數
    要看兩隻股票的相關性,請問應該用股價數據計算相關係數,還是用漲跌幅數據計算相關係數
  • 皮爾森相關係數的計算
    在《變量關係大揭秘(一)》,我們提到了皮爾森相關係數r,它可是相關係數大家庭中的「1號人物」。
  • 皮爾森和斯皮爾曼相關係數
    >之前我們介紹了如何使用相關係數來衡量變量之間的相關性大小,但其實統計學中有三大相關係數,它們的計算方式不盡相同,適用於不同的場景。之前介紹的相關係數其實是皮爾森簡單相關係數,用協方差除以標準差的方式來計算,它計算簡單,應用廣泛,適用于衡量變量之間的線性關係。
  • 如何理解mantel檢驗-就知道矩陣和單列變量數據的相關
    function (xdis, ydis, method = "pearson", permutations = 999, strata = NULL, na.rm = FALSE, parallel =
  • 【方法】相關係數的計算與顯著性檢驗
    樣本相關係數可以用來對論文中建立的統計模型進行驗證,也可以用來進行元分析。相關係數的計算和顯著性檢驗是一個很輕鬆的工作——通常情況下,研究者會使用SPSS計算SPSS中各變量的相關,SPSS也直接提供了對相關係數的顯著性檢驗,研究者需要做的就是點點滑鼠,然後將結果抄寫在論文中。