Pearson(皮爾遜)相關係數

2021-02-19 學術不端的國度

由於使用的統計相關係數比較頻繁,所以這裡就利用幾篇文章簡單介紹一下這些係數。

相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。

如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:

(1)、當相關係數為0時,X和Y兩變量無關係。

(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。

(3)、當X的值增大(減小),Y值減小(增大),兩個變量為負相關,相關係數在-1.00與0.00之間。

相關係數的絕對值越大,相關性越強,相關係數越接近於1或-1,相關度越強,相關係數越接近於0,相關度越弱。

通常情況下通過以下取值範圍判斷變量的相關強度:
相關係數   0.8-1.0     極強相關
                 0.6-0.8     強相關
                 0.4-0.6     中等程度相關
                 0.2-0.4     弱相關
                 0.0-0.2     極弱相關或無相關

皮爾森(pearson)相關係數

在這三大相關係數中,spearman和kendall屬於等級相關係數亦稱為「秩相關係數」,是反映等級相關程度的統計分析指標。今天暫時用不到,所以現在只做pearson的相關研究。

    首先放上公式:

     公式定義為: 兩個連續變量(X,Y)的pearson相關性係數(Px,y)等於它們之間的協方差cov(X,Y)除以它們各自標準差的乘積(σX,σY)。係數的取值總是在-1.0到1.0之間,接近0的變量被成為無相關性,接近1或者-1被稱為具有強相關性。

根據以上公式,python3實現代碼:

def pearson(vector1, vector2):

n = len(vector1)

#simple sums

sum1 = sum(float(vector1[i]) for i in range(n))

sum2 = sum(float(vector2[i]) for i in range(n))

#sum up the squares

sum1_pow = sum([pow(v, 2.0) for v in vector1])

sum2_pow = sum([pow(v, 2.0) for v in vector2])

#sum up the products

p_sum = sum([vector1[i]*vector2[i] for i in range(n)])

#分子num,分母den

num = p_sum - (sum1*sum2/n)

den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))

if den == 0:

return 0.0

return num/den

現在,用兩個向量測試一下:

vector1 = [2,7,18,88,157,90,177,570]

vector2 = [3,5,15,90,180, 88,160,580]

運行結果為0.998,可見這兩組數是高度正相關的。

此外,從上面的公式我們知道,皮爾森相關性係數是協方差與標準差的比值,所以它對數據是有比較高的要求的:

第一, 實驗數據通常假設是成對的來自於正態分布的總體。為啥通常會假設為正態分布呢?因為我們在求皮爾森相關性係數以後,通常還會用t檢驗之類的方法來進行皮爾森相關性係數檢驗,而 t檢驗是基於數據呈正態分布的假設的。

第二, 實驗數據之間的差距不能太大,或者說皮爾森相關性係數受異常值的影響比較大。例如心跳與跑步的例子,萬一這個人的心臟不太好,跑到一定速度後承受不了,突發心臟病,那這時候我們會測到一個偏離正常值的心跳(過快或者過慢,甚至為0),如果我們把這個值也放進去進行相關性分析,它的存在會大大幹擾計算的結果的。

相關焦點

  • 相關係數之Pearson
    《如何通俗地理解協方差與相關係數?》相關係數Pearson 相關係數:一般用來計算兩個連續型變量的相關係數。也是最常用的相關係數。公式這裡就不寫了,一些統計學的教程都有說明。當兩個變量的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
  • pearson與spearman相關係數的比較
    一般我們常用的是皮爾森相關係數和斯皮爾曼相關係數。    皮爾森相關係數(pearson correlation coefficient, PCC)是衡量兩個連續型變量的線性相關關係。    斯皮爾曼相關係數(spearman's rank correlation coefficient, SCC)是衡量兩變量之間的單調關係,兩個變量同時變化,但是並非同樣速率變化,即並非一定是線性關係。
  • 模型研究4-相關係數問題(皮爾遜相關係數法)
    本期:相關係數問題研究如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:當相關係數為
  • 相關係數計算(Spearman,Pearson,Kendall)
    Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些
  • K-S檢驗,皮爾遜相關係數,spearman相關係數總結
    2 pearson correlation coeffcient 和 sperman秩相關係數2.1pearson相關係數(注意:描述的是兩個樣本的線性相關性,服從正態分布的連續變量#計算pearson相關係數data = pd.DataFrame({'value1':data1.values,                     'value2':data2.values
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 任昱衡:(三)紐約市政府利用相關分析監控違法建築,皮爾遜相關值的...
    相關分析用於研究兩個或多個變量間的密切程度,在相關分析中變量之間是平等的,不存在哪個是因哪個是果的區別。在相關分析中最重要的指標是相關係數,相關係數主要分為皮爾遜相關係數,等級相關係數,偏相關係數等。 皮爾遜相關係數也叫簡單相關係數,它是用途最廣的一種相關係數。
  • 皮爾遜積差相關/斯皮爾曼等級相關的含義和使用條件
    一,皮爾遜積差相關積差相關通常是用來考察連續數據之間的相關性。
  • 【R語言】相關性分析、相關係數的顯著性檢驗及可視化
    本篇文章介紹基於R語言的相關性分析、相關係數的顯著性檢驗及可視化,該教程為個人筆記,大家也可參考學習,不足之處也歡迎大家批評指正!相關性分析用於評估兩個或多個變量之間的關聯,能通過定量指標描述變量之間的強弱、直接或間接聯繫。
  • 管理心理學之統計(19)相關 皮爾遜相關與斯皮爾曼相關
    皮爾遜相關的假設檢驗假設檢驗的基本問題在於總體中是否存在相關,總體的相關通常用字母ρ表示。H0表示非零的樣本相關是由偶然因素決定的。也就是說總體沒有相關,樣本所得值是取樣誤差的結果。H1表示非零相關精確的代表了總體真實的非零相關。單尾檢驗的方向性檢驗會在H1中指明ρ>0或ρ<0。用符號表示假設為:樣本相關與它代表的總體相關會存在一些誤差。
  • 協方差(covariance)與相關係數(2)
    相關係數(pearson' correlation)同時測量5個細胞中gene x與gene y的轉錄水平,將其繪製如下。將配對的數據用藍色的小圓點表示,並使用直線展示gene x與gene y表達水平之間的相關趨勢。基於該趨勢,可以用gene x預測gene y的可能取值範圍,也可用gene y預測gene x的可能取值範圍。
  • 數學建模筆記——相關係數
    相關係數,其實就是衡量兩個變量之間相關性的大小的指標,常用的相關係數有兩種,一種是pearson相關係數,也就是《概率論與數理統計》這本書裡提到的,平時最為常用的相關係數。另一種稱之為spearman相關係數,我也是在清風老師的課中第一次聽說,它衡量的是兩個變量的依賴性,唔,也可以理解為單調性啦。
  • 10行代碼讓你的相關性圖貌美如花
    在相關性計算函數cor()中有三種算法來計算相關性,其中:Pearson相關係數:適用於連續型變量,且變量服從正態分布的情況,為參數性的相關係數。Spearman等級相關係數:適用於連續型及分類型變量,為非參數性的相關係數。Kendall秩相關係數:適用於定序變量或不滿足正態分布假設的等間隔數據。
  • 相關係數種類
    首先,Pearson相關係數的前提條件是要兩個變量滿足近似正態分布。這要求在計算相關係數前,要作正態性檢驗。而且,多數情況下變量不一定滿足正態分布的,這就無法使用Pearson相關係數。其次,Pearson相關係數是在方差和協方差的基礎上得到的,對離群值比較敏感。
  • 相關係數,為何相關,如何相關?
    顯然我們需要尋求一個新的判斷方式——相關係數。然而,在人教A版教材中, 「線性回歸方程」是教材的正文,「相關係數」是作為介紹性材料給出的。教材沒有很好地揭示兩者的內在聯繫。導致教師和學生按部就班地計算判斷,不明原因,接下來,本文從幾個角度來揭示兩者之間的關係,以促進大家對這塊內容的理解。
  • 相關係數第二彈:斯皮爾曼相關
    舉個例子,例如表3的數值,用斯皮爾曼等級相關計算相關係數,duang一下,將會呈現下面這種變化表3 基因A、C在8個樣本中的表達量值Spearman 和Pearson相關係數在算法上完全相同. 只是Pearson相關係數是用原來的數值計算積差相關係數, 而Spearman是用原來數值的秩次計算積差相關係數。Pearson相關係數適用條件為兩個變量間有線性關係、變量是連續變量、變量均符合正態分布。
  • 正確認識相關係數
    要看兩隻股票的相關性,請問應該用股價數據計算相關係數,還是用漲跌幅數據計算相關係數