相關係數計算(Spearman,Pearson,Kendall)

2020-12-10 路角石

Spearman相關係數又稱秩相關係數,是利用兩變量的秩次大小作線性相關分析,對原始變量的分布不作要求,屬於非參數統計方法,適用範圍要廣些。斯皮爾曼等級相關是根據等級資料研究兩個變量間相關關係的方法。它是依據兩列成對等級的各對等級數之差來進行計算的,所以又稱為「等級差數法」

斯皮爾曼等級相關對數據條件的要求沒有積差相關係數嚴格,只要兩個變量的觀測值是成對的等級評定資料,或者是由連續變量觀測資料轉化得到的等級資料,不論兩個變量的總體分布形態、樣本容量的大小如何,都可以用斯皮爾曼等級相關來進行研究

對於服從Pearson相關係數的數據亦可計算Spearman相關係數,但統計效能要低一些。Pearson相關係數的計算公式可以完全套用 Spearman相關係數計算公式,但公式中的x和y用相應的秩次代替即可。

Kendall's tau-b等級相關係數:用於反映分類變量相關性的指標,適用於兩個分類變量均為有序分類的情況。對相關的有序變量進行非參數相關檢驗;取值範圍在-1-1之間,此檢驗適合於正方形表格;肯德爾(Kendall)W係數又稱和諧係數,是表示多列等級變量相關程度的一種方法。適用這種方法的數據資料一般是採用等級評定的方法收集的,即讓K個評委(被試)評定N件事物,或1個評委(被試)先後K次評定N件事物。等級評定法每個評價者對N件事物排出一個等級順序,最小的等級序數為1 ,最大的為N,若並列等級時,則平分共同應該佔據的等級,如,平時所說的兩個並列第一名,他們應該佔據1,2名,所以它們的等級應是1.5,又如一個第一名,兩個並列第二名,三個並列第三名,則它們對應的等級應該是1,2.5,2.5,5,5,5,這裡2.5是2,3的平均,5是4,5,6的平均。

肯德爾(Kendall)U係數又稱一致性係數,是表示多列等級變量相關程度的一種方法。該方法同樣適用於讓K個評委(被試)評定N件事物,或1個評委(被試)先後K次評定N件事物所得的數據資料,只不過評定時採用對偶評定的方法,即每一次評定都要將N個事物兩兩比較,評定結果如下表所示,表格中空白位(陰影部分可以不管)填入的數據為:若i比j好記1,若i比j差記0,兩者相同則記0.5。一共將得到K張這樣的表格,將這K張表格重疊起來,對應位置的數據累加起來作為最後進行計算的數據,這些數據記為γij。

我們用python 下的pandas 包來進行計算:

pandas相關係數-DataFrame.corr()參數詳解

DataFrame.corr(method='pearson', min_periods=1)

參數說明:

method:可選值為{『pearson』, 『kendall』, 『spearman』}

pearson:Pearson相關係數來衡量兩個數據集合是否在一條線上面,即針對線性數據的相關係數計算,針對非線性數據便會有誤差。

kendall:用於反映分類變量相關性的指標,即針對無序序列的相關係數,非正太分布的數據

spearman:非線性的,非正太分析的數據的相關係數

min_periods:樣本最少的數據量

返回值:各類型之間的相關係數DataFrame表格。

簡要示例代碼如下:

這個在股票市場中計算,各個股票間的相關係數比較有用。

相關焦點

  • Pearson、Spearman、Kendall、Polychoric、Polyserial相關係數簡介及R計算
    ')cov_pearson cov_spearman <- cov(mtcars, method = 'spearman')cov_spearman cov_kendall <- cov(mtcars, method = 'kendall')cov_kendall #相關係數計算,cor()cor_pearson
  • 五大相關係數簡介及R計算:Pearson、Spearman、Kendall、Polychoric、Polyserial
    ')cov_pearson cov_spearman <- cov(mtcars, method = 'spearman')cov_spearman cov_kendall <- cov(mtcars, method = 'kendall')cov_kendall #相關係數計算,cor()cor_pearson
  • R語言 | Pearson、Spearman、Kendall、Polychoric、Polyserial相關係數簡介及R計算
    ')cov_pearson cov_spearman <- cov(mtcars, method = 'spearman')cov_spearman cov_kendall <- cov(mtcars, method = 'kendall')cov_kendall #相關係數計算,cor()cor_pearson
  • 如何選用Pearson、Spearman、Kendall三大相關係數
    說到相關分析,很多人會馬上拿出皮爾遜Pearson相關係數,從不論數據是不是符合適用條件,甚至完全不了解Pearson相關係數還有假設條件這回事。常見的相關係數有三種,它們分別是Pearson、Spearman、Kendall係數,世人兼知pearson係數,冷淡了另外兩個。
  • 相關係數簡介及R計算
    ')cov_pearson cov_spearman <- cov(mtcars, method = 'spearman')cov_spearman cov_kendall <- cov(mtcars, method = 'kendall')cov_kendall #相關係數計算,cor()cor_pearson
  • Pearson(皮爾遜)相關係數
    相關係數:考察兩個事物(在數據裡我們稱之為變量)之間的相關程度。如果有兩個變量:X、Y,最終計算出的相關係數的含義可以有如下理解:(1)、當相關係數為0時,X和Y兩變量無關係。(2)、當X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關係數在0.00與1.00之間。
  • SPSS統計分析案例:相關分析之kendall係數
    相關分析中最為常用的是pearson相關係數,嚴格來說它有自己的適用性,數據最好是正態分布且為連續型的數值,比如一個班級男生的身高數據和體重數據。在現實中,並不是所有的分析數據都能滿足這樣的條件,對於一些分類型的數據,或者明顯不是正態分布的數據,pearson相關係數是不合適的。此時有另外兩個係數可用,它們分別是spearman和kendall相關係數。
  • 三大相關係數簡介及其在R中的相關函數
    概率統計學習中最常見的是Pearson相關係數,其取值範圍是[-1,1],當取值為0時表示不(線性)相關,取值為[-1,0)表示負相關,取值為(0,1]表示正相關。相關係數絕對值越接近於1,兩個變量間(線性)相關性越強。
  • 相關係數、偏相關係數、復相關係數計算
  • R_相關分析_Correlation
    Pearson相關係數被廣泛使用,除此之外還有Spearman秩相關係數和Kendall秩相關係數。Pearson相關係數計算公式如下:其中為均值。在這裡主要介紹Pearson相關係數在R語言中的實現。
  • Eviews、Stata、Python、Matlab、R相關分析教程匯總
    ,是研究變量之間相關關係的一種重要方法;相關分析方法,不僅可以對變量之間的相關性進行研究,正相關負相關進行說明,還可以對變量之間的相關程度進行說明;相關分析能夠說明變量之間相互依存關係,若是變量之間相關係數值很大,那就說明變量之間存在很強的相關性。相
  • SPSS分析技術:Pearson相關、Spearman相關及Kendall相關
    Spearman等級相關和Kendall一致性相關的使用範圍更廣,但精確度較差。Pearson相關皮爾遜相關是利用相關係數來判定數據之間的線性相關性,相關係數r的公式如下:對於相關係數r,有以下判定慣例:當r的絕對值大於0.6,表示高度相關;在0.4到0.6之間,表示相關;小於0.4,表示不相關。r大於0,表示正相關;r小於0,表示負相關。雖然相關係數能夠判別數據的相關性,但是還是要結合檢驗概率和實際情況進行判定,當檢驗概率小於0.05時,表示兩列數據之間存在相關性。
  • [空間分析]玖·地理統計 相關分析
    皮爾森相關分析通過計算兩個變量之間的相關係數,分析變量間線性相關的程度,在多元相關分析中,由於受到其他變量的影響,皮爾森相關係數只能從表面上反映兩個變量相關的性質,往往不能真實地反映變量之間的線性相關程度,甚至會給人造成相關的假象,因此,在某些場合,簡單的皮爾森相關係數並不是刻畫相關關係的本質統計量。
  • 三大相關係數法
    在這三大相關係數中,spearman和kendall屬於等級相關係數亦稱為「秩相關係數」,是反映等級相關程度的統計分析指標。最終選擇哪種相關係數法,對比結果誰更符合預期效果。Pearson相關係數:按照大學的線性數學水平來理解, 它比較複雜一點,可以看做是兩組數據的向量夾角的餘弦。
  • SPSS——相關分析
    反映當知道自變量後因變量 的不確定性下降多少比例1、交叉表:統計量的子對話框(1)相關性(R)複選框:適用於兩個連續性變量的分析,計算行列變量的Pearson相關係數和Spearman相關係數。(5)「Kappa」:計算內部一致性係數。(6)「風險」:計算OR值(比數比)和RR值(相對危險度)2、"相關」子菜單:(針對連續性變量的相關分析常用)(1)雙變量(bivariate)過程:進行「兩個/多個變量間的參數/非參數相關分析」。